Кейсы 21 февраля 2022

Временно недоступны: почему даже крупные сайты все чаще перестают работать

Далее

В мире нет статистики об общем количестве сбоев у провайдеров, но и без них понятно, что 2021 год войдет в историю частыми и масштабными отказами в обслуживании. В июне из-за технических проблем у CDN-провайдера Fastly легла половина интернета — Amazon, Ebay, The Guardian, BBC, Bloomberg. Тогда же случился самый масштабный сбой в работе Facebook, Instagram и WhatsApp — соцсети не работали рекордные шесть часов. Почему такие инциденты возникают все чаще и что предпринять пользователям, рассказывает Ренат Сайфутдинов, руководитель группы сопровождения клиентов КРОК Облачные сервисы.

Год сбоев

Сбои в работе провайдеров — не рядовые явления, они случаются довольно часто. В большинстве случаев недоступность сервисов бывает кратковременной. Однако, если речь идет про общественно важные ресурсы, например, такие, через которые осуществляется предоставление государственных услуг, или социальные сети с миллионами пользователей, даже пяти-десяти-минутный простой вызывает волну негатива.

При этом между провайдерами и поставщиками онлайн-услуг нарастает конкуренция: каждый пытается выпустить на рынок услуги быстрее других. Например, как только Facebook заявила о создании метавселенной, по ее следам пошли в Microsoft. В погоне за скоростью компании ослабляют контроль над инфраструктурой — точнее, над работой специалистов, поддерживающих и развивающих ее. Ведь в большинстве случаев основной причиной сбоя является человеческий фактор. В результате из-за жесткого соперничества провайдеров количество неполадок в инфраструктуре становится все больше, и вряд ли эта тенденция изменится в скором будущем.

Технологические причины сбоев

Центры обработки данных провайдеров, как правило, строятся по строгим требованиям к инженерной инфраструктуре. Поэтому проблемы на «физическом» уровне, такие как пожары, случаются очень редко. Тем заметнее они становятся для аудитории. Из-за возгорания дата-центра OVH в Страсбурге в марте 2021 прекратили работать миллионы сайтов по всему миру. А пожар на крыше российского провайдера в 2019 году устранили оперативно, но он хорошо запомнился их клиентам.

Перебои в подаче электроэнергии часто происходят по не зависящим от провайдера причинам. Например, в 2017 году по причине отказа оборудования на высоковольтной подстанции в Амстердаме около пяти часов весь город был полностью обесточен. Такое не очень длительное по времени отключение в целом не повлияет на работу ЦОД — при наличии резервного источника питания и оперативного переключения. Но при более длительном блэкауте может стать настоящей проблемой.

Неполадки на сетевом уровне случаются значительно чаще, чем на уровне инженерных систем. Тот самый сбой у Facebook произошел из-за изменения конфигураций маршрутизаторов. Они перенаправляют трафик от одного дата-центра компании к другому. Ситуация сложная, но не безнадежная — переконфигурировать сеть можно оперативно. Но инцидент у провайдера затронул и физический доступ в ЦОД. Из-за этого даже возникли конспирологические теории о злоумышленниках, которые планируют подорвать доверие к крупнейшей социальной сети.

Наконец, самой распространенной причиной сбоя являются проблемы с ПО у провайдера. Компании обновляют приложения, но при этом не всегда тщательно тестируют финальные версии на ошибки. Из-за этого, в частности, перестала работать CDN-инфраструктура Fastly. Катализатором сбоя стали изменения в настройках у одного частного пользователя — он применил их и запустил активацию ошибки по всему сервису.

Что делать со сбоями пользователям

В B2C-сегменте пользователям остается лишь запастись терпением и ждать, когда сервис снова начнет работать. В большинстве случаев провайдеры не несут ответственности перед посетителями сайтов за перерывы в обслуживании. Они заинтересованы в постоянной доступности сервисов, но не обязаны восполнять моральный или другой ущерб. Поэтому пользователям нужно диверсифицировать риски: делать бэкапы на локальные компьютеры при работе с Google Docs, использовать вместо одного канала коммуникации несколько. Последней рекомендации последовали многие: аудитория Telegram на фоне осеннего сбоя WhatsApp увеличилась на 70 млн.

В корпоративном сегменте взаимоотношения между провайдером и клиентом регулируются значительно строже. Здесь предусмотрены штрафы в зависимости от длительности простоя. Но чтобы не было мучительно больно в случае аварий, резервирование на уровне облачных провайдеров или собственных ЦОД никто не отменяет.


Читать далее

Астрономы нашли новый объект Солнечной системы за орбитой Нептуна

НАСА предлагает посмотреть фото, которое «Хаббл» снял в ваш день рождения

Омикрон и дети: как болеют новым штаммом самые маленькие и на что обратить внимание