
Крупнейший сбой в работе Google Cloud, произошедший в конце марта, оказался вызван цепочкой технических накладок, достойной учебника по антикризисному управлению. В одном из дата-центров Google в Огайо отключилось внешнее электропитание, а следом подвели и источники бесперебойного питания (ИБП). Те не просто не спасли ситуацию, а наоборот — помешали подключить резервные генераторы. Инженерам пришлось срочно обходить систему, чтобы вручную запитать оборудование напрямую.
В результате этой цепной реакции обесточенными остались десятки облачных сервисов — от Google Compute Engine до Kubernetes и BigQuery. Регион us-east5-c на несколько часов буквально погрузился в цифровую темноту, хотя соседние зоны доступности (a и b) сбоя не ощутили. Пользователи жаловались на недоступность ресурсов, а компании — на потери данных и срыв операций.
Google признала, что часть восстановительных работ заняла больше времени из-за необходимости ручных действий. В отчёте компания принесла извинения клиентам и пообещала разобраться с поставщиком ИБП, чье оборудование, по сути, сорвало сработавший план аварийного питания. Названия производителя Google, впрочем, не называет.
Сбои у крупных облачных провайдеров — не редкость. За последние годы пострадали и AWS, и Azure, и сам Google — от человеческих ошибок до взрывов в дата-центрах. В условиях растущей зависимости бизнеса от облака, такие происшествия — тревожный сигнал: чем выше «облако», тем больнее падать, если подведёт железо.
Нажимая на кнопку, я даю Согласие на обработку персональных данных в соответствии с Политикой обработки.