У Google отказали ИБП: в сбое Google Cloud оказался виноват поставщик оборудования

Крупнейший сбой в работе Google Cloud, произошедший в конце марта, оказался вызван цепочкой технических накладок, достойной учебника по антикризисному управлению. В одном из дата-центров Google в Огайо отключилось внешнее электропитание, а следом подвели и источники бесперебойного питания (ИБП). Те не просто не спасли ситуацию, а наоборот — помешали подключить резервные генераторы. Инженерам пришлось срочно обходить систему, чтобы вручную запитать оборудование напрямую.

В результате этой цепной реакции обесточенными остались десятки облачных сервисов — от Google Compute Engine до Kubernetes и BigQuery. Регион us-east5-c на несколько часов буквально погрузился в цифровую темноту, хотя соседние зоны доступности (a и b) сбоя не ощутили. Пользователи жаловались на недоступность ресурсов, а компании — на потери данных и срыв операций.

Google признала, что часть восстановительных работ заняла больше времени из-за необходимости ручных действий. В отчёте компания принесла извинения клиентам и пообещала разобраться с поставщиком ИБП, чье оборудование, по сути, сорвало сработавший план аварийного питания. Названия производителя Google, впрочем, не называет.

Сбои у крупных облачных провайдеров — не редкость. За последние годы пострадали и AWS, и Azure, и сам Google — от человеческих ошибок до взрывов в дата-центрах. В условиях растущей зависимости бизнеса от облака, такие происшествия — тревожный сигнал: чем выше «облако», тем больнее падать, если подведёт железо.