Одна строка кода — и цифровой коллапс: Google объяснила глобальный сбой

Инцидент, произошедший 13 июня, парализовал крупные интернет-сервисы — от Cloudflare и Spotify до Twitch и Discord. Как выяснилось, причиной глобального сбоя стал не внешний взлом, а ошибка в коде, внедрённая в систему управления квотами Google Cloud.

Сбой был вызван изменением в компоненте Service Control — модуле, отслеживающем соблюдение квот и политик API. Обновление внедряли поэтапно, и на ранних этапах проблема себя не проявляла. Однако в реальных условиях одна из политик получила «пустые» параметры, которые активировали не протестированный участок кода. Результатом стал сбой из-за null pointer-ошибки и бесконечные перезапуски сервиса.

Ошибка одновременно сработала во всех регионах, так как политика распространялась глобально. Дополнительной проблемой оказалось отсутствие feature flag — механизма, позволяющего временно отключить новую функциональность при сбоях. Код также не предусматривал обработку ошибок, что исключило автоматическое восстановление.

Инженеры Google отреагировали оперативно: инцидент зафиксировали спустя 2 минуты, через 10 минут выяснили причину, а через 40 начали развертывание исправлений. Однако перезапуск в крупнейших регионах вызвал эффект "стада" — лавинообразное количество запросов перегрузило вспомогательные компоненты. Из-за этого восстановление в ряде регионов растянулось до трёх часов.

На фоне сбоев начали массово отключаться ключевые продукты: Gmail, Meet, Drive, Calendar, Voice. Пострадали и сторонние сервисы, такие как Cloudflare Workers KV, использующие Google Cloud.

Google признала: архитектура облачной инфраструктуры остается уязвимой перед сбоями на фундаментальном уровне. Компания пообещала внедрить новые меры — изолировать систему мониторинга и уведомлений от основной инфраструктуры и пересмотреть подходы к тестированию критического кода.