
Инцидент, произошедший 13 июня, парализовал крупные интернет-сервисы — от Cloudflare и Spotify до Twitch и Discord. Как выяснилось, причиной глобального сбоя стал не внешний взлом, а ошибка в коде, внедрённая в систему управления квотами Google Cloud.
Сбой был вызван изменением в компоненте Service Control — модуле, отслеживающем соблюдение квот и политик API. Обновление внедряли поэтапно, и на ранних этапах проблема себя не проявляла. Однако в реальных условиях одна из политик получила «пустые» параметры, которые активировали не протестированный участок кода. Результатом стал сбой из-за null pointer-ошибки и бесконечные перезапуски сервиса.
Ошибка одновременно сработала во всех регионах, так как политика распространялась глобально. Дополнительной проблемой оказалось отсутствие feature flag — механизма, позволяющего временно отключить новую функциональность при сбоях. Код также не предусматривал обработку ошибок, что исключило автоматическое восстановление.
Инженеры Google отреагировали оперативно: инцидент зафиксировали спустя 2 минуты, через 10 минут выяснили причину, а через 40 начали развертывание исправлений. Однако перезапуск в крупнейших регионах вызвал эффект "стада" — лавинообразное количество запросов перегрузило вспомогательные компоненты. Из-за этого восстановление в ряде регионов растянулось до трёх часов.
На фоне сбоев начали массово отключаться ключевые продукты: Gmail, Meet, Drive, Calendar, Voice. Пострадали и сторонние сервисы, такие как Cloudflare Workers KV, использующие Google Cloud.
Google признала: архитектура облачной инфраструктуры остается уязвимой перед сбоями на фундаментальном уровне. Компания пообещала внедрить новые меры — изолировать систему мониторинга и уведомлений от основной инфраструктуры и пересмотреть подходы к тестированию критического кода.
Нажимая на кнопку, я даю Согласие на обработку персональных данных в соответствии с Политикой обработки.