Cloudflare опубликовала техническое разъяснение причин массового сбоя, который 18 ноября вызвал ошибки 500 на тысячах сайтов по всему миру. Компания подтвердила: инцидент произошёл из-за ошибочной конфигурации в одном из ключевых внутренних сервисов, отвечающих за обработку HTTP-запросов и работу challenge-механизмов.
По данным Cloudflare, проблемное обновление вызвало сбой в службе, которая определяет, как трафик должен проходить проверку и к какому узлу отправляться дальше. Из-за этого часть глобальной сети начала возвращать пользователям ошибку 500 вместо корректной обработки запросов. От сбоя пострадали как клиенты, так и сама административная панель Cloudflare.
Проблемы начались около 12:03 UTC. В этот момент резко выросла доля отказов сайтов, а распределённая инфраструктура стала возвращать ошибочные ответы независимо от региона. Восстановление стартовало спустя примерно полчаса, однако остаточные задержки и проблемы с challenge-страницами наблюдались у части клиентов ещё некоторое время.
Инженеры компании отметили, что инцидент не был связан ни с атакой, ни с внешним воздействием. Ошибка возникла в ходе планового изменения конфигураций, предназначенных для оптимизации производительности. В Cloudflare подчёркивают, что сбой стал возможен из-за сочетания нескольких факторов: внутренние проверки не зафиксировали потенциальный конфликт, а часть трафика начала маршрутизироваться через некорректный процессинг.
Компания заявила, что уже внесла изменения в процедуры развёртывания обновлений, усилила механизм тестирования конфигураций и ввела дополнительные защитные ограничения, чтобы схожие инциденты не повторялись.
В Cloudflare отметили, что намерены опубликовать расширенный разбор, включающий схемы потоков трафика и выводы по улучшению устойчивости сети.