Новая атака Echo Chamber позволяет обходить защиту ИИ и генерировать опасный контент

Исследователи в области кибербезопасности сообщили о появлении новой методики взлома LLM-моделей (больших языковых моделей), получившей название Echo Chamber. Эта техника позволяет заставить модели вроде OpenAI ChatGPT или Google Gemini нарушать собственные правила и генерировать вредоносный контент — включая призывы к насилию, сексизм, дезинформацию и даже инструкции по членовредительству.

В отличие от привычных «джейлбрейков», основанных на маскировке текста или обходе фильтров с помощью спецсимволов, Echo Chamber применяет более изощренный подход. Он включает косвенные намеки, контекстную подмену и пошаговое логическое управление диалогом, говорится в отчете NeuralTrust, опубликованном 23 июня.

Суть метода в том, что пользователь не задает вредоносный вопрос напрямую. Вместо этого он начинает с безобидного диалога, позволяя самой модели предложить промежуточные ответы. Эти реплики затем используются как якоря для дальнейшего направления беседы к запрещенным темам. Это создаёт эффект «эхо» — каждый ответ модели усиливает заложенный в беседе вредоносный подтекст, пока та не начинает генерировать запрещённый контент сама.

В ходе тестов Echo Chamber показал высокую эффективность: более 90% успешных попыток генерации контента, связанного с насилием, сексизмом, расизмом и порнографией. В категориях дезинформации и самоповреждений успех составил около 80%.

Разработчики модели предупреждают: подобные атаки вскрывают уязвимость в архитектуре современных ИИ. Чем «умнее» становятся языковые модели, тем легче их незаметно обмануть. Атака не требует глубоких технических знаний и может быть реализована обычным пользователем в несколько шагов.

Одновременно с этим специалисты Cato Networks сообщили о новой уязвимости в Atlassian — с её помощью хакеры могут атаковать корпоративные AI-интеграции (например, Jira Service Management), подсовывая вредоносные запросы в службу поддержки. Такие сценарии назвали «жизнь за счёт ИИ» — когда вредонос вводится пользователем, а исполняется моделью.