Новая атака Echo Chamber позволяет обходить защиту ИИ и генерировать опасный контент

Новая атака Echo Chamber позволяет обходить защиту ИИ и генерировать опасный контент

Исследователи в области кибербезопасности сообщили о появлении новой методики взлома LLM-моделей (больших языковых моделей), получившей название Echo Chamber. Эта техника позволяет заставить модели вроде OpenAI ChatGPT или Google Gemini нарушать собственные правила и генерировать вредоносный контент — включая призывы к насилию, сексизм, дезинформацию и даже инструкции по членовредительству.

В отличие от привычных «джейлбрейков», основанных на маскировке текста или обходе фильтров с помощью спецсимволов, Echo Chamber применяет более изощренный подход. Он включает косвенные намеки, контекстную подмену и пошаговое логическое управление диалогом, говорится в отчете NeuralTrust, опубликованном 23 июня.

Суть метода в том, что пользователь не задает вредоносный вопрос напрямую. Вместо этого он начинает с безобидного диалога, позволяя самой модели предложить промежуточные ответы. Эти реплики затем используются как якоря для дальнейшего направления беседы к запрещенным темам. Это создаёт эффект «эхо» — каждый ответ модели усиливает заложенный в беседе вредоносный подтекст, пока та не начинает генерировать запрещённый контент сама.

В ходе тестов Echo Chamber показал высокую эффективность: более 90% успешных попыток генерации контента, связанного с насилием, сексизмом, расизмом и порнографией. В категориях дезинформации и самоповреждений успех составил около 80%.

Разработчики модели предупреждают: подобные атаки вскрывают уязвимость в архитектуре современных ИИ. Чем «умнее» становятся языковые модели, тем легче их незаметно обмануть. Атака не требует глубоких технических знаний и может быть реализована обычным пользователем в несколько шагов.

Одновременно с этим специалисты Cato Networks сообщили о новой уязвимости в Atlassian — с её помощью хакеры могут атаковать корпоративные AI-интеграции (например, Jira Service Management), подсовывая вредоносные запросы в службу поддержки. Такие сценарии назвали «жизнь за счёт ИИ» — когда вредонос вводится пользователем, а исполняется моделью.

похожие материалы

Стрелочка
Стрелочка
Новый сложный Linux-вредонос VoidLink нацелен на облачные среды и контейнеры
Новый сложный Linux-вредонос VoidLink нацелен на облачные среды и контейнеры

Исследователи по кибербезопасности из Check Point Research обнаружили ранее неизвестный и высокотехнологичный вредоносный фреймворк для Linux под названием VoidLink, ориентированный на облачные и контейнерные среды.

Хакеры взломали Европейское космическое агентство и выставили на продажу сотни гигабайт данных
Хакеры взломали Европейское космическое агентство и выставили на продажу сотни гигабайт данных

Европейское космическое агентство сообщило о крупном инциденте, в ходе которого злоумышленники получили доступ к части его внешних серверов и похитили большие массивы данных.

Мошенники устроили «распродажу» невостребованных новогодних подарков в мессенджерах
Мошенники устроили «распродажу» невостребованных новогодних подарков в мессенджерах

Киберполиция Санкт-Петербурга предупредила о новой волне мошенничества, в рамках которой злоумышленники предлагают пользователям купить электронику и бытовую технику по бросовым ценам под предлогом распродажи «зависших» новогодних подарков.

Уязвимость WhisperPair ставит под угрозу миллионы Bluetooth-устройств по всему миру
Уязвимость WhisperPair ставит под угрозу миллионы Bluetooth-устройств по всему миру

Исследователи из группы Computer Security and Industrial Cryptography при Католическом университете Лёвена выявили критическую уязвимость в протоколе Google Fast Pair, получившую обозначение CVE-2025-36911 и прозванную WhisperPair.

Microsoft и правоохранители вывели из строя крупный сервис киберпреступников RedVDS
Microsoft и правоохранители вывели из строя крупный сервис киберпреступников RedVDS

Microsoft объявила о совместной с международными правоохранительными органами операции по нейтрализации глобального сервиса RedVDS, который предоставлял киберпреступникам доступ к виртуальным рабочим столам за подписку и использовался для реализации масштабных мошеннических схем.