Исследователи нашли необычный способ «взломать» защиту ИИ-моделей с помощью поэзии

Исследователи нашли необычный способ «взломать» защиту ИИ-моделей с помощью поэзии

Специалисты из итальянского Icaro Lab и нескольких университетов показали, что простая поэтическая формулировка запросов может обойти механизмы безопасности современных больших языковых моделей (LLM). В исследовании утверждается, что такой метод работает даже в один шаг, без сложной настройки или многократного взаимодействия с моделью.

Авторы проанализировали 25 ведущих моделей, включая как проприетарные, так и открытые варианты, и показали, что преобразование опасных или вредоносных запросов в форму стихотворения существенно повышает шанс того, что модель выполнит их, несмотря на встроенные ограничения. В среднем поэтическая версия запросов приводила к выполнению нежелательных команд в около 62% случаев, тогда как традиционные подходы с обычным текстом демонстрировали значительно более низкие показатели эффективности.

Кроме того, исследование показало, что такой «поэтический jailbreak» работает во многих разных доменах - от запросов, связанных с кибербезопасностью, до потенциально опасных сценариев управления и манипуляций, и не зависит от конкретного механизма выравнивания модели.

В рамках эксперимента учёные также преобразовали более 1 200 стандартных опасных запросов в стихотворную форму, что увеличило их способность обойти защиту моделей до 18 раз по сравнению с исходным нейтральным текстом.

Результаты исследования подчёркивают, что современные системы безопасности ИИ могут быть уязвимы к простым стилистическим модификациям, а не только к сложным техникам обхода. Это открытие вызывает вопросы о фундаментальных ограничениях существующих методов выравнивания и тестирования безопасности моделей на случай неожиданных способов выражения опасного намерения.

РЕКОМЕНДУЕМ

похожие материалы

Стрелочка
Стрелочка
Хакеры начали распространять фейковые VPN через поисковики: новая кампания крадет логины и пароли пользователей
Хакеры начали распространять фейковые VPN через поисковики: новая кампания крадет логины и пароли пользователей

Эксперты по кибербезопасности из Microsoft сообщили о новой вредоносной кампании, в рамках которой злоумышленники распространяют поддельные VPN-клиенты через поисковую выдачу.

Экстренный патч Chrome закрыл две 0-day уязвимости: обход песочницы и крах Skia уже используют в атаках
Экстренный патч Chrome закрыл две 0-day уязвимости: обход песочницы и крах Skia уже используют в атаках

Google выпустила внеплановое обновление стабильной ветки Chrome, закрывающее две критические уязвимости, которые, по данным компании, уже эксплуатируются в реальных кибератаках.

Анализ рынка информационной безопасности в России: темпы прироста новых игроков снижаются, число ликвидированных компаний растет
Анализ рынка информационной безопасности в России: темпы прироста новых игроков снижаются, число ликвидированных компаний растет

Аналитики «Контур Фокуса» и «Контур Эгиды» представили исследование российского рынка информационной безопасности, охватывающее период с 1 марта 2024 по 1 марта 2026 года.