Специалисты из итальянского Icaro Lab и нескольких университетов показали, что простая поэтическая формулировка запросов может обойти механизмы безопасности современных больших языковых моделей (LLM). В исследовании утверждается, что такой метод работает даже в один шаг, без сложной настройки или многократного взаимодействия с моделью.
Авторы проанализировали 25 ведущих моделей, включая как проприетарные, так и открытые варианты, и показали, что преобразование опасных или вредоносных запросов в форму стихотворения существенно повышает шанс того, что модель выполнит их, несмотря на встроенные ограничения. В среднем поэтическая версия запросов приводила к выполнению нежелательных команд в около 62% случаев, тогда как традиционные подходы с обычным текстом демонстрировали значительно более низкие показатели эффективности.
Кроме того, исследование показало, что такой «поэтический jailbreak» работает во многих разных доменах - от запросов, связанных с кибербезопасностью, до потенциально опасных сценариев управления и манипуляций, и не зависит от конкретного механизма выравнивания модели.
В рамках эксперимента учёные также преобразовали более 1 200 стандартных опасных запросов в стихотворную форму, что увеличило их способность обойти защиту моделей до 18 раз по сравнению с исходным нейтральным текстом.
Результаты исследования подчёркивают, что современные системы безопасности ИИ могут быть уязвимы к простым стилистическим модификациям, а не только к сложным техникам обхода. Это открытие вызывает вопросы о фундаментальных ограничениях существующих методов выравнивания и тестирования безопасности моделей на случай неожиданных способов выражения опасного намерения.