Исследователи из Trail of Bits представили необычную технику атаки, которая позволяет скрывать вредоносные подсказки внутри изображений. На первый взгляд это обычные картинки, но при их автоматическом уменьшении алгоритмами ресэмплинга появляются скрытые надписи, которые распознаёт искусственный интеллект. В результате ИИ выполняет не только явные инструкции пользователя, но и спрятанные команды злоумышленников.
Методика основана на так называемых атаках «image-scaling», впервые описанных ещё в 2020 году в TU Braunschweig. При применении популярных алгоритмов уменьшения качества — bilinear, bicubic или nearest neighbor — специально подготовленные пиксели превращаются в заметные символы. Для человека картинка остаётся обычной, но для ИИ скрытый текст становится частью запроса.
В демонстрации Trail of Bits скрытая команда заставила Gemini CLI выгрузить данные календаря Google и отправить их на внешний адрес. Подобные атаки оказались возможны и против Vertex AI Studio, веб-версии Gemini, Google Assistant и других сервисов. Чтобы упростить тестирование, исследователи создали и опубликовали в открытом доступе инструмент Anamorpher, который автоматически генерирует такие «замаскированные» изображения.
Эксперты отмечают, что новая техника выводит фишинг и prompt injection на новый уровень: теперь обмануть можно не только пользователей, но и сами защитные системы на базе ИИ. В качестве защиты предлагается ограничивать размеры загружаемых изображений, показывать пользователям предпросмотр финальной версии и требовать явного подтверждения при вызове чувствительных функций. Но главное, подчёркивают исследователи, — внедрять устойчивые архитектурные паттерны, которые делают ИИ невосприимчивым к внедрённым подсказкам.