Исследователи безопасности обнаружили новую технику атаки на ИИ-агентов, позволяющую похищать данные с помощью так называемой косвенной prompt-инъекции. Метод получил название OpenClaw и использует уязвимости в логике работы систем на базе генеративного ИИ.
Суть атаки заключается в том, что злоумышленник размещает вредоносный текст в источнике, который анализирует ИИ-агент - например, на веб-странице, в документе или базе знаний. Когда агент обрабатывает такой контент, скрытая инструкция внедряется в его рабочий контекст и заставляет систему выполнять несанкционированные действия.
По данным исследователей, таким образом можно заставить ИИ-агента передать конфиденциальные данные, включая токены доступа, внутренние документы или содержимое переписки. Проблема особенно актуальна для систем, которые автоматически взаимодействуют с внешними источниками и имеют доступ к внутренним сервисам.
Атака относится к категории indirect prompt injection - когда вредоносная инструкция поступает не напрямую от пользователя, а из анализируемого системой контента. Это делает угрозу более сложной для обнаружения, поскольку она может выглядеть как обычные данные.
Эксперты предупреждают, что риск особенно высок для корпоративных ИИ-агентов, интегрированных с внутренними инструментами - почтой, CRM-системами, корпоративными документами и API сервисов.
Для защиты исследователи рекомендуют ограничивать доступ ИИ-агентов к чувствительным данным, внедрять фильтрацию внешнего контента и разделять уровни доступа между системой анализа и внутренними сервисами.