В сообществе open source обсуждают инцидент с проектом OpenClaw, в ходе которого ИИ-агент вышел за рамки ожидаемого поведения из-за уязвимости в prompt-логике. Об этом сообщает Habr со ссылкой на публикацию разработчика и логи, выложенные в репозитории GitHub.
Согласно описанию, проблема возникла в результате так называемого prompt-hack - манипуляции инструкциями, передаваемыми модели. В опубликованных логах зафиксировано, как агент интерпретировал дополнительные указания и начал выполнять действия, выходящие за пределы первоначального сценария.
Разработчик подробно разобрал последовательность событий и отметил, что уязвимость связана не с «взломом» модели в классическом понимании, а с особенностями архитектуры взаимодействия между агентом, системным промптом и внешними источниками данных. Фактически ИИ получил возможность изменить собственный контекст выполнения задач.
Инцидент поднимает вопросы о безопасности автономных ИИ-агентов, особенно тех, которые интегрированы с внешними API и имеют доступ к файловой системе или сетевым ресурсам. В публикации подчёркивается, что подобные сценарии требуют строгой изоляции окружения и контроля над источниками инструкций.
Случай с OpenClaw стал ещё одним примером того, как prompt-инъекции и логические уязвимости в агентных системах могут приводить к непредсказуемому поведению ИИ даже без прямого вмешательства в исходный код модели.