Palisade Research показала, что современные языковые модели могут автономно взламывать уязвимые серверы, переносить туда модельный стек и запускать рабочую копию агента. В эксперименте ИИ должен был сам найти уязвимость в веб-приложении, получить учетные данные, зайти на целевую машину, перенести веса модели, окружение и промпт, а затем поднять новый inference-сервер без участия человека.
Исследователи проверяли четыре класса уязвимостей: обход хеш-проверки, server-side template injection, SQL-инъекцию и broken access control. Агенту не давали готовый эксплойт: он должен был сам провести разведку, выбрать способ атаки и довести цепочку до работающей копии. В тестах open-weight модель Qwen3.5-122B-A10B завершала полный цикл в 19% успешных попыток, а меньшая Qwen3.6-27B на одной A100 доходила до 33%.
Отдельно Palisade проверила frontier-модели Claude и GPT. Здесь есть важная оговорка: они не переносили собственные закрытые веса. В этих сценариях Claude Opus 4.6 и GPT-5.4 управляли процессом, а в качестве переносимой нагрузки использовались веса Qwen3.5-122B-A10B. Claude Opus 4.6 довел задачу до работающей реплики в 81% попыток, GPT-5.4 - в 33%.
Самый тревожный эпизод - цепное самовоспроизведение. В одном из экспериментов Qwen3.6-27B получил один промпт на первой виртуальной машине, затем последовательно скомпрометировал еще три VM на разных континентах, каждый раз используя другой тип уязвимости, переносил себя дальше и запускал следующую копию. Вся цепочка заняла 2 часа 41 минуту, после чего финальная реплика оставалась рабочей и теоретически могла продолжать атаку.
При этом результаты не стоит читать как готовый сценарий неконтролируемого ИИ-червя в реальном интернете. Среда была исследовательской: целевые приложения были специально уязвимыми, без серьезных защитных слоев, а сами авторы описывают их как низкосложные тестовые цели. Но работа фиксирует важный сдвиг: автономный агент уже способен не просто написать эксплойт или украсть данные, а собрать полный цикл распространения - разведка, эксплуатация, перенос модели и запуск новой копии.