Исследователи продемонстрировали, что языковую модель Claude можно использовать для генерации вредоносного кода, если корректно сформулировать запросы и обойти встроенные ограничения.
Эксперимент показал, что при определенной последовательности запросов модель способна выдавать фрагменты кода, которые могут быть использованы в вредоносных сценариях. Речь идет не о прямой выдаче готового вируса, а о пошаговом получении компонентов, которые затем объединяются в рабочий инструмент.
В публикации отмечается, что современные ИИ-модели содержат механизмы фильтрации и блокировки опасных запросов, однако при грамотной формулировке и дроблении задачи на этапы ограничения можно частично обойти. Это поднимает вопрос о границах ответственности разработчиков ИИ и эффективности встроенных защитных механизмов.
Эксперты подчеркивают, что ИИ в данном случае выступает ускорителем процесса, но не заменяет техническую экспертизу злоумышленника. Тем не менее доступность подобных инструментов снижает порог входа в разработку вредоносного ПО и усиливает дискуссию о регулировании и контроле генеративных моделей.