Эксперты раскрыли универсальный способ обхода защиты ChatGPT и других нейросетей

Исследователи в сфере кибербезопасности зафиксировали два метода, которые позволяют обмануть практически любую генеративную нейросеть. Новые техники успешно нарушают правила защиты в популярных ИИ, включая ChatGPT, Gemini, Claude и другие. Уязвимости стали предметом доклада CERT под номером VU#667211 и уже вызвали тревогу в индустрии.

Один из приёмов получил кодовое имя «Inception» — он использует принцип «вложенной реальности», когда ИИ просят вообразить гипотетическую ситуацию. На этом фоне злоумышленник внедряет запретные запросы, замаскированные под воображаемую роль. Второй метод основывается на постепенном размывании границ: пользователя просят описать, как нельзя отвечать, а затем последовательно чередуют безобидные и опасные вопросы. Это сбивает модель с режима фильтрации.

Несмотря на официальную оценку угрозы как «низкую», эксперты предупреждают: потенциальный вред огромен. Уязвимость позволяет генерировать инструкции по созданию оружия, вирусов или проводить фишинговые атаки — причём внутри популярных сервисов, что затрудняет их отслеживание. Это поднимает вопросы не только технической, но и юридической ответственности за работу таких систем.

Ряд компаний уже начал выпуск экстренных обновлений, пытаясь закрыть дыры. Однако выявленные атаки демонстрируют, что текущая архитектура ИИ-моделей по-прежнему уязвима к манипуляциям. Без глубоких изменений в принципах взаимодействия и фильтрации контента риски будут только нарастать.