Всего 250 «зараженных» документов могут встроить бэкдор в языковую модель

Всего 250 «зараженных» документов могут встроить бэкдор в языковую модель

Компания Anthropic совместно с Институтом безопасности ИИ Великобритании и Alan Turing Institute опубликовала исследование, показывающее, насколько уязвимы современные языковые модели к «отравлению» данных. Исследователи выяснили, что всего около 250 специально подготовленных документов достаточно, чтобы встроить в модель скрытый бэкдор, даже если она обучалась на миллиардах корректных текстов.

Исследователи протестировали модели разных масштабов: от 600 миллионов до 13 миллиардов параметров, и обнаружили, что размер модели почти не влияет на результат. Если в обучающую выборку попадает ограниченное количество «токсичных» образцов, она может начать выдавать ошибочные или бессмысленные ответы при встрече с определённым «триггером», вроде скрытого ключевого слова или шаблона.

Это открытие ставит под сомнение прежние представления о безопасности обучения ИИ. Ранее считалось, что крупные модели устойчивее к подмене данных, однако эксперименты Anthropic показали, что уязвимость определяется не долей, а абсолютным числом вредоносных примеров.

Исследователи подчеркивают, что их работа описывает лишь «контролируемый» тип бэкдора, при котором модель выдает бессмысленные фразы, а не совершает сложные вредоносные действия. Тем не менее результаты демонстрируют, насколько тонкой может быть грань между надежной системой и скомпрометированной.

Авторы призывают разработчиков ИИ уделять больше внимания защите обучающих данных и созданию механизмов проверки источников. По их мнению, проблема «микроотравлений» может стать ключевым вызовом для безопасности больших языковых моделей в ближайшие годы.

РЕКОМЕНДУЕМ

похожие материалы

Стрелочка
Стрелочка
ИИ на службе вымогателей: новая группировка использует искусственный интеллект для атак
ИИ на службе вымогателей: новая группировка использует искусственный интеллект для атак

Эксперты по кибербезопасности из IBM сообщили о появлении новой группы вымогателей Slopoly, которая активно применяет инструменты искусственного интеллекта для подготовки и проведения атак.

В России началась настоящая блокировка Telegram? Пользователи массово жалуются на сбои
В России началась настоящая блокировка Telegram? Пользователи массово жалуются на сбои

В России появились признаки начала блокировки мессенджера Telegram: пользователи по всей стране сообщают о масштабных сбоях в работе сервиса, а эксперты связывают происходящее с возможным введением ограничительных мер со стороны регуляторов.

Instagram* запускает сквозное шифрование: переписку пользователей больше не смогут читать даже в компании
Instagram* запускает сквозное шифрование: переписку пользователей больше не смогут читать даже в компании

Социальная сеть Instagram* начала внедрение сквозного шифрования в личных сообщениях, новая функция должна повысить уровень конфиденциальности переписки и защитить сообщения пользователей от доступа третьих лиц.

UserGate запустил проект «Совместная техническая поддержка»
UserGate запустил проект «Совместная техническая поддержка»

UserGate, российский разработчик решений в области информационной безопасности, запустил проект «Совместная техническая поддержка» — новую модель сервисного сопровождения клиентов совместно с сертифицированными партнерами.