Компания Anthropic совместно с Институтом безопасности ИИ Великобритании и Alan Turing Institute опубликовала исследование, показывающее, насколько уязвимы современные языковые модели к «отравлению» данных. Исследователи выяснили, что всего около 250 специально подготовленных документов достаточно, чтобы встроить в модель скрытый бэкдор, даже если она обучалась на миллиардах корректных текстов.
Исследователи протестировали модели разных масштабов: от 600 миллионов до 13 миллиардов параметров, и обнаружили, что размер модели почти не влияет на результат. Если в обучающую выборку попадает ограниченное количество «токсичных» образцов, она может начать выдавать ошибочные или бессмысленные ответы при встрече с определённым «триггером», вроде скрытого ключевого слова или шаблона.
Это открытие ставит под сомнение прежние представления о безопасности обучения ИИ. Ранее считалось, что крупные модели устойчивее к подмене данных, однако эксперименты Anthropic показали, что уязвимость определяется не долей, а абсолютным числом вредоносных примеров.
Исследователи подчеркивают, что их работа описывает лишь «контролируемый» тип бэкдора, при котором модель выдает бессмысленные фразы, а не совершает сложные вредоносные действия. Тем не менее результаты демонстрируют, насколько тонкой может быть грань между надежной системой и скомпрометированной.
Авторы призывают разработчиков ИИ уделять больше внимания защите обучающих данных и созданию механизмов проверки источников. По их мнению, проблема «микроотравлений» может стать ключевым вызовом для безопасности больших языковых моделей в ближайшие годы.