Microsoft объявила о создании нового инструмента для выявления скрытых бэкдоров в крупных языковых моделях с открытыми весами, которые используются в корпоративной среде. Разработка направлена на обнаружение так называемого «отравления» модели — сценария, при котором вредоносное поведение внедряется непосредственно в веса на этапе обучения.
Речь идет о закладках, способных годами находиться в спящем состоянии. В обычных условиях модель функционирует штатно, однако при появлении определенного триггера запускает нежелательную логику. Такой подход делает атаку труднообнаружимой и особенно опасной для компаний, интегрирующих open-source LLM во внутренние процессы.
По данным подразделения Microsoft по безопасности ИИ, сканер опирается на три наблюдаемых сигнала, указывающих на возможное заражение модели.
Первый сигнал связан с реакцией на триггерную фразу. При добавлении в запрос специфического маркера механизмы внимания модели демонстрируют аномальную фокусировку на этом фрагменте, а ответы становятся менее случайными и более предсказуемыми, что может свидетельствовать о детерминированной закладке.
Второй признак — эффект запоминания. Отравленные модели склонны воспроизводить элементы вредоносного набора данных или фрагменты триггерных последовательностей, вместо того чтобы опираться исключительно на обобщенные знания, полученные в ходе обучения.
Третий сигнал проявляется в том, что одну и ту же закладку можно активировать размытыми, неточными формулировками, которые лишь напоминают исходный вредоносный ввод, но не совпадают с ним дословно. Это говорит о более глубокой интеграции триггера в параметры модели.
В сопровождающей научной работе Microsoft отмечает, что «спящие агенты» демонстрируют характерные паттерны в распределении выходных вероятностей и работе голов внимания при наличии триггера. Инструмент извлекает запомненное содержимое модели, анализирует подозрительные подстроки и формирует ранжированный список потенциальных триггеров — без дообучения модели и без предварительного знания конкретной атаки.
Метод, как заявлено, применим к распространенным моделям семейства GPT и другим LLM с открытыми весами. Однако у инструмента есть ограничения: для анализа необходим доступ к файлам модели, что делает его неприменимым к закрытым, проприетарным системам.
В Microsoft подчеркивают, что сканер не следует рассматривать как универсальное решение. Наилучшие результаты достигаются при поиске триггерных закладок, приводящих к строго заданным, детерминированным ответам. По словам представителей компании, по мере роста внедрения ИИ возрастает и сложность обеспечения защиты от неизвестных или эволюционирующих способов манипуляции.