Microsoft представила детектор LLM-бэкдоров и назвала три признака заражения открытых моделей

Microsoft представила детектор LLM-бэкдоров и назвала три признака заражения открытых моделей

Microsoft объявила о создании нового инструмента для выявления скрытых бэкдоров в крупных языковых моделях с открытыми весами, которые используются в корпоративной среде. Разработка направлена на обнаружение так называемого «отравления» модели — сценария, при котором вредоносное поведение внедряется непосредственно в веса на этапе обучения.

Речь идет о закладках, способных годами находиться в спящем состоянии. В обычных условиях модель функционирует штатно, однако при появлении определенного триггера запускает нежелательную логику. Такой подход делает атаку труднообнаружимой и особенно опасной для компаний, интегрирующих open-source LLM во внутренние процессы.

По данным подразделения Microsoft по безопасности ИИ, сканер опирается на три наблюдаемых сигнала, указывающих на возможное заражение модели.

Первый сигнал связан с реакцией на триггерную фразу. При добавлении в запрос специфического маркера механизмы внимания модели демонстрируют аномальную фокусировку на этом фрагменте, а ответы становятся менее случайными и более предсказуемыми, что может свидетельствовать о детерминированной закладке.

Второй признак — эффект запоминания. Отравленные модели склонны воспроизводить элементы вредоносного набора данных или фрагменты триггерных последовательностей, вместо того чтобы опираться исключительно на обобщенные знания, полученные в ходе обучения.

Третий сигнал проявляется в том, что одну и ту же закладку можно активировать размытыми, неточными формулировками, которые лишь напоминают исходный вредоносный ввод, но не совпадают с ним дословно. Это говорит о более глубокой интеграции триггера в параметры модели.

В сопровождающей научной работе Microsoft отмечает, что «спящие агенты» демонстрируют характерные паттерны в распределении выходных вероятностей и работе голов внимания при наличии триггера. Инструмент извлекает запомненное содержимое модели, анализирует подозрительные подстроки и формирует ранжированный список потенциальных триггеров — без дообучения модели и без предварительного знания конкретной атаки.

Метод, как заявлено, применим к распространенным моделям семейства GPT и другим LLM с открытыми весами. Однако у инструмента есть ограничения: для анализа необходим доступ к файлам модели, что делает его неприменимым к закрытым, проприетарным системам.

В Microsoft подчеркивают, что сканер не следует рассматривать как универсальное решение. Наилучшие результаты достигаются при поиске триггерных закладок, приводящих к строго заданным, детерминированным ответам. По словам представителей компании, по мере роста внедрения ИИ возрастает и сложность обеспечения защиты от неизвестных или эволюционирующих способов манипуляции.

РЕКОМЕНДУЕМ

похожие материалы

Стрелочка
Стрелочка
ИИ на службе вымогателей: новая группировка использует искусственный интеллект для атак
ИИ на службе вымогателей: новая группировка использует искусственный интеллект для атак

Эксперты по кибербезопасности из IBM сообщили о появлении новой группы вымогателей Slopoly, которая активно применяет инструменты искусственного интеллекта для подготовки и проведения атак.

В России началась настоящая блокировка Telegram? Пользователи массово жалуются на сбои
В России началась настоящая блокировка Telegram? Пользователи массово жалуются на сбои

В России появились признаки начала блокировки мессенджера Telegram: пользователи по всей стране сообщают о масштабных сбоях в работе сервиса, а эксперты связывают происходящее с возможным введением ограничительных мер со стороны регуляторов.

Instagram* запускает сквозное шифрование: переписку пользователей больше не смогут читать даже в компании
Instagram* запускает сквозное шифрование: переписку пользователей больше не смогут читать даже в компании

Социальная сеть Instagram* начала внедрение сквозного шифрования в личных сообщениях, новая функция должна повысить уровень конфиденциальности переписки и защитить сообщения пользователей от доступа третьих лиц.

UserGate запустил проект «Совместная техническая поддержка»
UserGate запустил проект «Совместная техническая поддержка»

UserGate, российский разработчик решений в области информационной безопасности, запустил проект «Совместная техническая поддержка» — новую модель сервисного сопровождения клиентов совместно с сертифицированными партнерами.