Microsoft представила детектор LLM-бэкдоров и назвала три признака заражения открытых моделей

Microsoft представила детектор LLM-бэкдоров и назвала три признака заражения открытых моделей

Microsoft объявила о создании нового инструмента для выявления скрытых бэкдоров в крупных языковых моделях с открытыми весами, которые используются в корпоративной среде. Разработка направлена на обнаружение так называемого «отравления» модели — сценария, при котором вредоносное поведение внедряется непосредственно в веса на этапе обучения.

Речь идет о закладках, способных годами находиться в спящем состоянии. В обычных условиях модель функционирует штатно, однако при появлении определенного триггера запускает нежелательную логику. Такой подход делает атаку труднообнаружимой и особенно опасной для компаний, интегрирующих open-source LLM во внутренние процессы.

По данным подразделения Microsoft по безопасности ИИ, сканер опирается на три наблюдаемых сигнала, указывающих на возможное заражение модели.

Первый сигнал связан с реакцией на триггерную фразу. При добавлении в запрос специфического маркера механизмы внимания модели демонстрируют аномальную фокусировку на этом фрагменте, а ответы становятся менее случайными и более предсказуемыми, что может свидетельствовать о детерминированной закладке.

Второй признак — эффект запоминания. Отравленные модели склонны воспроизводить элементы вредоносного набора данных или фрагменты триггерных последовательностей, вместо того чтобы опираться исключительно на обобщенные знания, полученные в ходе обучения.

Третий сигнал проявляется в том, что одну и ту же закладку можно активировать размытыми, неточными формулировками, которые лишь напоминают исходный вредоносный ввод, но не совпадают с ним дословно. Это говорит о более глубокой интеграции триггера в параметры модели.

В сопровождающей научной работе Microsoft отмечает, что «спящие агенты» демонстрируют характерные паттерны в распределении выходных вероятностей и работе голов внимания при наличии триггера. Инструмент извлекает запомненное содержимое модели, анализирует подозрительные подстроки и формирует ранжированный список потенциальных триггеров — без дообучения модели и без предварительного знания конкретной атаки.

Метод, как заявлено, применим к распространенным моделям семейства GPT и другим LLM с открытыми весами. Однако у инструмента есть ограничения: для анализа необходим доступ к файлам модели, что делает его неприменимым к закрытым, проприетарным системам.

В Microsoft подчеркивают, что сканер не следует рассматривать как универсальное решение. Наилучшие результаты достигаются при поиске триггерных закладок, приводящих к строго заданным, детерминированным ответам. По словам представителей компании, по мере роста внедрения ИИ возрастает и сложность обеспечения защиты от неизвестных или эволюционирующих способов манипуляции.

похожие материалы

Стрелочка
Стрелочка
Разработчики мессенджера Max заявляют, что не отслеживают использование VPN
Разработчики мессенджера Max заявляют, что не отслеживают использование VPN

Исследователи обнаружили, что в Android-клиенте мессенджера Max есть встроенный модуль, который проверяет доступность серверов Telegram и WhatsApp*, определяя IP-адрес пользователя через сторонние сервисы и фиксируя использование VPN.

Новая схема обмана: мошенники начали выдавать себя за таможню и вымогать деньги за «посылки»
Новая схема обмана: мошенники начали выдавать себя за таможню и вымогать деньги за «посылки»

В России зафиксирована новая схема интернет-мошенничества: лоумышленники начали массово писать гражданам в мессенджерах, представляясь сотрудниками таможенных органов и требуя оплатить якобы обязательные таможенные платежи за посылки.

Хактивисты ударили по DHS: в сеть утекли контракты иммиграционной службы США и данные тысяч подрядчиков
Хактивисты ударили по DHS: в сеть утекли контракты иммиграционной службы США и данные тысяч подрядчиков

Хактивистская группа Department of Peace заявила о взломе систем Министерства внутренней безопасности США и публикации документов, связанных с контрактами ведомства и Иммиграционной и таможенной полиции США.