Разработчики компании Microsoft опубликовали новый инструмент для обнаружения скрытых бэкдоров в больших языковых моделях (LLM) - программных модификаций, которые не проявляют себя обычным образом, но активируются при определённых триггерных входных данных.
По словам авторов, новый сканер ориентируется на три технические характеристики, которые характерны для моделей с бэкдорами: аномалии в распределении ответов, изменения в активациях внутренних слоёв и устойчивые паттерны поведения при наличии триггерных входов. Инструмент не требует предварительных знаний о природе триггера или его структуры и работает на базе анализов поведения модели при выводе (inference).
Техническая основа подхода заключается в детектировании структурных сигнатур бэкдора в весах модели и в распределении её ответов. Это позволяет не просто определить наличие потенциально вредоносного механизма, но и выдать ранжированный список подозрительных триггерных шаблонов для дальнейшего анализа безопасности.
В Microsoft отмечают, что растущий объём внедрения LLM в критические корпоративные задачи делает вопросы защиты и доверенности моделей приёмистыми задачами безопасности. Бэкдоры могут использоваться злоумышленниками для целенаправленного изменения поведения ИИ в контексте атак, сбора данных или обхода ограничений. Инструмент должен помочь защитить как исследовательские проекты, так и коммерческие системы с открытыми весами.
Эксперты по безопасности подчёркивают, что подобные инструменты важны на фоне роста рисков, связанных с манипуляциями структурой LLM, в том числе с помощью тонкой модификации весов или добавления исподволь активируемых триггеров. Внедрение практических методов обнаружения скрытых механизмов - шаг к укреплению доверия к системам ИИ и повышению устойчивости к атакам.