Microsoft представила сканер для обнаружения бэкдоров в языковых моделях

Microsoft представила сканер для обнаружения бэкдоров в языковых моделях

Разработчики компании Microsoft опубликовали новый инструмент для обнаружения скрытых бэкдоров в больших языковых моделях (LLM) - программных модификаций, которые не проявляют себя обычным образом, но активируются при определённых триггерных входных данных.

По словам авторов, новый сканер ориентируется на три технические характеристики, которые характерны для моделей с бэкдорами: аномалии в распределении ответов, изменения в активациях внутренних слоёв и устойчивые паттерны поведения при наличии триггерных входов. Инструмент не требует предварительных знаний о природе триггера или его структуры и работает на базе анализов поведения модели при выводе (inference).

Техническая основа подхода заключается в детектировании структурных сигнатур бэкдора в весах модели и в распределении её ответов. Это позволяет не просто определить наличие потенциально вредоносного механизма, но и выдать ранжированный список подозрительных триггерных шаблонов для дальнейшего анализа безопасности.

В Microsoft отмечают, что растущий объём внедрения LLM в критические корпоративные задачи делает вопросы защиты и доверенности моделей приёмистыми задачами безопасности. Бэкдоры могут использоваться злоумышленниками для целенаправленного изменения поведения ИИ в контексте атак, сбора данных или обхода ограничений. Инструмент должен помочь защитить как исследовательские проекты, так и коммерческие системы с открытыми весами.

Эксперты по безопасности подчёркивают, что подобные инструменты важны на фоне роста рисков, связанных с манипуляциями структурой LLM, в том числе с помощью тонкой модификации весов или добавления исподволь активируемых триггеров. Внедрение практических методов обнаружения скрытых механизмов - шаг к укреплению доверия к системам ИИ и повышению устойчивости к атакам.

РЕКОМЕНДУЕМ

похожие материалы

Стрелочка
Стрелочка
Экстренный патч Chrome закрыл две 0-day уязвимости: обход песочницы и крах Skia уже используют в атаках
Экстренный патч Chrome закрыл две 0-day уязвимости: обход песочницы и крах Skia уже используют в атаках

Google выпустила внеплановое обновление стабильной ветки Chrome, закрывающее две критические уязвимости, которые, по данным компании, уже эксплуатируются в реальных кибератаках.

Анализ рынка информационной безопасности в России: темпы прироста новых игроков снижаются, число ликвидированных компаний растет
Анализ рынка информационной безопасности в России: темпы прироста новых игроков снижаются, число ликвидированных компаний растет

Аналитики «Контур Фокуса» и «Контур Эгиды» представили исследование российского рынка информационной безопасности, охватывающее период с 1 марта 2024 по 1 марта 2026 года.

«Лаборатория Касперского» усилила безопасность контейнерных приложений СберФакторинг с помощью Kaspersky Container Security
«Лаборатория Касперского» усилила безопасность контейнерных приложений СберФакторинг с помощью Kaspersky Container Security

СберФакторинг, дочерняя компания Сбера, внедрила Kaspersky Container Security для повышения уровня защиты контейнерных приложений на всех этапах их жизненного цикла — от разработки до эксплуатации.