Артем Семенов, Positive Technologies: Мы становимся свидетелями зарождения процесса безопасной разработки ML и ИИ

Артем Семенов, Positive Technologies: Мы становимся свидетелями зарождения процесса безопасной разработки ML и ИИ

В эпоху стремительного развития искусственного интеллекта вопросы его безопасности выходят на первый план. Как защитить нейросети от атак, обеспечить этические рамки и разрабатывать безопасные системы с использованием ИИ? Об этом порталу Cyber Media рассказал Артем Семенов, инженер внедрения платформы безопасной разработки Positive Technologies и автор тг-канала PWN AI.

Cyber Media: В Positive Technologies вы занимаетесь внедрением практик безопасной разработки. Расскажите в целом об этом направлении. Как много в вашей ежедневной практике вы работаете с безопасностью ML?

Артем Семенов: В Positive Technologies мы внедряем практики безопасной разработки, чтобы создавать приложения с минимальным количеством уязвимостей. Для этого используем комплекс инструментов, например, SAST- и DAST-сканеры кода, проводим экспертную оценку рисков и уязвимостей, а также тестирование на проникновение.

С ростом популярности машинного обучения (ML) разработчики все чаще интегрируют ML в свои приложения и в процессы. Поэтому появилась новая область в разработке — MLSecOps. Она учитывает вопросы безопасности машинного обучения на всех этапах разработки приложения. Поскольку это новое направление, пока нет четких step-by-step-инструкций и инструментов, как в классическом DevSecOps. Positive Technologies — пионер в этой области. Мы разрабатываем фреймворк для безопасной разработки ML, изучаем ландшафт угроз для ML-систем на уровне кода и данных, а также на уровне сред MLOps.

Cyber Media: Большинство пользователей воспринимают нейросети, с которыми взаимодействуют, как интерфейс (сайт или чат-бота), за которым происходит непостижимая магия. Как на самом деле выглядят нейросети глазами этичного хакера или специалиста по безопасной разработке?

Артем Семенов: Как и при классическом тестировании на проникновение, этичный хакер использует несколько типов технической оценки безопасности — так называемые тестирования методом белого, серого и черного ящика. При исследовании безопасности ИИ доступен также метод glass box. Используя его, этичный хакер понимает, как модель принимает решения и по каким алгоритмам работает. Глазами этичного хакера мы можем посмотреть на модель разными способами.

В случае когда белый хакер взаимодействует с API, обращающейся к самой модели, он проводит разведку. Структура, watermarks, а также уникальные признаки генерации дают ответ на вопрос, что это за модель и какие угрозы могут быть реализованы для нее. Затем изучается взаимодействие модели с внешними API, сервисами и системами. После этого уже в бой идут различные техники prompt-based-атак, для реализации которых этичному хакеру необходимо иметь доступ к интерфейсу, чтобы написать промпт:

  1. Prompt Injection и Token Smuggling — обман модели или получение неправильного результата.
  2. Jailbreak-атаки — попытка сбить системный промпт, чтобы модель нарушила заданные ограничения.
  3. RAG Poisoning — «отравление» генерации с дополненной выборкой, чтобы модель выдавала неверные результаты или атаковала фреймворки, такие как LangChain, что в некоторых случаях может привести к удаленному выполнению кода.

Безопасность MLOps-решений — это отдельная область исследования для этичных хакеров. Недавняя атака ShadowRAY на инструмент RAY, используемый для разработки и развертывания крупномасштабных приложений, продемонстрировала уязвимость систем распределенного машинного обучения. Атаки на инструменты для построения процессов разработки и обучения моделей могут привести к серьезным последствиям:

  1. Модификация процесса обучения — злоумышленники изменяют алгоритмы обучения, что приводит к неправильным результатам и неверным выводам модели.
  2. Кража модели — хакеры получают доступ к модели и используют ее в своих целях.

Этичные хакеры исследуют и риски, связанные с мультимодальными моделями (MLLM), которые могут обрабатывать разные типы данных: звук, картинки и т. д.

Метод стеклянного ящика позволяет исследователям заглянуть внутрь модели и понять ее внутреннюю работу:

  • анализировать, какие параметры входа имеют наибольшее влияние на результат модели;
  • визуализировать взаимодействие нейронов;
  • объяснить, почему модель приняла определенное решение, основываясь на входных данных.

Белый хакер хакер может использовать метод стеклянного ящика, чтобы создать ситуации, где объяснения модели противоречат ее фактическому поведению, изменить веса или входные данные и проверить, насколько достоверно модель будет отвечать на изменения, а также найти ситуации, где модель не сможет верно интерпретировать входные данные и дать правильный результат.

Cyber Media: Какие типичные ошибки, связанные с информационной безопасностью, совершают разработчики ML и ИИ при создании нейросетей? Насколько они отличны от ошибок при разработке классического софта?

Артем Семенов: Разработчики ML и ИИ часто допускают ошибки, связанные с информационной безопасностью, которые отличаются от ошибок при разработке классического софта. Одна из самых распространенных — отравление данных (poisoning), когда в данные, модели, веса или гиперпараметры внедряется вредоносное содержимое. Это может привести к неверным результатам и ошибкам в работе модели. Неправильно заданные параметры в коде или недостаточное количество данных могут привести к медленному обучению модели или ее нестабильности. В некоторых случаях небезопасная десериализация может открыть доступ к удаленному выполнению кода.

Нарушение этических норм — еще одна серьезная проблема. Например, модель, используемая в банковской системе, может неправильно классифицировать пользователей по расовому признаку, что приведет к несправедливому отказу в кредите.

Важно тестировать нейросеть на возможность состязательной атаки, чтобы избежать ложных результатов. Часто модели обучаются на некачественных данных, что приводит к неверным выводам и неэтичным ответам, как в случае с Microsoft Tay, которая начала выдавать неэтичные ответы после обучения на комментариях пользователей Twitter* (сегодня X).

Cyber Media: Насколько сегодня развито направление безопасной разработки систем с использованием ИИ?

Артем Семенов: Направление безопасной разработки систем с использованием ИИ только начинает развиваться. На зарубежном рынке появляются компании, предлагающие решения для обеспечения безопасности искусственного интеллекта, такие как Robust Intelligence и Protect AI.

Эти решения часто представляют собой сканеры десериализации, версий библиотек и инструменты для тестирования устойчивости модели. Однако пока они охватывают лишь небольшое количество уязвимостей. Некоторые решения умеют определять бэкдоры в весах модели, а некоторые работают только с сериализацией, то есть ищут уязвимости в форматах преобразования данных и моделей.

Несмотря на то, что существующие решения неполные, наблюдается активный рост интереса к безопасности ИИ. Многие крупные компании проводят исследования в этой области, и безопасная разработка ИИ переходит из академической отрасли в практическую.

Cyber Media: Если говорить о модели угроз для нейросетей или модулей ИИ в коде, от чего их защищают разработчики и чего могут добиться атакующие?

Артем Семенов: Основным активом в модулях ИИ являются данные. Модели машинного обучения обучаются на огромных наборах данных, которые могут быть ценным ресурсом для злоумышленников. В контексте больших языковых моделей (LLM) главная задача при обеспечении безопасности — ограничить ответы модели заданными рамками и предотвратить раскрытие чувствительной информации. Для этого используются различные методы защиты, например:

  1. Дообучение модели на вредоносных данных повышает устойчивость модели к атакам.
  2. Обучение с суррогатной моделью, которая имитирует потенциальные атаки, делая основную модель более устойчивой к разнообразным угрозам.
  3. Perplexity-фильтрация анализирует сложность входного текста с целью предотвращения атак с использованием состязательных суффиксов, которые могут заставить модель выдавать нежелательную информацию.

На рынке уже существуют библиотеки и LLM-файрволы, призванные защитить модели от атак. Но разработчики стремятся сделать модели более этичными, используя подходы федеративного обучения и дифференциальной приватности, чтобы обеспечить конфиденциальность личных данных пользователей. Однако иногда отмечаются исключения. Например, Meta* недавно заявила о планах обучения модели на данных пользователей WhatsApp.

Cyber Media: Во время бума пользовательских нейросетей ни дня не обходилось без новости о новых промптах, позволяющих заставить нейросеть обходить запрещенные темы. Какие технологии применяются для защиты AI от подобной «социальной инженерии»?

Артем Семенов: Существует множество технологий, которые помогают защитить большие языковые модели от атак типа Prompt Injection. Например, разработчики ограничивают модель заданными рамками, очищают данные от конфиденциальной информации, проверяют, как модель реагирует на неэтичные запросы, используют LLM-файрволы, чтобы предотвратить утечку персональной информации и блокировать атаки типа Prompt Leaking и Prompt Injection. Также существует бенчмарк-тест CyberSecEval, который оценивает модель на уязвимость к атакам Prompt Injection и другим угрозам.

Например, модель Codestral, по данным CyberSecEval 2 (и ее последней версии), обладает наибольшей защитой.

234234.png

Cyber Media: На ваш взгляд, станут ли в будущем атаки на нейросети (или через них как элемент продукта) трендом и массовым явлением?

Артем Семенов: Однозначно — да. ИИ в приложениях — отдельная точка реализации угроз. Как мы уже видели выше — это может привести к разным последствиям.

*Признаны экстремистскими организациями и запрещены на территории РФ.

похожие материалы

Стрелочка
Стрелочка
Олег Минаков, «Новые платформы»: Создать конкурентное «железо», работая только на внутренний рынок, можно, но стоимость его будет высокой, что не подходит для массового сегмента
Олег Минаков, «Новые платформы»: Создать конкурентное «железо», работая только на внутренний рынок, можно, но стоимость его будет высокой, что не подходит для массового сегмента

Отечественная отрасль микроэлектроники переживает подъем – уже сейчас доля отечественных производителей составляет более 25%, а к 2030 году они могут занять почти половину рынка.

Артем Пузанков, Positive Technologies, эксперт конференции byteoilgas_conf: Злоумышленники все чаще нацелены не напрямую на деньги, а на нарушение технологического процесса
Артем Пузанков, Positive Technologies, эксперт конференции byteoilgas_conf: Злоумышленники все чаще нацелены не напрямую на деньги, а на нарушение технологического процесса

Цифровизация и внедрение ИИ заставляют нефтегазовые компании выходить за рамки формальной отчетности по безопасности.

Виктор Гончаров, эксперт в технологиях SOC, пресейл-менеджер Security Vision: Кибератаки на российскую городскую инфраструктуру носят политический и деструктивный характер
Виктор Гончаров, эксперт в технологиях SOC, пресейл-менеджер Security Vision: Кибератаки на российскую городскую инфраструктуру носят политический и деструктивный характер

В условиях стремительной цифровизации и обострения геополитической обстановки вопрос кибербезопасности перестал быть узкоспециализированной темой – он стал вопросом национальной безопасности России.

Евгений Елизаров, системный архитектор, IT-блогер: Резервные копии сами стали объектом интереса киберпреступников
Евгений Елизаров, системный архитектор, IT-блогер: Резервные копии сами стали объектом интереса киберпреступников

В интервью для Cyber Media Евгений рассказал о современных трендах в резервном копировании, новых киберугрозах для систем хранения данных, типичных ошибках компаний при организации защиты резервных копий и о том, как правильно строить стратегию сохранения данных с учетом принципов информационной безопасности.

Артем Гулюк, номинант премии «Киберпросвет 2025»: Результаты волонтерской работы — это сотни людей, которые не потеряли свои деньги
Артем Гулюк, номинант премии «Киберпросвет 2025»: Результаты волонтерской работы — это сотни людей, которые не потеряли свои деньги

Победитель премии «Киберпросвет–2025» в номинации «Киберволонтер года» Артем Гулюк — действующий сотрудник управления по противодействию киберпреступности УВД Брестского облисполкома Республики Беларусь.

Подкаст Cyber Media | Как в 2025 году продвигать продукты на рынке информационной безопасности в России?
Подкаст Cyber Media | Как в 2025 году продвигать продукты на рынке информационной безопасности в России?

Российский рынок информационной безопасности за последние годы пережил радикальные изменения: уход западных вендоров, рост числа кибератак, развитие отечественных решений и появление новых форматов продвижения.

Владимир Зайцев, заместитель технического директора NGENIX: Пока существует Интернет, всегда будут попытки недобросовестно нажиться на пользователях, их данных и внимании
Владимир Зайцев, заместитель технического директора NGENIX: Пока существует Интернет, всегда будут попытки недобросовестно нажиться на пользователях, их данных и внимании

Специалисты по ИБ и киберпреступники находятся в постоянном соперничестве — кто кого победит в текущем «раунде», окажется ли «броня» крепче «снаряда».