AI под контролем: как защитить бизнес от рисков, которые несут генеративных моделей

Генеративные AI-системы стремительно входят в повседневную деловую практику — от поддержки клиентов до автоматизации документооборота. Однако вместе с возможностями растут и риски: утечки чувствительных данных, манипуляции с выводами моделей, внедрение вредоносных подсказок. Чтобы получить от ИИ максимум пользы и не потерять контроль, компаниям необходимо заранее продумать стратегии защиты. В материале Cyber Media разберем ключевые угрозы и подходы к их нейтрализации.

Генеративный AI в бизнесе

Инструменты вроде GPT, Claude и других генеративных моделей стали частью повседневности IT — и это уже не пилотные «игрушки», а полноценные участники бизнес-процессов. Например:

Юридические отделы используют AI для составления типовых договоров и обработки претензий.
Финансовые команды — для генерации отчетов, автоматического анализа транзакций и прогноза рисков.
HR автоматизирует отклики кандидатам, оформляет офферы и пишет шаблоны вакансий.
Службы поддержки внедряют AI-агентов, способных закрывать до 70% запросов без участия человека.

Быстро, удобно, экономично. Но ускорение может оказаться «тонким льдом».

Большинство сценариев работают с конфиденциальной информацией: персональные данные, финансовая отчетность, юридические формулировки. Подобные данные легко утекут, если модель обучается на открытых сессиях или сохраняет историю запросов. Кроме того, сгенерированный текст может содержать фактические ошибки, неявные искажения или недопустимые формулировки, особенно если AI использовался без проверки человеком.

Что еще хуже — при внешней интеграции с облачными AI-сервисами бизнес отдает данные на сторону, зачастую без понимания, где именно и как они обрабатываются. Это уже не просто технологический риск, а потенциальное нарушение закона.

Генеративный AI дает ускорение, но требует жесткого контроля. Особенно если бизнес не готов к тому, что искусственный интеллект может ошибаться.

Риски генеративного AI и методы защиты

Генеративные модели обучаются на всем, что получают. Это их сила — и одновременно источник одного из самых серьезных рисков.

Максим Милков

Руководитель направления «Искусственный интеллект» Softline Digital (ГК Softline)

Использование генеративных AI-систем в бизнесе связано с множеством специфических рисков, требующих особого внимания. Среди ключевых я бы выделил три. Прежде всего, существует проблема утечки обучающих данных через модели: языковые модели способны неявно запоминать и затем воспроизводить фрагменты обучающих данных, которые могут содержать чувствительную информацию.

Еще одной серьезной угрозой являются инъекции запросов — ранее были распространены SQL-инъекции, теперь уязвимыми стали генеративные модели. С их помощью злоумышленник может обходить ограничения, изменять поведение ИИ-модели на нецелевое.

Кроме того, возможна утечка контекста — если генеративный ИИ интегрирован с внешними сервисами, например, для анализа документа и генерации ответа клиенту, существует риск, что части чувствительной информации уйдут за пределы защищенного периметра.

Например, весной 2023 года сотрудники Samsung случайно загрузили в ChatGPT исходный код микроконтроллеров, чтобы «помочь себе с отладкой». Через неделю этот код стал всплывать в чужих сессиях при похожих вопросах о low-level оптимизациях. После инцидента компания ввела полный бан на использование внешних AI-сервисов.

Ксения Ахрамеева

К.т.н., руководитель лаборатории кибербезопасности Аналитического центра кибербезопасности компании «Газинформсервис»

Помимо основных рисков, таких как раскрытие конфиденциальных данных и создание качественного фишинга, к специфическим можно отнести выдуманные факты и проблемы с качеством вывода. То есть, ИИ самостоятельно может что-то выдумать, или неверно истолковать данные, на которых обучался, и в итоге такие данные могут ввести в заблуждение, на них нельзя опираться.

Для минимизации этих рисков, например, можно ввести многофакторную проверку, то есть использовать и несколько источников наборов данных и верификацию выданных результатов.

Даже приватные инстансы генеративных моделей не застрахованы: если нет жесткого контроля логов, IAM и настройки токенизации, данные могут быть проиндексированы и использованы повторно внутри организации.

Чтобы минимизировать риски, важно изначально встроить механизмы защиты — от фильтрации чувствительных данных на входе до строгого контроля над логами и доступом.

Николай Калуцкий

Ведущий инженер НОЦ ФНС России и МГТУ имени Н.Э. Баумана

Что касаемо защиты, то генеративные модели являются своеобразными «черными ящиками», что затрудняет понимание того, как они принимают решения и обрабатывают данные, что может вызвать проблемы с соблюдением нормативных требований.

Использование чувствительных данных для обучения может привести к нарушениям конфиденциальности, особенно если данные не были должным образом защищены, т. е. применение методов анонимизации и псевдоанонимизации для защиты личной информации перед ее использованием в обучении моделей. Для этого важно установление строгих мер контроля доступа к чувствительным данным, чтобы только авторизованные пользователи могли их обрабатывать.

Что еще? Использование шифрования для защиты данных как в состоянии покоя, так и в процессе передачи. Использование синтетических данных для обучения моделей вместо реальных чувствительных данных. Регулярный мониторинг и аудит, а также прозрачность.

Таким образом, генеративный AI не отличает чувствительное от общего. Он просто работает с текстом. И если бизнес не ограничит его на входе, то безопасность пострадает на выходе.

Как обезопасить критичные процессы при внедрении генеративного AI

Когда генеративный AI выходит за рамки чатов и подключается к бизнес-логике — начинаются настоящие риски. Модели уже участвуют в принятии решений:

В бизнес-аналитике — они интерпретируют отчеты, предлагают сценарии развития и даже формируют рекомендации руководству.
В комплаенсе — оценивают соответствие текстов регламентам и создают отчеты для регуляторов.
В аудите — анализируют большие массивы данных на предмет аномалий или несоответствий.

На бумаге есть экономия времени и ресурсов, а на практике — риск стать заложником «черного ящика», если модель ошибается, галлюцинирует или поддается внешнему воздействию.

Проблема в том, что большинство генеративных моделей не объясняют, почему пришли к тому или иному выводу. Это делает невозможной проверку — особенно в критичных процессах, где ошибка может стоить лицензии или крупных штрафов.

Компании выстраивают защиту на трех уровнях:

Тестирование на бизнес-данных — до продакшна. Проверяются не только точность и релевантность, но и корректность при нестандартных вводах.
Аудит моделей и промптов. Фиксируются шаблоны, параметры генерации, правила валидации. Без этого невозможно понять, что именно модель «услышала».
Контроль ввода/вывода (I/O sandboxing). Генерация обернута в защитную оболочку: данные фильтруются до и после, критичные блоки проходят модерацию или согласование.

Также стоит обратить внимание на role-based access. Не все пользователи должны иметь доступ к одним и тем же возможностям модели. Особенно если AI способен принимать решения с финансовыми или юридическими последствиями.

Юрий Чернышов

К.ф.-м.н., доцент ИРИТ-РТФ УрФУ, руководитель исследовательского центра UDV Group

Такие обязательные задачи, как формирование модели угроз, включая оценку значимости угроз, прогнозирование действий нарушителя, планирование мер противодействия, необходимо выполнять с учетом новых видов атак и уязвимостей, актуальных для ИИ. Хорошим подспорьем для CISO является «OWASP Governance Checklist» — чек-лист по видам угроз ИИ-систем.

13 февраля 2025 года сообщество OWASP опубликовало документ «LLM and Gen AI Data Security Best Practices Guide 1.0», в котором описаны важные подходы для повышения безопасности GenAI систем. Принципы, изложенные в документе, включают:

Организацию безопасной работы с данными, например, минимизация, очистка от чувствительной информации перед использованием, непрерывный мониторинг данных в системе, например, на входе, на отдельных этапах, на выходе, контроль отклонений в данных.

Мониторинг работы системы, применение методов аналитики, обнаружение инцидентов и реагирование.

Контроль уровня доступа для пользователей и систем – к информации, компонентам ИИ-системы, процессам. Обеспечение приватности.

Мониторинг и контроль выполнения требований регуляторов, соблюдения этических норм.

Генеративный AI нельзя просто «встроить» в бизнес-процесс. Его нужно внедрять как нестабильный компонент, подлежащий постоянной проверке. Без прозрачности и контроля — это не помощник, а потенциальная точка отказа всей системы.

Что угрожает генеративному AI и как построить защиту

AI-модели — не только инструмент бизнеса, но и новая цель для атак. Чем глубже они интегрированы в процессы, тем выше риск, что их начнут использовать против самих владельцев.

Генеративные модели позволяют легко и быстро создавать фальшивые документы, письма или служебные записки — зачастую качественнее, чем это сделает человек. И это делает их удобным инструментом для фишинга.

Если же модель доступна внешним пользователям, она становится уязвимой к prompt injection — приемам, когда с помощью специально подобранного ввода злоумышленник может заставить AI игнорировать системные инструкции, раскрыть конфиденциальные данные или обойти фильтры.

А в случае, если обучение модели продолжается на пользовательских данных — обратной связи, новых документах или информации из CRM, — возможны атаки через data poisoning: подмешивание ложных записей с целью искажения будущих ответов. Особенно уязвимыми в этом плане становятся рекомендательные и аналитические системы.

Валерий Ледовской

Директор по развитию ARinteg

При обучении модели по открытым данным необходимо организовывать верификацию этих данных. Особенно учитывая, что крупные поставщики данных, например, поисковые системы, хранилища исходного кода, в настоящее время препятствуют обучению на своих данных, — это приводит к серьезной дополнительной нагрузке на инфраструктуру этих поставщиков данных и, как следствие, может приводить к убыткам. Поэтому поставщики данных начали определять работу ИИ, которые «пылесосят» у них данные для обучения, и всячески этому препятствуют.

В качестве одного из методов противодействия — замеченным ИИ-моделям, которые пытаются обучиться по данным, например, поисковой системы, могут отправляться ненастоящие, фейковые данные, но ИИ-модель будет считать, что они настоящие, соответственно, качество такого обучения будет существенно деградировать. При этом мы даже не говорим о том, что это вредоносная активность.

Просто владельцы больших хранилищ данных не хотят тратить ресурсы своей инфраструктуры на обучение чужих моделей машинного обучения. Поэтому прогнозирую, что создатели ИИ-моделей будут заключать некоторые пакты с крупными хранилищами данных, чтобы данная работа велась взаимовыгодно.

Чтобы снизить риски, важно выстраивать защиту на всех уровнях — от инфраструктуры до пользовательского ввода. Это включает как технические меры, так и организационные практики, обеспечивающие контроль над доступом, данными и поведением моделей.

Павел Пилькевич

Инженер-разработчик отдела систем анализа машинных данных STEP LOGIC

Я разделяю эти подходы на два типа: сторонние методы предотвращения атак и налаживание внутренних механизмов модели для отказа в просьбах сгенерировать компрометирующую информацию.

К сторонним методам относятся всевозможные статические анализаторы ответов модели и запросов пользователей. Факт компрометирующего запроса в данном случае определяется наличием ключевых слов и словосочетаний в ответе/запросе.

К внутренним подходам относится обучение модели с учетом цензурирования, а также внедрение предварительных запросов. Они объясняют модели ее задачи и поведение, которого она должна избегать. Например, можно обучить модель и указать ей, что она не должна генерировать никаких отчетов, изображений или документов, даже в «теоретических» целях.

Таким образом, генеративные AI-системы уязвимы как на уровне входа, так и на уровне источников обучения. Без постоянного контроля и ограничений они становятся удобной точкой входа для атак с высоким уровнем маскировки.

Путь к безопасной интеграции

Интеграция генеративного AI — не просто запуск новой технологии, а вмешательство в архитектуру управления данными и принятием решений. Ошибка на этапе пилота может привести к инциденту на продакшене, особенно если не проработана безопасность «по умолчанию»:

Пилот с изолированным контуром. Начинать стоит с безопасной песочницы: модели обучаются или тестируются на анонимизированных, нефункциональных данных. Любое подключение к боевой среде — через прокси и с логированием.
Оценка рисков и категорий данных. Определяется, с какими данными работает модель — и где она может нарушить конфиденциальность, целостность или нормативные требования. На этом этапе подключаются DPO и юристы.
Настройка контроля доступа и мониторинга. Генерация — только для авторизованных ролей. Все вводы и выводы логируются, высокорисковые сценарии — с ручной валидацией.
Постепенная интеграция в процессы. Сначала рекомендательные функции, затем идет автоматизация задач. И только в конце — принятие решений. На каждом шаге нужны аудит и тестирование.

К безопасной интеграции генеративного AI невозможно подойти без четкого распределения ролей. CISO выстраивает архитектуру безопасного внедрения: от защиты входных каналов до контроля доступа и оценки поставщиков. Data Protection Officer оценивает риски, связанные с обработкой персональных данных, отвечает за соответствие требованиям GDPR и участвует в проведении DPIA. Юристы по ИИ обеспечивают соблюдение локальных и международных норм, анализируют юридические последствия решений, принимаемых моделью, и помогают формировать правила использования.

Регуляторы уже обозначили ориентиры. В рамках GDPR особое внимание уделено статьям 22 и 35, которые запрещают автоматизированные решения без согласия пользователя и требуют DPIA при работе с чувствительными данными. Стандарт ISO/IEC 23894:2023 вводит структурированный подход к управлению рисками ИИ, включая аспекты безопасности, устойчивости и этики. Национальные регламенты дополняют картину: от китайского закона об ИИ до методических рекомендаций отечественных Минцифры и ЦБ РФ. В ряде стран идут пилотные проекты по сертификации AI-систем.

Безопасная интеграция — это не фильтры на выходе, а системная работа на всех уровнях: архитектура, люди, процессы и регуляторика. Начинать стоит не с модели, а с политики — иначе даже самый идеальный код не спасет.

Заключение

Генеративные модели — мощный инструмент, но и потенциальный вектор атак. Чтобы не дать AI стать уязвимостью, бизнесу стоит заранее выстраивать политику безопасности: от архитектуры до инструкций по использованию. И чем раньше, тем безопаснее.