Светлана Старовойт, ИнфоТеКС: Машинное обучение в сфере ИБ пока только делает первые шаги, но это уверенное движение в правильном направлении

Светлана Старовойт, руководитель продуктового направления ИнфоТеКС, рассказала порталу Cyber Media о такой форме применения искусственного интеллекта как машинное обучение, поделилась историей появления технологии в компании, ее роли в современных средствах защиты информации, обозначила проблемы, с которыми приходится сталкиваться разработчикам, и векторы развития.

Cyber Media: Искусственный интеллект (ИИ) стал неотъемлемой частью современных средств защиты. Действительно ли в кибербезопасности уже не обойтись без ИИ?

Светлана Старовойт: На самом деле информационная безопасность (ИБ) одно из самых консервативных направлений информационных технологий и искусственный интеллект в средствах защиты встречается не так часто.

Для примера в реестре российского ПО из 18792 (на 20 ноября 2023 года) записей признак относящегося к сфере искусственного интеллекта имеют 119 продуктов, из которых всего 4 относятся к классам средств защиты информации.

При этом мы видим, что развитие направления ИИ позволяет все более успешно использовать его в реализации различных сценариев по защите информации. Речь, конечно, не идёт о том, чтобы заменить сотрудников службы информационной безопасности искусственным интеллектом, но оказать помощь в принятии решения он действительно может.

Вообще понятие искусственного интеллекта представляет собой широкую концепцию создания «умных» систем, направленную на имитацию когнитивных функций человека в решении произвольных задач при любых возможных условиях и получающих результат, как минимум, сопоставимый с результатами интеллектуальной деятельности человека. Давайте договоримся, что далее речь будет идти только об одной, наиболее распространенной на данный момент, форме применения искусственного интеллекта – машинном обучении.

Технологии машинного обучения – это множество математических, статистических и вычислительных методов для разработки алгоритмов, способных решить задачу не прямым способом, а на основе поиска закономерностей в разнообразных входных данных.

В сфере информационной безопасности с помощью методов чаще всего успешно решаются задачи классификации, кластеризации и идентификации. Более сложные задачи прогнозирования и извлечения знаний – это скорее будущее.

Cyber Media: Когда компания ИнфоТеКС начала использование ИИ в своих продуктах? И в каких решениях он сейчас применяется?

Светлана Старовойт: Сначала искусственный интеллект зародился не в продукте компании, а в центре мониторинга угроз ИБ нашей дочерней компании «Перспективный мониторинг». Специалисты центра мониторинга попробовали применить модель машинного обучения для анализа событий информационной безопасности с сетевых сенсоров ViPNet IDS NS c целью выявления признаков взлома и работы вредоносного ПО. Известная проблема – вирусы слишком быстро модифицируются, новые уязвимости и эксплойты появляются каждую минуту, что делает сигнатурные методы анализа не слишком эффективными. И тут как раз на помощь могут прийти методы машинного обучения, способные с определенной достоверностью выявлять подозрительные объекты не по полному совпадению признаков, а лишь частичному. Модель хорошо себя показала в качестве инструмента для решения собственных задач и далее увидела свет уже в коммерческом продукте компании «ИнфоТеКС» – системе интеллектуального анализа событий информационной безопасности ViPNet TIAS.

Первый релиз ViPNet TIAS со встроенной моделью обучения состоялся еще в 2018 году. С тех пор мы набрались опыта работ с алгоритмами машинного обучения, модифицировали и дополнили исходную модель и разработали новые модели для наших продуктов. В продуктах для защиты конечных устройств ViPNet EPP с помощью методов машинного обучения решаются задачи поиска аномалий при запуске ПО, обнаружения активности вредоносного программного обеспечения. В сетевом сенсоре ViPNet IDS NS реализованы алгоритмы поиска аномалий сетевой активности на защищаемых узлах. В высокой стадии готовности модели обнаружения в трафике фишинговых доменов по признакам автоматически сгенерированных доменных имен и признаков общения защищаемых узлов с командным центром злоумышленника.

В настоящее время целый отдел нашей компании занимается исследованием данных, и в разработке одновременно находится около десятка моделей машинного обучения в разных стадиях – от исследования гипотез до внедрения в конечный продукт. Для формулирования и проверки гипотез мы привлекаем специалистов нашего центра научных исследований и перспективных разработок, на счету которых уже есть зарегистрированные патенты в сфере машинного обучения.

Конечно не все разработки доходят до внедрения в наши продукты, а только те модели, которые показали свою высокую эффективность в реальных условиях. Так было проверено около 40 гипотез, разработано более 20 прототипов, и только 5 моделей машинного обучения дошли до конечного потребителя в составе наших средств защиты информации (СЗИ).

Cyber Media: С какими проблемами приходится сталкиваться при использовании ИИ?

Светлана Старовойт: Я бы обозначила 4 основные проблемы:

проблема безопасности использования методов машинного обучения в СЗИ;
проблема сбора и подготовки данных для обучения моделей;
проблема интерпретируемости результатов работы моделей;
необходимость больших вычислительных мощностей для работы и обучения модели и, как следствие, высокая стоимость конечного решения.

Главным препятствием для использования моделей машинного обучения в критических информационных системах является проблема, связанная с устойчивостью алгоритмов данного класса к внешним воздействиям – атакам на модели машинного обучения (воздействие на нейронную сеть, вызывающее ошибки в её результатах). Причем атака может осуществляться как с использованием уязвимостей в программном обеспечении, так и с помощью данных для обучения модели. Поэтому для реализации алгоритмов машинного обучения мы используем готовые фреймворки и библиотеки с открытым исходным кодом только на этапах создания и тестирования прототипов, а для встраивания в конечный продукт реализуем эти алгоритмы на более низкоуровневых языках с использованием практик SDL и MLOps. Такой подход увеличивает время разработки и ее стоимость, но мы, как разработчики, отвечаем за безопасность конечного продукта.

Вторая проблема использования моделей машинного обучения связана со сбором и подготовкой исходных данных. Самая лучшая модель машинного обучения бессмысленна без хороших данных для ее обучения. Нам в этом смысле повезло, так как имея под рукой (в группе компаний) центр мониторинга, у нас есть доступ к большому количеству данных. К сожалению, просто большие данные – это хорошо, но мало, так как наиболее действенными методами обучения в сфере ИБ являются методы обучения с учителем и с подкреплением, в которых не обойтись без разметки данных, а качественно разметить данные могут только высококвалифицированные эксперты, которые, конечно, есть в нашем центре мониторинга, но их время стоит очень дорого. Проблему можно решать за счет использования других методов обучения, где это возможно, и частичной автоматизацией процесса разметки данных.

Третья проблема – это проблема интерпретируемости результатов работы моделей и доверия к ним как на этапе тестирования, так и в процессе эксплуатации. Алгоритмы машинного обучения никогда не дают 100% точности. Результаты выбора модели решения часто бывают неочевидны, особенно при использовании нейронных сетей с глубоким обучением. И тут встает вопрос доверия результатам работы модели, где нужно либо опять привлекать высокооплачиваемого эксперта, либо учить модель саму объяснять свои выводы – повышать интерпретируемость модели, что значительно сложнее, чем разработать модель с принципом работы «черный ящик». В реальной жизни чаще всего конечное решение принимает не модель, а специалист по информационной безопасности, а модель только оказывает определенное влияние на решение человека, предоставляя один из вариантов анализа информации. И уж тем более ответственность за принятие решения всегда на человеке. В такой ситуации чем выше интерпретируемость модели машинного обучения, тем легче человеку понять, почему моделью были приняты определенные решения или сделаны прогнозы. Вы, наверное, можете сказать, что ведь это ваша задача как разработчиков повысить точность работы модели, и это верно, если процесс обучения полностью находится под нашим контролем. Но если модель проходит обучение и дообучение на данных заказчика, то существует проблема дрейфа данных, при котором со временем происходит деградация модели. Именно поэтому процесс разработки продуктов с механизмом машинного обучения не заканчивается поставкой продукта заказчику. Необходимо также продумывать и реализовывать процесс контроля работы модели при эксплуатации продукта.

Ну и, наверное, самая простая проблема, которая скорее не проблема, а расходы – это высокая требовательность механизмов машинного обучения к вычислительным мощностям для работы и особенно для обучения модели. Учитывая, что эксплуатация наших продуктов не предполагает использования облачных сервисов, все модели, встроенные в конечное решение, должны работать локально. Нам приходится решать задачу за счет оптимизации алгоритмов и использования специализированных устройств и утилит, позволяющих оптимизировать работу наших аппаратных платформ для целей машинного обучения.

Cyber Media: Роль ИИ в информационной безопасности сегодня, и как ИИ будет помогать в защите информации в будущем?

Светлана Старовойт: Сейчас модели машинного обучения хорошо умеют решать конкретные узкоспециализированные задачи, а при даже незначительном расширении поставленной задачи новыми вводными ведут себя непредсказуемо. Недаром глагол «галлюцинировать» применительно к работе искусственного интеллекта стал главным словом 2023 года по версии Кембриджского словаря. Следующим шагом в развитии ИИ станет то, что компания IBM (лидер по числу патентов в сфере машинного обучения) называет liquid intelligence – ИИ, который способен обобщить разнородную информацию, найти причинно-следственные связи и самостоятельно применить эти знания для решения новых задач.

В сфере информационной безопасности машинное обучение только делает первые шаги, но я уверена, что это движение в правильном направлении. Несомненно, мы продолжим совершенствовать модели машинного обучения, которые помогут сделать работу сотрудников службы информационной безопасности легче и эффективнее.

erid: 2SDnjeL1taC

* Реклама, Рекламодатель АО «ИнфоТеКС», ИНН 7710013769