Светлана Старовойт, ИнфоТеКС: Машинное обучение в сфере ИБ пока только делает первые шаги, но это уверенное движение в правильном направлении

Светлана Старовойт, ИнфоТеКС: Машинное обучение в сфере ИБ пока только делает первые шаги, но это уверенное движение в правильном направлении

Светлана Старовойт, руководитель продуктового направления ИнфоТеКС, рассказала порталу Cyber Media о такой форме применения искусственного интеллекта как машинное обучение, поделилась историей появления технологии в компании, ее роли в современных средствах защиты информации, обозначила проблемы, с которыми приходится сталкиваться разработчикам, и векторы развития.

Cyber Media: Искусственный интеллект (ИИ) стал неотъемлемой частью современных средств защиты. Действительно ли в кибербезопасности уже не обойтись без ИИ?

Светлана Старовойт: На самом деле информационная безопасность (ИБ) одно из самых консервативных направлений информационных технологий и искусственный интеллект в средствах защиты встречается не так часто.

Для примера в реестре российского ПО из 18792 (на 20 ноября 2023 года) записей признак относящегося к сфере искусственного интеллекта имеют 119 продуктов, из которых всего 4 относятся к классам средств защиты информации.

При этом мы видим, что развитие направления ИИ позволяет все более успешно использовать его в реализации различных сценариев по защите информации. Речь, конечно, не идёт о том, чтобы заменить сотрудников службы информационной безопасности искусственным интеллектом, но оказать помощь в принятии решения он действительно может.

Вообще понятие искусственного интеллекта представляет собой широкую концепцию создания «умных» систем, направленную на имитацию когнитивных функций человека в решении произвольных задач при любых возможных условиях и получающих результат, как минимум, сопоставимый с результатами интеллектуальной деятельности человека. Давайте договоримся, что далее речь будет идти только об одной, наиболее распространенной на данный момент, форме применения искусственного интеллекта – машинном обучении.

Технологии машинного обучения – это множество математических, статистических и вычислительных методов для разработки алгоритмов, способных решить задачу не прямым способом, а на основе поиска закономерностей в разнообразных входных данных.

В сфере информационной безопасности с помощью методов чаще всего успешно решаются задачи классификации, кластеризации и идентификации. Более сложные задачи прогнозирования и извлечения знаний – это скорее будущее.

Cyber Media: Когда компания ИнфоТеКС начала использование ИИ в своих продуктах? И в каких решениях он сейчас применяется?

Светлана Старовойт: Сначала искусственный интеллект зародился не в продукте компании, а в центре мониторинга угроз ИБ нашей дочерней компании «Перспективный мониторинг». Специалисты центра мониторинга попробовали применить модель машинного обучения для анализа событий информационной безопасности с сетевых сенсоровViPNet IDS NSc целью выявления признаков взлома и работы вредоносного ПО. Известная проблема – вирусы слишком быстро модифицируются, новые уязвимости и эксплойты появляются каждую минуту, что делает сигнатурные методы анализа не слишком эффективными. И тут как раз на помощь могут прийти методы машинного обучения, способные с определенной достоверностью выявлять подозрительные объекты не по полному совпадению признаков, а лишь частичному. Модель хорошо себя показала в качестве инструмента для решения собственных задач и далее увидела свет уже в коммерческом продукте компании «ИнфоТеКС» – системе интеллектуального анализа событий информационной безопасности ViPNet TIAS.

Первый релиз ViPNet TIAS со встроенной моделью обучения состоялся еще в 2018 году. С тех пор мы набрались опыта работ с алгоритмами машинного обучения, модифицировали и дополнили исходную модель и разработали новые модели для наших продуктов. В продуктах для защиты конечных устройств ViPNet EPP с помощью методов машинного обучения решаются задачи поиска аномалий при запуске ПО, обнаружения активности вредоносного программного обеспечения. В сетевом сенсоре ViPNet IDS NS реализованы алгоритмы поиска аномалий сетевой активности на защищаемых узлах. В высокой стадии готовности модели обнаружения в трафике фишинговых доменов по признакам автоматически сгенерированных доменных имен и признаков общения защищаемых узлов с командным центром злоумышленника.

В настоящее время целый отдел нашей компании занимается исследованием данных, и в разработке одновременно находится около десятка моделей машинного обучения в разных стадиях – от исследования гипотез до внедрения в конечный продукт. Для формулирования и проверки гипотез мы привлекаем специалистов нашего центра научных исследований и перспективных разработок, на счету которых уже есть зарегистрированные патенты в сфере машинного обучения.

Конечно не все разработки доходят до внедрения в наши продукты, а только те модели, которые показали свою высокую эффективность в реальных условиях. Так было проверено около 40 гипотез, разработано более 20 прототипов, и только 5 моделей машинного обучения дошли до конечного потребителя в составе наших средств защиты информации (СЗИ).

Cyber Media: С какими проблемами приходится сталкиваться при использовании ИИ?

Светлана Старовойт: Я бы обозначила 4 основные проблемы:

  • проблема безопасности использования методов машинного обучения в СЗИ;
  • проблема сбора и подготовки данных для обучения моделей;
  • проблема интерпретируемости результатов работы моделей;
  • необходимость больших вычислительных мощностей для работы и обучения модели и, как следствие, высокая стоимость конечного решения.

Главным препятствием для использования моделей машинного обучения в критических информационных системах является проблема, связанная с устойчивостью алгоритмов данного класса к внешним воздействиям – атакам на модели машинного обучения (воздействие на нейронную сеть, вызывающее ошибки в её результатах). Причем атака может осуществляться как с использованием уязвимостей в программном обеспечении, так и с помощью данных для обучения модели. Поэтому для реализации алгоритмов машинного обучения мы используем готовые фреймворки и библиотеки с открытым исходным кодом только на этапах создания и тестирования прототипов, а для встраивания в конечный продукт реализуем эти алгоритмы на более низкоуровневых языках с использованием практик SDL и MLOps. Такой подход увеличивает время разработки и ее стоимость, но мы, как разработчики, отвечаем за безопасность конечного продукта.

Вторая проблема использования моделей машинного обучения связана со сбором и подготовкой исходных данных. Самая лучшая модель машинного обучения бессмысленна без хороших данных для ее обучения. Нам в этом смысле повезло, так как имея под рукой (в группе компаний) центр мониторинга, у нас есть доступ к большому количеству данных. К сожалению, просто большие данные – это хорошо, но мало, так как наиболее действенными методами обучения в сфере ИБ являются методы обучения с учителем и с подкреплением, в которых не обойтись без разметки данных, а качественно разметить данные могут только высококвалифицированные эксперты, которые, конечно, есть в нашем центре мониторинга, но их время стоит очень дорого. Проблему можно решать за счет использования других методов обучения, где это возможно, и частичной автоматизацией процесса разметки данных.

Третья проблема – это проблема интерпретируемости результатов работы моделей и доверия к ним как на этапе тестирования, так и в процессе эксплуатации. Алгоритмы машинного обучения никогда не дают 100% точности. Результаты выбора модели решения часто бывают неочевидны, особенно при использовании нейронных сетей с глубоким обучением. И тут встает вопрос доверия результатам работы модели, где нужно либо опять привлекать высокооплачиваемого эксперта, либо учить модель саму объяснять свои выводы – повышать интерпретируемость модели, что значительно сложнее, чем разработать модель с принципом работы «черный ящик». В реальной жизни чаще всего конечное решение принимает не модель, а специалист по информационной безопасности, а модель только оказывает определенное влияние на решение человека, предоставляя один из вариантов анализа информации. И уж тем более ответственность за принятие решения всегда на человеке. В такой ситуации чем выше интерпретируемость модели машинного обучения, тем легче человеку понять, почему моделью были приняты определенные решения или сделаны прогнозы. Вы, наверное, можете сказать, что ведь это ваша задача как разработчиков повысить точность работы модели, и это верно, если процесс обучения полностью находится под нашим контролем. Но если модель проходит обучение и дообучение на данных заказчика, то существует проблема дрейфа данных, при котором со временем происходит деградация модели. Именно поэтому процесс разработки продуктов с механизмом машинного обучения не заканчивается поставкой продукта заказчику. Необходимо также продумывать и реализовывать процесс контроля работы модели при эксплуатации продукта.

Ну и, наверное, самая простая проблема, которая скорее не проблема, а расходы – это высокая требовательность механизмов машинного обучения к вычислительным мощностям для работы и особенно для обучения модели. Учитывая, что эксплуатация наших продуктов не предполагает использования облачных сервисов, все модели, встроенные в конечное решение, должны работать локально. Нам приходится решать задачу за счет оптимизации алгоритмов и использования специализированных устройств и утилит, позволяющих оптимизировать работу наших аппаратных платформ для целей машинного обучения.

Cyber Media: Роль ИИ в информационной безопасности сегодня, и как ИИ будет помогать в защите информации в будущем?

Светлана Старовойт: Сейчас модели машинного обучения хорошо умеют решать конкретные узкоспециализированные задачи, а при даже незначительном расширении поставленной задачи новыми вводными ведут себя непредсказуемо. Недаром глагол «галлюцинировать» применительно к работе искусственного интеллекта стал главным словом 2023 года по версии Кембриджского словаря. Следующим шагом в развитии ИИ станет то, что компания IBM (лидер по числу патентов в сфере машинного обучения) называет liquid intelligence – ИИ, который способен обобщить разнородную информацию, найти причинно-следственные связи и самостоятельно применить эти знания для решения новых задач.

В сфере информационной безопасности машинное обучение только делает первые шаги, но я уверена, что это движение в правильном направлении. Несомненно, мы продолжим совершенствовать модели машинного обучения, которые помогут сделать работу сотрудников службы информационной безопасности легче и эффективнее.

 

erid: 2SDnjeL1taC

* Реклама, Рекламодатель АО «ИнфоТеКС», ИНН 7710013769

похожие материалы

Стрелочка
Стрелочка
Екатерина Тьюринг, кибердетектив: Архитектура мессенджера MAX выстроена так, чтобы максимально верифицировать пользователя
Екатерина Тьюринг, кибердетектив: Архитектура мессенджера MAX выстроена так, чтобы максимально верифицировать пользователя

Екатерина Тьюринг, кибердетектив, в интервью для Кибер Медиа рассказала, почему социальная инженерия остается ключевым инструментом мошенников, как устроены современные схемы обмана и что на самом деле происходит с безопасностью пользователей в таких сервисах, как MAX.

Ольга Копейкина, AKTIV.CONSULTING: Базовая кибергигиена важнее погони за модными трендами рынка ИБ
Ольга Копейкина, AKTIV.CONSULTING: Базовая кибергигиена важнее погони за модными трендами рынка ИБ

Эксперты представили первый аналитический отчет об уровне зрелости ИБ в 52 российских компаниях, выявивший «парадокс роста»: огромные бюджеты корпораций не гарантируют лидерства в безопасности из-за масштабов и сложности их инфраструктуры.

Олег Иевлев, МТУСИ: ИБ перестанет быть узкоспециализированной дисциплиной и превратится в базовую компетенцию
Олег Иевлев, МТУСИ: ИБ перестанет быть узкоспециализированной дисциплиной и превратится в базовую компетенцию

Олег Иевлев, декан факультета КиИБ МТУСИ, в интервью для Кибер Медиа рассказал, как выстраивается баланс между академическим качеством и требованиями индустрии, какую роль в обучении играют киберполигоны и CTF, чего сегодня ждут работодатели от выпускников и почему информационная безопасность в ближайшие годы станет базовой компетенцией для всех технических специалистов.

Елена Бочерова, «Киберпротект»: Сейчас в ИТ настолько высокая конкуренция за кадры, что не так уж и важно, какого ты пола
Елена Бочерова, «Киберпротект»: Сейчас в ИТ настолько высокая конкуренция за кадры, что не так уж и важно, какого ты пола

На фоне дефицита кадров и трансформации рынка ИТ и ИБ участие женщин в отрасли остается противоречивым: с одной стороны, их доля растет, с другой — сохраняются как профессиональные, так и внутренние барьеры, замедляющие карьерное развитие.

Роман Семенов, Ростелеком: Если сотрудники не развиваются, то SOC превращается в обычную диспетчерскую службу
Роман Семенов, Ростелеком: Если сотрудники не развиваются, то SOC превращается в обычную диспетчерскую службу

Роман Семенов, директор департамента мониторинга и реагирования на киберугрозы блока информационной безопасности «Ростелекома», в интервью Cyber Media рассказал, как крупнейший в России интегрированный провайдер цифровых услуг и решений строит работу центра мониторинга информационной безопасности, справляется с новыми угрозами и готовит специалистов для защиты сети.

Кирилл Рудик, Cloud X: Миграция в облако не означает автоматической защиты всех систем клиента
Кирилл Рудик, Cloud X: Миграция в облако не означает автоматической защиты всех систем клиента

Кирилл Рудик, главный архитектор по кибербезопасности Cloud X, в интервью для Cyber Media рассказал, как меняется ландшафт облачных угроз, какие риски связаны с Kubernetes и cloud-native архитектурами и какие технологии уже в ближайший год могут стать стандартом де-факто в сфере облачной безопасности.

Андрей Масалович, КиберДед: Если вас не атаковали сегодня, значит, вы просто в планах на завтра
Андрей Масалович, КиберДед: Если вас не атаковали сегодня, значит, вы просто в планах на завтра

Андрей Масалович — ведущий эксперт по конкурентной разведке, известный широкой аудитории как блогер КиберДед, Президент Консорциума «Инфорус» и создатель аналитической технологии Avalanche.