Представлена новая ИИ-модель для борьбы с голосовым мошенничеством

Ученые Института AIRI и МТУСИ предложили новую модель детекции поддельных сгенерированных голосов под названием AASIST3. Представленная архитектура вошла в топ-10 лучших решений международного соревнования ASVspoof 2024 Challenge . Модель применима для противодействия голосовому мошенничеству и повышению безопасности систем, использующих голосовую аутентификацию.

Системы голосовой биометрии (ASV) помогают идентифицировать людей на основе их голосовых характеристик. Их используют для аутентификации пользователей при проведении финансовых транзакций и эксклюзивном контроле доступа в смарт-устройствах, а также в противодействии телефонному мошенничеству нового поколения.

Модели распознавания голоса могут быть уязвимы к состязательным атакам, когда определенным образом настроенное небольшое изменение входного аудио приводит к значительному изменению результатов работы модели, для человека же оно незаметно или незначительно. В поиске способов обойти преграды систем безопасности, злоумышленники научились генерировать синтетический голос с помощью преобразования текста в речь (text-to-speech, TTS) и преобразования голоса (voice conversion, VC). Для эффективного противодействия таким атакам необходимо внедрение систем защиты от подмены голоса.

ИИ-модель AASIST для анализа аудиоряда была продемонстрирована коллективом ученых из Южной Кореи и Франции в 2021 году и показала высокую надежность, подтвержденную многочисленными исследованиями. В то же время, с бурным развитием генеративного ИИ после 2022 года ей перестало хватать качественного функционала для обнаружения синтетических голосов. Использовав AASIST в качестве базы, команда «Доверенные и безопасные интеллектуальные системы» AIRI и команда НИО «Интеллектуальные решения» МТУСИ при участии аспиранта Сколтеха сформировала новую архитектуру для выявления поддельных синтезированных голосов.

Применение сети Колмогорова-Арнольда (KAN), дополнительных слоев и предварительного обучения, лучшего feature extractor, а также специальных обучающих функций, позволило улучшить производительность модели более чем в два раза по сравнению с базовым решением. Кроме того, созданная модель демонстрирует лучшую обобщающую способность к новым видам атак.

Олег Рогов, руководитель научной группы “Доверенные и безопасные интеллектуальные системы” AIRI:

"Важно использовать современные нейросети для противодействия голосовому спуфингу, потому что злоумышленники постоянно совершенствуют свои инструменты. Технологии TTS и VC позволяют создавать синтетические голоса, которые уже сейчас очень трудно отличить от настоящих. Преимущество KAN-сетей заключается в их способности учитывать контекст и знания о голосовых данных, позволяя более эффективно различать подлинный голос и его подделку. Такие сети не только распознают подделки с высокой точностью, но и способны адаптироваться к новым типам угроз. Внедрение подобных передовых методов существенно повышает уровень безопасности и защищенности от атак, основанных на подмене голоса"

Грач Мкртчян, Руководитель НИО «Интеллектуальные решения» МТУСИ

“AASIST3 демонстрирует потенциал для практического применения в различных сферах, включая финансовый сектор и телекоммуникации. Основная цель разработки –– противодействие голосовому мошенничеству и повышение безопасности систем, использующих голосовую аутентификацию.

Интеграция в бизнес может осуществляться различными способами, от внедрения отдельного программного решения до встраивания в существующие системы безопасности через API. Потребность в подобных технологиях высока, учитывая растущую угрозу атак с использованием синтетических голосов”.