Фишинг 2.0: как нейросети и Deepfake Voice стали оружием против бухгалтерии

Фишинг 2.0: как нейросети и Deepfake Voice стали оружием против бухгалтерии

Еще несколько лет назад звонок от руководителя считался надежным подтверждением любого решения. Сегодня этот уровень доверия ставится под сомнение. Нейросети научились воспроизводить голос, интонации и манеру речи топ-менеджеров настолько точно, что бухгалтерия становится уязвимой даже при соблюдении формальных процедур контроля. Голосовые дипфейки превращают классический фишинг в многоуровневую атаку, где ключевым фактором становится не технология, а психология. Cyber Media разбирает, как именно работают такие схемы и что может им противостоять.

Содержание

  1. Почему фишинг изменился: от писем к голосу
  2. Основные сценарии атак с использованием Deepfake Voice
  3. Насколько убедительны современные голосовые дипфейки
  4. Как бухгалтеру распознать поддельный голос
  5. Комбинированные атаки: когда одного звонка недостаточно
  6. Что действительно снижает риски для бухгалтерии
  7. Заключение

Почему фишинг изменился: от писем к голосу

Фишинг давно перестал быть примитивной попыткой обмануть невнимательного пользователя. Он эволюционировал вместе с корпоративной средой: атаки стали точечными, а легенды — максимально правдоподобными. Если раньше социальная инженерия опиралась в основном на текст, то сегодня в ее арсенале появился голос — самый привычный и психологически сильный канал делового общения.

Нейросети резко снизили порог входа в голосовые атаки. То, что раньше требовало сложной подготовки, теперь можно сделать на основе нескольких минут записей из публичных выступлений или рабочих созвонов. В результате фишинг перестал быть исключительно «почтовой» угрозой и превратился в мультимодальную атаку, где голос часто становится решающим элементом.

В такой модели одного контакта действительно достаточно. Письмо может создать контекст, а звонок — подтолкнуть к действию. Или наоборот: внезапный голосовой запрос звучит настолько убедительно и срочно, что у человека просто не возникает импульса что-то перепроверять.

Особенно уязвимой в этой схеме оказывается бухгалтерия. Это точка, где сходятся деньги, формализованные процедуры и жесткая управленческая иерархия. Бухгалтеры привыкли выполнять запросы руководства быстро и точно, а финансовые процессы часто опираются на доверие к каналу связи: «узнаваемый» голос, корпоративная почта, привычный мессенджер. Deepfake Voice ломает эту модель полностью — теперь подделать можно не только письмо, но и сам фактор авторитета.

Для ИБ-специалистов это означает, что классические предположения о доверии больше не работают. Риски смещаются из технической плоскости в процессную и психологическую, а защита финансовых операций требует пересмотра базовых допущений. В частности:

  • голос больше нельзя считать надежным фактором аутентификации;
  • одного «подтвержденного» канала связи уже недостаточно;
  • финансовые регламенты должны учитывать давление, срочность и человеческий фактор как часть модели угроз.

Фишинг изменился не потому, что стал «умнее», а потому что стал ближе к реальности бизнеса. И именно поэтому атаки с использованием голоса сегодня работают там, где раньше срабатывали только сложные технические компрометации.

Основные сценарии атак с использованием Deepfake Voice

Один из популярных сценариев — подделка голоса финансового директора или главного бухгалтера. Такие звонки звучат спокойнее и «технически» корректнее: используются правильные термины, упоминаются реальные процессы, внутренние обозначения и знакомые бухгалтеру детали. За счет этого разговор воспринимается как обычное рабочее взаимодействие, в котором просьба провести платеж или изменить реквизиты не выглядит чем-то необычным.

Мария Сергеева

Специалист группы социально-технического тестирования Бастион

Если рассматривать текущий ландшафт атак с использованием Deepfake Voice именно в контексте финансовых служб, то на практике чаще всего злоумышленники эксплуатируют сценарии с имитацией голоса генерального директора или собственника бизнеса. Это не случайный выбор: голоса первых лиц организации сегодня легко можно собрать из открытых источников — интервью, вебинары, записи корпоративных мероприятий, выступления на конференциях. Для построения рабочей модели уже не требуется десятков часов аудио, достаточно нескольких минут качественной записи.

Отдельную группу составляют сценарии с внешними фигурами — аудиторами, представителями банка или ключевыми партнерами. Здесь мошенники играют на формальном авторитете и страхе допустить ошибку: «вопрос по результатам проверки», «проблема с транзакцией», «нужно срочно подтвердить данные». Часто такие звонки подкрепляются письмами или реальными фрагментами переписки, что дополнительно усиливает доверие.

Эффективность всех этих ролей объясняется просто: в нормальной бизнес-логике им не принято противоречить. Запросы от руководства, финансового блока или внешнего контролирующего субъекта воспринимаются как часть процесса, а не как потенциальная атака. Deepfake Voice встраивается в эту модель идеально, подменяя не человека, а сам фактор доверия — и именно поэтому такие сценарии работают.

Насколько убедительны современные голосовые дипфейки

Современный синтез речи ушел далеко от «роботизированных» голосов. Нейросети уверенно воспроизводят индивидуальный темп речи, характерные паузы, интонационные акценты и базовые эмоциональные состояния. Для слуха это звучит достаточно естественно, особенно если разговор короткий и проходит в привычном рабочем контексте. Бухгалтеру не с чем сравнивать — он слышит ровно то, что ожидает услышать.

Мария Сергеева

Специалист группы социально-технического тестирования Бастион

Современные технологии синтеза речи достигли уровня, при котором качество сгенерированного голоса обеспечивает высокую степень убедительности и практически неотличимо от человека.

Cтоит учитывать и то, что подобного рода голосовые подделки не существуют в вакууме, а подкрепляются претекстингом — заранее подготовленным сценарием звонка. Проблема усугубляется тем, что многие финансовые процессы до сих пор предполагают доверие к голосу как фактору аутентификации, хотя с технической точки зрения он сегодня является уязвимым идентификатором.

Критичен не столько сам звук, сколько его попадание в рабочую ситуацию. Голосовой дипфейк эффективно работает, потому что встраивается в уже идущий процесс и не выглядит чем-то внешним. В этот момент внимание бухгалтера смещается с проверки источника запроса на корректность его исполнения.

Deepfake Voice не взламывает финансовый контроль технически. Он делает его опциональным на уровне восприятия человека — и именно поэтому современные голосовые подделки оказываются настолько убедительными.

Как бухгалтеру распознать поддельный голос

Даже самый качественный дипфейк редко бывает идеальным. На уровне восприятия есть признаки, которые могут насторожить внимательного бухгалтера. Один из них — нетипичная структура разговора. Мошенник старается идти по заранее подготовленному сценарию и избегает уточняющих вопросов, пытается минимизировать детали. Если собеседник увиливает от привычных процедур, это повод обратить внимание.

Другой сигнал — давление на скорость принятия решения. «Срочно», «обсуждать некогда», «подключать кого-то еще не нужно» — такие фразы создают ощущение, что действовать нужно без промедления. Именно это отключает привычные механизмы проверки и заставляет выполнять указания автоматически.

Диана Селехина

Руководитель направления противодействия фишингу и цифровым угрозам компании «ЕСА Про» (входит в ГК «Кросс технолоджис»)

Основные признаки, которые могут указать, что голос фальшивый — неестественные интонации, неправильные ударения в словах, слишком долгие или, наоборот, чересчур короткие паузы, несоответствующий реальному руководителю стиль речи и так далее. Искусственный интеллект становится лучше, действительно, сейчас становится все труднее отличить синтезированный голос от реального, но изъяны все еще есть, и их можно заметить.

Наконец, всегда важно проверять контекст. Несоответствия внутренним процессам, необычные термины или странные детали — все это может быть сигналом того, что голос принадлежит не реальному человеку, а нейросети. В сочетании эти признаки помогают бухгалтеру вовремя заметить попытку атаки и не совершить ошибку.

Комбинированные атаки: когда одного звонка недостаточно

Опасность комбинированных атак не в количестве каналов, а в том, как они распределяют доверие. Каждый контакт по отдельности выглядит недостаточно критичным, чтобы останавливать процесс или поднимать тревогу. Письмо — «просто уведомление», звонок — «уточнение», сообщение в мессенджере — «фиксация договоренностей». В сумме они создают иллюзию нормального рабочего фона.

Фишинговое письмо в таких атаках выполняет не роль приманки, а роль ориентира. Оно задает тему и терминологию, к которым бухгалтер привыкает еще до активных действий. Когда позже появляется голос, он не требует объяснений — он звучит как продолжение уже знакомой истории.

Голосовой дипфейк в этой цепочке решает другую задачу: он снимает сомнения, а не создает их. Если письмо можно перечитать и перепроверить, то голос переводит ситуацию в режим взаимодействия, где проверка становится неудобной и «неуместной». Именно здесь происходит смещение от контроля к исполнению.

Федор Музалевский

Директор технического департамента RTM Group

Последовательность действий (особенно согласованная) всегда приближала негодяев к успеху. Если сообщение голосом, переписка в мессенджере отсылают к некому электронному (а порой и бумажному) письму, то доверие жертвы повышается. Поэтому преступники часто отправляют сообщение по электронке с хорошо проработанным внешним видом (почти не отличишь) якобы от партнера для срочного перевода с комментарием: «дополнительные детали вышлет вам руководитель в голосовом сообщении», например. Или в Telegram — с поддельного аккаунта. Вариантов сейчас много. Важно, что несколько каналов всегда эффективнее по воздействию, чем один. В этой ситуации важно одно — не расслабляться. И постоянно быть начеку.

Компрометация почты и реальных переписок делает атаку особенно устойчивой. В этот момент бухгалтер сталкивается не с фальшивым запросом, а с модифицированной реальностью, где все элементы — адреса, подписи, цепочки писем — выглядят корректно. Голосовой дипфейк здесь уже не убеждает, а просто подтверждает то, что «и так выглядит нормально».

В итоге комбинированная атака работает за счет распределения доверия между каналами. Ни один из них не выглядит опасным в отдельности — и именно поэтому вся цепочка остается незамеченной до момента, когда деньги уже ушли.

Что действительно снижает риски для бухгалтерии

Защита бухгалтерии от атак с дипфейками требует сочетания процессов, технологий и культуры. Одних технологий здесь недостаточно: даже самая точная система распознавания голоса не сможет остановить человека, который действует по привычке или под давлением.

Организационные меры остаются основой: четкие регламенты, правило второго канала, сценарные инструкции и регулярные тренировки. Если бухгалтеру придет необычный запрос на оплату, он должен знать точный порядок действий, а не полагаться на интуицию. Второй канал подтверждения — звонок на мобильный руководителя, проверка через корпоративный мессенджер, электронная подпись — снижает риск, что голосовой дипфейк станет единственным источником доверия.

Технологии помогают делать эти процессы надежнее. Контроль аномалий, антифрод-системы и детекторы дипфейков фиксируют несоответствия, сигнализируют о подозрительных транзакциях и дают повод для проверки. Но они работают только тогда, когда человек знает, как на эти сигналы реагировать.

Диана Селехина

Руководитель направления противодействия фишингу и цифровым угрозам компании «ЕСА Про» (входит в ГК «Кросс технолоджис»)

Во-первых, повышение осведомленности сотрудников — каждое направление должно получать четкие инструкции, как действовать в случае мошеннической атаки, как ее отличить, какие операции нельзя выполнять под давлением и так далее. Это сделает самого человека главным средством защиты от злоумышленников.

Во-вторых, с точки зрения организационных мер, необходимо запретить распоряжения по голосу и всегда требовать письменное подтверждение, разделять полномочия того, кто инициирует платеж, и того, кто его проверяет.

В-третьих, с технической точки зрения необходимо исключить голос как фактор авторизации, обязательно проводить операции только через защищенные системы и использовать многофакторную аутентификацию для бухгалтерских систем.

Не менее важна корпоративная культура: бухгалтер должен чувствовать, что имеет право остановить платеж, задать уточняющий вопрос или свериться с коллегой без страха наказания. Именно культура безопасности превращает технические и организационные меры в реальный барьер для мошенника.

Такой подход превращает бухгалтерию из «слабого звена» в активный барьер для мошенников, а не оставляет защиту только на антифрод-алгоритмах.

Заключение

Голосовые дипфейки стали частью арсенала мошенников: дешево, масштабируемо и убедительно. Модель доверия, основанная на узнаваемом голосе или привычном канале связи, перестает работать.

Сегодня финансовая безопасность — это не только ИТ-контроль, но и процессы, которые проверяют сам факт операции: ее логику, уместность и соответствие установленным правилам. Компании должны пересмотреть регламенты, закрепить право сотрудников проверять любые запросы и обучить персонал действовать под давлением, не полагаясь на голос или канал связи.

В мире, где голос можно подделать так же легко, как письмо, устойчивыми остаются только те процессы, которые строятся на проверяемых и воспроизводимых подтверждениях. Именно это и становится новой нормой защиты финансовых операций.

похожие материалы

Стрелочка
Стрелочка
Конвергентный BRAS, как первый эшелон обороны оператора против массированных DDoS-атак
Конвергентный BRAS, как первый эшелон обороны оператора против массированных DDoS-атак

Современные операторы связи сталкиваются с беспрецедентными вызовами: взрывном рост трафика, усложнением архитектуры сетей, участившиеся кибератаки и постоянно растущие ожидания абонентов от качества и непрерывности сервиса.