Еще несколько лет назад звонок от руководителя считался надежным подтверждением любого решения. Сегодня этот уровень доверия ставится под сомнение. Нейросети научились воспроизводить голос, интонации и манеру речи топ-менеджеров настолько точно, что бухгалтерия становится уязвимой даже при соблюдении формальных процедур контроля. Голосовые дипфейки превращают классический фишинг в многоуровневую атаку, где ключевым фактором становится не технология, а психология. Cyber Media разбирает, как именно работают такие схемы и что может им противостоять.
Содержание
Фишинг давно перестал быть примитивной попыткой обмануть невнимательного пользователя. Он эволюционировал вместе с корпоративной средой: атаки стали точечными, а легенды — максимально правдоподобными. Если раньше социальная инженерия опиралась в основном на текст, то сегодня в ее арсенале появился голос — самый привычный и психологически сильный канал делового общения.
Нейросети резко снизили порог входа в голосовые атаки. То, что раньше требовало сложной подготовки, теперь можно сделать на основе нескольких минут записей из публичных выступлений или рабочих созвонов. В результате фишинг перестал быть исключительно «почтовой» угрозой и превратился в мультимодальную атаку, где голос часто становится решающим элементом.
В такой модели одного контакта действительно достаточно. Письмо может создать контекст, а звонок — подтолкнуть к действию. Или наоборот: внезапный голосовой запрос звучит настолько убедительно и срочно, что у человека просто не возникает импульса что-то перепроверять.
Особенно уязвимой в этой схеме оказывается бухгалтерия. Это точка, где сходятся деньги, формализованные процедуры и жесткая управленческая иерархия. Бухгалтеры привыкли выполнять запросы руководства быстро и точно, а финансовые процессы часто опираются на доверие к каналу связи: «узнаваемый» голос, корпоративная почта, привычный мессенджер. Deepfake Voice ломает эту модель полностью — теперь подделать можно не только письмо, но и сам фактор авторитета.
Для ИБ-специалистов это означает, что классические предположения о доверии больше не работают. Риски смещаются из технической плоскости в процессную и психологическую, а защита финансовых операций требует пересмотра базовых допущений. В частности:
Фишинг изменился не потому, что стал «умнее», а потому что стал ближе к реальности бизнеса. И именно поэтому атаки с использованием голоса сегодня работают там, где раньше срабатывали только сложные технические компрометации.
Один из популярных сценариев — подделка голоса финансового директора или главного бухгалтера. Такие звонки звучат спокойнее и «технически» корректнее: используются правильные термины, упоминаются реальные процессы, внутренние обозначения и знакомые бухгалтеру детали. За счет этого разговор воспринимается как обычное рабочее взаимодействие, в котором просьба провести платеж или изменить реквизиты не выглядит чем-то необычным.
Мария Сергеева
Специалист группы социально-технического тестирования Бастион
Если рассматривать текущий ландшафт атак с использованием Deepfake Voice именно в контексте финансовых служб, то на практике чаще всего злоумышленники эксплуатируют сценарии с имитацией голоса генерального директора или собственника бизнеса. Это не случайный выбор: голоса первых лиц организации сегодня легко можно собрать из открытых источников — интервью, вебинары, записи корпоративных мероприятий, выступления на конференциях. Для построения рабочей модели уже не требуется десятков часов аудио, достаточно нескольких минут качественной записи.
Отдельную группу составляют сценарии с внешними фигурами — аудиторами, представителями банка или ключевыми партнерами. Здесь мошенники играют на формальном авторитете и страхе допустить ошибку: «вопрос по результатам проверки», «проблема с транзакцией», «нужно срочно подтвердить данные». Часто такие звонки подкрепляются письмами или реальными фрагментами переписки, что дополнительно усиливает доверие.
Эффективность всех этих ролей объясняется просто: в нормальной бизнес-логике им не принято противоречить. Запросы от руководства, финансового блока или внешнего контролирующего субъекта воспринимаются как часть процесса, а не как потенциальная атака. Deepfake Voice встраивается в эту модель идеально, подменяя не человека, а сам фактор доверия — и именно поэтому такие сценарии работают.
Современный синтез речи ушел далеко от «роботизированных» голосов. Нейросети уверенно воспроизводят индивидуальный темп речи, характерные паузы, интонационные акценты и базовые эмоциональные состояния. Для слуха это звучит достаточно естественно, особенно если разговор короткий и проходит в привычном рабочем контексте. Бухгалтеру не с чем сравнивать — он слышит ровно то, что ожидает услышать.
Мария Сергеева
Специалист группы социально-технического тестирования Бастион
Современные технологии синтеза речи достигли уровня, при котором качество сгенерированного голоса обеспечивает высокую степень убедительности и практически неотличимо от человека.
Cтоит учитывать и то, что подобного рода голосовые подделки не существуют в вакууме, а подкрепляются претекстингом — заранее подготовленным сценарием звонка. Проблема усугубляется тем, что многие финансовые процессы до сих пор предполагают доверие к голосу как фактору аутентификации, хотя с технической точки зрения он сегодня является уязвимым идентификатором.
Критичен не столько сам звук, сколько его попадание в рабочую ситуацию. Голосовой дипфейк эффективно работает, потому что встраивается в уже идущий процесс и не выглядит чем-то внешним. В этот момент внимание бухгалтера смещается с проверки источника запроса на корректность его исполнения.
Deepfake Voice не взламывает финансовый контроль технически. Он делает его опциональным на уровне восприятия человека — и именно поэтому современные голосовые подделки оказываются настолько убедительными.
Даже самый качественный дипфейк редко бывает идеальным. На уровне восприятия есть признаки, которые могут насторожить внимательного бухгалтера. Один из них — нетипичная структура разговора. Мошенник старается идти по заранее подготовленному сценарию и избегает уточняющих вопросов, пытается минимизировать детали. Если собеседник увиливает от привычных процедур, это повод обратить внимание.
Другой сигнал — давление на скорость принятия решения. «Срочно», «обсуждать некогда», «подключать кого-то еще не нужно» — такие фразы создают ощущение, что действовать нужно без промедления. Именно это отключает привычные механизмы проверки и заставляет выполнять указания автоматически.
Диана Селехина
Руководитель направления противодействия фишингу и цифровым угрозам компании «ЕСА Про» (входит в ГК «Кросс технолоджис»)
Основные признаки, которые могут указать, что голос фальшивый — неестественные интонации, неправильные ударения в словах, слишком долгие или, наоборот, чересчур короткие паузы, несоответствующий реальному руководителю стиль речи и так далее. Искусственный интеллект становится лучше, действительно, сейчас становится все труднее отличить синтезированный голос от реального, но изъяны все еще есть, и их можно заметить.
Наконец, всегда важно проверять контекст. Несоответствия внутренним процессам, необычные термины или странные детали — все это может быть сигналом того, что голос принадлежит не реальному человеку, а нейросети. В сочетании эти признаки помогают бухгалтеру вовремя заметить попытку атаки и не совершить ошибку.
Опасность комбинированных атак не в количестве каналов, а в том, как они распределяют доверие. Каждый контакт по отдельности выглядит недостаточно критичным, чтобы останавливать процесс или поднимать тревогу. Письмо — «просто уведомление», звонок — «уточнение», сообщение в мессенджере — «фиксация договоренностей». В сумме они создают иллюзию нормального рабочего фона.
Фишинговое письмо в таких атаках выполняет не роль приманки, а роль ориентира. Оно задает тему и терминологию, к которым бухгалтер привыкает еще до активных действий. Когда позже появляется голос, он не требует объяснений — он звучит как продолжение уже знакомой истории.
Голосовой дипфейк в этой цепочке решает другую задачу: он снимает сомнения, а не создает их. Если письмо можно перечитать и перепроверить, то голос переводит ситуацию в режим взаимодействия, где проверка становится неудобной и «неуместной». Именно здесь происходит смещение от контроля к исполнению.
Федор Музалевский
Директор технического департамента RTM Group
Последовательность действий (особенно согласованная) всегда приближала негодяев к успеху. Если сообщение голосом, переписка в мессенджере отсылают к некому электронному (а порой и бумажному) письму, то доверие жертвы повышается. Поэтому преступники часто отправляют сообщение по электронке с хорошо проработанным внешним видом (почти не отличишь) якобы от партнера для срочного перевода с комментарием: «дополнительные детали вышлет вам руководитель в голосовом сообщении», например. Или в Telegram — с поддельного аккаунта. Вариантов сейчас много. Важно, что несколько каналов всегда эффективнее по воздействию, чем один. В этой ситуации важно одно — не расслабляться. И постоянно быть начеку.
Компрометация почты и реальных переписок делает атаку особенно устойчивой. В этот момент бухгалтер сталкивается не с фальшивым запросом, а с модифицированной реальностью, где все элементы — адреса, подписи, цепочки писем — выглядят корректно. Голосовой дипфейк здесь уже не убеждает, а просто подтверждает то, что «и так выглядит нормально».
В итоге комбинированная атака работает за счет распределения доверия между каналами. Ни один из них не выглядит опасным в отдельности — и именно поэтому вся цепочка остается незамеченной до момента, когда деньги уже ушли.
Защита бухгалтерии от атак с дипфейками требует сочетания процессов, технологий и культуры. Одних технологий здесь недостаточно: даже самая точная система распознавания голоса не сможет остановить человека, который действует по привычке или под давлением.
Организационные меры остаются основой: четкие регламенты, правило второго канала, сценарные инструкции и регулярные тренировки. Если бухгалтеру придет необычный запрос на оплату, он должен знать точный порядок действий, а не полагаться на интуицию. Второй канал подтверждения — звонок на мобильный руководителя, проверка через корпоративный мессенджер, электронная подпись — снижает риск, что голосовой дипфейк станет единственным источником доверия.
Технологии помогают делать эти процессы надежнее. Контроль аномалий, антифрод-системы и детекторы дипфейков фиксируют несоответствия, сигнализируют о подозрительных транзакциях и дают повод для проверки. Но они работают только тогда, когда человек знает, как на эти сигналы реагировать.
Диана Селехина
Руководитель направления противодействия фишингу и цифровым угрозам компании «ЕСА Про» (входит в ГК «Кросс технолоджис»)
Во-первых, повышение осведомленности сотрудников — каждое направление должно получать четкие инструкции, как действовать в случае мошеннической атаки, как ее отличить, какие операции нельзя выполнять под давлением и так далее. Это сделает самого человека главным средством защиты от злоумышленников.
Во-вторых, с точки зрения организационных мер, необходимо запретить распоряжения по голосу и всегда требовать письменное подтверждение, разделять полномочия того, кто инициирует платеж, и того, кто его проверяет.
В-третьих, с технической точки зрения необходимо исключить голос как фактор авторизации, обязательно проводить операции только через защищенные системы и использовать многофакторную аутентификацию для бухгалтерских систем.
Не менее важна корпоративная культура: бухгалтер должен чувствовать, что имеет право остановить платеж, задать уточняющий вопрос или свериться с коллегой без страха наказания. Именно культура безопасности превращает технические и организационные меры в реальный барьер для мошенника.
Такой подход превращает бухгалтерию из «слабого звена» в активный барьер для мошенников, а не оставляет защиту только на антифрод-алгоритмах.
Голосовые дипфейки стали частью арсенала мошенников: дешево, масштабируемо и убедительно. Модель доверия, основанная на узнаваемом голосе или привычном канале связи, перестает работать.
Сегодня финансовая безопасность — это не только ИТ-контроль, но и процессы, которые проверяют сам факт операции: ее логику, уместность и соответствие установленным правилам. Компании должны пересмотреть регламенты, закрепить право сотрудников проверять любые запросы и обучить персонал действовать под давлением, не полагаясь на голос или канал связи.
В мире, где голос можно подделать так же легко, как письмо, устойчивыми остаются только те процессы, которые строятся на проверяемых и воспроизводимых подтверждениях. Именно это и становится новой нормой защиты финансовых операций.