Кибербезопасность

Обман с помощью глубокого подделывания голоса привел к краже 35 миллионов долларов в банке в 2020 году

Published October 15, 2021

Updated April 28, 2026

Martin Anderson

Расследование хищения 35 миллионов долларов США из банка в Объединенных Арабских Эмиратах в январе 2020 года показало, что технология глубокого подделывания голоса была использована для имитации голоса директора компании, известного менеджеру банка, который затем авторизовал транзакции.

Преступление было совершено 15 января прошлого года и описано в запросе (PDF) властей ОАЭ к американским властям с просьбой о помощи в отслеживании части похищенных средств, которые были переведены в Соединенные Штаты.

В запросе говорится, что менеджер филиала банка в ОАЭ получил телефонный звонок от знакомого голоса, который, вместе с сопровождающими электронными письмами от юриста Мартина Зельнера, убедил менеджера в необходимости перевести средства, которые, по-видимому, были предназначены для приобретения компании.

Запрос гласит:

‘Согласно эмиратским властям, 15 января 2020 года менеджер филиала компании-потерпевшего получил телефонный звонок, который якобы был от центральной компании. Голос звонившего был похож на голос директора компании, поэтому менеджер филиала считал, что звонок был законным.

‘Менеджер филиала также получил несколько электронных писем, которые, по его мнению, были от директора и были связаны с телефонным звонком. Звонивший сказал менеджеру филиала по телефону и электронной почте, что компания-потерпевшая собирается приобрести другую компанию, и что юрист по имени Мартин Зельнер (Зельнер) был уполномочен координировать процедуры приобретения.’

Менеджер филиала затем получил электронные письма от Зельнера, вместе с письмом с разрешением от (предполагаемого) директора, чей голос был знаком жертве.

Обнаружение мошенничества с помощью глубокого подделывания голоса

Эмиратские следователи затем установили, что технология глубокого подделывания голоса была использована для имитации голоса директора компании:

‘Эмиратское расследование показало, что обвиняемые использовали технологию “глубокого голоса”, чтобы симулировать голос директора. В январе 2020 года средства были переведены из компании-потерпевшего на несколько банковских счетов в других странах в сложной схеме, включающей не менее 17 известных и неизвестных обвиняемых. Эмиратские власти отследили движение денег через многочисленные счета и идентифицировали два транзакции в Соединенные Штаты.

’22 января 2020 года два перевода на сумму 199 987,75 долларов США и 215 985,75 долларов США были отправлены от двух обвиняемых на счета банка Centennial Bank с номерами xxxxx7682 и xxxxx7885 соответственно, расположенные в Соединенных Штатах.’

Нет дальнейшей информации о преступлении, которое является только вторым известным случаем мошенничества с использованием глубокого подделывания голоса. Первый случай произошел девять месяцев ранее, в марте 2020 года, когда исполнительный директор британской энергетической компании был обманут по телефону кем-то, кто звучал как его начальник, требуя срочного перевода 220 000 евро (243 000 долларов США), который сотрудник тогда осуществил.

Разработка технологии клонирования голоса

Глубокое подделывание голоса включает в себя обучение модели машинного обучения на сотнях или тысячах образцов “целевого” голоса (голоса, который будет имитироваться). Наиболее точное совпадение можно получить, обучая целевой голос直接 против голоса человека, который будет говорить в предложенном сценарии, хотя модель будет “переобучена” для человека, который будет имитировать целевой голос.

Самое активное легитимное онлайн-сообщество разработчиков технологии клонирования голоса – сервер Discord Audio Fakes, который включает в себя форумы для многих алгоритмов глубокого подделывания голоса, таких как Tacotron-2 от Google, Talknet, ForwardTacotron, Coqui-ai-TTS и Glow-TTS, среди других.

Реальное время глубоких подделок

Поскольку телефонный разговор по своей сути является интерактивным, мошенничество с помощью клонирования голоса не может быть разумно осуществлено с помощью “запечатанных” высококачественных аудиоклипов, и в обоих случаях мошенничества с помощью клонирования голоса мы можем разумно предположить, что говорящий использует живую, реальную систему глубоких подделок.

Реальные глубокие подделки в последнее время привлекли внимание из-за появления DeepFaceLive, реального времени реализации популярного пакета глубоких подделок DeepFaceLab, который может наложить знаменитости или другие идентификаторы на живое видео с веб-камеры. Хотя пользователи на сервере Discord Audio Fakes и сервере Discord DeepFaceLab интенсивно интересуются объединением этих двух технологий в единую архитектуру видео+голоса реального времени, пока не появился никакой такой продукт.