Погляд Anderson
Голосові дипфейки дозволили здійснити крадіжку банку на суму 35 мільйонів доларів у 2020 році

Розслідування щодо шахрайства з викраденням 35 мільйонів доларів США з банку в Об’єднаних Арабських Еміратах у січні 2020 року показало, що технологія глибоких підделок голосу була використана для імітації директора компанії, знайомого менеджеру банку, який потім авторизував транзакції.
Цей злочин стався 15 січня минулого року і описаний у запиті (PDF) від ОАЕ до американських державних органів щодо допомоги у відстеженні частини викрадених коштів, які були надіслані до США.
У запиті зазначено, що менеджер філії банку в ОАЕ отримав телефонний дзвінок від знайомого голосу, який, разом з супровідними електронними листами від юриста на ім’я Мартін Зельнер, переконав менеджера виділити кошти, які, як видається, були призначені для придбання компанії.
У запиті зазначено:
‘За даними еміратських органів влади, 15 січня 2020 року менеджер філії компанії-потерпілого отримав телефонний дзвінок, який назвався дзвінком від центрального офісу компанії. Дзвінок звучав як голос директора компанії, тому менеджер вважав дзвінок легітимним.
‘Менеджер філії також отримав кілька електронних листів, які, на його думку, були від директора компанії та були пов’язані з телефонним дзвінком. Дзвінок сказав менеджеру по телефону та електронній пошті, що компанія-потерпіла мала придбати іншу компанію, і що юрист на ім’я Мартін Зельнер (Зельнер) був уповноважений координувати процедури придбання.’
Менеджер філії потім отримав електронні листи від Зельнера, разом з листом про авторизацію від (фальшивого) директора, чиїм голосом був знайомий потерпілому.
Виявлення шахрайства з голосовими дипфейками
Еміратські слідчі потім встановили, що технологія клонування голосу дипфейків була використана для імітації голосу директора компанії:
‘Еміратське розслідування показало, що обвинувачені використовували технологію “глибокого голосу”, щоб симулювати голос директора. У січні 2020 року кошти були переведені з компанії-потерпілого на кілька банківських рахунків в інших країнах у складній схемі, що涉ало щонайменше 17 відомих і невідомих обвинувачених. Еміратські органи влади відстежили рух коштів через численні рахунки та ідентифікували два транзакції до США.
’22 січня 2020 року два перекази на суму 199 987,75 доларів США та 215 985,75 доларів США були надіслані від двох обвинувачених на банківські рахунки Centennial Bank з номерами xxxxx7682 та xxxxx7885 відповідно, розташовані у США.’
Немає подальших відомостей щодо цього злочину, який є лише другим відомим випадком фінансового шахрайства з використанням голосових дипфейків. Перший випадок стався за дев’ять місяців до того, у березні 2020 року, коли виконавчий директор британської енергетичної компанії був обманутий телефонним дзвінком, який звучав як голос його боса, який вимагав термінового переказу 220 тисяч євро (243 тисячі доларів США), який працівник тоді здійснив.
Розробка клонування голосу
Клонування голосу дипфейків включає навчання моделі машинного навчання на сотнях або тисячах зразків “цільового” голосу (голосу, який буде імітуватися). Найточніший збіг можна отримати шляхом прямого навчання цільового голосу проти голосу людини, яка буде говорити у запропонованому сценарії, хоча модель буде “переобучена” для людини, яка буде імітувати цільовий голос.
Найактивнішою легітимною онлайн-спільнотою для розробників клонування голосу є сервер Discord Audio Fakes, який містить форуми для багатьох алгоритмів клонування голосу дипфейків, таких як Tacotron-2 від Google, Talknet, ForwardTacotron, Coqui-ai-TTS та Glow-TTS, серед інших.
Дипфейки в реальному часі
Оскільки телефонна розмова є інтерактивною, шахрайство з клонуванням голосу не може бути здійснено за допомогою “запечатаних” високоякісних голосових кліпів, і в обох випадках шахрайства з клонуванням голосу ми можемо розумно припустити, що диктор використовує живу, реальну систему дипфейків.
Дипфейки в реальному часі стали актуальними останнім часом завдяки появі DeepFaceLive, реалізації популярного пакету дипфейків DeepFaceLab, який може накладати знаменитостей або інші ідентичності на живе відео з веб-камери. Хоча користувачі на Audio Fakes Discord і DeepFaceLab Discord інтенсивно зацікавлені в поєднанні цих двох технологій у єдину архітектуру відео+голос дипфейків у реальному часі, жодного такого продукту поки не з’явилося.












