Keamanan siber

Penipuan Suara Deepfaked yang Memungkinkan Pencurian Bank $35 Juta pada 2020

Published October 15, 2021

Updated April 28, 2026

Martin Anderson

Investigasi atas penipuan $35 juta USD dari sebuah bank di Uni Emirat Arab pada Januari 2020 telah menemukan bahwa teknologi suara deepfake digunakan untuk meniru suara direktur perusahaan yang dikenal oleh manajer cabang bank, yang kemudian mengotorisasi transaksi tersebut.

Kejahatan tersebut terjadi pada 15 Januari tahun lalu, dan diuraikan dalam sebuah permintaan (PDF) oleh UAE kepada otoritas negara bagian Amerika untuk membantu melacak sebagian dari dana yang disedot yang dikirim ke Amerika Serikat.

Permintaan tersebut menyatakan bahwa manajer cabang bank korban di UAE menerima panggilan telepon dari suara yang familiar, yang, bersama dengan email dari seorang pengacara bernama Martin Zelner, meyakinkan manajer untuk membayar dana tersebut, yang tampaknya dimaksudkan untuk akuisisi perusahaan.

Permintaan tersebut menyatakan:

‘Menurut otoritas Emirat, pada 15 Januari 2020, manajer cabang Perusahaan Korban menerima panggilan telepon yang mengaku berasal dari kantor pusat perusahaan. Penelepon terdengar seperti Direktur perusahaan, sehingga manajer cabang percaya bahwa panggilan tersebut sah.

‘Manajer cabang juga menerima beberapa email yang diyakininya berasal dari Direktur yang terkait dengan panggilan telepon. Penelepon mengatakan kepada manajer cabang melalui telepon dan email bahwa Perusahaan Korban akan segera mengakuisisi perusahaan lain, dan bahwa seorang pengacara bernama Martin Zelner (Zelner) telah diberi wewenang untuk mengkoordinasikan prosedur akuisisi.’

Manajer cabang kemudian menerima email dari Zelner, bersama dengan surat kuasa dari (supposed) Direktur, yang suaranya familiar bagi korban.

Penipuan Suara Deepfake Teridentifikasi

Investigator Emirat kemudian menetapkan bahwa teknologi pengkloning suara deepfake telah digunakan untuk meniru suara direktur perusahaan:

‘Investigasi Emirat mengungkapkan bahwa terdakwa telah menggunakan teknologi “deep voice” untuk mensimulasikan suara Direktur. Pada Januari 2020, dana dipindahkan dari Perusahaan Korban ke beberapa rekening bank di negara lain dalam skema yang kompleks yang melibatkan setidaknya 17 terdakwa yang dikenal dan tidak dikenal. Otoritas Emirat melacak pergerakan uang melalui banyak rekening dan mengidentifikasi dua transaksi ke Amerika Serikat.

‘Pada 22 Januari 2020, dua transfer sebesar USD 199.987,75 dan USD 215.985,75 dikirim dari dua terdakwa ke rekening bank Centennial dengan nomor rekening xxxxx7682 dan xxxxx7885, masing-masing, yang terletak di Amerika Serikat.’

Tidak ada detail lebih lanjut yang tersedia tentang kejahatan tersebut, yang hanya merupakan kejadian kedua dari penipuan keuangan berbasis suara deepfake yang diketahui. Yang pertama terjadi sembilan bulan sebelumnya, pada Maret 2020, ketika seorang eksekutif di perusahaan energi Inggris ditelepon oleh apa yang terdengar seperti bosnya, menuntut transfer darurat sebesar €220.000 ($243.000), yang kemudian diproses oleh karyawan.

Pengembangan Pengkloning Suara

Pengkloning suara deepfake melibatkan pelatihan model pembelajaran mesin pada ratusan, atau ribuan sampel suara ‘target’ (suara yang akan ditiru). Kesamaan yang paling akurat dapat diperoleh dengan melatih suara target langsung melawan suara orang yang akan berbicara dalam skenario yang diusulkan, meskipun model akan ‘overfitted’ ke orang yang akan meniru target.

Komunitas online yang paling aktif untuk pengembang pengkloning suara adalah server Discord Audio Fakes, yang menampilkan forum untuk banyak algoritma pengkloning suara deepfake seperti Google’s Tacotron-2, Talknet, ForwardTacotron, Coqui-ai-TTS dan Glow-TTS, di antara lainnya.

Deepfakes Waktu Nyata

Karena percakapan telepon secara inheren interaktif, penipuan pengkloning suara tidak dapat dilakukan dengan ‘baked’ klip suara berkualitas tinggi, dan dalam kedua kasus penipuan pengkloning suara, kita dapat berasumsi bahwa pembicara menggunakan kerangka kerja deepfake waktu nyata.

Deepfakes waktu nyata telah menjadi fokus perhatian belakangan ini karena munculnya DeepFaceLive, implementasi waktu nyata dari paket deepfake populer DeepFaceLab, yang dapat menempatkan identitas selebriti atau identitas lain ke dalam footage webcam langsung. Meskipun pengguna di Discord Audio Fakes dan Discord DeepFaceLab sangat tertarik untuk menggabungkan kedua teknologi menjadi arsitektur deepfake video+suara langsung, belum ada produk yang muncul secara publik sampai saat ini.