サイバーセキュリティ

Deepfaked Voice Enabled $35 Million Bank Heist in 2020

Published October 15, 2021

Updated April 28, 2026

Martin Anderson

アラブ首長国連邦の銀行から2020年1月に3,500万米ドルを詐取した事件の調査により、銀行支店長が知っている会社のディレクターの声を模倣するためにディープフェイク音声技術が使用されたことがわかった。

事件は2020年1月15日に発生し、要請書（PDF）に記載されている。要請書は、アラブ首長国連邦がアメリカの州当局に対して、事件に関連する資金の一部がアメリカに送金されたため、捜査の協力を求めるものである。

要請書によると、アラブ首長国連邦のある銀行の支店長は、知っている会社のディレクターと思われる声からの電話を受けた。電話には、マーティン・ゼルナーという弁護士からのメールも含まれており、支店長は資金の引き出しを承認した。資金は、会社の買収のために使用される予定だった。

要請書には以下のように記載されている：

‘アラブ首長国連邦の当局によると、2020年1月15日、被害会社の支店長は、会社の本社からと思われる電話を受けた。電話の声は会社のディレクターに聞こえたため、支店長は電話が本物だと思った。 ‘

‘支店長は、電話と関連するメールも受け取った。メールはディレクターからと思われた。電話では、被害会社が別の会社を買収する予定であり、マーティン・ゼルナーという弁護士が手続きを担当することになっているという内容だった。 ‘

支店長は、ゼルナーからのメールと、（偽の）ディレクターからの承認書を受け取った。

ディープフェイク音声詐欺の特定

アラブ首長国連邦の捜査官は、ディープフェイク音声クローニング技術が会社のディレクターの声を模倣するために使用されたことを突き止めた：

‘アラブ首長国連邦の捜査により、被告が「ディープボイス」技術を使用してディレクターの声を模倣していたことがわかった。2020年1月、資金は被害会社から複数の国にある複数の銀行口座に送金された。送金には少なくとも17人の被告が関与していた。アラブ首長国連邦の当局は、資金の動きを追跡し、アメリカへの2つの送金を特定した。 ‘

‘2020年1月22日、2つの送金（199,987.75米ドルと215,985.75米ドル）が、被告2人からアメリカのCentennial Bankの口座（xxxxx7682とxxxxx7885）に送金された。 ‘

事件の詳細は不明であり、これは音声ベースのディープフェイク金融詐欺の2件目の事例である。最初の事例は、2020年3月に発生したもので、イギリスのエネルギー会社の幹部が、上司と思われる声からの電話を受け、220,000ユーロ（243,000米ドル）の送金を要求された。

音声クローニングの開発

ディープフェイク音声クローニングには、機械学習モデルを「ターゲット」音声（模倣される音声）の数百または数千のサンプルでトレーニングする必要がある。最も正確な一致は、ターゲット音声と、シナリオで話す人の音声を直接トレーニングすることで得られるが、モデルは、ターゲットを模倣する人の音声に「オーバーフィット」する。
ディープフェイク音声クローニング開発者の最も活発なオンラインコミュニティは、Audio Fakes Discordサーバーであり、GoogleのTacotron-2、Talknet、ForwardTacotron、Coqui-ai-TTS、Glow-TTSなどの多くのディープフェイク音声クローニングアルゴリズムのフォーラムがある。

リアルタイムディープフェイク

電話会話は必ずしも対話的であるため、音声クローニング詐欺は「焼き付け」された高品質の音声クリップでは実行できない。音声クローニング詐欺の2件の事例では、話者がリアルタイムのディープフェイクフレームワークを使用していたと推測できる。
リアルタイムディープフェイクは、DeepFaceLiveの登場により注目されており、DeepFaceLiveは人気のディープフェイクパッケージDeepFaceLabのリアルタイム実装であり、有名人や他のアイデンティティをライブのウェブカメラ映像に重ねることができる。Audio Fakes DiscordとDeepFaceLab Discordのユーザーは、2つのテクノロジーを1つのビデオ+音声のライブディープフェイクアーキテクチャに組み合わせたいと強く願っているが、まだ公開された製品はない。