Andersonの視点

ディープフェイク音声による35ミリオンドル銀行強盗事件が2020年に発生

mm

2020年1月にアラブ首長国連邦の銀行から3500万米ドルを詐取した事件についての調査により、ディープフェイク音声技術が銀行支店長が知っている会社のディレクターの声を模倣するために使用されていたことが判明した。

事件は2020年1月15日に発生し、アラブ首長国連邦がアメリカの州当局に事件に関連する資金の追跡を求める要請書(PDF)に記載されている。

要請書によると、アラブ首長国連邦のある銀行の支店長は、馴染みのある声で電話がかかってきた。さらに、弁護士マーティン・ゼルナーからメールが届いたため、支店長は資金の引き出しを承認した。資金は、会社の買収のために使用される予定だった。

要請書には以下の記載がある:

‘アラブ首長国連邦の当局によると、2020年1月15日、被害会社の支店長は、会社本部から電話がかかってきたと主張する電話を受けた。呼び出し先の声は会社のディレクターの声に聞こえたため、支店長は電話が本物であると信じた。 ‘

‘支店長はまた、電話と関連するメールを受け取った。メールはディレクターから届いたものと思われた。電話での会話では、被害会社が別の会社を買収する予定であり、弁護士マーティン・ゼルナーが買収手続きを担当することになっていた。 ‘

その後、支店長はゼルナーからメールを受け取った。メールには、(偽造された)ディレクターの声が聞こえた。

ディープフェイク音声詐欺の特定

アラブ首長国連邦の調査により、ディープフェイク音声クローニング技術が会社のディレクターの声を模倣するために使用されていたことが判明した:

‘アラブ首長国連邦の調査により、被告が「ディープボイス」技術を使用してディレクターの声を模倣していたことが判明した。2020年1月、被害会社から複数の国にある複数の銀行口座に資金が転送された。アラブ首長国連邦の当局は、資金の動きを追跡し、アメリカへの2つの取引を特定した。 ‘

‘2020年1月22日、2つの被告からセンテニアル銀行の口座番号xxxxx7682とxxxxx7885にそれぞれ199,987.75米ドルと215,985.75米ドルが送金された。 ‘

事件に関する詳細は不明であるが、これは音声ベースのディープフェイク金融詐欺の2件目の事例である。最初の事例は、2020年3月に英国エネルギー会社の幹部が上司に成りすました電話を受け、243,000米ドルの緊急送金を要求された事件である。

音声クローニングの開発

ディープフェイク音声クローニングでは、ターゲット音声(模倣する音声)を数百、数千回学習させたマシンラーニングモデルを使用する。最も正確な一致は、ターゲット音声と、シナリオで話す人の音声を直接トレーニングすることで得られる。ただし、モデルは、ターゲット音声を模倣する人に「過剰適合」する。
音声クローニング開発者の最も活発なオンラインコミュニティは、Audio Fakes Discordサーバーである。ここでは、GoogleのTacotron-2TalknetForwardTacotronCoqui-ai-TTSGlow-TTSなどの多くのディープフェイク音声クローニングアルゴリズムに関するフォーラムがある。

リアルタイムディープフェイク

電話会話は必ずしも対話形式であるため、音声クローニング詐欺は「焼き付け」された高品質の音声クリップでは実行できない。両方の音声クローニング詐欺の場合、話者がリアルタイムのディープフェイクフレームワークを使用していると推測することができる。

リアルタイムディープフェイクは、DeepFaceLiveの登場により注目されている。DeepFaceLiveは、人気のディープフェイクパッケージDeepFaceLabのリアルタイム実装であり、有名人や他のアイデンティティをライブウェブカメラ映像に重ね合わせることができる。ライブウェブカメラ映像。Audio Fakes DiscordとDeepFaceLab Discordのユーザーは、2つの技術を1つのビデオ+音声のライブディープフェイクアーキテクチャに組み合わせたいと強く興味を持っているが、まだそのような製品は公開されていない。

age DeepFaceLab, which can superimpose celebrity or other identities onto live webcam footage. Though users at the Audio Fakes Discord and the DeepFaceLab Discord are intensely interested in combining the two technologies into a single video+voice live deepfake architecture, no such product has publicly emerged as yet.

機械学習に関するライター、ヒューマンイメージシンセシスのドメインスペシャリスト。Metaphysic.aiの研究コンテンツ責任者を務めた。