Cybersicherheit

Deepfaked Voice Enabled 35-Millionen-Dollar-Bank-Raubüberfall im Jahr 2020

Published October 15, 2021

Updated April 28, 2026

Martin Anderson

Eine Untersuchung über den Betrug von 35 Millionen US-Dollar von einer Bank in den Vereinigten Arabischen Emiraten im Januar 2020 hat ergeben, dass Deepfake-Voice-Technologie verwendet wurde, um die Stimme eines Unternehmensdirektors nachzuahmen, der einem Bankfilialleiter bekannt war, der dann die Transaktionen autorisierte.

Der Vorfall ereignete sich am 15. Januar des letzten Jahres und wird in einem Antrag (PDF) der Vereinigten Arabischen Emirate an die amerikanischen Staatsbehörden zur Unterstützung bei der Verfolgung eines Teils der abgezweigten Mittel, die in die Vereinigten Staaten gesendet wurden, dargelegt.

Der Antrag besagt, dass der Filialleiter einer namenlosen Opferbank in den Vereinigten Arabischen Emiraten einen Anruf von einer vertrauten Stimme erhielt, der zusammen mit begleitenden E-Mails von einem Anwalt namens Martin Zelner den Manager überzeugte, die Mittel freizugeben, die offensichtlich für den Erwerb eines Unternehmens bestimmt waren.

Der Antrag besagt:

‘Laut den emiratischen Behörden erhielt der Filialleiter der Opfergesellschaft am 15. Januar 2020 einen Anruf, der angeblich von der Unternehmenszentrale kam. Der Anrufer klang wie der Direktor des Unternehmens, so dass der Filialleiter glaubte, der Anruf sei legitim.

‘Der Filialleiter erhielt auch mehrere E-Mails, die er für E-Mails des Direktors hielt, die mit dem Anruf zusammenhingen. Der Anrufer teilte dem Filialleiter telefonisch und per E-Mail mit, dass die Opfergesellschaft ein anderes Unternehmen erwerben würde und dass ein Anwalt namens Martin Zelner (Zelner) autorisiert worden war, die Verfahren für den Erwerb zu koordinieren.’

Der Filialleiter erhielt dann die E-Mails von Zelner zusammen mit einem Autorisierungsschreiben des (vermeintlichen) Direktors, dessen Stimme dem Opfer bekannt war.

Deepfake-Voice-Betrug identifiziert

Die emiratischen Ermittler stellten dann fest, dass Deepfake-Voice-Klon-Technologie verwendet worden war, um die Stimme des Unternehmensdirektors nachzuahmen:

‘Die emiratische Untersuchung ergab, dass die Angeklagten “Deep-Voice”-Technologie verwendet hatten, um die Stimme des Direktors zu simulieren. Im Januar 2020 wurden Mittel von der Opfergesellschaft auf mehrere Bankkonten in anderen Ländern in einem komplexen Schema mit mindestens 17 bekannten und unbekannten Angeklagten überwiesen. Die emiratischen Behörden verfolgten die Bewegung des Geldes durch zahlreiche Konten und identifizierten zwei Transaktionen in die Vereinigten Staaten.

‘Am 22. Januar 2020 wurden zwei Überweisungen von 199.987,75 US-Dollar und 215.985,75 US-Dollar von zwei der Angeklagten auf Centennial-Bank-Kontonummern, xxxxx7682 und xxxxx7885, jeweils in den Vereinigten Staaten, gesendet.’

Es sind keine weiteren Details zum Vorfall verfügbar, der nur der zweite bekannte Fall von voice-basiertem Deepfake-Finanzbetrug ist. Der erste Fall ereignete sich neun Monate zuvor, im März 2020, als ein leitender Angestellter eines britischen Energieunternehmens von einem Anrufer, der wie der Vorgesetzte des Angestellten klang, belästigt wurde, der die dringende Überweisung von 220.000 Euro (243.000 US-Dollar) forderte, die der Angestellte dann durchführte.

Stimmklon-Entwicklung

Deepfake-Voice-Klonen beinhaltet das Training eines Machine-Learning-Modells mit Hunderten oder Tausenden von Proben der “Ziel”-Stimme (der Stimme, die nachgeahmt werden soll). Die genaueste Übereinstimmung kann durch das direkte Training der Zielstimme gegen die Stimme der Person erzielt werden, die in dem vorgeschlagenen Szenario sprechen wird, obwohl das Modell “überangepasst” an die Person wird, die die Zielstimme nachahmt.

Die aktivste legale Online-Community für Stimmklon-Entwickler ist der Audio Fakes-Discord-Server, der Foren für viele Deepfake-Voice-Klon-Algorithmen wie Google’s Tacotron-2, Talknet, ForwardTacotron, Coqui-ai-TTS und Glow-TTS bietet, unter anderem.

Echtzeit-Deepfakes

Da ein Telefonat notwendigerweise interaktiv ist, kann Stimmklon-Betrug nicht vernünftigerweise durch “gebackene” hochwertige Voice-Clips bewirkt werden, und in beiden Fällen von Stimmklon-Betrug können wir vernünftigerweise annehmen, dass der Sprecher ein live, echtzeitiges Deepfake-Framework verwendet.

Echtzeit-Deepfakes sind in letzter Zeit aufgrund des Aufkommens von DeepFaceLive, einer Echtzeit-Implementierung des beliebten Deepfake-Pakets DeepFaceLab, in den Fokus gerückt, das Celebrity- oder andere Identitäten auf Live-Webcam-Footage überlagern kann. Obwohl Benutzer im Audio Fakes Discord und im DeepFaceLab Discord intensiv an der Kombination der beiden Technologien in eine einzige Video- und Voice-Live-Deepfake-Architektur interessiert sind, ist noch kein solches Produkt öffentlich aufgetaucht.