Andersons vinkel

Deepfaked Stemme Aktiveret $35 Million Bankråd i 2020

mm

En undersøgelse af svindel med $35 millioner USD fra en bank i De Forenede Arabiske Emirater i januar 2020 har vist, at deepfake-stemme-teknologi blev brugt til at imiterer en direktørs stemme, som var kendt af en bankfilialchef, der derefter godkendte transaktionerne.

Forbrydelsen fandt sted den 15. januar sidste år og er beskrevet i en anmodning (PDF) fra De Forenede Arabiske Emirater til amerikanske myndigheder om hjælp til at spore en del af de afledte midler, som var sendt til USA.

Anmodningen fastslår, at filialchefen for en ukendt offerbank i De Forenede Arabiske Emirater modtog et telefonopkald fra en velkendt stemme, som sammen med ledsagende e-mails fra en advokat ved navn Martin Zelner, overbeviste chefen om at udbetale midlerne, som åbenbart var tiltænkt til opkøb af et selskab.

Anmodningen fastslår:

‘Ifølge emiratiske myndigheder modtog den 15. januar 2020 den ramte selskabs filialchef et telefonopkald, der påstod at være fra selskabets hovedkontor. Opkaldsstemmen lød som direktørens, så filialchefen troede, opkaldet var ægte.

‘Filialchefen modtog også flere e-mails, som han troede var fra direktøren og relaterede til telefonopkaldet. Opkaldsstemmen fortalte filialchefen over telefon og e-mail, at den ramte virksomhed var ved at opkøbe et andet selskab, og at en advokat ved navn Martin Zelner (Zelner) var blevet autoriseret til at koordinere procedurerne for opkøbet.’

Filialchefen modtog derefter e-mails fra Zelner sammen med en fuldmagtigelse fra den (formodede) direktør, hvis stemme var velkendt for offeret.

Deepfake Stemme Svindel Identificeret

Emiratiske efterforskere fastslog derefter, at deepfake-stemme-kloningsteknologi var blevet brugt til at imiterer direktørens stemme:

‘Den emiratiske undersøgelse afslørede, at de anklagede havde brugt “dyb stemme”-teknologi til at simulere direktørens stemme. I januar 2020 blev midler overført fra den ramte virksomhed til adskillige bankkonti i andre lande i en kompleks scheme, der involverede mindst 17 kendte og ukendte anklagede. Emiratiske myndigheder sporede pengenes bevægelse gennem adskillige konti og identificerede to transaktioner til USA.

‘Den 22. januar 2020 blev to overførsler på 199.987,75 USD og 215.985,75 USD sendt fra to af de anklagede til Centennial Bank-kontonummer xxxxx7682 og xxxxx7885, henholdsvis, beliggende i USA.’

Der er ikke flere oplysninger tilgængelige om forbrydelsen, som kun er den anden kendte tilfælde af stemme-baseret deepfake-finansiel svindel. Den første fandt sted ni måneder tidligere, i marts 2020, da en direktør i et britisk energiselskab blev udsat for en telefonopkald, der lød som hans chefs stemme, og krævede en akut overførsel af 220.000 euro (243.000 USD), som medarbejderen derefter udførte.

Stemme Kloning Udvikling

Deepfake-stemme-kloning indebærer træning af en maskinelæringmodel på hundredvis eller tusindvis af eksempler på den “mål”-stemme (den stemme, der skal imiteres). Den mest nøjagtige match kan opnås ved at træne den mål-stemme direkte mod den stemme, der skal tale i den foreslåede situation, selvom modellen vil være “overfit” til personen, der skal imiterer mål-stemmen.

Den mest aktive legitime online-fællesskab for stemme-kloningsudviklere er Audio Fakes Discord-serveren, der har fora til mange deepfake-stemme-kloningsalgoritmer som Google’s Tacotron-2, Talknet, ForwardTacotron, Coqui-ai-TTS og Glow-TTS, blandt andre.

Real-Time Deepfakes

Da en telefonkonversation nødvendigvis er interaktiv, kan stemme-klonings-svindel ikke rimeligt udføres ved “bagt” højkvalitets-lydklip, og i begge tilfælde af stemme-klonings-svindel kan vi rimeligt antage, at taleren bruger en live, real-time deepfake-ramme.

Real-time deepfakes er kommet i fokus på grund af introduktionen af DeepFaceLive, en real-time-implementation af den populære deepfake-pakke DeepFaceLab, som kan overlejre celebrity- eller andre identiteter på live webcam-optagelser. Selvom brugere på Audio Fakes Discord og DeepFaceLab Discord er meget interesserede i at kombinere de to teknologier i en enkelt video+stemme live deepfake-arkitektur, er der endnu ikke offentliggjort en sådan produkt.

Forfatter til maskinlæring, domæne-specialist i menneskesynthese af billeder. Tidligere leder af forskningsindhold på Metaphysic.ai.