Securitate Cibernetică
Deepfaked Voice a permis un jaf bancar de 35 de milioane de dolari în 2020

O investigație privind fraudarea a 35 de milioane USD de la o bancă din Emiratele Arabe Unite în ianuarie 2020 a constatat că tehnologia de voce deepfake a fost folosită pentru a imita un director de companie cunoscut de un director de sucursală a băncii, care apoi a autorizat tranzacțiile.
Crima a avut loc la 15 ianuarie a anului trecut și este conturată în a solicita (PDF) de către Emiratele Arabe Unite către autoritățile de stat americane pentru ajutor în urmărirea unei părți din fondurile sifonate care au fost trimise în Statele Unite.
În cerere se precizează că directorul sucursalei unei bănci victime fără nume din Emiratele Arabe Unite a primit un apel telefonic de la o voce cunoscută, care, împreună cu e-mailurile însoțitoare de la un avocat pe nume Martin Zelner, l-au convins pe manager să plătească fondurile, care se pare că erau destinate achizitia unei firme.
solicita prevede:
„Potrivit autorităților emirate, pe 15 ianuarie 2020, directorul de sucursală al Companiei Victime a primit un apel telefonic care pretindea a fi de la sediul companiei. Apelantul suna ca directorul companiei, așa că directorul sucursalei a considerat că apelul este legitim.
„Directorul sucursalei a primit, de asemenea, mai multe e-mailuri despre care credea că provin de la director și care aveau legătură cu apelul telefonic. Apelantul i-a spus directorului sucursalei prin telefon și e-mail că firma victimă urma să achiziționeze o altă companie și că un avocat pe nume Martin Zelner (Zelner) fusese autorizat să coordoneze procedurile pentru achiziție.”
Directorul sucursalei a primit apoi e-mailurile de la Zelner, împreună cu o scrisoare de autorizare de la (presupusul) director, a cărui voce îi era familiară victimei.
Identificată fraudă vocală falsă
Anchetatorii din Emirate au stabilit apoi că tehnologia de clonare vocală deepfake a fost folosită pentru a imita vocea directorului companiei:
„Ancheta din Emirate a arătat că inculpații au folosit tehnologia „voce profundă” pentru a simula vocea directorului. În ianuarie 2020, fondurile au fost transferate de la Compania Victime în mai multe conturi bancare din alte țări într-o schemă complexă care a implicat cel puțin 17 inculpați cunoscuți și necunoscuți. Autoritățile emirate au urmărit mișcarea banilor prin numeroase conturi și au identificat două tranzacții către Statele Unite.
„La 22 ianuarie 2020, două transferuri în valoare de 199,987.75 USD și, respectiv, 215,985.75 USD au fost efectuate de doi dintre inculpați către numerele de cont xxxxx7682 și, respectiv, xxxxx7885 de la Centennial Bank, situate în Statele Unite.”
Nu sunt disponibile alte detalii cu privire la această infracțiune, care este doar al doilea incident cunoscut de fraudă financiară bazată pe deepfake vocal. Primul a avut loc cu nouă luni mai devreme, în martie 2020, când un director al unei companii energetice din Marea Britanie a fost asaltat telefonic de ceea ce părea a fi șeful angajatului, cerând transferul urgent de 220,000 de euro (243,000 de dolari), pe care angajatul... apoi tranzacționate.
Dezvoltarea clonării vocii
Clonarea vocii deepfake implică antrenarea unui model de învățare automată pe sute sau mii de eșantioane ale vocii „țintă” (vocea care va fi imitată). Cea mai precisă potrivire poate fi obținută prin antrenarea vocii țintă direct în raport cu vocea persoanei care va vorbi în scenariul propus, deși modelul va fi „supraadaptat” la persoana care se preface a fi ținta.
Cea mai activă comunitate online legitimă pentru dezvoltatorii de clonare a vocii este Falsuri audio Serverul Discord, care conține forumuri pentru mulți algoritmi de clonare vocală deepfake, cum ar fi cel al Google Tacotron-2, Talknet, Înainte Tacotron, Coqui-ai-TTS și Glow-TTS, Printre altele.
Deepfakes în timp real
Întrucât o conversație telefonică este în mod necesar interactivă, frauda prin clonare vocală nu poate fi efectuată în mod rezonabil prin clipuri vocale de înaltă calitate „preparate” și, în ambele cazuri de fraudă prin clonare vocală, putem presupune în mod rezonabil că vorbitorul folosește un framework deepfake live, în timp real.
Deepfake-urile în timp real au intrat în atenție în ultima vreme datorită apariției DeepFaceLive, o implementare în timp real a popularului pachet deepfake DeepFaceLab, care poate suprapune celebrități sau alte identități pe imagini live pe webcam. Deși utilizatorii de la Audio Fakes Discord și DeepFaceLab Discord sunt intens interesați de combinarea celor două tehnologii într-o singură arhitectură video+voce live deepfake, niciun astfel de produs nu a apărut până acum în mod public.