Securitate cibernetică
Detectarea video-conferințelor Deepfake cu funcția ‘Vibrație’ a unui smartphone

O nouă cercetare din Singapore a propus o metodă inovatoare de detectare a faptului dacă cineva de cealaltă parte a unui instrument de videoconferință pe smartphone utilizează metode precum DeepFaceLive pentru a se deghiza în altcineva.
Denominată SFake, noua abordare abandonează metodele pasive utilizate de majoritatea sistemelor și determină telefonul utilizatorului să vibreze (utilizând aceleași mecanisme ‘vibrație’ comune în smartphone-uri), și să estompeze subtil fața.
Deși sistemele de deepfake în timp real sunt capabile să reproducă estomparea mișcării, atâta timp cât imaginile estompate au fost incluse în datele de antrenament, sau cel puțin în datele de pre-antrenament, acestea nu pot răspunde suficient de repede la estomparea neașteptată de acest fel și continuă să producă secțiuni non-estompate ale feței, dezvăluind existența unei apeluri video deepfake.

DeepFaceLive nu poate răspunde suficient de repede pentru a simula estomparea cauzată de vibrațiile camerei. Sursă: https://arxiv.org/pdf/2409.10889v1
Rezultatele testelor pe setul de date auto-creat de cercetători (deoarece nu există seturi de date cu mișcare activă a camerei) au arătat că SFake a depășit metodele de detectare a deepfake-urilor video, chiar și în fața circumstanțelor dificile, cum ar fi mișcarea naturală a mâinii care apare atunci când persoana din cealaltă parte a videoconferinței ține camera cu mâna, în loc să utilizeze un suport static pentru telefon.
Cererea crescândă pentru detectarea video-ului deepfake
Cercetarea în domeniul detectării video-ului deepfake a crescut recent. În urma câtorva ani de succese ale atacurilor de deepfake cu voce, deepfake heists, la începutul acestui an, un lucrător financiar a fost păcălit să transfere 25 de milioane de dolari către un escroc care se deghiza într-un CFO într-un apel video deepfake.
Deși un sistem de acest fel necesită un nivel ridicat de acces la hardware, mulți utilizatori de smartphone sunt deja obișnuiți cu serviciile de verificare financiară și alte tipuri de verificare care ne cer să înregistrăm caracteristicile noastre faciale pentru autentificarea bazată pe față (într-adevăr, acesta este chiar parte a procesului de verificare al LinkedIn).
Prin urmare, pare probabil că astfel de metode vor deveni din ce în ce mai frecvente pentru sistemele de videoconferință, pe măsură ce acest tip de infracțiune continuă să facă titluri.
Majoritatea soluțiilor care abordează deepfake-urile video în timp real presupun un scenariu foarte static, în care comunicantul utilizează o cameră web staționară, și nu se așteaptă mișcări excesive sau schimbări de mediu sau de iluminare.
În schimb, SFake utilizează o serie de metode de detectare pentru a compensa numărul mare de variante vizuale într-o videoconferință pe smartphone, și pare a fi primul proiect de cercetare care abordează problema prin utilizarea echipamentului de vibrație standard încorporat în smartphone-uri.
Articolul articolul se intitulează Shaking the Fake: Detecting Deepfake Videos in Real Time via Active Probes și provine de la doi cercetători de la Universitatea Tehnică Nanyang din Singapore.
Metodă
SFake este proiectat ca un serviciu bazat pe cloud, unde o aplicație locală ar trimite date către un serviciu API remote pentru a fi procesate, și rezultatele trimise înapoi.
Cu toate acestea, amprenta sa de doar 450mb și metodologia optimizată permite ca aceasta să poată procesa detectarea deepfake-ului în întregime pe dispozitiv, în cazurile în care conexiunea de rețea ar putea cauza imaginile trimise să devină excesiv comprimate, afectând procesul de diagnostic.
Rularea “all local” în acest mod înseamnă că sistemul ar avea acces direct la fluxul de cameră al utilizatorului, fără interferența codec asociată de obicei cu videoconferințele.
Timpul mediu de analiză necesită un eșantion video de patru secunde, în timpul căruia utilizatorul este rugat să rămână nemișcat, și în timpul căruia SFake trimite “sonde” pentru a cauza vibrații ale camerei la intervale selectiv aleatorii pe care sisteme precum DeepFaceLive nu le pot răspunde la timp.
(Trebuie reîncălzit faptul că orice atacator care nu a inclus conținut estompat în setul de date de antrenament este puțin probabil să poată produce un model care să poată genera estompare, chiar și în circumstanțe mult mai favorabile, și că DeepFaceLive nu poate pur și simplu “adăuga” această funcționalitate la un model antrenat pe un set de date sub-curat)
Sistemul alege zone selectate ale feței ca zone potențiale de conținut deepfake, excluzând ochii și sprâncenele (deoarece clipitul și alte motilități faciale în acea zonă sunt în afara domeniului de estompare, și nu sunt indicatori ideali).

Schema conceptuală pentru SFake.
După cum se poate vedea în schema conceptuală de mai sus, după alegerea unor modele de vibrație nepredictibile și alegerea celei mai bune lungimi focale, și efectuarea recunoașterii faciale (inclusiv detectarea punctelor de reper prin intermediul unui component Dlib care estimează 68 de puncte de reper faciale standard), SFake derivă gradientul din fața de intrare și se concentrează asupra zonelor selectate ale acestor gradienti.
Secvența de varianță este obținută prin analiza secvențială a fiecărui cadru din clipul scurt studiat, până când se ajunge la secvența medie sau “ideală”, și restul este ignorat.
Acest lucru oferă caracteristici extrase caracteristici care pot fi utilizate ca un cuantificator pentru probabilitatea de conținut deepfake, pe baza bazei de date antrenate (despre care vom vorbi mai mult în curând).
Sistemul necesită o rezoluție a imaginii de 1920×1080 de pixeli, precum și o cerință de zoom de cel puțin 2x pentru obiectiv. Articolul notează că astfel de rezoluții (și chiar rezoluții mai mari) sunt suportate în Microsoft Teams, Skype, Zoom și Tencent Meeting.
Majoritatea smartphone-urilor au o cameră frontală și una din spate, și adesea doar una dintre ele are capacitățile de zoom necesare pentru SFake; aplicația ar trebui, prin urmare, să solicite comunicantului să utilizeze camera care îndeplinește aceste cerințe.
Obiectivul aici este de a obține o proporție corectă a feței utilizatorului în fluxul video care va fi analizat. Articolul observă că distanța medie la care femeile utilizează dispozitive mobile este de 34,7 cm, și pentru bărbați, 38,2 cm (așa cum a fost raportat în Journal of Optometry), și că SFake funcționează foarte bine la aceste distanțe.
Deoarece stabilizarea este o problemă cu video-ul ținut în mână, și deoarece estomparea care apare din mișcarea mâinii este un impediment pentru funcționarea SFake, cercetătorii au încercat mai multe metode pentru a compensa. Cea mai reușită dintre acestea a fost calcularea punctului central al punctelor de reper estimate și utilizarea acestuia ca “ancoră” – în esență, o tehnică de stabilizare algoritmică. Prin această metodă, s-a obținut o acuratețe de 92%.
Date și teste
Deoarece nu existau seturi de date potrivite pentru scopul acesta, cercetătorii au creat propriul set de date:
‘[Noi] utilizăm 8 mărci diferite de smartphone-uri pentru a înregistra 15 participanți de sexe și vârste diferite pentru a crea propriul nostru set de date. Plasăm smartphone-ul pe un suport de telefon la 20 cm distanță de participant și mărim imaginea de două ori, vizând fața participantului pentru a cuprinde toate caracteristicile sale faciale, în timp ce vibrăm smartphone-ul în diferite modele.
‘Pentru telefoane ale căror camere frontale nu pot mări imaginea, utilizăm camerele din spate ca substitut. Înregistrăm 150 de videoclipuri lungi, fiecare cu o durată de 20 de secunde. Prin default, presupunem că perioada de detectare durează 4 secunde. Tăiem 10 clipuri de 4 secunde lungime dintr-un videoclip lung prin randomizarea timpului de start. Prin urmare, obținem un total de 1500 de clipuri reale, fiecare cu o durată de 4 secunde.’
Deși DeepFaceLive (legătură GitHub) a fost ținta centrală a studiului, deoarece este în prezent cea mai utilizată sursă deschisă de sistem de deepfake în timp real, cercetătorii au inclus și alte patru metode pentru a antrena modelul de bază de detectare: Hififace; FS-GANV2; RemakerAI; și MobileFaceSwap – ultimul dintre acestea fiind o alegere deosebit de potrivită, având în vedere mediul țintă.
1500 de videoclipuri false au fost utilizate pentru antrenament, împreună cu același număr de videoclipuri reale și nealterate.
SFake a fost testat împotriva mai multor clasificatori diferiți, inclusiv SBI; FaceAF; CnnDetect; LRNet; DefakeHop variante; și serviciul gratuit de detectare a deepfake-urilor online Deepaware. Pentru fiecare dintre aceste metode de deepfake, 1500 de videoclipuri false și 1500 de videoclipuri reale au fost antrenate.
Pentru clasificatorul de test de bază, a fost utilizată o rețea neurală simplă cu două straturi cu o funcție de activare ReLU. 1000 de videoclipuri reale și 1000 de videoclipuri false au fost alese aleatoriu (deși videoclipurile false au fost exclusiv exemple DeepFaceLive).
Aria de sub curba caracteristică a receptorului (AUC/AUROC) și acuratețea (ACC) au fost utilizate ca metrici.
Pentru antrenament și inferență, a fost utilizat un NVIDIA RTX 3060, și testele au fost rulate sub Ubuntu. Videoclipurile de test au fost înregistrate cu un Xiaomi Redmi 10x, un Xiaomi Redmi K50, un OPPO Find x6, un Huawei Nova9, un Xiaomi 14 Ultra, un Honor 20, un Google Pixel 6a și un Huawei P60.
Pentru a se conforma metodelor de detectare existente, testele au fost implementate în PyTorch. Rezultatele testelor principale sunt ilustrate în tabelul de mai jos:

Rezultate pentru SFake împotriva metodelor concurente.
Aici autorii comentază:
‘În toate cazurile, acuratețea de detectare a SFake a depășit 95%. Dintre cele cinci algoritmi de deepfake, cu excepția Hififace, SFake performează mai bine împotriva altor algoritmi de deepfake decât celelalte șase metode de detectare. Deoarece clasificatorul nostru este antrenat utilizând imagini false generate de DeepFaceLive, acesta atinge cel mai ridicat nivel de acuratețe de 98,8% atunci când detectează DeepFaceLive.
‘Când se confruntă cu fețe false generate de RemakerAI, alte metode de detectare performează slab. Speculăm că acest lucru se datorează faptului că videoclipurile sunt comprimate automat atunci când sunt descărcate de pe internet, ceea ce duce la pierderea detaliilor imaginii și, prin urmare, reduce acuratețea de detectare. Cu toate acestea, acest lucru nu afectează detectarea de către SFake, care atinge o acuratețe de 96,8% în detectarea împotriva RemakerAI.’
Autorii notează, de asemenea, că SFake este cel mai performant sistem în scenariul în care se aplică o mărire de 2x asupra obiectivului de captură, deoarece acesta exagerează mișcarea, și este o perspectivă incredibil de dificilă. Chiar și în această situație, SFake a fost capabil să atingă o acuratețe de recunoaștere de 84% și 83%, respectiv, pentru factori de mărire de 2,5 și 3.
Concluzie
Un proiect care utilizează slăbiciunile unui sistem de deepfake în timp real împotriva lui însuși este o ofertă proaspătă într-un an în care detectarea deepfake-urilor a fost dominată de articole care au doar agitat abordări vechi în jurul analizei frecvenței (care este departe de a fi imună la inovațiile din spațiul deepfake).
La sfârșitul anului 2022, un alt sistem a utilizat variația strălucirii monitorului ca un detector; și în același an, demonstrația mea a incapacității DeepFaceLive de a face față unor profile dure de 90 de grade a câștigat un anumit interes al comunității.
DeepFaceLive este ținta corectă pentru un astfel de proiect, deoarece este, fără îndoială, centrul interesului infracțional în ceea ce privește frauda videoconferințelor.
Cu toate acestea, am văzut recent unele dovezi anecdotice că sistemul LivePortrait, în prezent foarte popular în comunitatea VFX, gestionează profilele laterale mult mai bine decât DeepFaceLive; ar fi fost interesant dacă acesta ar fi putut fi inclus în acest studiu.
Publicat pentru prima dată marți, 24 septembrie 2024
