Inteligență artificială
Detectarea apelurilor video Deepfake prin iluminarea monitorului

O nouă colaborare între un cercetător de la Agenția Națională de Securitate a Statelor Unite (NSA) și Universitatea din California, Berkeley, oferă o metodă nouă pentru detectarea conținutului Deepfake într-un context de video live – prin observarea efectului iluminării monitorului asupra aspectului persoanei de la celălalt capăt al apelului video.

Utilizatorul popular DeepFaceLive Druuzil Tech & Games își testează propriul model Christian Bale DeepFaceLab într-o sesiune live cu urmăitorii săi, în timp ce sursele de lumină se schimbă. Sursă: https://www.youtube.com/watch?v=XPQLDnogLKA
Sistemul funcționează prin plasarea unui element grafic pe ecranul utilizatorului care schimbă o gamă îngustă de culori mai rapid decât un sistem Deepfake tipic poate răspunde – chiar dacă, ca și implementarea de streaming Deepfake în timp real DeepFaceLive (prezentat mai sus), are o anumită capacitate de a menține transferul de culoare live și de a ține cont de iluminarea ambientală.
Imaginea cu culori uniforme afișată pe monitorul persoanei de la celălalt capăt (adică potențialul fraudator Deepfake) trece printr-o variație limitată de schimbări de nuanță, proiectate pentru a nu activa echilibrul automat al culorilor camerei web și alte sisteme de compensare a iluminării ad hoc, care ar compromite metoda.

Din lucrare, o ilustrare a schimbării condițiilor de iluminare de la monitorul din fața unui utilizator, care funcționează efectiv ca o lumină difuză ‘de zonă’. Sursă: https://farid.berkeley.edu/downloads/publications/cvpr22a.pdf
Teoria din spatele abordării este că sistemele Deepfake live nu pot răspunde la timp la schimbările descrise în graficul de pe ecran, crește ‘întârzierea’ efectului Deepfake în anumite părți ale spectrului de culori, dezvăluind prezența sa.
Pentru a putea măsura lumina reflectată de monitor cu acuratețe, sistemul trebuie să țină cont de și să discounteze efectul iluminării generale a mediului, care nu este legată de lumina de la monitor. Acesta poate să distingă deficiențele în măsurarea nuanței de iluminare activă și a nuanței feței utilizatorilor, reprezentând o schimbare temporală de 1-4 cadre diferite între fiecare:

Prin limitarea variațiilor de nuanță în graficul ‘detector’ de pe ecran și asigurându-se că camera web a utilizatorului nu este promptată să-și ajusteze automat setările de captură din cauza schimbărilor excesive în iluminarea monitorului, cercetătorii au putut să distingă o întârziere revelatoare în ajustarea sistemului Deepfake la schimbările de iluminare.
Lucrarea concluzionează:
‘Din cauza încrederii rezonabile pe care o acordăm apelurilor video live și a creșterii ubiquității apelurilor video în viețile noastre personale și profesionale, propunem că tehnici pentru autentificarea video (și audio) vor crește în importanță.’
Studiul este intitulat Detectarea videourilor Deepfake în timp real utilizând iluminarea activă și provine de la Candice R. Gerstner, un matematician de cercetare aplicată la Departamentul Apărării al Statelor Unite, și profesorul Hany Farid de la Berkeley.
Eroziunea încrederii
Scena de cercetare anti-Deepfake s-a schimbat semnificativ în ultimele șase luni, de la detectarea generală a Deepfake (adică țintirea videourilor înregistrate și a conținutului pornografic) către detectarea ‘viabilității’, ca răspuns la o undă crescândă de incidente de utilizare a Deepfake în apeluri video și la avertizarea recentă a FBI cu privire la utilizarea crescută a acestor tehnologii în aplicații pentru muncă la distanță.
Chiar și în cazul în care un apel video nu s-a dovedit a fi Deepfake, oportunitățile crescânde pentru impersonatorii video conduși de IA încep să genereze paranoia.
Noua lucrare afirmă:
‘Crearea de Deepfake-uri în timp real [ridică] amenințări unice din cauza sensului general de încredere care înconjoară un apel video live sau un apel telefonic, și a provocării de a detecta Deepfake-uri în timp real, pe măsură ce apelul se desfășoară.’
Comunitatea de cercetare și-a propus de mult timp să găsească semne infailibile de conținut Deepfake care nu pot fi ușor compensate. Deși mass-media a caracterizat în general acest lucru în termeni de război tehnologic între cercetătorii de securitate și dezvoltatorii Deepfake, majoritatea negărilor abordărilor inițiale (cum ar fi analiza clipei ochilor, discernământul poziției capului și analiza comportamentului) au apărut pur și simplu pentru că dezvoltatorii și utilizatorii încercau să creeze Deepfake-uri mai realiste în general, și nu neapărat pentru a aborda ‘semnul’ identificat de comunitatea de securitate.
Aruncarea luminii asupra videourilor Deepfake live
Detectarea Deepfake-urilor în medii de video live poartă sarcina de a ține cont de conexiuni video slabe, care sunt foarte comune în scenariile de videoconferință. Chiar și fără o interfață Deepfake, conținutul video poate fi supus unor laguri de tip NASA, artefacte de render și alte tipuri de degradare a audio și video. Acestea pot să ascundă muchiile aspre ale unei arhitecturi Deepfake live, atât în ceea ce privește video, cât și audio Deepfake.
Sistemul autorilor îmbunătățește rezultatele și metodele care apar într-o lucrare din 2020 de la Centrul pentru Calcul Distribuit de la Universitatea Temple din Philadelphia.

Din lucrarea din 2020, putem observa schimbarea iluminării faciale ‘umplute’ pe măsură ce conținutul ecranului utilizatorului se schimbă. Sursă: https://cis.temple.edu/~jiewu/research/publications/Publication_files/FakeFace__ICDCS_2020.pdf
Diferența în noua lucrare este că ține cont de modul în care camerele web răspund la schimbările de lumină. Autorii explică:
‘Deoarece toate camerele web moderne efectuează expunerea automată, tipul de iluminare activă de înaltă intensitate [utilizat în lucrarea anterioară] este probabil să declanșeze expunerea automată a camerei, ceea ce, la rândul său, va compromite aspectul facial înregistrat. Pentru a evita acest lucru, utilizăm o iluminare activă care constă într-o schimbare izoluminantă a nuanței.
‘În timp ce acest lucru evită expunerea automată a camerei, ar putea declanșa echilibrarea albă a camerei, ceea ce, la rândul său, ar compromite aspectul facial înregistrat. Pentru a evita acest lucru, operăm într-un interval de nuanță pe care l-am determinat empiric că nu declanșează echilibrarea albă.’
Pentru această inițiativă, autorii au luat în considerare și eforturi anterioare similare, cum ar fi LiveScreen, care forțează un model de iluminare inconspicuos pe monitorul utilizatorului într-o încercare de a dezvălui conținutul Deepfake.
Deși acel sistem a obținut o rată de acuratețe de 94,8%, cercetătorii concluzionează că subtilitatea modelelor de lumină ar face dificilă implementarea unei abordări secrete în medii luminoase puternice și, în schimb, propun că sistemul lor, sau unul modelat pe linii similare, ar putea fi încorporat în mod public și implicit în software-ul de videoconferință popular:
‘Intervenția noastră propusă ar putea fi realizată fie de un participant la apel care împărtășește pur și simplu ecranul și afișează modelul care variază în timp, fie, ideal, ar putea fi integrat direct în clientul de apel video.’
Teste
Autorii au utilizat o combinație de subiecți sintetici și din lumea reală pentru a testa detectorul lor de Deepfake condus de Dlib. Pentru scenariul sintetic, au utilizat Mitsuba, un renderer forward și invers de la Institutul Federal Elvețian de Tehnologie din Lausanne.

Exemple din setul de date simulate, cu variații de ton de piele, dimensiunea sursei de lumină, intensitatea luminii ambientale și proximitatea față de cameră.
Scena prezentată include o capă CGI parametrică capturată de o cameră virtuală cu un unghi de vedere de 90°. Capetele au reflectanță Lambertiană și nuanțe de piele neutre și sunt situate la 2 picioare în fața camerei virtuale.
Pentru a testa cadrul pe o gamă largă de configurații posibile, cercetătorii au efectuat o serie de teste, variind diverse aspecte în mod secvențial. Aspectele modificate au inclus tonul de piele, proximitatea și dimensiunea sursei de lumină.
Autorii comentă:
‘În simulare, cu ipotezele noastre satisfăcute, tehnica noastră propusă este foarte robustă la o gamă largă de configurații de imagine.’
Pentru scenariul din lumea reală, cercetătorii au utilizat 15 voluntari cu o gamă de tonuri de piele, în medii diverse. Fiecare a fost supus la două cicluri de variație de nuanță restrânsă, în condiții în care o rată de reîmprospătare a ecranului de 30Hz a fost sincronizată cu camera web, ceea ce a însemnat că iluminarea activă a durat doar o secundă la un moment dat. Rezultatele au fost în general comparabile cu testele sintetice, deși corelațiile au crescut semnificativ cu valori mai mari de iluminare.
Viitoare direcții
Sistemul, cercetătorii admit, nu ține cont de ocluziunile faciale tipice, cum ar fi bretonul, ochelarii sau părul facial. Cu toate acestea, ei observă că mascarea de acest tip poate fi adăugată la sistemele ulterioare (prin etichetare și segmentare semantică ulterioară), care ar putea fi antrenate pentru a lua valori exclusiv din zonele de piele percepute ale subiectului țintă.
Autorii sugerează, de asemenea, că un paradigma similară ar putea fi utilizată pentru a detecta apelurile audio Deepfake, și că sunetul necesar ar putea fi redat într-o frecvență în afara gamei auditive normale a omului.
Poate cel mai interesant, cercetătorii sugerează, de asemenea, că extinderea zonei de evaluare dincolo de față într-un cadru de captură mai bogat ar putea îmbunătăți semnificativ posibilitatea de detectare a Deepfake-urilor*:
‘O estimare mai sofisticată a iluminării 3D ar furniza probabil un model de aspect mai bogat, care ar fi și mai dificil pentru un falsificator să o ocolească. În timp ce ne-am concentrat doar pe față, monitorul computerului luminează, de asemenea, gâtul, partea superioară a corpului și fundalul înconjurător, din care se pot face măsurători similare.
‘Aceste măsurători suplimentare ar obliga falsificatorul să ia în considerare întreaga scenă 3D, nu doar fața.’
* Conversia mea a citărilor inline ale autorilor în linkuri.
Publicat pentru prima dată pe 6 iulie 2022.












