ciot Detectarea apelurilor video Deepfake prin iluminarea monitorului - Unite.AI
Conectează-te cu noi

Inteligenta Artificiala

Detectarea apelurilor video Deepfake prin iluminarea monitorului

mm
Actualizat on

O nouă colaborare între un cercetător de la Agenția de Securitate Națională (NSA) a Statelor Unite și Universitatea din California din Berkeley oferă o metodă nouă de detectare a conținutului deepfake într-un context video live - prin observarea efectului luminii monitorului asupra aspectului persoana de la celălalt capăt al apelului video.

Utilizatorul popular DeepFaceLive Druuzil Tech & Games își încearcă propriul model Christian Bale DeepFaceLab într-o sesiune live cu adepții săi, în timp ce sursele de lumină se schimbă. Sursa: https://www.youtube.com/watch?v=XPQLDnogLKA

Utilizatorul popular DeepFaceLive Druuzil Tech & Games își încearcă propriul model Christian Bale DeepFaceLab într-o sesiune live cu adepții săi, în timp ce sursele de lumină se schimbă. Sursa: https://www.youtube.com/watch?v=XPQLDnogLKA

Sistemul funcționează prin plasarea unui element grafic pe ecranul utilizatorului care își schimbă o gamă restrânsă de culori mai repede decât poate răspunde un sistem deepfake obișnuit – chiar dacă, cum ar fi implementarea streamingului deepfake în timp real DeepFaceLive (în imaginea de mai sus), are o anumită capacitate de a menține transferul de culori în direct și de a lua în considerare iluminarea ambientală.

Imaginea color uniformă afișată pe monitorul persoanei de la celălalt capăt (adică potențialul fraudator de deepfake) trece printr-o variație limitată de modificări de nuanță care sunt concepute pentru a nu activa balansul de alb automat al unei camere web și alte ad-hoc sisteme de compensare a luminii, care ar compromite metoda.

Din hârtie, o ilustrare a schimbării condițiilor de iluminare de la monitor în fața unui utilizator, care funcționează efectiv ca o „lumină de zonă” difuză. Sursa: https://farid.berkeley.edu/downloads/publications/cvpr22a.pdf

Din hârtie, o ilustrare a schimbării condițiilor de iluminare de la monitor în fața unui utilizator, care funcționează efectiv ca o „lumină de zonă” difuză. Sursa: https://farid.berkeley.edu/downloads/publications/cvpr22a.pdf

Teoria din spatele abordării este că sistemele live deepfake nu pot răspunde la timp la schimbările prezentate în graficul de pe ecran, crescând „decalajul” efectului deepfake la anumite părți ale spectrului de culori, dezvăluind prezența acestuia.

Pentru a putea măsura cu precizie lumina reflectată a monitorului, sistemul trebuie să ia în considerare și apoi să reducă efectul luminii generale de mediu care nu are legătură cu lumina de la monitor. Apoi este capabil să distingă deficiențele în măsurarea nuanței de iluminare activă și a nuanței faciale a utilizatorilor, reprezentând o schimbare temporală de diferență de 1-4 cadre între fiecare:

Limitând variațiile de nuanță în graficul „detectorului” de pe ecran și asigurându-se că camera web a utilizatorului nu este solicitată să-și ajusteze automat setările de captare prin modificarea excesivă a iluminării monitorului, cercetătorii au reușit să discerne o întârziere. în adaptarea sistemului deepfake la schimbările de iluminare.

Prin limitarea variațiilor de nuanță în graficul „detectorului” de pe ecran și asigurându-se că camera web a utilizatorului nu este solicitată să-și ajusteze automat setările de captare prin modificări excesive ale nivelurilor de iluminare a monitorului, cercetătorii au reușit să discerne un indicator. întârziere în adaptarea sistemului deepfake la schimbările de iluminare.

Lucrarea conchide:

„Din cauza încrederii rezonabile pe care o acordăm apelurilor video live și a omniprezentării în creștere a apelurilor video în viața noastră personală și profesională, propunem ca tehnicile de autentificare a apelurilor video (și audio) să crească doar în importanță.”

studiu se intitulează Detectarea în timp real a videoclipurilor false profunde utilizând iluminarea activă, și vine de la Candice R. Gerstner, un matematician de cercetare aplicată la Departamentul de Apărare al SUA și profesorul Hany Farid din Berkeley.

Erodarea încrederii

Scena cercetării anti-deepfake a evoluat în mod semnificativ în ultimele șase luni, departe de detectarea generală a deepfake-ului (adică țintirea videoclipurilor pre-înregistrate și conținutului pornografic) și către detectarea „vii”, ca răspuns la un val tot mai mare de incidente de utilizare a deepfake-ului în apeluri video conferințe și la recentul avertisment al FBI cu privire la utilizarea tot mai mare a unor astfel de tehnologii în aplicațiile pentru lucrul la distanță.

Chiar și atunci când un apel video nu a fost falsificat în profunzime, oportunitățile sporite pentru imitatorii video bazați pe inteligență artificială sunt începe să genereze paranoia.

Noua lucrare precizează:

„Crearea de falsuri profunde în timp real [prezintă] amenințări unice din cauza sentimentului general de încredere care înconjoară un apel video sau un apel telefonic în direct și provocarea de a detecta falsuri profunde în timp real, pe măsură ce un apel se desfășoară”.

Comunitatea de cercetare și-a stabilit de mult obiectivul de a găsi semne infailibile de conținut deepfake care nu poate fi ușor compensat. Deși mass-media a caracterizat de obicei acest lucru în termeni de război tehnologic între cercetătorii de securitate și dezvoltatorii de deepfake, majoritatea negațiilor abordărilor timpurii (cum ar fi analiza clipirii ochilor, discernământul poziției capului, și analiza comportamentului) s-au produs pur și simplu pentru că dezvoltatorii și utilizatorii încercau să facă deepfake-uri mai realiste în general, mai degrabă decât să abordeze în mod specific cele mai recente „tel” identificate de comunitatea de securitate.

Aruncă lumină asupra videoclipului live Deepfake

Detectarea deepfake-urilor în mediile video în direct are sarcina de a contabiliza conexiunile video slabe, care sunt foarte frecvente în scenariile de videoconferință. Chiar și fără un strat deepfake intermediar, conținutul video poate fi supus unui decalaj în stil NASA, artefacte de redare și alte tipuri de degradare în audio și video. Acestea pot servi pentru a ascunde marginile aspre într-o arhitectură live deepfaking, atât în ​​ceea ce privește videoclipul, cât și deepfakes audio.

Noul sistem al autorilor îmbunătățește rezultatele și metodele care apar în a Publicare 2020 de la Centrul de calcul în rețea de la Universitatea Temple din Philadelphia.

Din lucrarea din 2020, putem observa schimbarea iluminării faciale „în plin” pe măsură ce conținutul ecranului utilizatorului se modifică. Sursa: https://cis.temple.edu/~jiewu/research/publications/Publication_files/FakeFace__ICDCS_2020.pdf

Din lucrarea din 2020, putem observa schimbarea iluminării faciale „în plin” pe măsură ce conținutul ecranului utilizatorului se modifică. Sursa: https://cis.temple.edu/~jiewu/research/publications/Publication_files/FakeFace__ICDCS_2020.pdf

Diferența în noua lucrare este că ține cont de modul în care camerele web răspund la schimbările de iluminare. Autorii explică:

„Deoarece toate camerele web moderne efectuează expunere automată, tipul de iluminare activă de înaltă intensitate [utilizată în lucrările anterioare] este probabil să declanșeze expunerea automată a camerei care, la rândul său, va confunda aspectul facial înregistrat. Pentru a evita acest lucru, folosim o iluminare activă constând dintr-o schimbare izoluminantă a nuanței.

„În timp ce acest lucru evită expunerea automată a camerei, ar putea declanșa echilibrarea de alb a camerei, care ar confunda din nou aspectul facial înregistrat. Pentru a evita acest lucru, operăm într-o gamă de nuanțe despre care am stabilit empiric că nu declanșează echilibrarea albului.

Pentru această inițiativă, autorii au luat în considerare și eforturi similare anterioare, cum ar fi LiveScreen, care forțează un model de iluminare discret pe monitorul utilizatorului final într-un efort de a dezvălui conținut deepfake.

Deși acel sistem a atins o rată de precizie de 94.8%, cercetătorii au ajuns la concluzia că subtilitatea modelelor de lumină ar face o astfel de abordare secretă dificil de implementat în medii puternic iluminate și, în schimb, propun ca propriul lor sistem, sau unul modelat pe linii similare, ar putea fi încorporate în mod public și implicit în software-ul popular pentru videoconferințe:

„Intervenția noastră propusă ar putea fi realizată fie de un participant la apel care pur și simplu își partajează ecranul și afișează modelul care variază în timp, fie, în mod ideal, ar putea fi integrat direct în clientul apelului video”.

Teste

Autorii au folosit un amestec de subiecte sintetice și din lumea reală pentru a-și testa condus de Dlib detector de deepfake. Pentru scenariul sintetic, au folosit mitsuba, un randament direct și invers de la Institutul Federal Elvețian de Tehnologie din Lausanne.

Mostre din setul de date simulate, care prezintă diferite nuanțe ale pielii, dimensiunea sursei de lumină, intensitatea luminii ambientale și apropierea de cameră.

Mostre din testele de mediu simulate, care prezintă diferite nuanțe ale pielii, dimensiunea sursei de lumină, intensitatea luminii ambientale și apropierea de cameră.

Scena descrisă include un cap CGI parametric capturat de la o cameră virtuală cu un câmp vizual de 90°. Capetele prezintă reflectanța lambertiană și tonuri de piele neutre și sunt situate la 2 picioare în fața camerei virtuale.

Pentru a testa cadrul într-o gamă de nuanțe și configurații posibile ale pielii, cercetătorii au efectuat o serie de teste, variind secvențial diverse fațete. Aspectele modificate includ tonul pielii, proximitatea și dimensiunea luminii de iluminare.

Autorii comentează:

„În simulare, cu diferitele noastre ipoteze satisfăcute, tehnica noastră propusă este foarte robustă pentru o gamă largă de configurații imagistice”.

Pentru scenariul din lumea reală, cercetătorii au folosit 15 voluntari cu o gamă largă de nuanțe de piele, în medii diverse. Fiecare a fost supus la două cicluri de variație restricționată a nuanței, în condițiile în care o rată de reîmprospătare a afișajului de 30 Hz a fost sincronizată cu camera web, ceea ce înseamnă că iluminarea activă ar dura doar o secundă la un moment dat. Rezultatele au fost în general comparabile cu testele sintetice, deși corelațiile au crescut considerabil cu valori mai mari de iluminare.

Directii viitoare

Sistemul, recunosc cercetătorii, nu ține cont de ocluziile faciale tipice, cum ar fi breton, ochelari sau păr facial. Totuși, ei notează că mascarea de acest fel poate fi adăugată sistemelor ulterioare (prin etichetare și segmentare semantică ulterioară), care ar putea fi antrenate să preia valori exclusiv din zonele percepute de piele la subiectul țintă.

Autorii sugerează, de asemenea, că o paradigmă similară ar putea fi folosită pentru a detecta apelurile audio falsificate și că sunetul necesar pentru detectarea ar putea fi redat la o frecvență în afara intervalului auditiv uman normal.

Poate cel mai interesant este că cercetătorii sugerează, de asemenea, că extinderea zonei de evaluare dincolo de față într-un cadru de captare mai bogat ar putea îmbunătăți considerabil posibilitatea detectării deepfake*:

„Un 3-D mai sofisticat estimarea iluminatului  ar oferi probabil un model de aspect mai bogat, care ar fi și mai dificil de ocolit pentru un falsificator. În timp ce ne-am concentrat doar pe față, afișajul computerului iluminează, de asemenea, gâtul, partea superioară a corpului și fundalul din jur, din care s-ar putea face măsurători similare.

„Aceste măsurători suplimentare l-ar forța pe falsificator să ia în considerare întreaga scenă 3-D, nu doar fața.”

 

* Conversia mea a citărilor inline ale autorilor în hyperlinkuri.

Prima dată publicată pe 6 iulie 2022.