Inteligență artificială
Informațiile de adâncime pot dezvălui deepfakes în timp real

O nouă cercetare din Italia a descoperit că informațiile de adâncime obținute din imagini pot fi un instrument util pentru a detecta deepfakes – chiar și în timp real.
În timp ce majoritatea cercetărilor privind detectarea deepfakes din ultimii cinci ani s-a concentrat pe identificarea artefactelor (care pot fi mitigate prin tehnici îmbunătățite sau confundate cu o comprimare slabă a codec-ului video), iluminarea ambientală, caracteristicile biometrice, întreruperea temporală și chiar instinctul uman, noua studiu este primul care sugerează că informațiile de adâncime ar putea fi un cifru valoros pentru conținutul deepfake.

Exemple de hărți de adâncime derivate și diferența de informații de adâncime perceptive între imagini reale și false. Sursă: https://arxiv.org/pdf/2208.11074.pdf
Critically, cadrele de detectare dezvoltate pentru noul studiu funcționează foarte bine pe o rețea ușoară, cum ar fi Xception, și acceptabil de bine pe MobileNet, și noul articol recunoaște că latența scăzută a inferenței oferită prin astfel de rețele poate permite detectarea deepfake în timp real împotriva noii tendințe de fraudă deepfake live, exemplificată de recentul atac asupra Binance.
O economie mai mare a timpului de inferență poate fi realizată pentru că sistemul nu necesită imagini cu culori complete pentru a determina diferența dintre hărțile de adâncime false și reale, dar poate funcționa surprinzător de eficient doar pe imagini în tonuri de gri ale informațiilor de adâncime.
Autorii afirmă: ‘Acest rezultat sugerează că adâncimea în acest caz adaugă o contribuție mai relevantă la clasificare decât artefactele de culoare.’
Rezultatele reprezintă o parte a noii valuri de cercetare privind detectarea deepfake îndreptată împotriva sistemelor de sinteză facială în timp real, cum ar fi DeepFaceLive – un loc de efort care a accelerat semnificativ în ultimele 3-4 luni, în urma avertismentului FBI din martie cu privire la riscul de deepfake video și audio în timp real.
Articolul articolul se intitulează DepthFake: o strategie bazată pe adâncime pentru detectarea videourilor Deepfake și provine de la cinci cercetători de la Universitatea Sapienza din Roma.
Cazuri marginale
În timpul antrenamentului, modelele deepfake bazate pe autoencoder prioritizează regiunile interne ale feței, cum ar fi ochii, nasul și gura. În majoritatea cazurilor, în distribuțiile deschise, cum ar fi DeepFaceLab și FaceSwap (ambele forkate din codul original Reddit din 2017, înainte de ștergerea acestuia), contururile externe ale feței nu devin bine definite decât într-un stadiu foarte târziu al antrenamentului și este puțin probabil să se potrivească calității de sinteză a feței interne.

Dintr-un studiu anterior, vedem o vizualizare a ‘hărților de saliență’ ale feței. Sursă: https://arxiv.org/pdf/2203.01318.pdf
Normal, acest lucru nu este important, deoarece tendința noastră de a ne concentra mai întâi pe ochi și de a prioritiza ‘în exterior’ la niveluri descrescătoare de atenție înseamnă că suntem puțin probabil să fim deranjați de aceste scăderi ale calității periferice – mai ales dacă vorbim live cu persoana care își asumă o altă identitate, ceea ce declanșează convenții sociale și limitări de procesare care nu sunt prezente atunci când evaluăm ‘renderizarea’ deepfake.
Cu toate acestea, lipsa de detalii sau de acuratețe în regiunile marginale ale unei fețe deepfake poate fi detectată algoritmic. În martie, un sistem care se bazează pe regiunea periferică a feței a fost anunțat. Cu toate acestea, deoarece necesită o cantitate mai mare decât media de date de antrenament, este destinat doar pentru celebrități care sunt probabil să apară în seturi de date faciale populare (cum ar fi ImageNet) care au proveniență în tehnici actuale de vedere computerizată și detectare a deepfake.
În schimb, noul sistem, intitulat DepthFake, poate funcționa generic chiar și pe identități obscure sau necunoscute, prin diferențierea calității informațiilor de adâncime estimate în conținutul video real și fals.
În adâncime
Informațiile de adâncime sunt din ce în ce mai mult integrate în smartphone-uri, inclusiv implementări stereo asistate de IA care sunt deosebit de utile pentru studii de vedere computerizată. În noul studiu, autorii au utilizat modelul FaceDepth al Universității Naționale din Irlanda, o rețea convoluțională de codificare/decodificare care poate estima eficient hărți de adâncime din imagini cu o singură sursă.
Următorul, pipeline-ul pentru noul cadru al cercetătorilor italieni extrage o pată de 224×224 de pixeli a feței subiectului din imaginea RGB originală și din harta de adâncime derivată. Critic, acest lucru permite procesului să copieze conținutul de bază fără a-l redimensiona; acest lucru este important, deoarece algoritmii de redimensionare a dimensiunii standard vor afecta negativ calitatea zonelor vizate.
Utilizând aceste informații, atât din surse reale, cât și din surse deepfake, cercetătorii au antrenat apoi o rețea neuronală convoluțională (CNN) capabilă să diferențieze instanțe reale de cele false, pe baza diferențelor dintre calitatea percepțională a hărților de adâncime respective.
Modelul FaceDepth este antrenat pe date realiste și sintetice utilizând o funcție hibridă care oferă mai multe detalii la marginile externe ale feței, făcându-l potrivit pentru DepthFake. Acesta utilizează o instanță MobileNet ca extractor de caracteristici și a fost antrenat cu imagini de intrare 480×640 care produc hărți de adâncime 240×320. Fiecare hartă de adâncime reprezintă o pătrime din cele patru canale de intrare utilizate în proiectul noului discriminator.
Harta de adâncime este încorporată automat în imaginea RGB originală pentru a oferi tipul de imagine RGBD, plină de informații de adâncime, pe care camerele smartphone-urilor moderne le pot produce.
Antrenament
Modelul a fost antrenat pe o rețea Xception preantrenată pe ImageNet, deși arhitectura a necesitat unele adaptări pentru a se potrivi cu informațiile de adâncime suplimentare, menținând în același timp inițializarea corectă a greutăților.
De asemenea, o nepotrivire în intervalul de valori între informațiile de adâncime și ceea ce rețeaua se așteaptă a necesitat ca cercetătorii să normalizeze valorile la 0-255.
În timpul antrenamentului, s-a aplicat doar răsturnarea și rotirea. În multe cazuri, diverse alte perturbații vizuale ar fi prezentate modelului pentru a dezvolta inferențe robuste, dar necesitatea de a păstra informațiile de adâncime limitate și foarte fragile din hărțile de adâncime din fotografiile sursă a forțat cercetătorii să adopte un regim redus.
Sistemul a fost antrenat, de asemenea, pe 2 canale de tonuri de gri simple, pentru a determina cât de complexe trebuie să fie imaginile sursă pentru a obține un algoritm funcțional.
Antrenamentul a avut loc prin intermediul API-ului TensorFlow pe un NVIDIA GTX 1080 cu 8GB de VRAM, utilizând optimizerul ADAMAX, timp de 25 de epoci, la o dimensiune de lot de 32. Rezoluția de intrare a fost fixată la 224×224 în timpul decupării, iar detectarea și extragerea feței au fost realizate cu ajutorul bibliotecii C++ dlib.
Rezultate
Acuratețea rezultatelor a fost testată împotriva Deepfake, Face2Face, FaceSwap, Neural Texture și setul de date complet cu intrări RGB și RGBD, utilizând cadrul FaceForensic++.

Rezultatele acurateței pe patru metode deepfake și împotriva întregului set de date neseparat. Rezultatele sunt împărțite între analiza imaginilor RGB sursă și a acelorași imagini cu o hartă de adâncime inferată încorporată. Cele mai bune rezultate sunt în bold, cu cifre de procent sub acestea, demonstrând măsura în care informațiile de adâncime îmbunătățesc rezultatul.
În toate cazurile, canalul de adâncime îmbunătățește performanța modelului în toate configurațiile. Xception obține cele mai bune rezultate, cu MobileNetul agil nu foarte departe. Pe aceasta, autorii comentă:
‘[Este] interesant de remarcat că MobileNet este puțin inferior lui Xception și depășește ResNet50 mai adânc. Acesta este un rezultat notabil atunci când se ia în considerare scopul de a reduce timpul de inferență pentru aplicații în timp real. Deși acesta nu este contribuția principală a acestui lucru, îl considerăm un rezultat încurajator pentru dezvoltări viitoare.’
Cercetătorii observă, de asemenea, un avantaj consistent al intrărilor RGBD și a celor 2 canale de tonuri de gri față de intrările RGB și cele de tonuri de gri directe, observând că conversiile de tonuri de gri ale inferențelor de adâncime, care sunt computațional foarte ieftine, permit modelului să obțină rezultate îmbunătățite cu resurse locale foarte limitate, facilitând dezvoltarea viitoare a detectării deepfake în timp real pe baza informațiilor de adâncime.
Publicat pentru prima dată pe 24 august 2022.












