ciot Informațiile de profunzime pot dezvălui Deepfakes în timp real - Unite.AI
Conectează-te cu noi

Inteligenta Artificiala

Informațiile de profunzime pot dezvălui Deepfake-urile în timp real

mm
Actualizat on

O nouă cercetare din Italia a descoperit că informațiile de profunzime obținute din imagini pot fi un instrument util pentru detectarea deepfake-urilor – chiar și în timp real.

În timp ce majoritatea cercetărilor privind detectarea deepfake-ului din ultimii cinci ani s-au concentrat pe identificarea artefactului (care poate fi atenuat prin tehnici îmbunătățite sau confundat cu o compresie slabă a codecului video), iluminat ambiental, trăsături biometrice, perturbare temporală, Și chiar instinctul uman, noul studiu este primul care sugerează că informațiile de profunzime ar putea fi un cifr valoros pentru conținutul deepfake.

Exemple de hărți de adâncime derivate și diferența de informații despre adâncimea perceptivă dintre imaginile reale și cele false. Sursa: https://arxiv.org/pdf/2208.11074.pdf

Exemple de hărți de adâncime derivate și diferența de informații despre adâncimea perceptivă dintre imaginile reale și cele false. Sursă: https://arxiv.org/pdf/2208.11074.pdf

În mod critic, cadrele de detectare dezvoltate pentru noul studiu funcționează foarte bine pe o rețea ușoară, cum ar fi Xception, și acceptabil bine pe MobileNet, iar noua lucrare recunoaște că latența scăzută a inferenței oferite prin astfel de rețele poate permite detectarea deepfake în timp real împotriva noii tendințe de fraudă deepfake live, exemplificată de recenta atac asupra lui Binance.

Se poate obține o economie mai mare în timpul de inferență deoarece sistemul nu are nevoie de imagini colorate pentru a determina diferența dintre hărțile de adâncime false și reale, dar poate funcționa surprinzător de eficient numai pe imagini în tonuri de gri ale informațiilor de adâncime.

Autorii afirmă: „Acest rezultat sugerează că adâncimea în acest caz adaugă o contribuție mai relevantă la clasificare decât artefactele de culoare”.

Descoperirile reprezintă o parte a unui nou val de cercetări de detectare a falsurilor profunde, îndreptate împotriva sistemelor de sinteză facială în timp real, cum ar fi DeepFaceLive – un loc de efort care s-a accelerat considerabil în ultimele 3-4 luni, în urma operațiunilor FBI avertisment în martie despre riscul de deepfake video și audio în timp real.

hârtie se intitulează DepthFake: o strategie bazată pe profunzime pentru detectarea videoclipurilor Deepfakeși provine de la cinci cercetători de la Universitatea Sapienza din Roma.

Huse Edge

În timpul antrenamentului, modelele deepfake bazate pe codificare automată acordă prioritate regiunilor interioare ale feței, cum ar fi ochii, nasul și gura. În cele mai multe cazuri, în distribuțiile open source, cum ar fi DeepFaceLab și schimb de fețe (ambele bifurcate de la originalul din 2017 Cod Reddit înainte de ștergerea sa), liniile exterioare ale feței nu devin bine definite până la o etapă foarte târzie a antrenamentului și este puțin probabil să se potrivească cu calitatea sintezei în zona interioară a feței.

Dintr-un studiu anterior, vedem o vizualizare a „hărților de proeminență” ale feței. Sursa: https://arxiv.org/pdf/2203.01318.pdf

Dintr-un studiu anterior, vedem o vizualizare a „hărților de proeminență” ale feței. Sursă: https://arxiv.org/pdf/2203.01318.pdf

În mod normal, acest lucru nu este important, deoarece tendința noastră de a ne concentra mai întâi asupra ochilor și de a prioritiza, „în afară” la niveluri de atenție în scădere înseamnă că este puțin probabil să fim perturbați de aceste scăderi ale calității periferice – mai ales dacă vorbim în direct cu persoană care falsifică o altă identitate, ceea ce declanșează convenții sociale și limitări de prelucrare nu este prezent atunci când evaluăm înregistrările deepfake „redate”.

Cu toate acestea, lipsa de detaliu sau acuratețe în regiunile marginale afectate ale unei fețe deepfake poate fi detectată algoritmic. În martie, un sistem care tasta pe zona periferică a feței a fost a anunțat. Cu toate acestea, deoarece necesită o cantitate peste medie de date de antrenament, este destinat doar celebrităților care sunt probabil să apară în seturi de date faciale populare (cum ar fi ImageNet) care au proveniență în viziunea computerizată actuală și tehnicile de detectare a falsurilor profunde.

În schimb, noul sistem, intitulat DepthFake, poate opera generic chiar și pe identități obscure sau necunoscute, prin distingerea calității informațiilor estimate ale hărții de adâncime în conținutul video real și fals.

Mergând adânc

Informațiile hărții de adâncime sunt din ce în ce mai mult introduse în smartphone-uri, inclusiv Implementări stereo asistate de AI care sunt deosebit de utile pentru studiile vederii computerizate. În noul studiu, autorii au folosit modelul FaceDepth al Universității Naționale din Irlanda, o rețea de codificator/decodor convoluțional care poate estima eficient hărțile de adâncime din imagini cu o singură sursă.

Modelul FaceDepth în acțiune. Sursa: https://tinyurl.com/3ctcazma

Modelul FaceDepth în acțiune. Sursa: https://tinyurl.com/3ctcazma

În continuare, conducta pentru noul cadru al cercetătorilor italieni extrage un petic de 224 × 224 pixeli a feței subiectului atât din imaginea RGB originală, cât și din harta de adâncime derivată. În mod critic, acest lucru permite procesului să copieze conținutul de bază fără a-l redimensiona; acest lucru este important, deoarece algoritmii standard de redimensionare vor afecta negativ calitatea zonelor vizate.

Folosind aceste informații, atât din surse reale, cât și din surse false, cercetătorii au antrenat apoi o rețea neuronală convoluțională (CNN) capabilă să distingă instanțele reale de cele falsificate, pe baza diferențelor dintre calitatea perceptivă a hărților de adâncime respective.

Conductă conceptuală pentru DepthFake.

Conductă conceptuală pentru DepthFake.

Modelul FaceDepth este antrenat pe date realiste și sintetice folosind o funcție hibridă care oferă detalii mai mari la marginile exterioare ale feței, făcându-l bine potrivit pentru DepthFake. Folosește o instanță MobileNet ca un extractor de caracteristici și a fost antrenat cu imagini de intrare de 480 × 640 care scot hărți de adâncime de 240 × 320. Fiecare hartă de adâncime reprezintă un sfert din cele patru canale de intrare utilizate în discriminatorul noului proiect.

Harta de adâncime este încorporată automat în imaginea RGB originală pentru a oferi tipul de imagine RGBD, plină cu informații despre adâncime, pe care camerele moderne de smartphone-uri le pot scoate.

Pregătire

Modelul a fost antrenat pe o rețea Xception deja preantrenată pe ImageNet, deși arhitectura a avut nevoie de o anumită adaptare pentru a găzdui informațiile suplimentare despre adâncime, menținând în același timp inițializarea corectă a greutăților.

În plus, o nepotrivire a intervalelor de valori între informațiile de adâncime și ceea ce se așteaptă rețeaua a necesitat ca cercetătorii să normalizeze valorile la 0-255.

În timpul antrenamentului, s-a aplicat doar învârtirea și rotația. În multe cazuri diferite alte perturbări vizuale ar fi prezentate modelului pentru a dezvolta o inferență robustă, dar necesitatea de a păstra informațiile limitate și foarte fragile ale hărții de adâncime a marginilor din fotografiile sursă i-a forțat pe cercetători să adopte un regim de reducere.

Sistemul a fost instruit suplimentar pe tonuri de gri simple cu 2 canale, pentru a determina cât de complexe trebuie să fie imaginile sursă pentru a obține un algoritm funcțional.

Antrenamentul a avut loc prin intermediul API-ului TensorFlow pe un NVIDIA GTX 1080 cu 8 GB de VRAM, folosind optimizatorul ADAMAX, timp de 25 de epoci, la o dimensiune a lotului de 32. Rezoluția de intrare a fost fixată la 224×224 în timpul tăierii, iar detectarea și extragerea feței au fost realizat cu dlib biblioteca C++.

REZULTATE

Precizia rezultatelor a fost testată împotriva Deepfake, fata2fata, FaceSwap, Textura neuronală, și setul complet de date cu intrări RGB și RGBD, folosind FaceForensic++ cadru.

Rezultate privind acuratețea peste patru metode deepfake și față de întregul set de date nedivizat. Rezultatele sunt împărțite între analiza imaginilor RGB sursă și aceleași imagini cu o hartă de adâncime dedusă încorporată. Cele mai bune rezultate sunt cu caractere aldine, cu cifre procentuale dedesubt care demonstrează măsura în care informațiile hărții de adâncime îmbunătățesc rezultatul.

Rezultate privind acuratețea peste patru metode deepfake și față de întregul set de date nedivizat. Rezultatele sunt împărțite între analiza imaginilor RGB sursă și aceleași imagini cu o hartă de adâncime dedusă încorporată. Cele mai bune rezultate sunt cu caractere aldine, cu cifre procentuale dedesubt care demonstrează măsura în care informațiile hărții de adâncime îmbunătățesc rezultatul.

În toate cazurile, canalul de adâncime îmbunătățește performanța modelului în toate configurațiile. Xception obține cele mai bune rezultate, cu mobilul MobileNet aproape în spate. Despre aceasta, autorii comentează:

„[Este] interesant de observat că MobileNet este ușor inferior celui Xception și îl depășește pe cel mai profund ResNet50. Acesta este un rezultat notabil atunci când se ia în considerare obiectivul de reducere a timpilor de inferență pentru aplicațiile în timp real. Deși aceasta nu este principala contribuție a acestei lucrări, o considerăm totuși un rezultat încurajator pentru evoluțiile viitoare.

Cercetătorii observă, de asemenea, un avantaj consistent al intrării în tonuri de gri RGBD și cu 2 canale față de intrarea în tonuri de gri drepte și RGB, observând că conversiile în tonuri de gri ale inferențelor de adâncime, care sunt foarte ieftine din punct de vedere computațional, permit modelului să obțină rezultate îmbunătățite cu resurse locale foarte limitate. facilitarea dezvoltării viitoare a detectării deepfake în timp real bazată pe informații de profunzime.

 

Prima dată publicată pe 24 august 2022.