stubs Padziļināta informācija var atklāt dziļus viltojumus reāllaikā — Unite.AI
Savienoties ar mums

Mākslīgais intelekts

Padziļināta informācija var atklāt dziļus viltojumus reāllaikā

mm
Atjaunināts on

Jauns pētījums no Itālijas atklāj, ka dziļuma informācija, kas iegūta no attēliem, var būt noderīgs rīks dziļo viltojumu noteikšanai pat reāllaikā.

Tā kā lielākā daļa pētījumu par dziļo viltojumu atklāšanu pēdējo piecu gadu laikā ir vērsti uz artefaktu identifikācija (ko var mazināt, izmantojot uzlabotas metodes vai sajaukt ar sliktu video kodeku saspiešanu), apkārtējais apgaismojums, biometriskās pazīmes, laika traucējumi, Un pat cilvēka instinkts, jaunais pētījums ir pirmais, kas liecina, ka padziļināta informācija varētu būt vērtīgs šifrs dziļi viltotam saturam.

Atvasinātu dziļuma karšu piemēri un atšķirības uztveres dziļuma informācijā starp reāliem un viltotiem attēliem. Avots: https://arxiv.org/pdf/2208.11074.pdf

Atvasinātu dziļuma karšu piemēri un atšķirības uztveres dziļuma informācijā starp reāliem un viltotiem attēliem. Avots: https://arxiv.org/pdf/2208.11074.pdf

Būtiski, ka jaunajam pētījumam izstrādātās noteikšanas sistēmas ļoti labi darbojas vieglā tīklā, piemēram, Xception, un pieņemami labi MobileNet, un jaunajā dokumentā ir atzīts, ka, izmantojot šādus tīklus piedāvāto secinājumu zemais latentums, var nodrošināt reāllaika dziļo viltojumu atklāšanu, ņemot vērā jauno tendenci attiecībā uz reāllaika krāpšanu, ko pierāda nesen uzbrukums Binance.

Var panākt lielāku izsecināšanas laika ekonomiju, jo sistēmai nav nepieciešami pilnkrāsu attēli, lai noteiktu atšķirību starp viltotām un īstām dziļuma kartēm, bet tā var pārsteidzoši efektīvi darboties tikai ar dziļuma informācijas pelēktoņu attēliem.

Autori norāda: "Šis rezultāts liecina, ka šajā gadījumā dziļums klasifikācijā sniedz būtiskāku ieguldījumu nekā krāsu artefakti."

Rezultāti ir daļa no jauna dziļo viltojumu noteikšanas pētījumu viļņa, kas vērsts pret reāllaika sejas sintēzes sistēmām, piemēram, DeepFaceLive – centienu loks, kas pēdējo 3–4 mēnešu laikā ir ievērojami palielinājies pēc FIB brīdinājums martā par reāllaika video un audio dziļo viltojumu risku.

Jūsu darbs IR Klientu apkalpošana papīrs tiek nosaukts DepthFake: uz dziļumu balstīta stratēģija Deepfake videoklipu noteikšanai, un nāk no pieciem pētniekiem no Romas Sapienza universitātes.

Edge korpusi

Apmācības laikā uz automātisko kodētāju balstītie dziļās viltošanas modeļi piešķir prioritāti sejas iekšējiem reģioniem, piemēram, acīm, degunam un mutei. Vairumā gadījumu atklātā pirmkoda izplatījumos, piemēram, DeepFaceLab un Sejas maiņa (abi atdalīti no oriģināla 2017. gada Reddit kods pirms tā dzēšanas), sejas ārējās līnijas kļūst skaidri noteiktas tikai ļoti vēlīnā apmācības posmā, un maz ticams, ka tās atbilst sintēzes kvalitātei sejas iekšējā zonā.

Iepriekšējā pētījumā mēs redzam sejas "pamanāmības karšu" vizualizāciju. Avots: https://arxiv.org/pdf/2203.01318.pdf

Iepriekšējā pētījumā mēs redzam sejas "pamanāmības karšu" vizualizāciju. Avots: https://arxiv.org/pdf/2203.01318.pdf

Parasti tas nav svarīgi, jo mūsu tendence vispirms koncentrēties uz acīm un noteikt prioritātes “uz āru” pie pazemināta uzmanības līmeņa nozīmē, ka maz ticams, ka mūs satrauks šie perifērās kvalitātes kritumi – it īpaši, ja runājam tiešraidē ar persona, kura vilto citu identitāti, kas izraisa sociālās konvencijas un apstrādes ierobežojumi netiek rādīts, vērtējot “renderētos” dziļi viltotos kadrus.

Tomēr detaļu vai precizitātes trūkumu dziļi viltotas sejas skartajos malas reģionos var noteikt algoritmiski. Martā sistēma, kas atslēgas uz perifērās sejas zonas bija paziņoja. Tomēr, tā kā tam ir nepieciešams lielāks apmācības datu apjoms, tas ir paredzēts tikai slavenībām, kuras, visticamāk, tiks iekļautas populārās sejas datu kopās (piemēram, ImageNet), kurām ir izcelsme pašreizējās datorredzes un dziļo viltojumu noteikšanas paņēmienos.

Tā vietā jaunā sistēma ar nosaukumu DepthFake, var darboties vispārīgi pat uz neskaidrām vai nezināmām identitātēm, nošķirot aptuvenās dziļuma kartes informācijas kvalitāti reālā un viltus video saturā.

Iedziļināties

Dziļuma karšu informācija arvien vairāk tiek iestrādāta viedtālruņos, tostarp AI atbalstītas stereo ieviešanas kas ir īpaši noderīgi datorredzes pētījumos. Jaunajā pētījumā autori ir izmantojuši Īrijas Nacionālās universitātes FaceDepth modeli, konvolūcijas kodētāja / dekodētāja tīklu, kas var efektīvi novērtēt dziļuma kartes no viena avota attēliem.

FaceDepth modelis darbībā. Avots: https://tinyurl.com/3ctcazma

FaceDepth modelis darbībā. Avots: https://tinyurl.com/3ctcazma

Pēc tam Itālijas pētnieku jaunās sistēmas cauruļvads iegūst 224 × 224 pikseļu objekta sejas plāksteri gan no sākotnējā RGB attēla, gan atvasinātās dziļuma kartes. Būtiski, ka tas ļauj procesam pārkopēt galveno saturu, nemainot tā izmērus; tas ir svarīgi, jo izmēra standarta izmēru maiņas algoritmi negatīvi ietekmēs mērķa apgabalu kvalitāti.

Izmantojot šo informāciju gan no reāliem, gan dziļi viltotiem avotiem, pētnieki apmācīja konvolucionālo neironu tīklu (CNN), kas spēj atšķirt reālus no viltotiem gadījumiem, pamatojoties uz atšķirībām starp attiecīgo dziļuma karšu uztveres kvalitāti.

DepthFake konceptuāls cauruļvads.

DepthFake konceptuāls cauruļvads.

FaceDepth modelis ir apmācīts par reālistiskiem un sintētiskiem datiem, izmantojot hibrīda funkciju, kas nodrošina plašākas detaļas sejas ārējās malās, padarot to labi piemērotu DepthFake. Tas izmanto MobileNet gadījumu kā funkciju ekstraktoru, un tika apmācīts ar 480 × 640 ievades attēliem, kas izvada 240 × 320 dziļuma kartes. Katra dziļuma karte atspoguļo ceturto daļu no četriem ievades kanāliem, kas izmantoti jaunā projekta diskriminatorā.

Dziļuma karte tiek automātiski iegulta oriģinālajā RGB attēlā, lai nodrošinātu tādu RGBD attēlu, kas ir piepildīts ar dziļuma informāciju, ko var izvadīt mūsdienu viedtālruņu kameras.

treniņš

Modelis tika apmācīts Xception tīklā, kas jau bija iepriekš apmācīts programmā ImageNet, lai gan arhitektūrai bija nepieciešama zināma pielāgošana, lai pielāgotu papildu informāciju par dziļumu, vienlaikus saglabājot pareizu svaru inicializāciju.

Turklāt vērtību diapazonu neatbilstības dēļ starp dziļuma informāciju un tīkla sagaidāmo bija nepieciešams, lai pētnieki normalizētu vērtības līdz 0–255.

Apmācības laikā tika pielietota tikai pagriešana un rotācija. Daudzos gadījumos modelim tiktu parādīti dažādi citi vizuālie traucējumi, lai izstrādātu stabilus secinājumus, taču nepieciešamība saglabāt ierobežoto un ļoti trauslo malu dziļuma kartes informāciju avota fotogrāfijās piespieda pētniekus pieņemt mazināšanas režīmu.

Sistēma tika papildus apmācīta vienkāršā 2 kanālu pelēktoņos, lai noteiktu, cik sarežģītiem jābūt avota attēliem, lai iegūtu funkcionējošu algoritmu.

Apmācība notika, izmantojot TensorFlow API uz NVIDIA GTX 1080 ar 8 GB VRAM, izmantojot ADAMAX optimizētāju, 25 epochas, partijas lielumā 32. Apgriešanas laikā tika fiksēta ievades izšķirtspēja 224 × 224, un tika veikta sejas noteikšana un ekstrakcija. paveikts ar dlib C++ bibliotēka.

rezultāti

Rezultātu precizitāte tika pārbaudīta pret Deepfake, Face2Face, Sejas maiņa, Neironu tekstūra, un pilna datu kopa ar RGB un RGBD ieejām, izmantojot FaceForensic++ sistēmu.

Rezultāti par precizitāti, izmantojot četras dziļās viltošanas metodes, un attiecībā pret visu nesadalīto datu kopu. Rezultāti tiek sadalīti starp avota RGB attēlu analīzi un tiem pašiem attēliem ar iegultu secinātu dziļuma karti. Labākie rezultāti ir treknrakstā ar procentu skaitļiem zem tā, kas parāda, cik lielā mērā dziļuma kartes informācija uzlabo rezultātu.

Rezultāti par precizitāti, izmantojot četras dziļās viltošanas metodes, un attiecībā pret visu nesadalīto datu kopu. Rezultāti tiek sadalīti starp avota RGB attēlu analīzi un tiem pašiem attēliem ar iegultu secinātu dziļuma karti. Labākie rezultāti ir treknrakstā ar procentu skaitļiem zem tā, kas parāda, cik lielā mērā dziļuma kartes informācija uzlabo rezultātu.

Visos gadījumos dziļuma kanāls uzlabo modeļa veiktspēju visās konfigurācijās. Xception iegūst vislabākos rezultātus, jo veikls MobileNet ir tuvu aiz muguras. Par to autori komentē:

Interesanti atzīmēt, ka MobileNet ir nedaudz zemāks par Xception un pārspēj dziļāko ResNet50. Tas ir ievērojams rezultāts, apsverot mērķi samazināt secinājumu veikšanas laiku reāllaika lietojumprogrammām. Lai gan tas nav šī darba galvenais ieguldījums, mēs joprojām uzskatām, ka tas ir iepriecinošs rezultāts turpmākai attīstībai.

Pētnieki arī atzīmē konsekventu RGBD un 2 kanālu pelēktoņu ievades priekšrocību salīdzinājumā ar RGB un taisno pelēktoņu ievadi, novērojot, ka dziļuma secinājumu pelēktoņu konvertēšana, kas ir skaitļošanas ziņā ļoti lēta, ļauj modelim iegūt uzlabotus rezultātus ar ļoti ierobežotiem vietējiem resursiem. atvieglojot reāllaika dziļo viltojumu noteikšanas turpmāko attīstību, pamatojoties uz dziļuma informāciju.

 

Pirmo reizi publicēts 24. gada 2022. augustā.