škrbina Informacije o globini lahko razkrijejo Deepfake v realnem času - Unite.AI
Povežite se z nami

Umetna inteligenca

Informacije o globini lahko razkrijejo Deepfake v realnem času

mm
Posodobljeno on

Nova raziskava iz Italije je pokazala, da so informacije o globini, pridobljene iz slik, lahko koristno orodje za odkrivanje globokih ponaredkov – tudi v realnem času.

Medtem ko je bila večina raziskav o odkrivanju globokih ponaredkov v zadnjih petih letih osredotočena na identifikacija artefaktov (ki ga je mogoče ublažiti z izboljšanimi tehnikami ali zamenjati za slabo kompresijo video kodeka), zunanja razsvetljava, biometrične lastnosti, časovna motnjaIn celo človeški instinkt, je nova študija prva, ki nakazuje, da bi lahko bile informacije o globini dragocena šifra za vsebino deepfake.

Primeri izpeljanih zemljevidov globine in razlika v zaznavnih informacijah o globini med pravimi in lažnimi slikami. Vir: https://arxiv.org/pdf/2208.11074.pdf

Primeri izpeljanih zemljevidov globine in razlika v zaznavnih informacijah o globini med pravimi in lažnimi slikami. Vir: https://arxiv.org/pdf/2208.11074.pdf

Kar je kritično, okviri za odkrivanje, razviti za novo študijo, zelo dobro delujejo na lahkem omrežju, kot je npr Xception, in sprejemljivo dobro MobileNet, novi dokument pa priznava, da lahko nizka zakasnitev sklepanja, ki jo ponujajo takšna omrežja, omogoči odkrivanje globokih ponaredkov v realnem času proti novemu trendu prevar z globokimi ponareditvami v živo, ki ga ponazarja nedavna napad na Binance.

Večjo ekonomičnost časa sklepanja je mogoče doseči, ker sistem ne potrebuje barvnih slik, da bi ugotovil razliko med lažnimi in resničnimi globinskimi zemljevidi, ampak lahko deluje presenetljivo učinkovito samo na sivinskih slikah informacij o globini.

Avtorji navajajo: 'Ta rezultat nakazuje, da globina v tem primeru doda pomembnejši prispevek k klasifikaciji kot barvni artefakti.'

Ugotovitve predstavljajo del novega vala raziskav odkrivanja globokih ponaredkov, usmerjenih proti sistemom za sintezo obraza v realnem času, kot je npr. DeepFaceLive – kraj prizadevanj, ki se je v zadnjih 3-4 mesecih po FBI-jevih marca opozorilo o tveganju globokih ponaredkov videa in zvoka v realnem času.

O papirja je naslovljen DepthFake: globinsko zasnovana strategija za odkrivanje videoposnetkov Deepfake, in prihaja od petih raziskovalcev z univerze Sapienza v Rimu.

Robni kovčki

Med usposabljanjem modeli deepfake, ki temeljijo na samodejnem kodiranju, dajejo prednost notranjim predelom obraza, kot so oči, nos in usta. V večini primerov prek odprtokodnih distribucij, kot je npr DeepFaceLab in Zamenjava obraza (oba razcepljena iz izvirnika 2017 Koda Reddit pred njegovim izbrisom), zunanji liniji obraza ne postanejo dobro definirani do zelo pozne faze treninga in verjetno ne bodo ustrezali kakovosti sinteze v notranjem območju obraza.

Iz prejšnje študije vidimo vizualizacijo 'zemljevidov vidnosti' obraza. Vir: https://arxiv.org/pdf/2203.01318.pdf

Iz prejšnje študije vidimo vizualizacijo 'zemljevidov vidnosti' obraza. Vir: https://arxiv.org/pdf/2203.01318.pdf

Običajno to ni pomembno, saj naša nagnjenost k osredotočanju najprej na oči in dajanju prednosti 'navzven' ob zmanjševanju ravni pozornosti pomeni, da je malo verjetno, da bi nas ti padci periferne kakovosti vznemirili – še posebej, če se pogovarjamo v živo z oseba, ki ponareja drugo identiteto, kar sproža družbene konvencije in omejitve obdelave ni prisoten, ko ocenjujemo 'upodobljene' globoko lažne posnetke.

Vendar pa je algoritemsko mogoče zaznati pomanjkanje podrobnosti ali natančnosti na prizadetih območjih robov globoko ponarejenega obraza. Marca je bil sistem, ki tipka na perifernem predelu obraza razglasitve. Ker pa zahteva nadpovprečno količino podatkov za usposabljanje, je namenjen samo slavnim osebam, ki bodo verjetno predstavljene v priljubljenih zbirkah podatkov o obrazih (kot je ImageNet), ki izvirajo iz trenutnega računalniškega vida in tehnik zaznavanja globokih ponaredkov.

Namesto tega nov sistem z naslovom DepthFake, lahko generično deluje tudi na nejasnih ali neznanih identitetah, tako da razlikuje kakovost ocenjenih informacij zemljevida globine v resnični in lažni video vsebini.

Going Deep

Informacije o zemljevidu globine se vse pogosteje vnašajo v pametne telefone, vključno z Stereo izvedbe s pomočjo AI ki so še posebej uporabni za študije računalniškega vida. V novi študiji so avtorji uporabili model FaceDepth Nacionalne univerze Irske, konvolucijsko omrežje kodirnikov/dekodirnikov, ki lahko učinkovito oceni zemljevide globine iz slik iz enega vira.

Model FaceDepth v akciji. Vir: https://tinyurl.com/3ctcazma

Model FaceDepth v akciji. Vir: https://tinyurl.com/3ctcazma

Nato cevovod za novo ogrodje italijanskih raziskovalcev iz izvirne slike RGB in izpeljanega zemljevida globine izvleče zaplato obraza subjekta velikosti 224 × 224 slikovnih pik. Kar je kritično, to omogoča procesu kopiranje osnovne vsebine brez spreminjanja velikosti; to je pomembno, saj bodo algoritmi za spreminjanje velikosti standardne velikosti negativno vplivali na kakovost ciljnih območij.

Z uporabo teh informacij iz resničnih in ponarejenih virov so raziskovalci nato usposobili konvolucijsko nevronsko mrežo (CNN), ki je sposobna razlikovati resnične od ponarejenih primerkov na podlagi razlik med zaznavno kakovostjo posameznih zemljevidov globine.

Konceptualni cevovod za DepthFake.

Konceptualni cevovod za DepthFake.

Model FaceDepth se uri na realističnih in sintetičnih podatkih z uporabo hibridne funkcije, ki ponuja več podrobnosti na zunanjih robovih obraza, zaradi česar je zelo primeren za DepthFake. Uporablja instanco MobileNet kot ekstraktor funkcij in je bil usposobljen z vhodnimi slikami 480 × 640, ki dajejo zemljevide globine 240 × 320. Vsak zemljevid globine predstavlja četrtino od štirih vhodnih kanalov, uporabljenih v diskriminatorju novega projekta.

Zemljevid globine je samodejno vdelan v izvirno sliko RGB, da zagotovi sliko RGBD, polno informacij o globini, ki jo lahko prikažejo sodobne kamere pametnih telefonov.

usposabljanje

Model je bil naučen v omrežju Xception, ki je bilo že vnaprej naučeno na ImageNet, čeprav je arhitektura potrebovala nekaj prilagoditev, da bi lahko prilagodila dodatne informacije o globini in hkrati ohranila pravilno inicializacijo uteži.

Poleg tega so raziskovalci zaradi neskladja v razponih vrednosti med informacijami o globini in pričakovanji omrežja zahtevali normalizacijo vrednosti na 0–255.

Med treningom sta bila uporabljena le obračanje in vrtenje. V mnogih primerih bi bile modelu predstavljene različne druge vizualne motnje, da bi razvili robustno sklepanje, vendar je potreba po ohranitvi omejenih in zelo krhkih informacij zemljevida globine robov na izvornih fotografijah prisilila raziskovalce, da so sprejeli režim zmanjšanja.

Sistem je bil dodatno usposobljen za preproste 2-kanalne sivine, da bi ugotovili, kako kompleksne morajo biti izvorne slike, da se pridobi delujoč algoritem.

Usposabljanje je potekalo prek API-ja TensorFlow na NVIDIA GTX 1080 z 8 GB VRAM-a, z uporabo optimizatorja ADAMAX, za 25 epoh, pri velikosti paketa 32. Vhodna ločljivost je bila med obrezovanjem fiksna na 224 × 224, zaznavanje obrazov in ekstrakcija pa sta bila doseženo z dlib Knjižnica C++.

Rezultati

Točnost rezultatov je bila testirana proti Deepfake, Face2Face, FaceSwap, Nevralna teksturain celoten nabor podatkov z vhodi RGB in RGBD z uporabo FaceForensic++ okvir.

Rezultati glede natančnosti v štirih metodah deepfake in v primerjavi s celotnim nerazdeljenim naborom podatkov. Rezultati so razdeljeni med analizo izvornih slik RGB in enake slike z vdelano ugotovljeno globinsko karto. Najboljši rezultati so označeni s krepkim tiskom, odstotki pod njimi pa prikazujejo, v kolikšni meri informacije zemljevida globine izboljšajo rezultat.

Rezultati glede natančnosti v štirih metodah deepfake in v primerjavi s celotnim nerazdeljenim naborom podatkov. Rezultati so razdeljeni med analizo izvornih slik RGB in enake slike z vdelano ugotovljeno globinsko karto. Najboljši rezultati so označeni s krepkim tiskom, odstotki pod njimi pa prikazujejo, v kolikšni meri informacije zemljevida globine izboljšajo rezultat.

V vseh primerih globinski kanal izboljša zmogljivost modela v vseh konfiguracijah. Xception dosega najboljše rezultate, hitro za petami pa mu je okreten MobileNet. O tem avtorji komentirajo:

„[Zanimivo] je, da je MobileNet nekoliko slabši od Xceptiona in prekaša globlji ResNet50. To je pomemben rezultat, če upoštevamo cilj zmanjšanja časov sklepanja za aplikacije v realnem času. Čeprav to ni glavni prispevek tega dela, vseeno menimo, da je to spodbuden rezultat za prihodnji razvoj.«

Raziskovalci ugotavljajo tudi dosledno prednost RGBD in 2-kanalnega vnosa v sivinah pred RGB in ravnim vnosom v sivinah, pri čemer opažajo, da pretvorbe v sivinah globinskih sklepov, ki so računsko zelo poceni, omogočajo modelu, da pridobi izboljšane rezultate z zelo omejenimi lokalnimi viri, omogočanje prihodnjega razvoja odkrivanja globokih ponaredkov v realnem času na podlagi informacij o globini.

 

Prvič objavljeno 24. avgusta 2022.