Umetna inteligenca

Nova metoda Deepfake rešuje problem 'Face Host'

Posodobljeno on December 9, 2022

Kljub večletnim medijskim hiperbolam o potencialu globoko ponarejenih slik, da spodkopajo našo dolgotrajno vero v pristnost videoposnetkov, se vse trenutno priljubljene metode opirajo na iskanje 'gostiteljev obrazov', ki so po obliki na splošno podobni ciljnemu obrazu.

Kadar izvirni posnetek prikazuje širok obraz, ciljni motiv pa ozek obraz, so bili rezultati vedno problematični, saj takšen prenos vključuje izrezovanje dela izvirnega obraza in rekonstrukcijo zdaj izpostavljenega ozadja. Trenutni paketi, kot sta DeepFaceLab in FaceSwap, lahko ustvarijo omejene rezultate, ko je konfiguracija obrnjena (ozko>široka), vendar nimajo možnosti za prepričljivo reševanje tega scenarija.

Zdaj je sodelovanje med Tencentom in kitajsko univerzo Xiamen razvilo a nov pristop, z naslovom HifiFace, namenjen odpravi tega primanjkljaja.

Dve globoki ponaredki HifiFace, prvi Anne Hathaway, kjer je dosežena dobra podobnost kljub nezdružljivi obliki obraza gostitelja. HifiFace se dobro obnese tudi na tarčah z očali, ki so tradicionalno kamen spotike pri deepfakeih. Vir: https://arxiv.org/pdf/2106.09965.pdf

Preoblikovanje obraza Deepfake

Prejšnji pristopi, na primer iz leta 2019 Subjekt Agnostic Face Swapping and Reenactment (FSGAN), so bile odvisne od 3DMM priključek (3D Morphable Models) ali druge metodologije, ki temeljijo na prepoznavanju ali preoblikovanju mejnikov obraza, kjer obrazne linije obraza, ki jih je treba "prepisati", v veliki meri narekujejo meje zamenjave:

Zaznavanje mejnikov obraza 3DMM. Vir: https://github.com/Yinghao-Li/3DMM-fitting

Čeprav so konkurenčne metode črpale iz funkcij, pridobljenih iz omrežij za prepoznavanje obrazov, so te usmerjene predvsem v rekonstitucijo teksture in ne strukture ter podobno ustvarjajo učinek "maske" v primerih, ko gostiteljski obraz ni povsem združljiv (tj. meje in oblika linije las, čeljusti in ličnic).

Da bi rešili ta vprašanja, so kitajski raziskovalci s sedežem v laboratoriju za medijsko analitiko in računalništvo na oddelku za umetno inteligenco univerze razvili omrežje od konca do konca, ki regresira koeficiente ciljnega in izvornega obraza z uporabo modela 3D rekonstrukcije, ki se nato ponovno združi kot informacija o obliki in poveže z informacijo vektorja identitete iz omrežja za prepoznavanje obraza.

Ti geometrijski podatki se nato vnesejo v model kodirnika-dekoderja kot strukturne informacije, ki se zlijejo z izrazom in naravnanostjo ciljnega obraza, ki se uporabijo kot pomožni viri za natančen prenos.

Semantična obrazna fuzija

Poleg tega HifiFace vključuje komponento Semantic Facial Fusion (SFF), ki uporablja funkcijo nizke ravni v kodirniku za ohranjanje informacij o prostoru in teksturi, ne da bi žrtvovala identiteto ciljne slike. Funkcije iz kodirnika in dekoderja so integrirane v naučeno prilagodljivo masko, informacije o ozadju pa so pomešane v izhod s pomočjo naučene obrazne maske.

HifiFace v akciji. Vir: https://johann.wang/HifiFace/

Na ta način HifiFace odstopa od uporabe meja obraza izvirnega materiala kot trde omejitve z uporabo razširjene semantične segmentacije obraza, pri čemer lahko model izvede boljše prilagodljivo zlitje na mejah robov obraza.

Dva predhodna pristopa (zgoraj in spodaj levo) in nova arhitektura HifiFace, ki je sestavljena iz kodirnika, dekoderja, ekstraktorja identitete, ki se zaveda 3D oblike, in modula SFF.

V primerjavi s prejšnjimi metodami FSGAN, SimSwap in FaceShifter, HifiFace izkazuje vrhunsko rekonstrukcijo oblike obraza, saj ne približuje elementov 'duhov', kjer razmejitve obraza zmedejo identiteto>preslikavo identitete, ampak jih dokončno rekonstruira.

Testiranje

Raziskovalci so implementirali sistem z uporabo VGGFace2 in DeepGlint azijski zvezdnik nabori podatkov. Obrazi so bili poravnani s 5 zunanjimi točkami in ponovno obrezani na 256 × 256 slikovnih pik. Omrežje za izboljšanje portreta je bilo uporabljeno tudi za ustvarjanje različice 512 × 512 slikovnih pik za dodatni model z višjo ločljivostjo. Model je bil usposobljen pod Adam.

Čeprav FaceShifter dobro ohranja identiteto, ne more obravnavati težav, kot so izražanje, barva in okluzija, tako učinkovito kot HifiFace, in ima bolj zapleteno mrežno strukturo. FSGAN ima težave pri prenosu svetlobe od vira do cilja.

Raziskovalci uporabljajo FaceForensics ++ za kvantitativne primerjave, vzorčenje desetih sličic vsakega v skupini pretvorjenih videoposnetkov med konkurenčnimi metodami in ugotovitev, da je HifiFace dosegel vrhunski rezultat pri pridobivanju ID-ja. Pri testiranju vrste drugih dejavnikov, kot je kakovost slike, so raziskovalci tudi ugotovili, da je njihova metoda prekašala konkurenčne metodologije.

Linije obraza Benedicta Cumberbatcha so zvesto reproducirane.

Delo predstavlja nadaljnji premik k abstrahiranju izvornega materiala, tako da je le groba predloga, v katero je mogoče prenesti natančne identitete. Nekateri trenutni paketi FOSS, vključno z DeepFaceLab, imajo nastajajočo funkcijo za zamenjavo celotne glave, vendar, tako kot HifiFace, ti ne upoštevajo las in so bolj učinkoviti pri "izdelavi" obraza kot pri izrezovanju obraza, da se ujema želeni ciljni vir.

Up Next

Nevronski deli: Razčlenitev primitivov za smiselno ugotovljeno geometrijo

Ne zamudite

Sintetični podatki: Premostitev okluzijske vrzeli z Grand Theft Auto

Martin Anderson

Pisec o strojnem učenju, umetni inteligenci in velikih podatkih.
Osebno spletno mesto: martinanderson.ai
Kontakt: [e-pošta zaščitena]
Twitter: @manders_ai

Unite.AI

Nova metoda Deepfake rešuje problem 'Face Host'

Umetna inteligenca