stomp Nuwe Deepfake-metode los die 'Face Host'-probleem op - Unite.AI
Verbinding met ons

Kunsmatige Intelligensie

Nuwe Deepfake-metode los die 'Face Host'-probleem op

mm
Opgedateer on

Ten spyte van 'n paar jaar van media-hiperbool oor die potensiaal vir diepvalse beelde om ons jarelange geloof in die egtheid van videomateriaal te ondermyn, maak alle tans gewilde metodes staat op die vind van 'gesiggashere' wat in die algemeen soortgelyk is in vorm aan die teikengesig.

Waar die oorspronklike beeldmateriaal 'n wye gesig het, maar die teikenonderwerp 'n smal gesig het, was resultate nog altyd problematies, want so 'n oordrag behels die wegsny van 'n deel van die oorspronklike gesig en die rekonstruering van die nou-blootgestelde agtergrond. Huidige pakkette soos DeepFaceLab en FaceSwap kan beperkte resultate lewer wanneer die konfigurasie omgekeer word (smal>wyd), maar het geen fasiliteit om hierdie scenario oortuigend aan te pak nie.

Nou, 'n samewerking tussen Tencent en China se Xiamen Universiteit het 'n ontwikkel nuwe benadering, getiteld HifiFace, ontwerp om hierdie tekort reg te stel.

Twee HifiFace deepfakes, die eerste van Anne Hathaway, waar 'n goeie gelykenis verkry word ten spyte van onversoenbare gasheer gesigvorm. HifiFace presteer ook goed op teikens met 'n bril, tradisioneel 'n struikelblok in deepfakes. Bron: https://arxiv.org/pdf/2106.09965.pdf

Twee HifiFace deepfakes, die eerste van Anne Hathaway, waar 'n goeie gelykenis verkry word ten spyte van onversoenbare gasheer gesigvorm. HifiFace presteer ook goed op teikens met 'n bril, tradisioneel 'n struikelblok in deepfakes. Bron: https://arxiv.org/pdf/2106.09965.pdf

Hermodelleer 'n Deepfake Face

Vorige benaderings, soos 2019's Onderwerp Agnostiese gesigsruiling en herinvoering (FSGAN), was afhanklik van 3DMM passtuk (3D-veranderbare modelle) of ander metodologieë gebaseer op gesigsmerkherkenning of -transformasie, waar die gesigslyne van die gesig wat 'oorskryf' moet word, die grense van die omruiling redelik dikteer:

Bron: https://github.com/Yinghao-Li/3DMM-fitting

3DMM gesig landmerk opsporing. Bron: https://github.com/Yinghao-Li/3DMM-fitting

Alhoewel mededingende metodes gebruik gemaak het van kenmerke afkomstig van gesigherkenningsnetwerke, is dit hoofsaaklik daarop gemik om tekstuur eerder as struktuur te herkonstitueer, en lewer insgelyks 'n 'maskeragtige' effek in gevalle waar die gasheergesig nie heeltemal versoenbaar is nie (dws die grense en vorm van haarlyn, kakebeen en wangbene).

Om hierdie kwessies aan te spreek, het die Chinese navorsers, gebaseer in die Media Analytics en Rekenaarlaboratorium by die universiteit se Departement Kunsmatige Intelligensie, 'n end-tot-end-netwerk ontwikkel wat die koëffisiënte van die teiken en die brongesig regresseer deur 'n 3D-rekonstruksiemodel te gebruik, wat dan weer gekombineer word as vorminligting, en aaneengeskakel word met identiteitsvektorinligting vanaf 'n gesigherkenningsnetwerk.

Hierdie geometriese data word dan in 'n enkodeerder-dekodeerder-model ingevoer as strukturele inligting, wat gemeng word met die teikengesig se uitdrukking en ingesteldheid, wat as hulpbronne aangewend word vir akkurate oordrag.

Semantiese gesigsamesmelting

Daarbenewens bevat HifiFace 'n Semantic Facial Fusion (SFF) komponent, wat 'n laevlakkenmerk in die enkodeerder gebruik om ruimtelike en tekstuurinligting te bewaar, sonder om die identiteit van die teikenbeeld prys te gee. Kenmerke van die enkodeerder en dekodeerder is geïntegreer in 'n aangeleerde aanpasbare masker, en die agtergrondinligting word deur middel van die aangeleerde gesigmasker in die uitset gemeng.

HifiFace in aksie. Bron: https://johann.wang/HifiFace/

HifiFace in aksie. Bron: https://johann.wang/HifiFace/

Op hierdie manier wyk HifiFace af van die gebruik van oorspronklike materiaal gesiggrense as 'n harde limiet, deur gebruik te maak van verwyde gesigsemantiese segmentering, waarin die model beter aanpasbare samesmelting op die randgrense van die gesig kan uitvoer.

Twee vorige benaderings (links bo en onder), en die nuwe HifiFace-argitektuur, wat bestaan ​​uit 'n enkodeerder, dekodeerder, 3D-vormbewuste identiteitsuittreksel en SFF-module.

Twee vorige benaderings (links bo en onder), en die nuwe HifiFace-argitektuur, wat bestaan ​​uit 'n enkodeerder, dekodeerder, 3D-vormbewuste identiteitsuittreksel en SFF-module.

In 'n vergelyking met voormalige metodes FSGAN, SimSwap en FaceShifter, HifiFace demonstreer 'n voortreflike rekonstruksie van gesigvorm, aangesien dit nie 'spook'-elemente benader waar die gesigsafbakenings die identiteit>identiteitskartering verwar nie, maar dit definitief rekonstrueer.

toets

Die navorsers het die stelsel geïmplementeer deur die VGGFace2 en die DeepGlint Asiatiese-Celeb datastelle. Gesigte is belyn via 5 uitwaartse landmerke en herbesnoei tot 256 × 256 pixels. 'n Portretverbeteringsnetwerk is ook gebruik om 'n 512 × 512 pieksels weergawe te genereer, vir 'n bykomende hoër-res model. Die model is opgelei onder Adam.

Alhoewel FaceShifter identiteit goed bewaar, kan dit nie kwessies soos uitdrukking, kleur en okklusie so effektief as HifiFace aanspreek nie, en het 'n meer komplekse netwerkstruktuur. FSGAN het probleme met die oordrag van die beligting van bron na teiken.

Die navorsers gebruik FaceForensics ++ vir kwantitatiewe vergelykings, steekproefneming van tien rame elk in 'n bondel omgeskakelde video's oor die mededingende metodes, en vind dat HifiFace 'n voortreflike ID-herwinningtelling behaal het. In die toetsing van 'n reeks ander faktore, soos beeldkwaliteit, het die navorsers ook gevind dat hul metode beter as die mededingende metodologieë presteer het.

Benedict Cumberbatch se gesigslyne word getrou weergegee.

Benedict Cumberbatch se gesigslyne word getrou weergegee.

Die werk verteenwoordig 'n verdere beweging om die bronmateriaal te abstraheer sodat dit slegs 'n rowwe sjabloon is waarin akkurate identiteite oorgedra kan word. Sommige van die huidige FOSS-pakkette, insluitend DeepFaceLab, het ontluikende funksionaliteit vir volkopvervanging, maar, soos HifiFace, maak dit nie rekening met hare nie, en dit is meer effektief om 'n gesig te 'uitbou' as om dit weg te beitel om by te pas 'n gewenste teikenbron.