Kunstig intelligens

En ny og enklere Deepfake-metode som overgår tidligere tilnærminger

oppdatert on Desember 9, 2022

Et samarbeid mellom en kinesisk AI-forskningsgruppe og USA-baserte forskere har utviklet det som kan være den første virkelige innovasjonen innen deepfakes-teknologi siden fenomenet dukket opp for fire år siden.

Den nye metoden kan utføre ansiktsbytter som utkonkurrerer alle andre eksisterende rammeverk på standard perseptuelle tester, uten å måtte samle inn og kurere store dedikerte datasett og trene dem i opptil en uke for kun en enkelt identitet. For eksemplene presentert i den nye artikkelen ble modeller trent på helhet av to populære kjendisdatasett, på én NVIDIA Tesla P40 GPU i omtrent tre dager.

Full video innebygd på slutten av denne artikkelen. I denne prøven fra en video i tilleggsmateriale til den nye avisen, blir Scarlett Johanssons ansikt overført til kildevideoen. CihaNet fjerner problemet med kantmaskering når du utfører en swap, ved å danne og etablere dypere relasjoner mellom kilde- og målidentitetene, noe som betyr en slutt på "åpenbare grenser" og andre overlagringsfeil som oppstår i tradisjonelle dypfalske tilnærminger. Kilde: Kilde: https://mitchellx.github.io/#video

Full video tilgjengelig på slutten av denne artikkelen. I denne prøven fra en video i tilleggsmateriale levert av en av forfatterne av den nye artikkelen, blir Scarlett Johanssons ansikt overført til kildevideoen. CihaNet fjerner problemet med kantmaskering når du utfører en swap, ved å danne og etablere dypere relasjoner mellom kilde- og målidentitetene, noe som betyr en slutt på "åpenbare grenser" og andre overlagringsfeil som oppstår i tradisjonelle dypfalske tilnærminger. Kilde: Kilde: https://mitchellx.github.io/#video

Den nye tilnærmingen fjerner behovet for å "lime" den transplanterte identiteten grovt inn i målvideoen, noe som ofte fører til avsløring gjenstander som vises der det falske ansiktet slutter og det virkelige, underliggende ansiktet begynner. Snarere brukes 'hallusinasjonskart' til å utføre en dypere blanding av visuelle fasetter, fordi systemet skiller identitet fra kontekst langt mer effektivt enn nåværende metoder, og derfor kan blande målidentiteten på et dypere nivå.

Fra avisen. CihaNet-transformasjoner tilrettelegges gjennom hallusinasjonskart (nederste rad). Systemet bruker kontekstinformasjon (dvs. ansiktsretning, hår, briller og andre okklusjoner osv.) helt fra bildet som den nye identiteten skal legges inn i, og ansiktsidentitetsinformasjon helt fra personen som skal settes inn i bildet. Denne evnen til å skille ansikt fra kontekst er avgjørende for systemets suksess. Kilde: https://dl.acm.org/doi/pdf/10.1145/3474085.3475257

Det nye hallusinasjonskartet gir effektivt en mer fullstendig kontekst for byttet, i motsetning til de harde maskene som ofte krever omfattende kurering (og i tilfellet med DeepFaceLab, egen trening) samtidig som den gir begrenset fleksibilitet når det gjelder reell inkorporering av de to identitetene.

Fra prøver gitt i tilleggsmaterialet, ved bruk av både FFHQ- og Celeb-A HQ-datasett, på tvers av VGGFace og Forensics++. De to første kolonnene viser de tilfeldig valgte (ekte) bildene som skal byttes. De følgende fire kolonnene viser resultatene av byttet med de fire mest effektive metodene som er tilgjengelige for øyeblikket, mens den siste kolonnen viser resultatet fra CihaNet. FaceSwap-depotet har blitt brukt, i stedet for det mer populære DeepFaceLab, siden begge prosjektene er gafler til den originale 2017 Deepfakes-koden på GitHub. Selv om hvert prosjekt siden har lagt til modeller, teknikker, forskjellige brukergrensesnitt og tilleggsverktøy, har den underliggende koden som gjør deepfakes mulig aldri endret seg, og er fortsatt felles for begge. Kilde: https://dl.acm.org/action/downloadSupplement?doi=10.1145%2F3474085.3475257&file=mfp0519aux.zip

De papir, med tittelen Ett-trinns kontekst- og identitetshallusinasjonsnettverk, er skrevet av forskere tilknyttet JD AI Research, og University of Massachusetts Amherst, og ble støttet av National Key R&D Program of China under Grant No. 2020AAA0103800. Den ble introdusert på den 29. ACM internasjonale konferansen om multimedia, 20.- 24. oktober, i Chengdu, Kina.

Ikke behov for "Face-On"-paritet

Både den mest populære nåværende deepfake-programvaren, DeepFaceLab, og konkurrerende gaffel FaceSwap, utfører kronglete og ofte håndkurerte arbeidsflyter for å identifisere hvilken vei et ansikt er tilbøyelig, hvilke hindringer som er i veien som må tas i betraktning (igjen, manuelt) , og må takle mange andre irriterende hindringer (inkludert belysning) som gjør bruken av dem langt fra "pek-og-klikk"-opplevelsen som er unøyaktig fremstilt i media siden deepfakes kom.

Derimot krever ikke CihaNet at to bilder vender direkte mot kameraet for å trekke ut og utnytte nyttig identitetsinformasjon fra ett enkelt bilde.

I disse eksemplene blir en rekke dypfalske programvareutfordrer utfordret med oppgaven med å bytte ansikter som ikke bare er forskjellige i identitet, men som ikke står overfor på samme måte. Programvare avledet fra det originale deepfakes-lageret (som det enormt populære DeepFaceLab og FaceSwap, avbildet ovenfor) kan ikke håndtere forskjellen i vinkler mellom de to bildene som skal byttes (se tredje kolonne). I mellomtiden kan CihaNet abstrahere identiteten riktig, siden "posituren" i ansiktet ikke er en del av identitetsinformasjonen.

arkitektur

CihaNet-prosjektet, ifølge forfatterne, var inspirert av 2019-samarbeidet mellom Microsoft Research og Peking University, kalt FaceShifter, selv om det gjør noen bemerkelsesverdige og kritiske endringer i kjernearkitekturen til den eldre metoden.

FaceShifter bruker to Adaptive Instance Normalization (AdaIN) nettverk for å håndtere identitetsinformasjon, hvilke data deretter transponeres til målbildet via en maske, på en måte som ligner på dagens populære deepfake-programvare (og med alle tilhørende begrensninger), ved bruk av en ekstra HØR-nett (som inkluderer et separat trent undernett trent på okklusjonshindringer – et ekstra lag med kompleksitet).

I stedet bruker den nye arkitekturen denne 'kontekstuelle' informasjonen direkte for selve transformasjonsprosessen, via en to-trinns enkelt Cascading Adaptive Instance Normalization (C-AdaIN) operasjon, som gir konsistens i konteksten (dvs. ansiktshud og okklusjoner) av ID- relevante områder.

Det andre undernettet som er avgjørende for systemet kalles Swapping Block (SwapBlk), som genererer en integrert funksjon fra konteksten til referansebildet og den innebygde 'identitetsinformasjonen' fra kildebildet, og omgår de flere stadiene som er nødvendige for å oppnå dette ved å konvensjonelle strømmidler.

For å hjelpe til med å skille mellom kontekst og identitet, a hallusinasjonskart er generert for hvert nivå, står for en myk segmenteringsmaske, og fungerer på et bredere spekter av funksjoner for denne kritiske delen av deepfake-prosessen.

Etter hvert som verdien av hallusinasjonskartet (bildet under til høyre) vokser, oppstår en klarere vei mellom identiteter.

På denne måten gjennomføres hele bytteprosessen i et enkelt trinn og uten etterbehandling.

Data og testing

For å prøve ut systemet trente forskerne fire modeller på to svært populære og varierte åpne bildedatasett – CelebA-HQ og NVIDIAs Flickr-Faces-HQ-datasett (FFHQ), som hver inneholder henholdsvis 30,000 70,000 og XNUMX XNUMX bilder.

Ingen beskjæring eller filtrering ble utført på disse basisdatasettene. I hvert tilfelle trente forskerne opp hele hvert datasett på den enkle Tesla GPUen over tre dager, med en læringsrate på 0.0002 på Adam-optimalisering.

De gjengav deretter en serie tilfeldige bytter blant de tusenvis av personligheter som er omtalt i datasettene, uten hensyn til hvorvidt ansiktene var like eller til og med kjønnsmatchede, og sammenlignet CihaNets resultater med resultatet fra fire ledende dypfalske rammeverk: ansiktsbytte (som står for de mer populære DeepFaceLab, siden den deler en rotkodebase i originalt 2017-depot som brakte deepfakes til verden); den nevnte FaceShifter; FSGAN, Og SimSwap.

Ved å sammenligne resultatene via VGG-Face, FFHQ, CelebA-HQ og FaceForensics ++, fant forfatterne at deres nye modell overgikk alle tidligere modeller, som angitt i tabellen nedenfor.

De tre beregningene som ble brukt til å evaluere resultatene var strukturell likhet (SSIM), utgjør estimeringsfeil og Nøyaktighet for ID-henting, som beregnes basert på prosentandelen av vellykket hentede par.

Forskerne hevder at CihaNet representerer en overlegen tilnærming når det gjelder kvalitative resultater, og et bemerkelsesverdig fremskritt i forhold til den nåværende toppmoderne innen dypfalske teknologier, ved å fjerne byrden av omfattende og arbeidskrevende maskeringsarkitekturer og -metodologier, og oppnå en mer nyttig og handlingsbar separasjon av identitet fra kontekst.

Ta en titt nedenfor for å se flere videoeksempler på den nye teknikken. Du finner videoen i full lengde her..