Kunstig intelligens

Disentanglement Is the Next Deepfake Revolution

Opdateret on 9. December, 2022

CGI-dataforøgelse bliver brugt i et nyt projekt for at få større kontrol over deepfake-billeder. Selvom du stadig ikke effektivt kan bruge CGI-hoveder til at udfylde de manglende huller i deepfake-ansigtsdatasæt, betyder en ny bølge af forskning i at adskille identitet fra kontekst, at du snart ikke behøver det.

Skaberne af nogle af de mest succesrige virale deepfake-videoer i de sidste par år udvælger deres kildevideoer meget omhyggeligt, idet de undgår vedvarende profilbilleder (dvs. den slags side-on-mugshots, der populariseres af politiets anholdelsesprocedurer), spidse vinkler og usædvanlige eller overdrevne udtryk . I stigende grad er demonstrationsvideoerne produceret af virale deepfakere redigerede samlinger, som vælger de 'nemmeste' vinkler og udtryk til deepfake.

Faktisk er den mest imødekommende målvideo, hvor man kan indsætte en dybt forfalsket berømthed, en, hvor den originale person (hvis identitet vil blive slettet af den dybe falske) ser direkte til kameraet med et minimalt udvalg af udtryk.

Størstedelen af populære deepfakes i de senere år har vist motiver, der vender direkte mod kameraet og enten kun bærer populære udtryk (såsom smilende), som nemt kan udvindes fra rødt løber-paparazzi-output, eller (som med 2019-forfalskningen af Sylvester Stallone som Terminator, på billedet til venstre), ideelt set uden udtryk overhovedet, da neutrale udtryk er ekstremt almindelige, hvilket gør dem nemme at inkorporere i deepfake-modeller.

Fordi deepfake teknologier som f.eks DeepFaceLab , ansigtsbytte udfører disse simplere swaps meget godt, er vi tilstrækkeligt forblændede af, hvad de præsterer til ikke at bemærke, hvad de er ude af stand til, og – ofte – ikke engang forsøge:

Får fat i en rost deepfake-video, hvor Arnold Schwarzenegger forvandles til Sylvester Stallone – medmindre vinklerne er for vanskelige. Profiler forbliver et vedvarende problem med nuværende deepfake-tilgange, delvist fordi den open source-software, der bruges til at definere ansigtspositurer i deepfake-rammer, ikke er optimeret til sidevisninger, men hovedsageligt på grund af mangel på passende kildemateriale i enten den ene eller begge af de nødvendige datasæt. Kilde: https://www.youtube.com/watch?v=AQvCmQFScMA

Ny forskning fra Israel foreslår en ny metode til at bruge syntetiske data, såsom CGI-hoveder, til at bringe deepfaking ind i 2020'erne, ved virkelig at adskille ansigtsidentiteter (dvs. de væsentlige ansigtskarakteristika ved 'Tom Cruise' fra alle vinkler) fra deres kontekst (dvs. kigger op, kigger sidelæns, grinende, skulende i mørket, rynket bryn, lukkede øjneOsv.).

Det nye system adskiller diskret positur og kontekst (dvs. at blinke med et øje) fra individets identitetskodning ved hjælp af ikke-relaterede syntetiske ansigtsdata (billedet til venstre). I den øverste række ser vi et 'blink' overført til Barack Obamas identitet, foranlediget af den lærte ikke-lineære sti til et GAN's latente rum, repræsenteret af CGI-billedet til venstre. I rækken nedenfor ser vi den strakte mundhjørnefacet overført til den tidligere præsident. Nederst til højre ser vi begge egenskaber anvendt samtidigt. Kilde: https://arxiv.org/pdf/2111.08419.pdf

Dette er ikke blot deepfake hoveddukketeater, en teknik, der er mere velegnet til avatarer og læbesynkronisering med delvist ansigt, og som har begrænset potentiale for fuldgyldige deepfake-videotransformationer.

Dette repræsenterer snarere en vej frem for en grundlæggende adskillelse af instrumentalitet (som f.eks 'ændre vinklen på hovedet', 'skab en pandebryn') fra identitet, der tilbyder en vej til et højt niveau snarere end 'afledt' billedsyntesebaseret deepfake-ramme.

Det nye papir har titlen Delta-GAN-Encoder: Kodning af semantiske ændringer til eksplicit billedredigering ved hjælp af få syntetiske prøver, og kommer fra forskere ved Technion – Israel Institute of Technology.

For at forstå, hvad arbejdet betyder, lad os tage et kig på, hvordan deepfakes i øjeblikket produceres overalt fra deepfake pornosider til Industrielt lys og magi (da DeepFaceLab open source-depotet i øjeblikket er dominerende inden for både 'amatør' og professionel deepfaking).

Hvad holder den nuværende Deepfake-teknologi tilbage?

Deepfakes skabes i øjeblikket ved at træne en encoder/dekoder maskinlæringsmodel på to mapper med ansigtsbilleder – den person, du vil 'male over' (i det tidligere eksempel er det Arnie) og den person, du vil overlejre i optagelserne (Sly).

Eksempler på varierende positur og lysforhold på tværs af to forskellige ansigtssæt. Bemærk det karakteristiske udtryk i slutningen af den tredje række i kolonne A, som næppe har en tæt ækvivalent i det andet datasæt.

Encoder/dekoder systemet så sammenligner hvert enkelt billede i hver mappe til hinanden, opretholder, forbedrer og gentager denne operation i hundredtusindvis af iterationer (ofte så længe som en uge), indtil den forstår de væsentlige egenskaber ved begge identiteter godt nok til at bytte dem rundt efter behag.

For hver af de to personer, der bliver byttet om i processen, er det, som den deepfake-arkitektur lærer om identitet. viklet ind i konteksten. Den kan ikke lære og anvende principper om en generisk positur 'for godt og alt', men har brug for rigelige eksempler i træningsdatasættet for hver eneste identitet, der skal involveres i ansigtsbyttet.

Derfor, hvis du vil bytte to identiteter, der gør noget mere usædvanligt end blot at smile eller se direkte til kameraet, får du brug for mange forekomster af den pågældende positur/identitet på tværs af de to ansigtssæt:

Fordi ansigts-ID og posekarakteristika i øjeblikket er så sammenflettet, er der behov for en bred paritet af udtryk, hovedstilling og (i mindre grad) belysning på tværs af to ansigtsdatasæt for at træne en effektiv deepfake-model på systemer som DeepFaceLab. Jo mindre en bestemt konfiguration (såsom 'sidevisning/smilende/solbelyst') er med i begge ansigtssæt, jo mindre nøjagtigt vil den gengives i en dyb falsk video, hvis det er nødvendigt.

Hvis sæt A indeholder den usædvanlige positur, men sæt B mangler det, er du temmelig uheldig; uanset hvor længe du træner modellen, vil den aldrig lære at gengive den positur godt mellem identiteterne, fordi den kun havde halvdelen af den nødvendige information, da den blev trænet.

Selvom du har matchende billeder, er det måske ikke nok: hvis sæt A har den matchende positur, men med hård sidebelysning, sammenlignet med den fladt belyste tilsvarende positur i det andet ansigtssæt, vandt kvaliteten af byttet 't være så godt, som hvis hver delte fælles belysningskarakteristika.

Hvorfor data er knappe

Medmindre du bliver arresteret regelmæssigt, har du sandsynligvis ikke så mange sideprofilbilleder af dig selv. Enhver, der dukkede op, smed du sandsynligvis væk. Da billedbureauer gør det samme, er profilbilleder svære at finde.

Deepfakers inkluderer ofte flere kopier af de begrænsede sidevisningsprofildata, de har for en identitet i et ansigtssæt, bare så den positur får mindst en lidt opmærksomhed og tid under træning, i stedet for at blive nedsat som en outlier.

Men der er mange flere mulige typer af ansigtsbilleder fra siden, end der sandsynligvis vil være tilgængelige for medtagelse i et datasæt – smiler, rynker panden, skrigende, gråd, mørkt oplyst, hånlig, keder sig, munter, blitz tændt, kigger op, ser ned, øjne åbne, lukkede øjne…og så videre. Enhver af disse positurer, i flere kombinationer, kan være nødvendige i en deepfake target-video.

Og det er kun profiler. Hvor mange billeder har du af dig selv, der leder efter lige op? Har du nok til bredt at repræsentere 10,000 mulige udtryk du måske bærer, mens du holder den nøjagtige positur fra den nøjagtige kameravinkel, og dækker i det mindste noget af det en million mulige lysmiljøer?

Chancerne er, at du ikke engang har en billede af dig selv kigger op. Og det er kun to vinkler ud af de hundrede eller flere, der er nødvendige for fuld dækning.

Selv hvis det var muligt at generere fuld dækning af et ansigt fra alle vinkler under en række lysforhold, ville det resulterende datasæt være alt for stort til at træne, i størrelsesordenen hundredtusindvis af billeder; og selvom det kunne blive trænet, ville karakteren af træningsprocessen for nuværende deepfake-rammeværker smide langt størstedelen af de ekstra data væk til fordel for et begrænset antal afledte funktioner, fordi de nuværende rammer er reduktionistiske og ikke særlig skalerbare.

Syntetisk substitution

Siden begyndelsen af deepfakes har deepfakers eksperimenteret med at bruge billeder i CGI-stil, hoveder lavet i 3D-applikationer såsom Cinema4D og Maya, for at generere de "manglende positurer".

Ingen AI nødvendig; en skuespillerinde er genskabt i et traditionelt CGI-program, Cinema 4D, ved hjælp af mesh og bitmap-teksturer – teknologi, der går tilbage til 1960'erne, selvom den først opnåede udbredt brug fra 1990'erne og frem. I teorien kunne denne ansigtsmodel bruges til at generere deepfake kildedata til usædvanlige positurer, lysstile og ansigtsudtryk. I virkeligheden har det været af begrænset eller ingen nytte i deepfaking, da "falskheden" af gengivelserne har en tendens til at bløde igennem i byttede videoer. Kilde: Denne artikels forfatters billede på https://rossdawson.com/futurist/implications-of-ai/comprehensive-guide-ai-artificial-intelligence-visual-effects-vfx/

Denne metode bliver generelt forladt tidligt af nye deepfake-udøvere, for selvom den kan give positurer og udtryk, der ellers er utilgængelige, bløder det syntetiske udseende af CGI-ansigterne som regel igennem til swapsene på grund af sammenfiltring af ID og kontekstuel/semantisk information.

Dette kan føre til pludselige blink af 'uncanny valley'-ansigter i en ellers overbevisende deepfake-video, da algoritmen begynder at trække på de eneste data, den kan have for en usædvanlig positur eller udtryk - åbenlyst falske ansigter.

Blandt de mest populære emner for deepfakers er en 3D-deepfake-algoritme til den australske skuespillerinde Margot Robbie inkluderet i standardinstallationen af DeepFaceLive, en version af DeepFaceLab, der kan udføre deepfakes i en live-stream, såsom en webcam-session. En CGI-version, som vist ovenfor, kunne bruges til at opnå usædvanlige 'manglende' vinkler i deepfake-datasæt. Kilde: https://sketchfab.com/3d-models/margot-robbie-bust-for-full-color-3d-printing-98d15fe0403b4e64902332be9cfb0ace

Blandt de mest populære emner for deepfakers er en 3D deepfake-algoritme for den australske skuespillerinde Margot Robbie. medtaget i standardinstallationen af DeepFaceLive, en version af DeepFaceLab, der kan udføre deepfakes i en live-stream, såsom en webcam-session. En CGI-version, som vist ovenfor, kunne bruges til at opnå usædvanlige 'manglende' vinkler i deepfake-datasæt. Source: https://sketchfab.com/3d-models/margot-robbie-bust-for-full-color-3d-printing-98d15fe0403b4e64902332be9cfb0ace

CGI ansigter som en løsrevet, konceptuelle retningslinjer

I stedet er den nye Delta-GAN Encoder (DGE) metode fra de israelske forskere mere effektiv, fordi posituren og kontekstuelle informationer fra CGI-billederne er blevet fuldstændig adskilt fra målets 'identitet'-information.

Vi kan se dette princip i aktion på billedet nedenfor, hvor forskellige hovedorienteringer er opnået ved at bruge CGI-billederne som rettesnor. Da identitetstræk ikke er relateret til de kontekstuelle træk, er der ingen blødning hverken af det falske syntetiske udseende af CGI-ansigtet eller af identiteten afbildet i det:

Med den nye metode behøver du ikke at finde tre separate kildebilleder fra det virkelige liv for at udføre en deepfake fra flere vinkler – du kan bare dreje CGI-hovedet, hvis abstrakte funktioner på højt niveau påtvinges identiteten uden at lække noget ID Information.

Delta-GAN-encoder. Øverste venstre gruppe: vinklen på et kildebillede kan ændres på et sekund for at gengive et nyt kildebillede, som afspejles i outputtet; øverste højre gruppe: belysning er også adskilt fra identitet, hvilket tillader overlejring af belysningsstile; gruppe nederst til venstre: flere ansigtsdetaljer ændres for at skabe et 'trist' udtryk; gruppe nederst til højre: en enkelt ansigtsudtryksdetalje ændres, så øjnene skeler.

Denne adskillelse af identitet og kontekst opnås i træningsfasen. Pipeline for den nye deepfake-arkitektur søger efter den latente vektor i et forudtrænet Generative Adversarial Network (GAN), der matcher det billede, der skal transformeres - en Sim2Real-metode, der bygger på en 2018 projekt fra IBMs AI-forskningssektion.

Forskerne observerer:

'Med kun nogle få prøver, som adskiller sig ved en specifik egenskab, kan man lære den adskilte adfærd af en fortrænet sammenfiltret generativ model. Der er ikke behov for nøjagtige prøver fra den virkelige verden for at nå dette mål, hvilket ikke nødvendigvis er muligt.

'Ved at bruge ikke-realistiske dataeksempler kan det samme mål opnås takket være at udnytte semantikken i de kodede latente vektorer. Anvendelse af ønskede ændringer over eksisterende dataeksempler kan udføres uden eksplicit udforskning af latent rumadfærd.'

Forskerne forudser, at kerneprincipperne for løsrivelse, der er udforsket i projektet, kan overføres til andre domæner, såsom indretningsarkitektur-simuleringer, og at Sim2Real-metoden, der blev vedtaget til Delta-GAN-Encoder, i sidste ende kunne muliggøre deepfake-instrumentalitet baseret på blot skitser, snarere end CGI-stil input.

Det kan hævdes, at det omfang, i hvilket det nye israelske system måske eller måske ikke er i stand til at syntetisere deepfake-videoer, er langt mindre betydningsfuldt end de fremskridt, forskningen har gjort med at adskille kontekst fra identitet, i processen med at få mere kontrol over det latente rum af en GAN.

Disentanglement er et aktivt forskningsfelt inden for billedsyntese; i januar 2021, en Amazon-ledet forskning papir demonstrerede lignende pose-kontrol og adskillelse, og i 2018 en papir fra Shenzhen Institutes of Advanced Technology ved det kinesiske videnskabsakademi gjort fremskridt med at generere vilkårlige synspunkter i en GAN.