Artificiell intelligens

GAN som ansiktsrenderare för "traditionell" CGI

Uppdaterad on December 9, 2022

Yttrande När Generative Adversarial Networks (GAN) först visade sin förmåga att reproducera fantastiskt realistisk 3D-ansikten utlöste tillkomsten en guldrush för den outgrävda potentialen hos GAN:er för att skapa tidsmässigt konsekvent video med mänskliga ansikten.

Någonstans i GAN:s latenta utrymme verkade det som om det fanns måste vara dold ordning och rationalitet – ett schema av begynnande semantisk logik, begravd i de latenta koderna, som skulle tillåta en GAN att generera konsekventa flera vyer och flera tolkningar (som uttrycksförändringar) av Samma ansikte – och sedan erbjuda en tidsmässigt övertygande deepfake videometod som skulle blåsa autokodare Ur vattnet.

Högupplöst utdata skulle vara trivialt, jämfört med slumliknande lågupplösta miljöer där GPU-begränsningar tvingar DeepFaceLab och FaceSwap att fungera, medan 'växlingszonen' för ett ansikte (i autoencoder-arbetsflöden) skulle bli 'creation zone' av ett GAN, informerat av en handfull ingångsbilder, eller till och med bara en enda bild.

Det skulle inte finnas någon mer oöverensstämmelse mellan "swap" och "värd" ansikten, eftersom helhet av bilden skulle genereras från grunden, inklusive hår, käklinjer och de yttersta extremiteterna av ansiktslinjerna, vilket ofta visar sig vara en utmaning för "traditionella" autoencoder deepfakes.

GAN Ansiktsvideo Vinter

Som det visade sig, skulle det inte bli så lätt. I sista hand, lösgöring visat sig vara den centrala frågan och är fortfarande den primära utmaningen. Hur kan du behålla en distinkt ansiktsidentitet och ändra dess pose eller uttryck utan att samla ihop en korpus av tusentals referensbilder som lär ett neuralt nätverk vad som händer när dessa förändringar genomförs, på det sätt som autokodarsystem gör så mödosamt?

Snarare var efterföljande tänkande i GAN ansiktsutförande och syntesforskning att en ingångsidentitet kanske kunde göras föremål för teleologiska, generiska, mall transformationer som inte är identitetsspecifika. Ett exempel på detta skulle vara att applicera ett uttryck på ett GAN-ansikte som inte fanns i någon av bilderna av den personen som GAN känner till.

Från 2022 års uppsats Tensor-baserade känsloreditering i StyleGAN Latent Space, appliceras mallade uttryck på en inmatningsyta från FFHQ-datauppsättningen. Källa: https://arxiv.org/pdf/2205.06102.pdf

Från 2022 års tidning Tensor-baserad känsloredigering i StyleGAN Latent Space, appliceras mallade uttryck på en inmatningsyta från FFHQ-datauppsättningen. Källa: https://arxiv.org/pdf/2205.06102.pdf

Det är uppenbart att en "en storlek passar alla"-metoden inte kan täcka mångfalden av ansiktsuttryck som är unika för en individ. Vi måste undra om ett så unikt leende som Jack Nicholsons eller Willem Dafoes leende någonsin skulle kunna få en trogen tolkning under inflytande av sådana latenta koder för "genomsnittligt uttryck".

Vem är denna charmiga latinska främling? Även om GAN-metoden ger ett mer realistiskt ansikte med högre upplösning, informeras transformationen inte av flera verkliga bilder av skådespelaren, vilket är fallet med DeepFaceLab, som tränar mycket och ofta till viss kostnad på en databas med tusentals sådana bilder. Här (bakgrund) importeras en DeepFaceLab-modell till DeepFaceLive, en streamingimplementering av den populära och kontroversiella programvaran. Exempel är från https://www.youtube.com/watch?v=9tr35y-yQRY (2022) och https://arxiv.org/pdf/2205.06102.pdf.

Vem är denna charmiga latinska främling? Även om GAN-metoden ger ett mer "realistiskt" ansikte med högre upplösning, är transformationen inte informerad av flera verkliga bilder av skådespelaren, som är fallet med DeepFaceLab, som tränar mycket på en databas med tusentals sådana bilder, och följaktligen äventyras likheten. Här (bakgrund) importeras en DeepFaceLab-modell till DeepFaceLive, en strömmande implementering av den populära och kontroversiella programvaran. Exempel är från https://www.youtube.com/watch?v=9tr35y-yQRY (2022) och https://arxiv.org/pdf/2205.06102.pdf.

Ett antal GAN-redigerare för ansiktsuttryck har lagts fram under de senaste åren, de flesta av dem hantera okända identiteter, där förvandlingarnas trohet är omöjlig för den tillfällige läsaren att veta, eftersom dessa inte är bekanta ansikten.

Obskyra identiteter omvandlade i 2020-erbjudandet Cascade-EF-GAN. Källa: https://arxiv.org/pdf/2003.05905.pdf

Kanske är den GAN-ansiktsredaktör som har fått mest intresse (och citat) under de senaste tre åren InterFaceGAN, som kan utföra latenta utrymmespassageringar i latenta koder relaterade till pose (kamera/ansiktsvinkel), uttryck, ålder, ras, kön och andra väsentliga egenskaper.

InterFaceGAN Demo (CVPR 2020)

Watch this video on YouTube

1980-talets "morphing"-funktioner hos InterFaceGAN och liknande ramverk är främst ett sätt att illustrera vägen mot transformation när en bild projiceras tillbaka genom en lämplig latent kod (som "ålder"). När det gäller att producera videofilmer med tidsmässig kontinuitet har sådana system hittills kvalificerats som "imponerande katastrofer".

Om du lägger till det svårigheter att skapa tidsmässigt konsistent hår, och det faktum att tekniken för latent kodutforskning/-manipulation inte har några medfödda tidsmässiga riktlinjer att arbeta med (och det är svårt att veta hur man injicerar sådana riktlinjer i ett ramverk utformat för att ta emot och generera stillbilder, och som inte har någon inbyggd tillhandahållande för videoutgång), kan det vara logiskt att dra slutsatsen att GAN inte är allt du behöver™ för ansiktsvideosyntes.

Därför har efterföljande ansträngningar gett resultat stegvisa förbättringar i upplösning, medan andra har fastnat för andra konventioner inom datorseende som ett "vägledningslager", såsom användningen av semantisk segmentering som en kontrollmekanism i slutet av 2021 papper SemanticStyleGAN: Lär dig kompositionsgenerativa prioriteringar för kontrollerbar bildsyntes och redigering.

Semantisk segmentering som en metod för latent rymdinstrumentalitet i SemanticStyleGAN. Källa: https://semanticstylegan.github.io/

Parametrisk vägledning

GAN:s forskargrupp för ansiktssyntes styr allt mer mot användningen av "traditionella" parametriska CGI-ansikten som en metod för att vägleda och skapa ordning på de imponerande men ostyriga latenta koderna i ett GAN:s latenta utrymme.

Även om parametriska ansiktsprimitiver har varit en stapelvara i forskning om datorseende över tjugo år, intresset för detta tillvägagångssätt har ökat på sistone, med den ökade användningen av skinned multi-person linjär modell (SMPL) CGI primitives, ett tillvägagångssätt som banat väg för Max Planck Institute och ILM, och sedan dess förbättrats med Sparse Trained Articulated Human Body Regressor (STJÄRNA) ramverk.

SMPL (i det här fallet en variant som kallas SMPL-X) kan införa ett CGI parametriskt nät som överensstämmer med den uppskattade posituren (inklusive uttryck, vid behov) av hela den mänskliga kroppen som visas i en bild, vilket gör att nya operationer kan utföras på bilden använder det parametriska nätet som en volymetrisk eller perceptuell riktlinje. Källa: https://arxiv.org/pdf/1904.05866.pdf

SMPL (i detta fall en variant som kallas SMPL-X) kan införa ett CGI parametriskt nät som överensstämmer med den uppskattade posen (inklusive uttryck, vid behov) för hela den mänskliga kroppen som visas i en bild, vilket gör att nya operationer kan utföras på bilden med hjälp av det parametriska nätet som en volymetrisk eller perceptuell riktlinje. Källa: https://arxiv.org/pdf/1904.05866.pdf

Den mest hyllade utvecklingen i denna linje har varit Disneys 2019 Rendering med stil initiativ, som kombinerade användningen av traditionella texturkartor med GAN-genererade bilder, i ett försök att skapa förbättrad, "deepfake-stil" animerad produktion.

Gammalt möter nytt, i Disneys hybridförhållningssätt till GAN-genererade deepfakes. Källa: https://www.youtube.com/watch?v=TwpLqTmvqVk

Disneys tillvägagångssätt inför traditionellt återgivna CGI-aspekter i ett StyleGAN2-nätverk för att "måla" mänskliga ansiktsämnen i "problemområden", där tidsmässig konsistens är en fråga för videogenerering – områden som hudstruktur.

Arbetsflödet Rendering med stil.

Eftersom det parametriska CGI-huvudet som styr denna process kan justeras och ändras för att passa användaren, kan det GAN-genererade ansiktet reflektera dessa förändringar, inklusive förändringar av huvudställning och uttryck.

Även om de är utformade för att förena instrumentaliteten hos CGI med den naturliga realismen hos GAN-ansikten, visar resultaten i slutändan det värsta av två världar och lyckas fortfarande inte hålla hårstrukturen och till och med de grundläggande funktionernas positionering konsekvent:

En ny sorts kuslig dal växer fram från Rendering with Style, även om principen fortfarande har en viss potential.

Den 2020 papper StyleRig: Rigga StyleGAN för 3D-kontroll över porträttbilder tar ett allt mer populärt tillvägagångssätt, med användning av tredimensionella morphable ansiktsmodeller (3DMM) som proxyservrar för att ändra egenskaper i en StyleGAN-miljö, i det här fallet genom ett nytt riggningsnätverk kallat RigNet:

3DMM:er står in som proxyservrar för latenta rymdtolkningar i StyleRig. Källa: https://arxiv.org/pdf/2004.00121.pdf

Men som vanligt med dessa initiativ verkar resultaten hittills begränsade till minimala poseringsmanipulationer och "oinformerade" uttrycks-/påverkansförändringar.

StyleRig förbättrar kontrollnivån, även om temporärt konsekvent hår förblir en olöst utmaning. Källa: https://www.youtube.com/watch?v=eaW_P85wQ9k

Liknande resultat kan hittas från Mitsubishi Research's MEST-GAN, en 2021 papper som använder ickelinjära 3DMMs som en disentanglement-arkitektur, men som också kamp för att uppnå dynamisk och konsekvent rörelse.

Den senaste forskningen för att försöka instrumentalitet och disentanglement är One-Shot Face Reenactment på megapixlar, som återigen använder 3DMM parametriska huvuden som ett användarvänligt gränssnitt för StyleGAN.

I MegaFR-arbetsflödet för One-Shot Face Reenactment, utför nätverket ansiktssyntes genom att kombinera en inverterad verklig bild med parametrar tagna från en renderad 3DMM-modell. Källa: https://arxiv.org/pdf/2205.13368.pdf

OSFR tillhör en växande klass av GAN-ansiktsredigerare som försöker utveckla linjära redigeringsarbetsflöden i Photoshop/After Effects-stil där användaren kan mata in en önskad bild på vilken transformationer kan tillämpas, snarare än att leta igenom det latenta utrymmet efter latenta koder relaterade till en identitet.

Återigen representerar parametriska uttryck en övergripande och icke-personlig metod för att injicera uttryck, vilket leder till manipulationer som verkar "kusliga" på sitt eget, inte alltid positivt sätt.

Injicerade uttryck i OSFR.

Liksom tidigare arbete kan OSFR sluta sig till nästan originalposer från en enda bild, och även utföra "frontalisering", där en off-center poserad bild översätts till en mugshot:

Original (ovan) och härledda mugshot-bilder från en av implementeringarna av OSFR som beskrivs i det nya dokumentet.

I praktiken liknar denna typ av slutledning några av de fotogrammetriprinciper som ligger till grund för dem Neurala strålningsfält (NeRF), förutom att geometrin här måste definieras av ett enda foto, snarare än de 3-4 synpunkter som gör att NeRF kan tolka de saknade interstitiella poserna och skapa utforskbara neurala 3D-scener med människor.

(Men NeRF är inte heller All You Need™, eftersom den bär en nästan en helt annan uppsättning vägspärrar till GAN när det gäller att producera ansiktsvideosyntes)

Har GAN en plats i ansiktsvideosyntes?

Att uppnå dynamiska uttryck och out-of-distribution poser från en enda källbild verkar vara en alkemiliknande besatthet i GAN ansiktssyntesforskning för tillfället, främst för att GAN är den enda metoden som för närvarande kan producera ganska hög upplösning och relativt hög- fidelity neurala ansikten: även om autoencoder djupfalska ramverk kan träna på en mängd verkliga poser och uttryck, måste de fungera med VRAM-begränsade in-/utdataupplösningar och kräver en "värd"; medan NeRF är på liknande sätt begränsad och – till skillnad från de andra två tillvägagångssätten – för närvarande inte har några etablerade metoder för att ändra ansiktsuttryck, och lider av begränsad redigerbarhet i allmänhet.

Det verkar som om den enda vägen framåt för ett korrekt CGI/GAN-ansiktssyntessystem är att ett nytt initiativ ska hitta ett sätt att sätta ihop en identitetsenhet med flera foton inuti det latenta utrymmet, där en latent kod för en persons identitet inte behöver resa hela vägen över det latenta utrymmet för att utnyttja orelaterade poseparametrar, men kan referera till sina egna relaterade (verkliga) bilder som referenser för transformationer.

Även i ett sådant fall, eller även om ett helt StyleGAN-nätverk tränades på en ansiktsuppsättning med en enda identitet (liknande de träningsuppsättningar som autokodare använder), skulle den saknade semantiska logiken sannolikt fortfarande behöva tillhandahållas av tilläggsteknologier som t.ex. semantisk segmentering eller parametriska 3DMM-ansikter, som i ett sådant scenario åtminstone skulle ha mer material att arbeta med.