Artificiell intelligens
GAN som ansiktsrenderare för "traditionell" CGI
Yttrande När Generative Adversarial Networks (GAN) först visade sin förmåga att reproducera fantastiskt realistisk 3D-ansikten utlöste tillkomsten en guldrush för den outgrävda potentialen hos GAN:er för att skapa tidsmässigt konsekvent video med mänskliga ansikten.
Någonstans i GAN:s latenta utrymme verkade det som om det fanns måste vara dold ordning och rationalitet – ett schema av begynnande semantisk logik, begravd i de latenta koderna, som skulle tillåta en GAN att generera konsekventa flera vyer och flera tolkningar (som uttrycksförändringar) av Samma ansikte – och sedan erbjuda en tidsmässigt övertygande deepfake videometod som skulle blåsa autokodare Ur vattnet.
Högupplöst utdata skulle vara trivialt, jämfört med slumliknande lågupplösta miljöer där GPU-begränsningar tvingar DeepFaceLab och FaceSwap att fungera, medan 'växlingszonen' för ett ansikte (i autoencoder-arbetsflöden) skulle bli 'creation zone' av ett GAN, informerat av en handfull ingångsbilder, eller till och med bara en enda bild.
Det skulle inte finnas någon mer oöverensstämmelse mellan "swap" och "värd" ansikten, eftersom helhet av bilden skulle genereras från grunden, inklusive hår, käklinjer och de yttersta extremiteterna av ansiktslinjerna, vilket ofta visar sig vara en utmaning för "traditionella" autoencoder deepfakes.
GAN Ansiktsvideo Vinter
Som det visade sig, skulle det inte bli så lätt. I sista hand, lösgöring visat sig vara den centrala frågan och är fortfarande den primära utmaningen. Hur kan du behålla en distinkt ansiktsidentitet och ändra dess pose eller uttryck utan att samla ihop en korpus av tusentals referensbilder som lär ett neuralt nätverk vad som händer när dessa förändringar genomförs, på det sätt som autokodarsystem gör så mödosamt?
Snarare var efterföljande tänkande i GAN ansiktsutförande och syntesforskning att en ingångsidentitet kanske kunde göras föremål för teleologiska, generiska, mall transformationer som inte är identitetsspecifika. Ett exempel på detta skulle vara att applicera ett uttryck på ett GAN-ansikte som inte fanns i någon av bilderna av den personen som GAN känner till.
Det är uppenbart att en "en storlek passar alla"-metoden inte kan täcka mångfalden av ansiktsuttryck som är unika för en individ. Vi måste undra om ett så unikt leende som Jack Nicholsons eller Willem Dafoes leende någonsin skulle kunna få en trogen tolkning under inflytande av sådana latenta koder för "genomsnittligt uttryck".
Ett antal GAN-redigerare för ansiktsuttryck har lagts fram under de senaste åren, de flesta av dem hantera okända identiteter, där förvandlingarnas trohet är omöjlig för den tillfällige läsaren att veta, eftersom dessa inte är bekanta ansikten.
Kanske är den GAN-ansiktsredaktör som har fått mest intresse (och citat) under de senaste tre åren InterFaceGAN, som kan utföra latenta utrymmespassageringar i latenta koder relaterade till pose (kamera/ansiktsvinkel), uttryck, ålder, ras, kön och andra väsentliga egenskaper.
1980-talets "morphing"-funktioner hos InterFaceGAN och liknande ramverk är främst ett sätt att illustrera vägen mot transformation när en bild projiceras tillbaka genom en lämplig latent kod (som "ålder"). När det gäller att producera videofilmer med tidsmässig kontinuitet har sådana system hittills kvalificerats som "imponerande katastrofer".
Om du lägger till det svårigheter att skapa tidsmässigt konsistent hår, och det faktum att tekniken för latent kodutforskning/-manipulation inte har några medfödda tidsmässiga riktlinjer att arbeta med (och det är svårt att veta hur man injicerar sådana riktlinjer i ett ramverk utformat för att ta emot och generera stillbilder, och som inte har någon inbyggd tillhandahållande för videoutgång), kan det vara logiskt att dra slutsatsen att GAN inte är allt du behöver™ för ansiktsvideosyntes.
Därför har efterföljande ansträngningar gett resultat stegvisa förbättringar i upplösning, medan andra har fastnat för andra konventioner inom datorseende som ett "vägledningslager", såsom användningen av semantisk segmentering som en kontrollmekanism i slutet av 2021 papper SemanticStyleGAN: Lär dig kompositionsgenerativa prioriteringar för kontrollerbar bildsyntes och redigering.
Parametrisk vägledning
GAN:s forskargrupp för ansiktssyntes styr allt mer mot användningen av "traditionella" parametriska CGI-ansikten som en metod för att vägleda och skapa ordning på de imponerande men ostyriga latenta koderna i ett GAN:s latenta utrymme.
Även om parametriska ansiktsprimitiver har varit en stapelvara i forskning om datorseende över tjugo år, intresset för detta tillvägagångssätt har ökat på sistone, med den ökade användningen av skinned multi-person linjär modell (SMPL) CGI primitives, ett tillvägagångssätt som banat väg för Max Planck Institute och ILM, och sedan dess förbättrats med Sparse Trained Articulated Human Body Regressor (STJÄRNA) ramverk.
Den mest hyllade utvecklingen i denna linje har varit Disneys 2019 Rendering med stil initiativ, som kombinerade användningen av traditionella texturkartor med GAN-genererade bilder, i ett försök att skapa förbättrad, "deepfake-stil" animerad produktion.
Disneys tillvägagångssätt inför traditionellt återgivna CGI-aspekter i ett StyleGAN2-nätverk för att "måla" mänskliga ansiktsämnen i "problemområden", där tidsmässig konsistens är en fråga för videogenerering – områden som hudstruktur.
Eftersom det parametriska CGI-huvudet som styr denna process kan justeras och ändras för att passa användaren, kan det GAN-genererade ansiktet reflektera dessa förändringar, inklusive förändringar av huvudställning och uttryck.
Även om de är utformade för att förena instrumentaliteten hos CGI med den naturliga realismen hos GAN-ansikten, visar resultaten i slutändan det värsta av två världar och lyckas fortfarande inte hålla hårstrukturen och till och med de grundläggande funktionernas positionering konsekvent:
Den 2020 papper StyleRig: Rigga StyleGAN för 3D-kontroll över porträttbilder tar ett allt mer populärt tillvägagångssätt, med användning av tredimensionella morphable ansiktsmodeller (3DMM) som proxyservrar för att ändra egenskaper i en StyleGAN-miljö, i det här fallet genom ett nytt riggningsnätverk kallat RigNet:
Men som vanligt med dessa initiativ verkar resultaten hittills begränsade till minimala poseringsmanipulationer och "oinformerade" uttrycks-/påverkansförändringar.
Liknande resultat kan hittas från Mitsubishi Research's MEST-GAN, en 2021 papper som använder ickelinjära 3DMMs som en disentanglement-arkitektur, men som också kamp för att uppnå dynamisk och konsekvent rörelse.
Den senaste forskningen för att försöka instrumentalitet och disentanglement är One-Shot Face Reenactment på megapixlar, som återigen använder 3DMM parametriska huvuden som ett användarvänligt gränssnitt för StyleGAN.
OSFR tillhör en växande klass av GAN-ansiktsredigerare som försöker utveckla linjära redigeringsarbetsflöden i Photoshop/After Effects-stil där användaren kan mata in en önskad bild på vilken transformationer kan tillämpas, snarare än att leta igenom det latenta utrymmet efter latenta koder relaterade till en identitet.
Återigen representerar parametriska uttryck en övergripande och icke-personlig metod för att injicera uttryck, vilket leder till manipulationer som verkar "kusliga" på sitt eget, inte alltid positivt sätt.
Liksom tidigare arbete kan OSFR sluta sig till nästan originalposer från en enda bild, och även utföra "frontalisering", där en off-center poserad bild översätts till en mugshot:
I praktiken liknar denna typ av slutledning några av de fotogrammetriprinciper som ligger till grund för dem Neurala strålningsfält (NeRF), förutom att geometrin här måste definieras av ett enda foto, snarare än de 3-4 synpunkter som gör att NeRF kan tolka de saknade interstitiella poserna och skapa utforskbara neurala 3D-scener med människor.
(Men NeRF är inte heller All You Need™, eftersom den bär en nästan en helt annan uppsättning vägspärrar till GAN när det gäller att producera ansiktsvideosyntes)
Har GAN en plats i ansiktsvideosyntes?
Att uppnå dynamiska uttryck och out-of-distribution poser från en enda källbild verkar vara en alkemiliknande besatthet i GAN ansiktssyntesforskning för tillfället, främst för att GAN är den enda metoden som för närvarande kan producera ganska hög upplösning och relativt hög- fidelity neurala ansikten: även om autoencoder djupfalska ramverk kan träna på en mängd verkliga poser och uttryck, måste de fungera med VRAM-begränsade in-/utdataupplösningar och kräver en "värd"; medan NeRF är på liknande sätt begränsad och – till skillnad från de andra två tillvägagångssätten – för närvarande inte har några etablerade metoder för att ändra ansiktsuttryck, och lider av begränsad redigerbarhet i allmänhet.
Det verkar som om den enda vägen framåt för ett korrekt CGI/GAN-ansiktssyntessystem är att ett nytt initiativ ska hitta ett sätt att sätta ihop en identitetsenhet med flera foton inuti det latenta utrymmet, där en latent kod för en persons identitet inte behöver resa hela vägen över det latenta utrymmet för att utnyttja orelaterade poseparametrar, men kan referera till sina egna relaterade (verkliga) bilder som referenser för transformationer.
Även i ett sådant fall, eller även om ett helt StyleGAN-nätverk tränades på en ansiktsuppsättning med en enda identitet (liknande de träningsuppsättningar som autokodare använder), skulle den saknade semantiska logiken sannolikt fortfarande behöva tillhandahållas av tilläggsteknologier som t.ex. semantisk segmentering eller parametriska 3DMM-ansikter, som i ett sådant scenario åtminstone skulle ha mer material att arbeta med.