Tekoäly

GAN kuin kasvojen renderöijä ‘perinteiselle’ CGI:lle

Published June 7, 2022

Updated April 5, 2026

Martin Anderson

Mielipide Kun Generative Adversarial Networks (GAN) ensimmäisen kerran osoittivat kykynsä tuottaa upeasti realistisia 3D-kasvoja, tämä aiheutti kultaryntäyksen GAN:n täysimittaisen potentiaalin löytämiseksi luomaan aikalisäisesti yhdenmukaisia videoita, joissa on ihmiskasvot.

Jossakin GAN:n latenttiavaruudessa näytti olevan piilotettu järjestys ja rationaalisuus – semanttisen logiikan schema, joka on kätketty latenttikoodissa, ja joka mahdollistaisi GAN:lle luoda yhdenmukaisia useita näkymiä ja useita tulkintoja (kuten ilmeen muutoksia) samasta kasvosta – ja siten tarjota aikalisäisesti vakuuttava deepfake-videomenetelmä, joka olisi autoenkooderien ylittävä.

Korkearesoluutioinen tuloste olisi triviaali verrattuna matalaresoluutioisiin ympäristöihin, joissa GPU-rajoitukset pakottavat DeepFaceLabin ja FaceSwapin toimimaan, kun taas “vaihtoalue” kasvoissa (autoenkooderityövirroissa) muuttuisi GAN:n “luomisalueeksi”, joka perustuu joukkoon syötekuviin tai jopa yhteen kuvaan.

Ei olisi enää epäsuhtaa “vaihdon” ja “isäntäkasvojen” välillä, koska koko kuva olisi luotu alusta alkaen, mukaan lukien hiukset, leuka ja kasvojen uloimmat ääriviivat, jotka usein osoittautuvat haasteellisiksi “perinteisille” autoenkooderideepfakeille.

GAN Kasvojen Video Talvi

Kuten kävi ilmi, se ei ollut läheskään niin helppoa. Lopulta eriytymisen osoittautui keskeiseksi ongelmaksi, ja se on edelleen ensisijainen haaste. Miten voit pitää erillisen kasvohahmon, ja muuttaa sen asentoa tai ilmettä ilman kokoelmaa tuhansia viitekuvia, jotka opettavat neurverkkoa siitä, mitä tapahtuu, kun nämä muutokset tehdään, niin kuin autoenkooderijärjestelmät tekevät?

Sen sijaan myöhempi ajattelu GAN-kasvojen toteutuksessa ja synteesitutkimuksessa oli, että syöteidentiteetti voisi mahdollisesti olla altis teleologisille, geneerisille, mallinmuokatuille muodonmuutoksille, jotka eivät ole identiteettikohtaisia. Esimerkki tästä olisi soveltaa ilme GAN-kasvoihin, jota ei ollut läsnä missään GAN:n tuntemista kuvista.

Vuoden 2022 tutkimuksesta Tensor-based Emotion Editing in the StyleGAN Latent Space, mallinmuokatut ilmeet sovelletaan syötekuvaan FFHQ-tietokannasta. Lähde: https://arxiv.org/pdf/2205.06102.pdf

On selvää, että “yksi kokoa” -lähestymistapa ei voi kattaa kasvojen ilmeiden monimuotoisuutta yksilöllisesti. Meidän on ihmeteltävä, voitaisiinko Jack Nicholsonin tai Willem Dafoen ainutlaatuinen hymy saada uskollinen tulkinta sellaisen “keskiarvon ilmeen” latenttikoodien vaikutuksesta.

Kuka on tämä viehättävä latinovieras? Vaikka GAN-menetelmä tuottaa realistisemman ja korkearesoluutioisemman kasvon, muodonmuutos ei perustu useisiin todellisen maailman kuviin näyttelijästä, kuten DeepFaceLabissa, joka kouluttaa laajasti tietokannassa tuhansia sellaisia kuvia, ja siten muistuttaa enemmän. Tässä (taustalla) DeepFaceLab-malli on tuotu DeepFaceLiveen, joka on suosittu ja kiistanalainen ohjelmisto. Esimerkit ovat https://www.youtube.com/watch?v=9tr35y-yQRY (2022) ja https://arxiv.org/pdf/2205.06102.pdf.

Useita GAN-kasvojen ilmeenmuokkaimia on esitetty viime vuosina, ja useimmat niistä koskevat tuntemattomia identiteettejä, joissa muodonmuutosten uskottavuus on mahdotonta arvioida, koska nämä eivät ole tuttuja kasvoja.

Tuntemattomat identiteetit muokataan vuoden 2020 Cascade-EF-GANissa. Lähde: https://arxiv.org/pdf/2003.05905.pdf

Ehkä GAN-kasvojen muokkain, joka on saanut eniten huomiota (ja viittauksia) viime kolmen vuoden aikana, on InterFaceGAN, joka voi suorittaa latenttiavaruuden kulkua latenttikoodissa, joka liittyy asentoon (kameran/kasvojen kulmaan), ilmeeseen, ikään, rotuun, sukupuoleen ja muihin olennaisiin ominaisuuksiin.

https://www.youtube.com/watch?v=uoftpl3Bj6w

1980-luvun tyylinen “muodonmuutos” -ominaisuus InterFaceGANissa ja vastaavissa kehyksissä on pääasiassa tapa havainnollistaa muodonmuutoksen polku, kun kuva heijastetaan takaisin sovellettavaan latenttikoodiin (kuten “ikä”). Aikalisäisesti yhdenmukaisen videon tuottamisen suhteen nämä tavat ovat toistaiseksi “vaikuttavia epäonnistumisia”.

Jos lisäät siihen hiusten luomisen vaikeuden ja sen, että latenttikoodin tutkimisen/muokkaamisen tekniikalla ei ole sisäänrakennettuja aikalisäisiä ohjeita (ja on vaikea tietää, miten sellaiset ohjeet voisi injektoida kehykseen, joka on suunniteltu käsittelyyn ja generoimiseen still-kuvia, ja jolla ei ole alkuperäistä video-ulosmenetelmää), se saattaa olla loogista johtopäätös, että GAN ei ole kaikki mitä tarvitaan kasvojen videonsynteesiin.

Sen vuoksi myöhemmät pyrkimykset ovat tuottaneet askelittaisia parannuksia eriytymisessä, kun taas toiset ovat kiinnittäneet muihin tietokoneen näkemisen konventioihin “ohjauskerroksen”, kuten semanttisen segmentoinnin käytön ohjausmekanismina myöhäisessä vuoden 2021 tutkimuksessa SemanticStyleGAN: Learning Compositional Generative Priors for Controllable Image Synthesis and Editing.

Semanttinen segmentointi latenttiavaruuden instrumentaationa SemanticStyleGANissa. Lähde: https://semanticstylegan.github.io/

Parametrinen Ohjaus

GAN-kasvojen synteesitutkimuksen yhteisö on suuntautumassa yhä enemmän “perinteisten” parametrinen CGI-kasvojen käyttöön GAN:n latenttiavaruuden ohjaamiseen ja järjestyksen tuomiseen.

Vaikka parametrinen kasvojen primitiivit ovat olleet tietokoneen näkemisen tutkimuksen perusta yli kahdenkymmenen vuoden ajan, kiinnostus tähän lähestymistapaan on kasvanut viime aikoina, ja Skinned Multi-Person Linear Model (SMPL) CGI-primitiivien käytön lisääntyminen, jota Max Planck -instituutti ja ILM ovat uranuurtaneet, ja jota on parannettu Sparse Trained Articulated Human Body Regressor (STAR) -kehyksellä.

SMPL (tässä tapauksessa SMPL-X) voi määrätä CGI-parametrinen verkkomalli, joka vastaa koko ihmiskehon asennon (mukaan lukien ilmeet, jos tarpeen) arviota kuvassa, ja sallii uusien toimintojen suorittamisen kuvassa parametrisen verkkomallin avulla. Lähde: https://arxiv.org/pdf/1904.05866.pdf

Disney:n vuoden 2019 Rendering with Style -aloite on ollut kaikkein tunnetuin kehitys tällä alalla, joka yhdisti perinteisten tekstuurikarttojen käytön GAN-kuvamateriaalin kanssa, pyrkien luomaan parannettua, “deepfake-tyylistä” animaatiotulosta.

Vanha kohtaa uuden Disney:n hybridi-lähestymistavassa GAN-kuvatuissa deepfake-kuvissa. Lähde: https://www.youtube.com/watch?v=TwpLqTmvqVk

Disney:n lähestymistapa määrää perinteisesti renderöidyt CGI-ominaisuudet StyleGAN2-verkkoon “täyttämään” ihmiskasvojen “ongelmallisia alueita”, joissa aikalisäys on ongelma videon tuottamisessa – alueita kuten ihon tekstuuria.

Rendering with Style -työvirran kuvaus.

Koska parametrinen CGI-pää, joka ohjaa tätä prosessia, voidaan säätää ja muuttaa käyttäjän tarpeiden mukaan, GAN-kuvattu kasvo pystyy heijastamaan nämä muutokset, mukaan lukien pään asennon ja ilmeen muutokset.

Vaikka se on suunniteltu yhdistämään CGI:n instrumentaalisuus ja GAN-kasvojen luonnollinen realismin, lopputuloksissa näkyy kummankin maailman huonoin puoli, ja ne epäonnistuvat edelleen pitämään hiusten tekstuurin ja jopa perusominaisuuksien sijainnin yhdenmukaisena:

Uusi tyyppi epäilyttävästä laaksosta nousee Rendering with Style -menetelmästä, vaikka periaate edelleen pitää jonkinlaista potentiaalia.

Vuoden 2020 tutkimus StyleRig: Rigging StyleGAN for 3D Control over Portrait Images edustaa yhä suositumpaa lähestymistapaa, jossa käytetään kolmiulotteisia muokattavia kasvomalleja (3DMM) varamuotona muodonmuutosten tekemiseen StyleGAN-ympäristössä, tässä tapauksessa uuden tyyppisen riggausverkon, RigNetin, kautta:

3DMM:t toimivat latenttiavaruuden tulkintoihin varamuotona StyleRigissä. Lähde: https://arxiv.org/pdf/2004.00121.pdf

Kuitenkin, kuten tavallisesti näissä aloitteissa, tulokset ovat toistaiseksi rajoittuneet minimiin asentojen manipulointiin ja “tiedostamattomiin” ilmeen/aistinmuutoksiin.

StyleRig parantaa ohjauksen tasoa, vaikka aikalisäisesti yhdenmukainen hiusten tekstuuri on edelleen ratkaisematon haaste. Lähde: https://www.youtube.com/watch?v=eaW_P85wQ9k

Samankaltaisia tuloksia voidaan löytää Mitsubishin tutkimuksen MOST-GAN -tutkimuksesta, joka käyttää epälineaarisia 3DMM:itä eriytymisarkkitehtuurina, mutta joka myös kamppailee dynaamisen ja yhdenmukaisen liikkeen saavuttamisessa.

Viimeisin tutkimus, joka yrittää instrumentaalisuutta ja eriytymistä, on One-Shot Face Reenactment on Megapixels, joka käyttää 3DMM-parametrinen päätiä ystävällisenä käyttöliittymänä StyleGANille.

MegaFR-työvirrassa One-Shot Face Reenactment -tutkimuksessa, verkkomalli suorittaa kasvojen synteesiä yhdistämällä käännetyt todellisen maailman kuvat parametreja, jotka on otettu renderöidystä 3DMM-mallista. Lähde: https://arxiv.org/pdf/2205.13368.pdf

OSFR kuuluu kasvavaan GAN-kasvojen muokkausohjelmistoihin, jotka pyrkivät kehittämään Photoshop/After Effects -tyylisen lineaarisen muokkausvirran, jossa käyttäjä voi syöttää haluamansa kuvan, jolle voidaan soveltaa muodonmuutoksia, sen sijaan että etsittäisiin latenttiavaruudesta latenttikoodia, joka liittyy identiteettiin.

Jälleen kerran parametrinen ilme edustaa yleistä ja henkilökohtaista tapaa ilmeen injektointiin, johtaa manipulointeihin, jotka tuntuvat “epäilyttäviltä” omalla tavallaan.

Injektoitujen ilmeiden esimerkit OSFR:ssä.

Kuten aiemmissa tutkimuksissa, OSFR pystyy arvioimaan lähes alkuperäisen asennon yhdestä kuvasta, ja suorittaa myös “etualoitusta”, jossa epäkeskoasentoiset kuvat käännetään mugshotiksi:

Alkuperäinen (yläpuolella) ja arvioitu mugshot-kuva yhdestä OSFR-tutkimuksen toteutuksesta.

Käytännössä tämäntyyppinen arviointi on samankaltainen kuin joitakin fotogrammetrian periaatteita, jotka tukevat Neural Radiance Fields (NeRF), paitsi että geometria täytyy määritellä yhdellä valokuvalla, sen sijaan kuin 3-4 näkökulmalla, joka sallii NeRF:in tulkitsemaan puuttuvat väliaskelten asennot ja luoda tutkimiskelpoisia neurologisia 3D-ympäristöjä, joissa on ihmisiä.

(Vaikka NeRF ei ole kaikki mitä tarvitaan, sillä se kantaa lähes täysin erilaisia esteitä kuin GAN:t kasvojen videonsynteesin suhteen)

Onko GAN:illa paikka kasvojen videonsynteesissä?

Dynamiikkaisten ilmeiden ja asentojen saavuttaminen yhdestä lähdekuvasarjasta näyttää olevan kuin alkuaineiden tavoittelu GAN-kasvojen synteesitutkimuksessa tällä hetkellä, lähinnä siksi, että GAN:t ovat ainoa menetelmä, joka pystyy tuottamaan suhteellisen korkearesoluutioisia ja -laatuisia neurokasvoja: vaikka autoenkooderideepfake-kehykset voivat kouluttaa useita todellisen maailman asentoja ja ilmeitä, ne joutuvat toimimaan VRAM-rajoitettujen syöte/tuloste-resoluutioilla, ja vaativat “isäntäkasvon”; NeRF on samoin rajoitettu, ja se ei ole vielä kehittänyt vakiintunutta metodologiaa kasvojen ilmeiden muuttamiseen, ja se kärsii editoitavuuden puutteesta yleensä.

Näyttää siltä, että ainoa tapa eteenpäin korkealaatuiselle CGI/GAN-kasvojen synteesijärjestelmälle on kehittää uusi aloite, joka löytää keinon kokoamaan monikuvasarjan identiteetin latenttiavaruuteen, jossa latenttikoodi henkilön identiteetille ei tarvitse matkustaa koko latenttiavaruuden läpi hyödyntääksesi epäliittyviä asentoja, vaan voi viitata omiin liittyviin (todellisiin) kuviin viittauksina muodonmuutoksille.

Vaikka sellaisessa tapauksessa, tai vaikka koko StyleGAN-verkko koulutettaisiin yksittäisen identiteetin kasvokuvauksella (samoin kuin autoenkooderit käyttävät koulutusjoukkoja), puuttuva semanttinen logiikka vaatisi silti oheisteknologioita, kuten semanttista segmentointia tai parametrinen 3DMM-kasvot, jotka voisivat toimia materiaalina tällaisessa skenaariossa.

Martin Anderson

Kirjailija tekoälystä, alan erikoisosaaja ihmiskuvien synteesissä. Entinen tutkimussisällön johtaja Metaphysic.ai:lla.
Henkilökohtainen sivu: martinanderson.ai
Ota yhteyttä: [email protected]

Unite.AI

GAN kuin kasvojen renderöijä ‘perinteiselle’ CGI:lle

GAN Kasvojen Video Talvi

Parametrinen Ohjaus

Onko GAN:illa paikka kasvojen videonsynteesissä?

You may like