Tekoäly
"Huonojen hiuspäivien" torjunta ihmiskuvan synteesissä

Roomalaisten patsaiden kulta-ajasta lähtien hiusten kuvaaminen on ollut vaikea haaste. Keskimääräinen ihmisen pää sisältää 100,000 XNUMX säiettä, sen taitekertoimet vaihtelevat sen värin mukaan, ja tietyn pituuden jälkeen se liikkuu ja uudistuu tavoilla, joita voidaan simuloida vain monimutkaiset fysiikan mallit – tähän mennessä sovellettu vain "perinteisten" CGI-menetelmien avulla.

alkaen 2017-tutkimus Disneyn fysiikkaan perustuva malli yrittää soveltaa realistista liikettä sulavaan hiustyyliin CGI-työnkulussa. Lähde: https://www.youtube.com/watch?v=-6iF3mufDW0
Ongelma on huonosti käsitelty nykyaikaisilla suosituilla deepfake-menetelmillä. Joitakin vuosia johtava paketti DeepFaceLab hänellä on ollut "täyspää" -malli, joka pystyy kuvaamaan vain jäykkiä lyhyitä (yleensä miespuolisia) kampauksia; ja hiljattain DFL-tallitoveri kasvojen vaihto (molemmat paketit ovat peräisin kiistanalaisesta 2017 DeepFakes-lähdekoodista) on tarjonnut toteutuksen BiseNet semanttinen segmentointimalli, jonka avulla käyttäjä voi sisällyttää korvat ja hiukset deepfake-tulostukseen.
Jopa hyvin lyhyitä kampauksia kuvattaessa tulokset ovat yleensä laadultaan erittäin rajallinen, jossa kokonaiset päät näkyvät videomateriaalin päällä sen sijaan, että ne olisivat integroituja siihen.
GAN Hiukset
Kaksi tärkeintä kilpailevaa lähestymistapaa ihmisen simulointiin ovat hermosäteilykentät (NeRF), joka voi kaapata kohtauksen useista näkökulmista ja kapseloida 3D-esityksen näistä näkökulmista tutkittavaan hermoverkkoon; ja generatiiviset vastakkaiset verkostot (GAN), jotka ovat huomattavasti edistyneempiä ihmiskuvan synteesin suhteen (etenkään siksi, että NeRF syntyi vasta vuonna 2020).
NeRF:n päätelty käsitys 3D-geometriasta mahdollistaa sen toistamisen erittäin tarkasti ja johdonmukaisesti, vaikka sillä tällä hetkellä on vain vähän tai ei ollenkaan mahdollisuuksia pakottaa fysikaalisia malleja – ja itse asiassa suhteellisen rajalliset mahdollisuudet kaikenlaiseen muuntamiseen kerätyssä. tiedot, jotka eivät liity kameran näkökulman muuttamiseen. Tällä hetkellä NeRF:llä on hyvin rajalliset ominaisuudet ihmisen hiusten liikkeen toistamisessa.
NeRF:n GAN-pohjaiset vastineet alkavat melkein kohtalokkaasta haitasta, koska toisin kuin NeRF, piilevä tila GAN ei sisällä natiivisti 3D-tietojen ymmärtämistä. Siksi 3D-tietoisesta GAN-kasvokuvasynteesistä on tullut viime vuosina kuuma harrastus kuvien luontitutkimuksessa, kun 2019 InterFaceGAN yksi johtavista läpimurroista.
Kuitenkin jopa InterFaceGANin esitellyt ja kirsikkapoimitut tulokset osoittavat, että hermohiusten konsistenssi on edelleen kova haaste ajallisen yhtenäisyyden kannalta mahdollisille VFX-työnkuluille:

InterFaceGANin "kihisevät" hiukset asennonmuutoksessa. Lähde: https://www.youtube.com/watch?v=uoftpl3Bj6w
Kun käy selvemmäksi, että johdonmukainen näkemysten luominen pelkästään piilevän tilan manipuloinnin kautta voi olla alkemian kaltaista pyrkimystä, ilmestyy yhä useampia artikkeleita, jotka sisältää CGI-pohjaisia 3D-tietoja GAN-työnkulkuun vakauttavana ja normalisoivana rajoitteena.
CGI-elementtiä voidaan esittää välimuotoisilla 3D-primitiiveillä, kuten a Nahkainen usean henkilön lineaarinen malli (SMPL) tai ottamalla käyttöön 3D-johtopäätöstekniikoita NeRF:n kaltaisella tavalla, jossa geometria arvioidaan lähdekuvista tai videosta.
Yksi uusi teos näillä linjoilla, julkaistiin tällä viikolla, On Monen näkymän johdonmukaiset generatiiviset vastakkaiset verkot 3D-tietoiseen kuvasynteesiin (MVCGAN), yhteistyö ReLER:n, AAII:n, Sydneyn teknillisen yliopiston, Alibaba Groupin DAMO Academyn ja Zhejiangin yliopiston välillä.

Uskottavia ja vankkoja uusia kasvoasentoja, jotka MVCGAN on luonut CELEBA-HQ-tietojoukosta johdetuille kuville. Lähde: https://arxiv.org/pdf/2204.06307.pdf
MVCGAN sisältää a generatiivinen säteilykenttäverkko (GRAF), joka pystyy tarjoamaan geometrisia rajoituksia generatiivisessa vastakkaisessa verkossa, mikä todennäköisesti saavuttaa joitakin aidoimpia poseeraamisominaisuuksia kuin mikä tahansa vastaava GAN-pohjainen lähestymistapa.
MVCGAN:ia koskeva lisämateriaali paljastaa kuitenkin, että hiusten volyymin, asettelun, sijoittelun ja käyttäytymisen johdonmukaisuuden saavuttaminen on ongelma, jota ei ole helppo ratkaista ulkopuoliseen 3D-geometriaan perustuvilla rajoituksilla.

Täydentävästä materiaalista, jota ei ole julkisesti julkaistu tätä kirjoitettaessa, näemme, että vaikka MVCGANin kasvojen asennon synteesi edustaa huomattavaa edistystä nykyiseen tekniikan tasoon verrattuna, ajallisen hiuksen konsistenssi on edelleen ongelma.
Koska "suorat" CGI-työnkulut pitävät ajallista hiusten rekonstruointia edelleen haasteena, ei ole mitään syytä uskoa, että tämän luonteiset perinteiset geometriaan perustuvat lähestymistavat tuovat johdonmukaisen hiussynteesin piilevään tilaan milloin tahansa pian.
Hiusten vakauttaminen konvoluutiohermoverkkojen avulla
Kolmelta ruotsalaisen Chalmers Institute of Technologyn tutkijalta tuleva paperi voi kuitenkin tarjota lisäedistystä hermokarvojen simulaatiossa.

Vasemmalla CNN:n stabiloima hiusesitys, oikealla totuus. Katso artikkelin loppuun upotettu video paremman resoluution ja lisäesimerkkien saamiseksi. Lähde: https://www.youtube.com/watch?v=AvnJkwCmsT4
nimeltään Reaaliaikainen hiusten suodatus konvoluutiohermoverkkojen avulla, lehti julkaistaan i3D-symposiumi toukokuun alussa.
Järjestelmä käsittää autoenkooderiin perustuvan verkon, joka pystyy arvioimaan hiusten erottelukykyä, mukaan lukien itsevarjostuksen ja ottamaan huomioon hiusten paksuuden, reaaliajassa perustuen rajoitettuun määrään OpenGL-geometrialla kylvettyjä stokastisia näytteitä.
Lähestymistapa tekee rajallisen määrän näytteitä stokastinen läpinäkyvyys ja sitten harjoittelee a U-verkko rekonstruoidaksesi alkuperäisen kuvan.

MVCGAN:n alla CNN suodattaa stokastisesti näytetyt väritekijät, kohokohdat, tangentit, syvyyden ja alfat ja kokoaa syntetisoidut tulokset yhdistelmäkuvaksi.
Verkko on koulutettu PyTorchilla, konvergoimalla kuudesta kahteentoista tuntiin verkon volyymista ja syöttöominaisuuksien lukumäärästä riippuen. Koulutettuja parametreja (painoja) käytetään sitten järjestelmän reaaliaikaisessa toteutuksessa.
Harjoitteludataa tuotetaan renderöimällä useita satoja kuvia suorille ja aaltoileville kampauksille käyttämällä satunnaisia etäisyyksiä ja asentoja sekä erilaisia valaistusolosuhteita.

Erilaisia esimerkkejä koulutuspanoksesta.
Hiusten läpikuultavuus näytteiden välillä lasketaan kuvista, jotka on renderoitu stokastisella läpinäkyvyydellä supernäytteen resoluutiolla. Alkuperäiset korkearesoluutioiset tiedot alasnäytteistetään verkko- ja laitteistorajoitusten huomioon ottamiseksi, ja myöhemmin näytteistetään ylös tyypillisessä automaattisen kooderin työnkulussa.
Reaaliaikainen päättelysovellus ("live" ohjelmisto, joka hyödyntää opetetusta mallista johdettua algoritmia) käyttää yhdistelmää NVIDIA CUDA:ta cuDNN:n ja OpenGL:n kanssa. Alkusyöttöominaisuudet syötetään OpenGL:n moninäytteisiin väripuskureihin, ja tulos shuntoidaan cuDNN-tensoreihin ennen käsittelyä CNN:ssä. Nämä tensorit kopioidaan sitten takaisin "eläväksi" OpenGL-tekstuuriksi, jotta ne asetetaan lopulliseen kuvaan.
Reaaliaikainen järjestelmä toimii NVIDIA RTX 2080 -näytönohjaimella, jonka resoluutio on 1024 × 1024 pikseliä.
Koska hiusväriarvot eroavat kokonaan verkon saamista lopullisista arvoista, hiusten värin muuttaminen on triviaali tehtävä, vaikka efektit, kuten liukuvärit ja juovat, ovat tulevaisuuden haaste.
Tekijät ovat julkaisseet paperin arvioinneissa käytetyn koodin GitLabissa. Katso MVCGANin lisävideo alta.
Yhteenveto
Navigointi autoenkooderin tai GANin piilevässä tilassa on edelleen enemmän purjehdusta kuin tarkkuusajoa. Vasta tällä äskettäisellä ajanjaksolla alamme nähdä uskottavia tuloksia "yksinkertaisemman" geometrian, kuten kasvojen, asemien luomisesta sellaisissa lähestymistavoissa kuin NeRF, GAN ja ei-deepfake (2017) autoencoder-kehykset.
Hiusten merkittävä arkkitehtoninen monimutkaisuus yhdistettynä tarpeeseen sisällyttää fysiikan malleja ja muita ominaisuuksia, joita nykyiset kuvasynteesimenetelmät eivät tarjoa, osoittaa, että hiusten synteesi ei todennäköisesti säily osana yleistä kasvojen synteesiä, mutta se vaatii omistettuja ja erillisiä verkostoja, jotka ovat jonkin verran kehittyneitä – vaikka tällaiset verkostot saattavat lopulta liittyä laajempiin ja monimutkaisempiin kasvojen synteesikehykseen.
Julkaistu ensimmäisen kerran 15.