Connect with us

Ratkaisemalla ‘pahaa hiusten päivää’ ihmisen kuvan synteesissä

Tekoäly

Ratkaisemalla ‘pahaa hiusten päivää’ ihmisen kuvan synteesissä

mm

Jo Rooman veistosten kultaisesta ajasta lähtien ihmisen hiusten kuvaaminen on ollut vaikeakulkuinen haaste. Keskimääräinen ihmispää sisältää 100 000 hiussuorta, ja sen refraktiivinen indeksi vaihtelee sen mukaan, minkä väriset hiukset ovat, ja tietyn pituuden jälkeen se liikkuu ja muodostuu uudelleen tavoin, joita voidaan simuloida vain monimutkaisilla fysiikan malleilla – toistaiseksi vain perinteisten CGI-menetelmien kautta.

Disneyltä vuonna 2017 tehdystä tutkimuksesta, fysiikkaan perustuva malli yrittää soveltaa realistista liikettä fluidiin hiustyyliin CGI-työvirrassa. Lähde: https://www.youtube.com/watch?v=-6iF3mufDW0

Disneyltä vuonna 2017 tehdystä tutkimuksesta, fysiikkaan perustuva malli yrittää soveltaa realistista liikettä fluidiin hiustyyliin CGI-työvirrassa. Lähde: https://www.youtube.com/watch?v=-6iF3mufDW0

Ongelmaa ei ole ratkaistu riittävästi modernin suositun deepfakes-menetelmän avulla. Joitakin vuosia johtava paketti DeepFaceLab on ollut ‘täysi pää’ -malli, joka voi vain kaapata jäykät toteutukset lyhyistä (yleensä miehen) hiusten tyylistä; ja äskettäin DFL-stable FaceSwap (molemmat paketit ovat johdettu kiistanalaisesta DeepFakes-lähteestä vuodelta 2017) on tarjonnut toteutuksen BiseNet semanttisesta segmentaatiomallista, joka sallii käyttäjän sisällyttää korvat ja hiukset deepfake-tulokseen.

Vaikka kuvaamalla hyvin lyhyitä hiusten tyylejä, tulokset ovat yleensä erittäin rajattuja laadussa, ja täydelliset päät näyttävät siltä, että ne on asetettu kuvamateriaaliin, sen sijaan, että ne olisivat integroitu siihen.

GAN-hiukset

Kahden suuren kilpailevan lähestymistavan ihmisen simulaatioon ovat Neural Radiance Fields (NeRF), joka voi kaapata kohtauksen useista näkökulmista ja sisällyttää 3D-edustuksen näistä näkökulmista tutkittavaan neurverkkoon; ja Generative Adversarial Networks (GANs), jotka ovat merkittävästi edistyneempiä ihmisen kuvan synteesin suhteen (ei vain siksi, että NeRF ilmaantui vasta vuonna 2020).

NeRF:n implisiittinen ymmärrys 3D-geometriasta mahdollistaa sen toistaa kohtaus suurella uskottavuudella ja johdonmukaisuudella, vaikka se tällä hetkellä on vain vähän tai ei lainkaan mahdollisuuksia fysiikan mallien asettamiseen – ja tosiasiallisesti vain vähän mahdollisuuksia mihin tahansa tietyn muodonmuutokseen kerätystä tiedosta, joka ei liity kameran näkökulman muuttamiseen. Tällä hetkellä NeRF:llä on erittäin rajatut mahdollisuudet ihmisen hiusten liikkeen toistamisessa.

GAN-pohjaiset vastineet NeRF:lle alkavat lähes kohtalokkaasta tappiosta, koska, toisin kuin NeRF, latenttila GAN:issa ei sisällä 3D-tietoa. Siksi 3D-tietoinen GAN-kasvojen kuvan synteesi on ollut kuuma tavoite kuvanluontitutkimuksessa viime vuosina, ja vuoden 2019 InterFaceGAN on yksi johtavista läpimurroista.

Kuitenkin, jopa InterFaceGAN:n esitetyt ja valitut tulokset osoittavat, että neuronien hiusten johdonmukaisuus on edelleen haasteellinen ongelma aikajohdonmukaisuuden suhteen mahdollisissa VFX-työvirroissa:

'Sizzle' -hiukset asennemuunnoksessa InterFaceGAN:issa. Lähde: https://www.youtube.com/watch?v=uoftpl3Bj6w

‘Sizzle’ -hiukset asennemuunnoksessa InterFaceGAN:issa. Lähde: https://www.youtube.com/watch?v=uoftpl3Bj6w

Kun on yhä selvemmäksi, että johdonmukainen näkymän luonti latentin avaruuden manipuloinnin kautta voi olla alkuaineiden kaltaista tavoitetta, yhä useammat tutkimukset ovat ilmaantuneet, jotka sisällyttävät CGI-pohjaisia 3D-tietoja GAN-työvirraan stabiloivana ja normalisoivana rajoituksena.

CGI-elementti voidaan edustaa välimuotoisilla 3D-primitiiveillä, kuten Skinned Multi-Person Linear Model (SMPL), tai omaksumalla 3D-johtopäättelytekniikoita NeRF:n kaltaisella tavalla, jossa geometria arvioidaan lähdekuvaista tai videosta.

Yksi uusi työ tämän suuntainen, julkaistu tällä viikolla, on Multi-View Consistent Generative Adversarial Networks for 3D-aware Image Synthesis (MVCGAN), yhteistyö ReLER:n, AAII:n, University of Technology Sydneyn, Alibaba Groupin DAMO Academy:n ja Zhejiang Universityn välillä.

Uskottavat ja kestävät uudet kasvokuvat, joita MVCGAN on luonut CELEBA-HQ-aineistosta. Lähde: https://arxiv.org/pdf/2204.06307.pdf

Uskottavat ja kestävät uudet kasvokuvat, joita MVCGAN on luonut CELEBA-HQ-aineistosta. Lähde: https://arxiv.org/pdf/2204.06307.pdf

MVCGAN sisältää generatiivisen radiance field -verkon (GRAF), joka pystyy tarjoamaan geometrisia rajoituksia GAN:ssa, ja saavuttaa joitakin autenttisimmista asennoista minkään vastaavan GAN-pohjaisen lähestymistavan kanssa.

Vertailu MVCGAN:n ja aiempien menetelmien GRAF, GIRAFFE ja pi-GAN välillä.

Vertailu MVCGAN:n ja aiempien menetelmien GRAF, GIRAFFE ja pi-GAN välillä.

Kuitenkin, MVCGAN:n lisämateriaali paljastaa, että hiusten tilavuuden, asettelun, sijoittelun ja käyttäytymisen johdonmukaisuuden saavuttaminen on ongelma, jota ei voida helposti ratkaista ulkoisesti asetettujen 3D-geometrian rajoitusten kautta.

Lisämateriaalista, jota ei ole julkaistu kirjoituksen kirjoittamishetkellä, nähdään, että vaikka MVCGAN:n kasvokuvan synteesi edustaa merkittävää edistystä nykyisessä tilassa, aikajohdonmukainen hiusten johdonmukaisuus on edelleen ongelma.

Lisämateriaalista, jota ei ole julkaistu kirjoituksen kirjoittamishetkellä, nähdään, että vaikka MVCGAN:n kasvokuvan synteesi edustaa merkittävää edistystä nykyisessä tilassa, aikajohdonmukainen hiusten johdonmukaisuus on edelleen ongelma.

Koska ‘suoraviivaiset’ CGI-työvirrat edelleen kohtaavat haasteita hiusten aikajohdonmukaisuuden suhteen, ei ole syytä uskoa, että perinteiset geometriaan perustuvat lähestymistavat tulevat tuomaan johdonmukaisen hiusten synteesin latenttiavaruuteen lähitulevaisuudessa.

Hiusten stabilointi konvoluutio-neuroverkoilla

Kuitenkin, tuleva tutkimus kolmelta tutkijalta Chalmersin teknillisen korkeakoulun Ruotsissa voi tarjota lisää edistystä neuronisen hiusten simulaatiossa.

Vasemmalla, CNN-stabiloitu hiusten edustus, oikealla, alkuperäinen totuus. Katso video artikkelin lopussa paremmasta resoluutiosta ja lisäesimerkeistä. Lähde: https://www.youtube.com/watch?v=AvnJkwCmsT4

Vasemmalla, CNN-stabiloitu hiusten edustus, oikealla, alkuperäinen totuus. Katso video artikkelin lopussa paremmasta resoluutiosta ja lisäesimerkeistä. Lähde: https://www.youtube.com/watch?v=AvnJkwCmsT4

Tutkimuksen otsikko on Real-Time Hair Filtering with Convolutional Neural Networks, ja se julkaistaan i3D-symposiumissa toukokuun alussa.

Järjestelmä koostuu itseoppijasta, joka pystyy arvioimaan hiusten resoluutioita, mukaan lukien itsevarjostus ja huomioon ottaen hiusten paksuuden, reaaliajassa, perustuen rajoitettuun määrään stokastisiin näytteisiin, jotka on siroteltu OpenGL-geometrialla.

Lähestymistapa renderöi rajoitetun määrän näytteitä stokastisen läpinäkyvyyden kanssa ja kouluttaa U-netin rekonstruoimaan alkuperäisen kuvan.

MVCGAN:ssa CNN-suodatin stokastisen näytteen värikohtia, korostuksia, tangenteja, syvyyttä ja alfaa, ja kokoaa syntetisoidut tulokset yhdistetyksi kuvaksi.

MVCGAN:ssa CNN-suodatin stokastisen näytteen värikohtia, korostuksia, tangenteja, syvyyttä ja alfaa, ja kokoaa syntetisoidut tulokset yhdistetyksi kuvaksi.

Verkko on koulutettu PyTorchilla, ja se supistuu 6-12 tunnissa, riippuen verkon tilavuudesta ja syötteiden määrästä. Koulutetut parametriarvot (painot) käytetään reaaliaikaisessa järjestelmän toteutuksessa.

Koulutusdataa generoidaan renderöimällä useita satoja kuvia suorista ja aaltoilevista hiusten tyyleistä, satunnaisilla etäisyyksillä ja asennoilla, sekä erilaisilla valaistusolosuhteilla.

Erikoisia esimerkkejä koulutus syötteistä.

Erikoisia esimerkkejä koulutus syötteistä.

Hiusten läpinäkyvyys näytteissä on keskiarvoistettu kuvista, jotka on renderöity stokastisen läpinäkyvyyden kanssa supersampled-resoluutiolla. Alkuperäinen korkea resoluutio on pienennetty verkon ja laitteiston rajoitusten mukaisesti, ja myöhemmin suurennettu takaisin, tyypillisessä autoencoder-työvirrassa.

Reaaliaikainen sovellus (eli ‘live’ -ohjelma, joka hyödyntää koulutetun mallin johdannaista) käyttää sekoitusta NVIDIA CUDA:sta cuDNN:än ja OpenGL:stä. Alkuperäiset syötteet dumppaavat OpenGL-moninäytteisiin värikokoelmiin, ja tulokset siirretään cuDNN-tensooreihin ennen prosessointia CNN:ssa. Nämä tensoorit kopioivat takaisin ‘live’ OpenGL-tekstuuriin lopullisen kuvan asettamiseksi.

Reaaliaikainen järjestelmä toimii NVIDIA RTX 2080:lla, ja tuottaa 1024×1024 pikselin resoluution.

Koska hiusten väriarvot ovat täysin eriytetty lopullisissa arvoissa, joita verkko saa, hiusten värin muuttaminen on yksinkertainen tehtävä, vaikka vaikutukset, kuten gradientit ja raidat, ovat edelleen tulevaisuuden haaste.

Tutkijat ovat julkaisseet koodin, jota he käyttivät tutkimuksessaan GitLabissa. Katso lisävideo MVCGAN:sta alla.

Johtopäätös

Navigointi latentin avaruudessa autoenkooderissa tai GAN:ssa on edelleen enemmän kuin purjehdus kuin tarkka ajo. Vasta viime aikoina olemme alkaneet nähdä uskottavia tuloksia asennon luontiin yksinkertaisemmasta geometriasta, kuten kasvoista, lähestymistavoissa, kuten NeRF, GAN, ja ei-deepfake (2017) autoenkooderikehyksissä.

Ihmisen hiusten merkittävä arkkitehtoninen monimutkaisuus, yhdistettynä tarpeeseen sisällyttää fysiikan mallit ja muita ominaisuuksia, joita nykyiset kuvanluontimenetelmät eivät ole tarjonneet, osoittaa, että hiusten synteesi on epätodennäköistä, että se säilyy integroiduna osana yleistä kasvokuvan synteesiä, vaan se vaatii omat omat verkot, jotka ovat jonkinlaisia – vaikka ne voisivat lopulta tulla osaksi laajempia ja monimutkaisempia kasvokuvan synteesikehyksiä.

 

Julkaistu ensimmäisen kerran 15. huhtikuuta 2022.

Kirjailija tekoälystä, alan erikoisosaaja ihmiskuvien synteesissä. Entinen tutkimussisällön johtaja Metaphysic.ai:lla.
Henkilökohtainen sivu: martinanderson.ai
Ota yhteyttä: [email protected]