Umetna inteligenca
Boj proti 'dnevom slabih las' v sintezi človeške slike

Od zlate dobe rimskih kipov je bilo upodabljanje človeških las trn izziv. Povprečna človeška glava vsebuje 100,000 pramenov, ima različne lomne količnike glede na svojo barvo in se po določeni dolžini premika in preoblikuje na načine, ki jih je mogoče simulirati le z kompleksni fizikalni modeli – do danes uporabno le prek „tradicionalnih“ metodologij CGI.

od Raziskave 2017 Disneyjev model, ki temelji na fiziki, poskuša uporabiti realistično gibanje za tekočo pričesko v delovnem procesu CGI. Vir: https://www.youtube.com/watch?v=-6iF3mufDW0
Težavo slabo rešujejo sodobne priljubljene metode deepfakes. Že nekaj let vodilni paket DeepFaceLab je imel model s 'polno glavo', ki lahko zajame samo toge izvedbe kratkih (običajno moških) pričesk; in nedavno DFL stablemate Zamenjava obraza (oba paketa izhajata iz kontroverzne izvorne kode DeepFakes iz leta 2017) je ponudil implementacijo BiseNet model semantične segmentacije, ki uporabniku omogoča, da v izpis deepfake vključi ušesa in lase.
Tudi pri upodabljanju zelo kratkih pričesk so rezultati ponavadi dobri zelo omejene kakovosti, s polnimi glavami, ki so prikazane na posnetku in ne integrirane vanj.
Lasje GAN
Dva glavna konkurenčna pristopa k človeški simulaciji sta polja živčnega sevanja (NeRF), ki lahko zajame prizor iz več zornih kotov in zajame 3D predstavitev teh zornih kotov v raziskljivo nevronsko mrežo; in generativna kontradiktorna omrežja (GAN), ki so bistveno naprednejši v smislu sinteze človeške slike (nenazadnje zato, ker se je NeRF pojavil šele leta 2020).
NeRF-jevo domnevno razumevanje 3D-geometrije mu omogoča repliciranje prizora z veliko zvestobo in doslednostjo, tudi če ima trenutno malo ali nič prostora za vsiljevanje fizikalnih modelov – in dejansko razmeroma omejen obseg za kakršno koli transformacijo zbranega. podatke, ki se ne nanašajo na spreminjanje zornega kota kamere. Trenutno ima NeRF zelo omejene zmogljivosti v smislu reprodukcije gibanja človeških las.
Ekvivalenti NeRF, ki temeljijo na GAN, se začnejo v skoraj usodnem položaju, saj za razliko od NeRF latentni prostor GAN izvorno ne vključuje razumevanja 3D informacij. Zato je sinteza slik obraza GAN, ki podpira 3D, v zadnjih letih, z letom 2019, postala vroča naloga pri raziskavah ustvarjanja slik. InterFaceGAN enega vodilnih prebojev.
Vendar pa celo predstavljeni in izbrani rezultati InterFaceGAN kažejo, da konsistentnost nevralnih las ostaja težak izziv v smislu časovne konsistentnosti za potencialne poteke dela VFX:

'Cičeči' lasje v preobrazbi poze iz InterFaceGAN. Vir: https://www.youtube.com/watch?v=uoftpl3Bj6w
Ker postaja vse bolj očitno, da je dosledno ustvarjanje pogleda samo z manipulacijo latentnega prostora lahko alkimiji podobno prizadevanje, se pojavlja vse več dokumentov, ki vključiti 3D informacije, ki temeljijo na CGI v potek dela GAN kot stabilizacijsko in normalizirajočo omejitev.
Element CGI je lahko predstavljen z vmesnimi 3D primitivi, kot je a Večosebni linearni model s kožo (SMPL) ali s sprejetjem tehnik sklepanja 3D na način, podoben NeRF, kjer se geometrija ovrednoti iz izvornih slik ali videa.
Eno novo delo v tej smeri, izpuščen ta teden, Je Multi-View Consistent Generative Adversarial Networks za 3D-aware sintezo slik (MVCGAN), sodelovanje med ReLER, AAII, Univerzo za tehnologijo Sydney, akademijo DAMO pri skupini Alibaba in univerzo Zhejiang.

Verjetne in robustne nove poze obraza, ki jih je ustvaril MVCGAN na slikah, pridobljenih iz nabora podatkov CELEBA-HQ. Vir: https://arxiv.org/pdf/2204.06307.pdf
MVCGAN vključuje a mreža polja generativnega sevanja (GRAF), ki je sposoben zagotoviti geometrijske omejitve v generativnem kontradiktornem omrežju, s čimer verjetno doseže nekaj najbolj pristnih zmogljivosti postavljanja od katerega koli podobnega pristopa, ki temelji na GAN.
Vendar pa dodatno gradivo za MVCGAN razkriva, da je pridobivanje volumna las, razporeditve, postavitve in konsistentnosti vedenja problem, ki se ga ni zlahka lotiti z omejitvami, ki temeljijo na zunanji 3D-geometriji.

Iz dodatnega gradiva, ki v času pisanja ni bilo javno objavljeno, vidimo, da medtem ko sinteza obrazne poze iz MVCGAN predstavlja opazen napredek glede na trenutno stanje tehnike, ostaja težava konsistentnost temporalnih dlak.
Ker se pri 'preprostih' potekih dela CGI rekonstrukcija temporalnih las še vedno zdi takšen izziv, ni razloga, da bi verjeli, da bodo tovrstni konvencionalni pristopi, ki temeljijo na geometriji, kmalu prinesli dosledno sintezo las v latentni prostor.
Stabilizacija las s konvolucijskimi nevronskimi mrežami
Vendar pa lahko prihodnji članek treh raziskovalcev na tehnološkem inštitutu Chalmers na Švedskem ponudi dodaten napredek pri simulaciji nevronskih las.

Na levi strani CNN stabilizirana predstavitev las, na desni pa osnovna resnica. Za boljšo ločljivost in dodatne primere si oglejte videoposnetek, vdelan na koncu članka. Vir: https://www.youtube.com/watch?v=AvnJkwCmsT4
Titled Filtriranje las v realnem času s konvolucijskimi nevronskimi mrežami, prispevek bo objavljen za i3D simpozij v začetku maja.
Sistem obsega omrežje, ki temelji na samodejnem kodiranju in je sposobno ovrednotiti ločljivost las, vključno s samosenčenjem in upoštevanjem debeline las, v realnem času, na podlagi omejenega števila stohastičnih vzorcev, posejanih z geometrijo OpenGL.
Pristop upodablja omejeno število vzorcev z stohastična preglednost nato pa trenira a U-mreža za rekonstrukcijo izvirne slike.

Pod MVCGAN CNN filtrira stohastično vzorčene barvne faktorje, poudarke, tangente, globino in alfe ter sestavi sintetizirane rezultate v sestavljeno sliko.
Omrežje se usposablja na PyTorchu in konvergira v obdobju od šest do dvanajst ur, odvisno od obsega omrežja in števila vhodnih funkcij. Izurjeni parametri (uteži) se nato uporabijo pri implementaciji sistema v realnem času.
Podatki o vadbi so ustvarjeni z upodabljanjem več sto slik za ravne in valovite pričeske z uporabo naključnih razdalj in položajev ter različnih svetlobnih pogojev.

Različni primeri vnosa za usposabljanje.
Prosojnost las v vzorcih je povprečna iz slik, upodobljenih s stohastično prosojnostjo pri supervzorčeni ločljivosti. Izvirni podatki visoke ločljivosti so v tipičnem poteku dela samodejnega kodirnika znižani, da se prilagodijo omejitvam omrežja in strojne opreme, pozneje pa povečano vzorčenje.
Aplikacija za sklepanje v realnem času ("živa" programska oprema, ki izkorišča algoritem, izpeljan iz usposobljenega modela) uporablja mešanico NVIDIA CUDA s cuDNN in OpenGL. Začetne vhodne funkcije so prenesene v večvzorčene barvne medpomnilnike OpenGL, rezultat pa je pred obdelavo v CNN preusmerjen na tenzorje cuDNN. Ti tenzorji se nato kopirajo nazaj v 'živo' teksturo OpenGL za vstavljanje v končno sliko.
Sistem v realnem času deluje na NVIDIA RTX 2080 in ustvarja ločljivost 1024×1024 slikovnih pik.
Ker so vrednosti barve las popolnoma ločene od končnih vrednosti, ki jih pridobi omrežje, je spreminjanje barve las nepomembna naloga, čeprav učinki, kot so prelivi in črte, ostajajo prihodnji izziv.
Avtorji so objavili kodo, ki je bila uporabljena v ocenah prispevka pri GitLabu. Spodaj si oglejte dodatni video za MVCGAN.
zaključek
Krmarjenje po latentnem prostoru samodejnega kodirnika ali GAN je še vedno bolj podobno jadranju kot natančni vožnji. Šele v tem zelo nedavnem obdobju začenjamo opažati verodostojne rezultate za ustvarjanje poze 'preprostejše' geometrije, kot so obrazi, v pristopih, kot so NeRF, GAN-ji in ne-deepfake (2017) okviri samodejnega kodiranja.
Pomembna arhitekturna zapletenost človeških las, skupaj s potrebo po vključitvi fizikalnih modelov in drugih lastnosti, za katere trenutni pristopi sinteze slike ne predvidevajo, kaže, da sinteza las verjetno ne bo ostala integrirana komponenta v splošni sintezi obraza, ampak bo zahtevala namenska in ločena omrežja z določeno sofisticiranostjo – tudi če se lahko takšna omrežja sčasoma vključijo v širše in bolj zapletene okvire sinteze obraza.
Prvič objavljeno 15. aprila 2022.