stomp Die aanpak van 'slegte haardae' in menslike beeldsintese - Unite.AI
Verbinding met ons

Kunsmatige Intelligensie

Die aanpak van 'Bad Hair Days' in menslike beeldsintese

mm
Opgedateer on

Sedert die goue era van Romeinse beelde was die uitbeelding van menslike hare 'n netelige uitdaging. Die gemiddelde menslike kop bevat 100,000 XNUMX stringe, het wisselende brekingsindekse volgens sy kleur, en sal oor 'n sekere lengte beweeg en hervorm op maniere wat slegs gesimuleer kan word deur komplekse fisika modelle – tot op hede, slegs van toepassing deur 'tradisionele' CGI-metodologieë.

Vanaf 2017-navorsing deur Disney, poog 'n fisika-gebaseerde model om realistiese beweging toe te pas op 'n vloeiende haarstyl in 'n CGI-werkstroom. Bron: https://www.youtube.com/watch?v=-6iF3mufDW0

Van 2017 navorsing deur Disney, 'n fisika-gebaseerde model poog om realistiese beweging toe te pas op 'n vloeiende haarstyl in 'n CGI-werkvloei. Bron: https://www.youtube.com/watch?v=-6iF3mufDW0

Die probleem word swak aangespreek deur moderne gewilde deepfakes-metodes. Vir 'n paar jaar, die voorste pakket DeepFaceLab het 'n 'volkop'-model gehad wat slegs rigiede vergestaltings van kort (gewoonlik manlike) haarstyle kan vasvang; en onlangs DFL-stalmaat gesig ruil (albei pakkette is afgelei van die omstrede 2017 DeepFakes-bronkode) het 'n implementering van die BiseNet semantiese segmenteringsmodel, wat 'n gebruiker in staat stel om ore en hare in diepvals uitset in te sluit.

Selfs wanneer baie kort haarstyle uitgebeeld word, is die resultate geneig om te wees baie beperk in kwaliteit, met vol koppe wat op beeldmateriaal geplaas word, eerder as daarin geïntegreer.

GAN Hare

Die twee belangrikste mededingende benaderings tot menslike simulasie is Neural Radiance Fields (NeRF), wat 'n toneel vanuit verskeie oogpunte kan vasvang en 'n 3D-voorstelling van hierdie standpunte in 'n verkenbare neurale netwerk kan omsluit; en generatiewe teenstandersnetwerke (GAN's), wat veral meer gevorderd is in terme van menslike beeldsintese (nie die minste omdat NeRF eers in 2020 na vore gekom het).

NeRF se afgeleide begrip van 3D-meetkunde stel dit in staat om 'n toneel met groot getrouheid en konsekwentheid te repliseer, selfs al het dit tans min of geen ruimte vir die oplegging van fisika-modelle - en, in werklikheid, relatief beperkte ruimte vir enige soort transformasie op die versamelde data wat nie verband hou met die verandering van die kamerastandpunt nie. Tans het NeRF baie beperkte vermoëns in terme van die voortplanting van menslike haarbeweging.

GAN-gebaseerde ekwivalente aan NeRF begin byna 'n noodlottige nadeel, aangesien, anders as NeRF, die latente ruimte van 'n GAN inkorporeer nie 'n inheemse begrip van 3D-inligting nie. Daarom het 3D-bewuste GAN-gesigsbeeldsintese die afgelope paar jaar 'n groot strewe geword in beeldgenerering-navorsing, met 2019 se InterFaceGAN een van die voorste deurbrake.

Selfs InterFaceGAN se uitgestalde en kersie-uitgesoekte resultate toon egter dat neurale haarkonsekwentheid 'n moeilike uitdaging bly in terme van tydelike konsekwentheid, vir potensiële VFX-werkvloeie:

'Sizzling' hare in 'n pose-transformasie van InterFaceGAN. Bron: https://www.youtube.com/watch?v=uoftpl3Bj6w

'Sizzling' hare in 'n pose-transformasie van InterFaceGAN. Bron: https://www.youtube.com/watch?v=uoftpl3Bj6w

Namate dit meer duidelik word dat konsekwente aansiggenerering deur manipulasie van die latente ruimte alleen 'n alchemie-agtige strewe kan wees, kom 'n toenemende aantal referate na vore wat inkorporeer CGI-gebaseerde 3D-inligting in 'n GAN-werkstroom as 'n stabiliserende en normaliserende beperking.

Die CGI-element kan voorgestel word deur intermediêre 3D-primitiewe soos a Gevel multi-persoon lineêre model (SMPL), of deur 3D-afleidingstegnieke aan te neem op 'n wyse soortgelyk aan NeRF, waar meetkunde geëvalueer word vanaf die bronbeelde of video.

Een nuwe werk in hierdie rigting, hierdie week vrygestelIs Multi-View Konsekwente Generatiewe Adversariële netwerke vir 3D-bewuste beeldsintese (MVCGAN), 'n samewerking tussen ReLER, AAII, Universiteit van Tegnologie Sydney, die DAMO Akademie by Alibaba Group, en Zhejiang Universiteit.

Aanvaarbare en robuuste nuwe gesigsposisies gegenereer deur MVCGAN op beelde wat van die CELEBA-HQ-datastel verkry is. Bron: https://arxiv.org/pdf/2204.06307.pdf

Aanvaarbare en robuuste nuwe gesigsposisies gegenereer deur MVCGAN op beelde wat van die CELEBA-HQ-datastel verkry is.  Bron: https://arxiv.org/pdf/2204.06307.pdf

MVCGAN bevat 'n generatiewe uitstraling veld netwerk (GRAF) wat in staat is om meetkundige beperkings in 'n Generative Adversarial Network te verskaf, wat waarskynlik sommige van die mees outentieke poseringsvermoëns van enige soortgelyke GAN-gebaseerde benadering bereik.

Vergelyking tussen MVCGAN en vorige metodes GRAF, GIRAFFE en pi-GAN.

Vergelyking tussen MVCGAN en vorige metodes GRAF, GIRAFFE en pi-GAN.

Aanvullende materiaal vir MVCGAN toon egter dat die verkryging van haarvolume, aanleg, plasing en gedragskonsekwentheid 'n probleem is wat nie maklik aangepak word deur beperkings gebaseer op ekstern-opgelegde 3D-meetkunde nie.

Uit aanvullende materiaal wat nie in die openbaar vrygestel is ten tyde van die skryf hiervan nie, sien ons dat hoewel gesigshoudingsintese van MVCGAN 'n noemenswaardige vooruitgang op die huidige stand van die kuns verteenwoordig, tydelike haarkonsekwentheid 'n probleem bly.

Uit aanvullende materiaal wat nie in die openbaar vrygestel is ten tyde van die skryf hiervan nie, sien ons dat hoewel gesigshoudingsintese van MVCGAN 'n noemenswaardige vooruitgang op die huidige stand van die kuns verteenwoordig, tydelike haarkonsekwentheid 'n probleem bly.

Aangesien 'eenvoudige' CGI-werkstrome steeds tydelike haarheropbou so 'n uitdaging vind, is daar geen rede om te glo dat konvensionele meetkunde-gebaseerde benaderings van hierdie aard binnekort konsekwente haarsintese na die latente ruimte sal bring nie.

Stabilisering van hare met konvolusionele neurale netwerke

'n Opkomende referaat van drie navorsers by die Chalmers Instituut vir Tegnologie in Swede kan egter 'n bykomende vooruitgang in neurale hare-simulasie bied.

Aan die linkerkant, die CNN-gestabiliseerde haarvoorstelling, aan die regterkant, die grondwaarheid. Sien video ingebed aan die einde van artikel vir beter resolusie en bykomende voorbeelde. Bron: https://www.youtube.com/watch?v=AvnJkwCmsT4

Aan die linkerkant, die CNN-gestabiliseerde haarvoorstelling, aan die regterkant, die grondwaarheid. Sien video ingebed aan die einde van artikel vir beter resolusie en bykomende voorbeelde. Bron: https://www.youtube.com/watch?v=AvnJkwCmsT4

Getiteld Intydse haarfiltrering met konvolusionele neurale netwerke, sal die koerant gepubliseer word vir die i3D simposium vroeg in Mei.

Die stelsel bestaan ​​uit 'n outo-enkodeerder-gebaseerde netwerk wat in staat is om haarresolusie te evalueer, insluitende selfskadu en met inagneming van haardikte, intyds, gebaseer op 'n beperkte aantal stogastiese monsters wat deur OpenGL-meetkunde gesaai is.

Die benadering lewer 'n beperkte aantal monsters met stogastiese deursigtigheid en lei dan a U-net om die oorspronklike beeld te rekonstrueer.

Onder MVCGAN filter 'n CNN stogasties gemonsterde kleurfaktore, hoogtepunte, raaklyne, diepte en alfas, wat die gesintetiseerde resultate in 'n saamgestelde beeld saamstel.

Onder MVCGAN filter 'n CNN stogasties gemonsterde kleurfaktore, hoogtepunte, raaklyne, diepte en alfas, wat die gesintetiseerde resultate in 'n saamgestelde beeld saamstel.

Die netwerk word op PyTorch opgelei en konvergeer oor 'n tydperk van ses tot twaalf uur, afhangende van netwerkvolume en die aantal invoerkenmerke. Die opgeleide parameters (gewigte) word dan gebruik in die intydse implementering van die stelsel.

Opleidingsdata word gegenereer deur 'n paar honderd beelde vir reguit en golwende haarstyle weer te gee, met behulp van ewekansige afstande en houdings, sowel as uiteenlopende beligtingstoestande.

Verskeie voorbeelde van opleidingsinsette.

Verskeie voorbeelde van opleidingsinsette.

Hare deursigtigheid oor die monsters is gemiddeld van beelde gelewer met stogastiese deursigtigheid by supermonster resolusie. Die oorspronklike hoë-resolusie-data word afgesteek om netwerk- en hardewarelimiete te akkommodeer, en later opgesteek, in 'n tipiese outo-enkodeerder-werkvloei.

Die intydse afleidingstoepassing (die 'lewendige' sagteware wat die algoritme gebruik wat van die opgeleide model afgelei is) gebruik 'n mengsel van NVIDIA CUDA met cuDNN en OpenGL. Die aanvanklike invoerkenmerke word in OpenGL-multimonster-kleurbuffers gestort, en die resultaat word na cuDNN-tensors gestuur voordat dit in die CNN verwerk word. Daardie tensors word dan teruggekopieer na 'n 'lewendige' OpenGL-tekstuur vir oplegging in die finale beeld.

Die intydse stelsel werk op 'n NVIDIA RTX 2080, wat 'n resolusie van 1024 × 1024 piksels lewer.

Aangesien haarkleurwaardes heeltemal ontstrengel is in die finale waardes wat deur die netwerk verkry word, is die verandering van die haarkleur 'n onbenullige taak, hoewel effekte soos gradiënte en strepe 'n toekomstige uitdaging bly.

Die skrywers het die kode vrygestel wat in die vraestel se evaluerings gebruik is by GitLab. Kyk na die aanvullende video vir MVCGAN hieronder.

Intydse haarfiltrering met konvolusionele neurale netwerke

Gevolgtrekking

Om deur die latente ruimte van 'n outo-enkodeerder of GAN te navigeer is steeds meer soortgelyk aan seil as presisiebestuur. Eers in hierdie baie onlangse tydperk begin ons geloofwaardige resultate sien vir posegenerering van 'eenvoudiger' meetkunde soos gesigte, in benaderings soos NeRF, GAN's en nie-diepvals (2017) outo-enkodeerderraamwerke.

Die beduidende argitektoniese kompleksiteit van menslike hare, gekombineer met die behoefte om fisika-modelle en ander eienskappe te inkorporeer waarvoor huidige beeldsintese-benaderings geen voorsiening het nie, dui daarop dat haarsintese waarskynlik nie 'n geïntegreerde komponent in algemene gesigsintese sal bly nie, maar dit gaan vereis toegewyde en afsonderlike netwerke van 'n mate van gesofistikeerdheid - selfs al kan sulke netwerke uiteindelik geïnkorporeer word in wyer en meer komplekse gesigsintese-raamwerke.

 

Eerste gepubliseer 15 April 2022.