stub Nindirizzaw 'Bad Hair Days' fis-Sinteżi tal-Immaġni tal-Bniedem - Unite.AI
Kuntatt magħna

Intelliġenza Artifiċjali

L-indirizzar tal-'Ġranet ħżiena tax-xagħar' fis-Sinteżi tal-Immaġni tal-Bniedem

mm
Aġġornata on

Sa mill-età tad-deheb tal-istatwarji Rumani, it-turija tax-xagħar uman kienet sfida ta’ xewk. Ir-ras tal-bniedem medja fiha 100,000 fergħa, għandha indiċi refrattivi li jvarjaw skond il-kulur tagħha, u, lil hinn minn ċertu tul, se tiċċaqlaq u tirriforma b'modi li jistgħu jiġu simulati biss minn mudelli kumplessi tal-fiżika – sal-lum, applikabbli biss permezz ta' metodoloġiji CGI 'tradizzjonali'.

Minn riċerka tal-2017 minn Disney, mudell ibbażat fuq il-fiżika jipprova japplika moviment realistiku għal stil ta 'xagħar fluwidu fi fluss tax-xogħol CGI. Sors: https://www.youtube.com/watch?v=-6iF3mufDW0

mill Riċerka 2017 minn Disney, mudell ibbażat fuq il-fiżika jipprova japplika moviment realistiku għal stil tax-xagħar fluwidu fi fluss tax-xogħol CGI. Sors: https://www.youtube.com/watch?v=-6iF3mufDW0

Il-problema hija indirizzata ħażin minn metodi moderni popolari deepfakes. Għal xi snin, il-pakkett ewlieni DeepFaceLab kellu mudell ta' 'ras sħiħa' li jista' jaqbad biss inkarnazzjonijiet riġidi ta' hairstyles qosra (ġeneralment maskili); u reċentement DFL stablemate tpartit tal-wiċċ (iż-żewġ pakketti huma derivati ​​mill-kodiċi tas-sors kontroversjali ta’ DeepFakes tal-2017) offriet implimentazzjoni tal- BiseNet mudell ta 'segmentazzjoni semantika, li jippermetti utent li jinkludi widnejn u xagħar fil-produzzjoni deepfake.

Anke meta turi hairstyles qosra ħafna, ir-riżultati għandhom tendenza li jkunu limitat ħafna fil-kwalità, bl-irjus sħaħ jidhru superimposti fuq filmati, aktar milli integrati fih.

GAN Xagħar

Iż-żewġ approċċi ewlenin li jikkompetu għas-simulazzjoni tal-bniedem huma Neural Radiance Fields (NeRF), li jistgħu jaqbdu xena minn opinjonijiet multipli u jinkapsulaw rappreżentazzjoni 3D ta 'dawn l-opinjonijiet f'netwerk newrali esplorabbli; u Netwerks Avversarji Ġenerattivi (GANs), li huma notevolment aktar avvanzati f’termini ta’ sinteżi ta’ immaġni tal-bniedem (mhux l-inqas minħabba li n-NeRF ħarġet biss fl-2020).

Il-fehim dedott ta’ NeRF tal-ġeometrija 3D jippermettilu li jirreplika xena b’fedeltà u konsistenza kbira, anki jekk bħalissa għandu ftit jew l-ebda skop għall-impożizzjoni ta’ mudelli tal-fiżika – u, fil-fatt, ambitu relattivament limitat għal kwalunkwe tip ta’ trasformazzjoni fuq il-miġbura. data li ma tirrelatax mal-bidla tal-perspettiva tal-kamera. Bħalissa, NeRF għandu kapaċitajiet limitati ħafna f'termini ta 'riproduzzjoni tal-moviment tax-xagħar uman.

Ekwivalenti għal NeRF ibbażati fuq GAN jibdew bi żvantaġġ kważi fatali, peress li, kuntrarjament għal NeRF, il- spazju moħbi ta' GAN ma jinkorporax b'mod nattiv fehim ta' informazzjoni 3D. Għalhekk is-sinteżi tal-immaġni tal-wiċċ GAN konxja 3D saret insegwiment sħun fir-riċerka tal-ġenerazzjoni tal-immaġni f'dawn l-aħħar snin, bl-2019's InterFaceGAN wieħed mill-avvanzi ewlenin.

Madankollu, anke r-riżultati murija u magħżula taċ-ċirasa ta' InterFaceGAN juru li l-konsistenza tax-xagħar newrali tibqa' sfida iebsa f'termini ta' konsistenza temporali, għal flussi tax-xogħol VFX potenzjali:

Xagħar 'sizzling' f'trasformazzjoni tal-pożi minn InterFaceGAN. Sors: https://www.youtube.com/watch?v=uoftpl3Bj6w

Xagħar 'sizzling' f'trasformazzjoni tal-pożi minn InterFaceGAN. Sors: https://www.youtube.com/watch?v=uoftpl3Bj6w

Hekk kif isir aktar evidenti li l-ġenerazzjoni ta’ opinjonijiet konsistenti permezz tal-manipulazzjoni tal-ispazju moħbi waħdu tista’ tkun insegwiment simili għall-alkimija, qed jitfaċċaw numru dejjem akbar ta’ karti li jinkorpora informazzjoni 3D ibbażata fuq CGI fi fluss tax-xogħol GAN ​​bħala restrizzjoni stabbilizzanti u normalizzanti.

L-element CGI jista' jkun rappreżentat minn primittivi 3D intermedji bħal a Mudell Lineari Multi-Persuni Mqaxxar (SMPL), jew billi jiġu adottati tekniki ta' inferenza 3D b'mod simili għal NeRF, fejn il-ġeometrija tiġi evalwata mill-immaġini jew il-vidjow tas-sors.

Xogħol ġdid fuq dawn il-linji, rilaxxati din il-ġimgħa, Huwa Netwerks Avversarji Ġenerattivi Konsistenti Multi-View għal Sinteżi ta 'Immaġni 3D konxja (MVCGAN), kollaborazzjoni bejn ReLER, AAII, Università tat-Teknoloġija Sydney, l-Akkademja DAMO f'Alibaba Group, u l-Università ta 'Zhejiang.

Pożi tal-wiċċ ġodda plawżibbli u robusti ġġenerati minn MVCGAN fuq stampi derivati ​​mis-sett tad-dejta CELEBA-HQ. Sors: https://arxiv.org/pdf/2204.06307.pdf

Pożi tal-wiċċ ġodda plawżibbli u robusti ġġenerati minn MVCGAN fuq stampi derivati ​​mis-sett tad-dejta CELEBA-HQ.  Sors: https://arxiv.org/pdf/2204.06307.pdf

MVCGAN jinkorpora a netwerk ta' kamp ta' radjanza ġenerattiva (GRAF) kapaċi tipprovdi restrizzjonijiet ġeometriċi f'Netwerk Avversarju Ġenerattiv, li forsi jikseb xi wħud mill-aktar kapaċitajiet ta' pożi awtentiċi ta' kwalunkwe approċċ simili ibbażat fuq GAN.

Tqabbil bejn MVCGAN u metodi preċedenti GRAF, GIRAFFE, u pi-GAN.

Tqabbil bejn MVCGAN u metodi preċedenti GRAF, GIRAFFE, u pi-GAN.

Madankollu, materjal supplimentari għall-MVCGAN jiżvela li l-kisba tal-volum tax-xagħar, id-dispożizzjoni, it-tqegħid u l-konsistenza tal-imġieba hija problema li mhix ttrattata faċilment permezz ta 'restrizzjonijiet ibbażati fuq ġeometrija 3D imposta esternament.

Minn materjal supplimentari mhux rilaxxat pubblikament fil-ħin tal-kitba, naraw li filwaqt li s-sintesi tal-pożi tal-wiċċ minn MVCGAN tirrappreżenta avvanz notevoli fuq l-istat attwali tal-arti, il-konsistenza tax-xagħar temporali tibqa 'problema.

Minn materjal supplimentari mhux rilaxxat pubblikament fil-ħin tal-kitba, naraw li filwaqt li s-sintesi tal-pożi tal-wiċċ minn MVCGAN tirrappreżenta avvanz notevoli fuq l-istat attwali tal-arti, il-konsistenza tax-xagħar temporali tibqa 'problema.

Peress li l-flussi tax-xogħol CGI "sempliċi" għadhom isibu sfida ta 'rikostruzzjoni temporali tax-xagħar bħal din, m'hemm l-ebda raġuni biex wieħed jemmen li approċċi konvenzjonali bbażati fuq il-ġeometrija ta' din in-natura se jġibu sinteżi tax-xagħar konsistenti fl-ispazju moħbi ghaċ dalwaqt.

Stabbilizzazzjoni tax-xagħar b'Netwerks Newrali Konvoluzzjonali

Madankollu, dokument li ġej minn tliet riċerkaturi fl-Istitut tat-Teknoloġija Chalmers fl-Isvezja jista 'joffri avvanz addizzjonali fis-simulazzjoni tax-xagħar newrali.

Fuq ix-xellug, ir-rappreżentazzjoni tax-xagħar stabbilizzata mis-CNN, fuq il-lemin, il-verità tal-art. Ara vidjo inkorporat fl-aħħar tal-artiklu għal riżoluzzjoni aħjar u eżempji addizzjonali. Sors: https://www.youtube.com/watch?v=AvnJkwCmsT4

Fuq ix-xellug, ir-rappreżentazzjoni tax-xagħar stabbilizzata mis-CNN, fuq il-lemin, il-verità tal-art. Ara vidjo inkorporat fl-aħħar tal-artiklu għal riżoluzzjoni aħjar u eżempji addizzjonali. Sors: https://www.youtube.com/watch?v=AvnJkwCmsT4

Titolat Iffiltrar tax-xagħar f'ħin reali b'Netwerks newrali konvoluzzjonali, il-karta se tiġi ppubblikata għall- simpożju i3D fil-bidu ta 'Mejju.

Is-sistema tinkludi netwerk ibbażat fuq autoencoder li kapaċi jevalwa r-riżoluzzjoni tax-xagħar, inkluż self-shadowing u jqis il-ħxuna tax-xagħar, f'ħin reali, ibbażat fuq numru limitat ta' kampjuni stokastiċi miżrugħa bil-ġeometrija OpenGL.

L-approċċ jirrendi numru limitat ta 'kampjuni bil trasparenza stokastika u mbagħad iħarreġ a U-net biex tibni mill-ġdid l-immaġni oriġinali.

Taħt MVCGAN, CNN jiffiltra fatturi tal-kulur kampjuni stochastically, jenfasizza, tanġenti, fond u alphas, assemblaġġ tar-riżultati sintetizzati f'immaġni komposta.

Taħt MVCGAN, CNN jiffiltra fatturi tal-kulur kampjuni stochastically, jenfasizza, tanġenti, fond u alphas, assemblaġġ tar-riżultati sintetizzati f'immaġni komposta.

In-netwerk huwa mħarreġ fuq PyTorch, li jikkonverġu fuq perjodu ta 'sitta sa tnax-il siegħa, skond il-volum tan-netwerk u n-numru ta' karatteristiċi ta 'input. Il-parametri mħarrġa (piżijiet) imbagħad jintużaw fl-implimentazzjoni f'ħin reali tas-sistema.

Id-dejta tat-taħriġ hija ġġenerata billi tirrendi bosta mijiet ta 'immaġini għal hairstyles dritti u immewġin, bl-użu ta' distanzi u pożi każwali, kif ukoll kundizzjonijiet tad-dawl differenti.

Eżempji varji ta 'input ta' taħriġ.

Eżempji varji ta 'input ta' taħriġ.

It-trasluċidità tax-xagħar tul il-kampjuni hija medja minn immaġini mogħtija bi trasparenza stokastika b'riżoluzzjoni ta' kampjuni żejda. Id-dejta oriġinali b'riżoluzzjoni għolja titnaqqas kampjun biex takkomoda l-limiti tan-netwerk u tal-ħardwer, u aktar tard kampjunata 'l fuq, fi fluss tax-xogħol tipiku ta' autoencoder.

L-applikazzjoni tal-inferenza f'ħin reali (is-softwer 'ħaj' li jisfrutta l-algoritmu derivat mill-mudell imħarreġ) timpjega taħlita ta' NVIDIA CUDA ma' cuDNN u OpenGL. Il-karatteristiċi tal-input inizjali huma mormija fil-buffers tal-kulur OpenGL b'ħafna kampjuni, u r-riżultat imqabbad għal tensors cuDNN qabel l-ipproċessar fis-CNN. Dawk it-tensors imbagħad jiġu kkupjati lura għal nisġa OpenGL 'ħaj' għall-impożizzjoni fl-immaġni finali.

Is-sistema f'ħin reali topera fuq NVIDIA RTX 2080, li tipproduċi riżoluzzjoni ta '1024 × 1024 pixels.

Peress li l-valuri tal-kulur tax-xagħar huma kompletament maqtugħin fil-valuri finali miksuba min-netwerk, it-tibdil tal-kulur tax-xagħar huwa kompitu trivjali, għalkemm effetti bħal gradjenti u strixxi jibqgħu sfida futura.

L-awturi ħarġu l-kodiċi użat fl-evalwazzjonijiet tal-karta fil-GitLab. Iċċekkja l-vidjo supplimentari għal MVCGAN hawn taħt.

Iffiltrar tax-xagħar f'ħin reali b'Netwerks newrali konvoluzzjonali

konklużjoni

In-navigazzjoni fl-ispazju moħbi ta' autoencoder jew GAN għadu aktar jixbah it-tbaħħir milli s-sewqan ta' preċiżjoni. Biss f'dan il-perjodu reċenti ħafna qed nibdew naraw riżultati kredibbli għall-ġenerazzjoni tal-pożi ta 'ġeometrija 'aktar sempliċi' bħal uċuħ, f'approċċi bħal NeRF, GANs, u oqfsa awtokokoder mhux deepfake (2017).

Il-kumplessità arkitettonika sinifikanti tax-xagħar uman, flimkien mal-ħtieġa li jiġu inkorporati mudelli tal-fiżika u karatteristiċi oħra li għalihom l-approċċi attwali tas-sinteżi tal-immaġni m'għandhom l-ebda dispożizzjoni, tindika li s-sintesi tax-xagħar x'aktarx ma tibqax komponent integrat fis-sintesi ġenerali tal-wiċċ, iżda se teħtieġ netwerks dedikati u separati ta’ xi sofistikazzjoni – anki jekk dawn in-netwerks jistgħu eventwalment jiġu inkorporati f’oqfsa ta’ sintesi tal-wiċċ usa’ u aktar kumplessi.

 

Ippublikat għall-ewwel darba fit-15 ta' April 2022.