stub Paint3D : Mudell ta' Diffużjoni mingħajr Dawl għall-Ġenerazzjoni ta' Immaġni - Unite.AI
Kuntatt magħna

Intelliġenza Artifiċjali

Paint3D : Mudell ta' Diffużjoni mingħajr Dawl għall-Ġenerazzjoni ta' Immaġni

mm
Aġġornata on

L-iżvilupp mgħaġġel ta 'mudelli AI Ġenerattivi, speċjalment mudelli AI ġenerattivi fil-fond, għandu kapaċitajiet avvanzati b'mod sinifikanti fil-ġenerazzjoni tal-lingwa naturali, il-ġenerazzjoni 3D, il-ġenerazzjoni tal-immaġni u s-sintesi tad-diskors. Dawn il-mudelli rrivoluzzjonaw il-produzzjoni 3D f'diversi industriji. Madankollu, ħafna jiffaċċjaw sfida: il-wajers kumplessi tagħhom u l-malji ġġenerati ħafna drabi ma jkunux kompatibbli ma 'pipelines ta' rendering tradizzjonali bħal Physically Based Rendering (PBR). Mudelli bbażati fuq id-diffużjoni, notevolment mingħajr textures tad-dawl, juru ġenerazzjoni impressjonanti ta’ assi 3D differenti, li jtejbu l-oqfsa 3D fil-produzzjoni tal-films, logħob, u AR/VR.

Dan l-artikolu jintroduċi Paint3D, qafas ġdid għall-produzzjoni ta 'mapep tan-nisġa UV 2K diversi u b'riżoluzzjoni għolja għal malji 3D mhux textured, kundizzjonati fuq inputs viżwali jew testwali. L-isfida ewlenija ta 'Paint3D hija li tiġġenera nisġa ta' kwalità għolja mingħajr illuminazzjoni inkorporata, li tippermetti lill-utent editjar mill-ġdid jew dawl mill-ġdid fi ħdan pipelines tal-grafika moderni. Timpjega mudell ta 'diffużjoni 2D imħarreġ minn qabel għal fużjoni ta' tessut b'ħafna opinjonijiet, li jiġġenera mapep inizjali ta 'tessut oħxon. Madankollu, dawn il-mapep ħafna drabi juru artifacts ta 'illuminazzjoni u żoni mhux kompluti minħabba l-limitazzjonijiet tal-mudell 2D biex jiddiżattivaw l-effetti tad-dawl u jirrappreżentaw bis-sħiħ forom 3D. Se nidħlu fil-ħidma, l-arkitettura, u l-paraguni ta 'Paint3D ma' oqfsa ġenerattivi profondi oħra. Ejja nibdew.

Paint3D: Introduzzjoni

Il-kapaċitajiet tal-mudelli Deep Generative AI fil-ġenerazzjoni tal-lingwa naturali, il-ġenerazzjoni 3D, u l-ħidmiet ta 'sinteżi tal-immaġni huma magħrufa sew u implimentati f'applikazzjonijiet tal-ħajja reali, u jirrevoluzzjonaw l-industrija tal-ġenerazzjoni 3D. Minkejja l-kapaċitajiet notevoli tagħhom, moderni fil-fond AI ġenerattiva oqfsa jiġġeneraw malji li huma kkaratterizzati minn wajers kumplessi u nisġa tad-dawl kaotiku li ħafna drabi huma inkompatibbli ma 'pipelines ta' rendering konvenzjonali inklużi PBR jew Rendering Fiżikament ibbażat. Bħal mudelli AI ġenerattivi fil-fond, is-sinteżi tan-nisġa avvanzat ukoll b'mod mgħaġġel speċjalment fl-użu ta 'mudelli ta' diffużjoni 2D. Mudelli ta 'sintesi tat-tessuti jimpjegaw depth to image mħarrġa minn qabel mudelli tad-diffużjoni effettivament biex tuża l-kundizzjonijiet tat-test biex tiġġenera nisġa ta 'kwalità għolja. Madankollu, dawn l-approċċi jiffaċċjaw problemi b'tessuti pre-illuminati li jistgħu jħallu impatt sinifikanti fuq ir-rendizzjonijiet finali tal-ambjent 3D u jintroduċu żbalji fid-dawl meta d-dwal jinbidlu fi ħdan il-flussi tax-xogħol komuni kif muri fl-immaġni li ġejja. 

Kif jista 'jiġi osservat, il-mappa tan-nisġa b'illuminazzjoni ħielsa taħdem f'sinkronizzazzjoni mal-pipelines ta' rendering tradizzjonali li jwasslu riżultati preċiżi filwaqt li l-mappa tan-nisġa b'illuminazzjoni minn qabel tinkludi dellijiet mhux xierqa meta tiġi applikata d-dawl mill-ġdid. Min-naħa l-oħra, oqfsa ta 'ġenerazzjoni ta' nisġa mħarrġa fuq data 3D joffru approċċ alternattiv li fih il-qafas jiġġenera n-nisġa billi jifhem il-ġeometrija sħiħa ta 'oġġett 3D speċifiku. Għalkemm jistgħu jagħtu riżultati aħjar, l-oqfsa tal-ġenerazzjoni tat-tessuti mħarrġa fuq dejta 3D m'għandhomx kapaċitajiet ta 'ġeneralizzazzjoni li jfixklu l-kapaċità tagħhom li japplikaw il-mudell għal oġġetti 3D barra d-dejta tat-taħriġ tagħhom. 

Mudelli attwali ta 'ġenerazzjoni ta' tessut jiffaċċjaw żewġ sfidi kritiċi: l-użu ta 'gwida ta' l-immaġini jew prompts diversi biex jinkiseb grad usa 'ta' ġeneralizzazzjoni f'oġġetti differenti, u t-tieni sfida hija l-eliminazzjoni ta 'illuminazzjoni akkoppjata fuq ir-riżultati miksuba minn qabel it-taħriġ. In-nisġa mdawwal minn qabel jistgħu potenzjalment jinterferixxu mar-riżultati finali tal-oġġetti minsuġa fi ħdan il-magni tar-rendi, u peress li l-mudelli ta 'diffużjoni 2D imħarrġa minn qabel jipprovdu riżultati 2D biss fid-dominju tal-vista, huma jonqoshom fehim komprensiv tal-forom li jwassal biex ma jkunux jistgħu. biex tinżamm il-konsistenza tal-vista għal oġġetti 3D. 

Minħabba l-isfidi msemmija hawn fuq, il-qafas Paint3D jipprova jiżviluppa mudell ta 'diffużjoni ta' nisġa bi stadju doppju għal oġġetti 3D li jiġġeneralizza għal mudelli ġenerattivi differenti mħarrġa minn qabel u jippreserva l-konsistenza tal-vista filwaqt li jitgħallem ġenerazzjoni ta 'nisġa mingħajr sajjetti. 

Paint3D huwa mudell ta’ ġenerazzjoni ta’ tessut oħxon għal doppju li għandu l-għan li jisfrutta l-gwida qawwija fil-pront u l-kapaċitajiet ta’ ġenerazzjoni ta’ immaġni ta’ mħarrġa minn qabel. AI ġenerattiva mudelli biex nisġa oġġetti 3D. Fl-ewwel stadju, il-qafas Paint3D l-ewwel jieħu kampjuni ta 'immaġini b'ħafna opinjonijiet minn mudell ta' diffużjoni ta 'immaġni 2D konxju tal-fond imħarreġ minn qabel biex jippermetti l-ġeneralizzazzjoni ta' riżultati ta 'tessut ta' kwalità għolja u sinjuri minn pront differenti. Il-mudell imbagħad jiġġenera mappa tan-nisġa inizjali billi tipproġetta lura dawn l-immaġini fuq il-wiċċ tal-malja 3D. Fit-tieni stadju, il-mudell jiffoka fuq il-ġenerazzjoni ta 'tessuti mingħajr dawl billi jimplimenta approċċi użati minn mudelli ta' diffużjoni speċjalizzati fit-tneħħija ta 'influwenzi tad-dawl u raffinament konxju tal-forma ta' reġjuni mhux kompluti. Matul il-proċess kollu, il-qafas Paint3D huwa konsistentement kapaċi jiġġenera nisġa 2K ta 'kwalità għolja b'mod semantiku, u jelimina effetti ta' illuminazzjoni intrinsiċi. 

Fil-qosor, Paint3D huwa mudell ġdid ta’ AI ġenerattiv oħxon għal fin li għandu l-għan li jipproduċi mapep tan-nisġa UV 2K diversi, mingħajr dawl u b’riżoluzzjoni għolja għal malji 3D mhux textured biex tinkiseb prestazzjoni mill-aqwa fit-tessuti ta’ oġġetti 3D b’kundizzjonijiet differenti. inputs inklużi test u stampi, u joffri vantaġġ sinifikanti għal kompiti ta 'sinteżi u editjar tal-grafika. 

Metodoloġija u Arkitettura

Il-qafas Paint3D jiġġenera u jirfina l-mapep tan-nisġa progressivament biex jiġġenera mapep tan-nisġa diversi u ta’ kwalità għolja għal mudelli 3D bl-użu ta’ inputs kondizzjonali mixtieqa inklużi immaġini u prompts, kif muri fl-immaġni li ġejja. 

Fl-istadju oħxon, il-mudell Paint3D juża mudelli ta 'diffużjoni ta' immaġini 2D mħarrġa minn qabel biex jieħu kampjun ta 'immaġini b'ħafna opinjonijiet, u mbagħad joħloq il-mapep tan-nisġa inizjali li jipproġettaw dawn l-immaġini lura fuq il-wiċċ tal-malja. Fit-tieni stadju jiġifieri l-istadju ta 'raffinament, il-mudell Paint3D juża proċess ta' diffużjoni fl-ispazju UV biex itejjeb il-mapep ta 'tessut oħxon, u b'hekk jikseb funzjoni ta' kwalità għolja, inpainting, u inqas dawl li jiżgura l-appell viżwali u l-kompletezza tan-nisġa finali . 

Stadju 1: Ġenerazzjoni Progressiva ta' Texture Oħxon

Fl-istadju progressiv ta 'ġenerazzjoni ta' tessut oħxon, il-mudell Paint3D jiġġenera mappa ta 'tessut UV oħxon għall-malji 3D li jużaw mudell ta' diffużjoni 2D konxju tal-fond imħarreġ minn qabel. Biex tkun aktar speċifika, il-mudell l-ewwel juża veduti differenti tal-kamera biex jirrendi l-mappa tal-fond, imbagħad juża kundizzjonijiet tal-fond biex jieħu kampjun ta 'immaġini mill-mudell tad-diffużjoni tal-immaġni, u mbagħad jipproġetta lura dawn l-immaġini fuq il-wiċċ tal-malja. Il-qafas iwettaq l-approċċi tar-rendi, it-teħid tal-kampjuni u l-projezzjoni lura alternattivament biex itejjeb il-konsistenza tal-malji tan-nisġa, li fl-aħħar mill-aħħar jgħin fil-ġenerazzjoni progressiva tal-mappa tan-nisġa. 

Il-mudell jibda jiġġenera n-nisġa tar-reġjun viżibbli bl-opinjonijiet tal-kamera jiffokaw fuq il-malji 3D, u jirrendi l-malji 3D għal mappa tal-fond mill-ewwel dehra. Il-mudell imbagħad jieħu kampjuni ta 'immaġni ta' nisġa għal kundizzjoni ta 'dehra u kundizzjoni ta' fond. Il-mudell imbagħad jipproġetta lura l-immaġni fuq il-malja 3D. Għall-opinjonijiet, il-mudell Paint3D jesegwixxi approċċ simili iżda b'bidla żgħira billi jwettaq il-proċess ta 'kampjunar tan-nisġa bl-użu ta' approċċ ta 'pittura tal-immaġni. Barra minn hekk, il-mudell iqis ir-reġjuni minsuġa mill-aspetti preċedenti, li jippermetti li l-proċess ta ' rendering mhux biss joħroġ immaġni tal-fond, iżda wkoll immaġni RGB parzjalment ikkulurita b'maskra mhux ikkulurita fil-veduta attwali. 

Il-mudell imbagħad juża mudell ta 'inpainting ta' immaġni konxju tal-fond b'kodifikatur ta 'inpainting biex jimla ż-żona mhux ikkulurita fi ħdan l-immaġni RGB. Il-mudell imbagħad jiġġenera l-mappa tan-nisġa mill-veduta billi tipproġetta b'lura l-immaġni inpainted fil-malja 3D taħt il-veduta kurrenti, li tippermetti lill-mudell jiġġenera l-mappa tan-nisġa b'mod progressiv, u jasal fil-mappa tal-istruttura oħxon kollha. Fl-aħħarnett, il-mudell jestendi l-proċess ta 'kampjunar tan-nisġa għal xena jew oġġett b'ħafna opinjonijiet. Biex inkun aktar speċifiku, il-mudell juża par kameras biex jaqbad żewġ mapep tal-fond waqt it-teħid inizjali ta 'kampjuni tan-nisġa minn perspettivi simmetriċi. Il-mudell imbagħad jgħaqqad żewġ mapep tal-fond u jikkomponi grilja tal-fond. Il-mudell jissostitwixxi l-immaġni tal-fond waħda bil-grilja tal-fond biex iwettaq kampjunar tan-nisġa b'ħafna opinjonijiet konxji tal-fond. 

Stadju 2: Raffinar tat-Texture fl-Ispazju UV

Għalkemm id-dehra ta 'mapep ta' tessut oħxon hija loġika, tiffaċċja xi sfidi bħal toqob ta 'tessut ikkawżati matul il-proċess ta' rendering minn awto-okklużjoni jew dellijiet sajjetti minħabba l-involviment ta 'mudelli ta' diffużjoni ta 'immaġni 2D. Il-mudell Paint3D għandu l-għan li jwettaq proċess ta 'diffużjoni fl-ispazju UV fuq il-bażi ta' mappa ta 'tessut oħxon, jipprova mitiga l-kwistjonijiet u jsaħħaħ l-appell viżwali tal-mappa tan-nisġa saħansitra aktar matul ir-raffinament tan-nisġa. Madankollu, ir-raffinar tal-mudell tad-diffużjoni tal-immaġni mainstream bil-mapep tan-nisġa fl-ispazju UV jintroduċi diskontinwità tan-nisġa peress li l-mappa tan-nisġa hija ġġenerata mill-immappjar tal-UV tan-nisġa tal-wiċċ 3D li jaqta 'l-tessut kontinwu f'serje ta' frammenti individwali fl-UV spazju. Bħala riżultat tal-frammentazzjoni, il-mudell isibha diffiċli biex jitgħallem ir-relazzjonijiet ta 'adjaċenza 3D fost il-frammenti li jwasslu għal kwistjonijiet ta' diskontinwità tan-nisġa. 

Il-mudell jirfina l-mappa tan-nisġa fl-ispazju UV billi jwettaq il-proċess ta 'diffużjoni taħt il-gwida tal-informazzjoni ta' ħdejn il-frammenti tan-nisġa. Huwa importanti li wieħed jinnota li fl-ispazju tal-UV, hija l-mappa tal-pożizzjoni li tirrappreżenta l-informazzjoni ta 'adjaċenza 3D ta' frammenti ta 'tessut, bil-mudell jittratta kull element mhux tal-isfond bħala koordinat tal-punt 3D. Matul il-proċess ta 'diffużjoni, il-mudell jgħaqqad l-informazzjoni ta' ħdejn 3D billi jżid encoder tal-mappa tal-pożizzjoni individwali mal-mudell ta 'diffużjoni tal-immaġni mħarrġa minn qabel. L-encoder il-ġdid jixbah id-disinn tal-qafas ControlNet u għandu l-istess arkitettura bħall-encoder implimentat fil-mudell tad-diffużjoni tal-immaġni bis-saff ta 'konvoluzzjoni żero li jgħaqqad it-tnejn. Barra minn hekk, il-mudell tad-diffużjoni tan-nisġa huwa mħarreġ fuq sett ta 'dejta li jinkludi mapep tan-nisġa u tal-pożizzjoni, u l-mudell jitgħallem ibassar il-ħoss miżjud mal-latenti storbjuż. Il-mudell imbagħad jottimizza l-encoder tal-pożizzjoni u jiffriża d-denoiser imħarreġ għall-kompitu tad-diffużjoni tal-immaġni tiegħu. 

Il-mudell imbagħad juża simultanjament il-pożizzjoni ta 'kodifikatur kondizzjonali u kodifikaturi oħra biex iwettaq kompiti ta' raffinar fl-ispazju UV. F'dan ir-rigward, il-mudell għandu żewġ kapaċitajiet ta 'raffinar: UVHD jew UV High Definition u UV inpainting. Il-metodu UVHD huwa strutturat biex itejjeb l-appell viżwali u l-estetika tal-mappa tan-nisġa. Biex tikseb UVHD, il-mudell juża kodifikatur tat-titjib tal-immaġni u encoder tal-pożizzjoni mal-mudell tad-diffużjoni. Il-mudell juża l-metodu ta 'inpainting UV biex jimla t-toqob tan-nisġa fi ħdan il-pjan UV li huwa kapaċi jevita kwistjonijiet ta' awto-okklużjoni ġġenerati waqt l-għoti. Fl-istadju ta 'raffinament, il-mudell Paint3D l-ewwel iwettaq UV inpainting u mbagħad iwettaq UVHD biex jiġġenera l-mappa finali tan-nisġa raffinata. Billi jintegra ż-żewġ metodi ta 'raffinament, il-qafas Paint3D huwa kapaċi jipproduċi mapep tan-nisġa UV kompluti, diversi, b'riżoluzzjoni għolja u mingħajr dawl. 

Paint3D: Esperimenti u Riżultati

Il-mudell Paint3D jimpjega l- Diffużjoni Stabbli mudell text2image biex jgħinha fil-ħidmiet tal-ġenerazzjoni tan-nisġa filwaqt li timpjega l-komponent tal-kodifikatur tal-immaġni biex jimmaniġġja l-kundizzjonijiet tal-immaġni. Biex ikompli jsaħħaħ il-qabda tiegħu fuq kontrolli kondizzjonali bħall-immaġni fil-pittura, il-fond, u d-definizzjoni għolja tal-immaġni, il-qafas Paint3D jimpjega kodifikaturi tad-dominju ControlNet. Il-mudell huwa implimentat fuq il-qafas PyTorch bi projezzjonijiet ta ' rendering u texture implimentati fuq Kaolin. 

Test għal Tqabbil ta' Textures

Biex tanalizza l-prestazzjoni tiegħu, nibdew billi nevalwaw l-effett tal-ġenerazzjoni tan-nisġa ta 'Paint3D meta kkundizzjonat billi tuża prompts testwali, u nqabbluh ma' oqfsa avvanzati inklużi Text2Tex, TEXTure, u LatentPaint. Kif jista 'jiġi osservat fl-immaġni li ġejja, il-qafas Paint3D mhux biss jeċċella fil-ġenerazzjoni ta' dettalji ta 'tessut ta' kwalità għolja, iżda wkoll jissintetizza mappa ta 'tessut mingħajr illuminazzjoni raġonevolment tajjeb. 

B'paragun, il-qafas Latent-Paint huwa suxxettibbli li jiġġenera nisġa mċajpra li tirriżulta f'effetti viżwali subottimali. Min-naħa l-oħra, għalkemm il-qafas TEXTure jiġġenera nisġa ċari, huwa nieqes mill-intoppi u juri splicing u ħjatat notevoli. Fl-aħħarnett, il-qafas Text2Tex jiġġenera nisġa lixxa b'mod notevoli, iżda jonqos milli jirreplika l-prestazzjoni biex jiġġenera nisġa fini b'dettalji kkomplikati. 

L-immaġini li ġejja tqabbel il-qafas Paint3D ma 'oqfsa avvanzati b'mod kwantitattiv. 

Kif jista 'jiġi osservat, il-qafas Paint3D jaqbeż il-mudelli eżistenti kollha, u b'marġni sinifikanti bi kważi 30% titjib fil-linja bażi FID u madwar 40% titjib fil-linja bażi KID. It-titjib fil-punteġġi tal-linja bażi FID u KID juri l-kapaċità ta 'Paint3D li jiġġenera nisġa ta' kwalità għolja f'diversi oġġetti u kategoriji. 

Tqabbil tal-Immaġni mat-Tessura

Biex niġġenera l-kapaċitajiet ġenerattivi ta 'Paint3D billi tuża prompts viżwali, nużaw il-mudell TEXTure bħala l-linja bażi. Kif issemma qabel, il-mudell Paint3D juża kodifikatur tal-immaġni li ġej mill-mudell text2image minn Stable Diffusion. Kif jidher fl-immaġini li ġejja, il-qafas Paint3D jissintetizza nisġa exquisite notevolment tajjeb, u għadu kapaċi jżomm fedeltà għolja wrt il-kundizzjoni tal-immaġni. 

Min-naħa l-oħra, il-qafas TEXTure huwa kapaċi jiġġenera tessut simili għal Paint3D, iżda ma jirrappreżentax id-dettalji tan-nisġa fil-kundizzjoni tal-immaġni b'mod preċiż. Barra minn hekk, kif muri fl-immaġni li ġejja, il-qafas Paint3D jagħti punteġġi aħjar tal-linja bażi FID u KID meta mqabbel mal-qafas TEXTure b'tal-ewwel jonqos minn 40.83 għal 26.86 filwaqt li tal-aħħar juri tnaqqis minn 9.76 għal 4.94. 

Ħsibijiet Finali

F'dan l-artikolu, tkellimna dwar Paint3D, qafas ġdid oħxon għal fin kapaċi jipproduċi mapep ta 'tessut UV 2K mingħajr dawl, diversi u b'riżoluzzjoni għolja għal malji 3D mhux textured ikkundizzjonati jew fuq inputs viżwali jew testwali. Il-qofol ewlieni tal-qafas Paint3D huwa li huwa kapaċi jiġġenera nisġa UV 2K b'riżoluzzjoni għolja mingħajr dawl li huma semantikament konsistenti mingħajr ma jkunu kkundizzjonati fuq inputs ta 'immaġni jew test. Minħabba l-approċċ tiegħu minn oħxon għal fin, il-qafas Paint3D jipproduċi mapep ta’ nisġa b’inqas dawl, diversi u b’riżoluzzjoni għolja, u jagħti prestazzjoni aħjar mill-oqfsa attwali tal-aktar avvanzata. 

“Inġinier b’professjoni, kittieb b’qalbu”. Kunal huwa kittieb tekniku b'imħabba u fehim profondi tal-AI u l-ML, iddedikat biex jissimplifika kunċetti kumplessi f'dawn l-oqsma permezz tad-dokumentazzjoni involviment u informattiva tiegħu.