tynkä Paint3D : Valaistuksen vähentävä diffuusiomalli kuvan luomiseen - Unite.AI
Liity verkostomme!

Tekoäly

Paint3D : Valaisevampi diffuusiomalli kuvan luomiseen

mm
Päivitetty on

Tekoälymallien nopea kehitys, erityisesti syvägeneratiiviset tekoälymallit, on edistynyt merkittävästi luonnollisen kielen luomisessa, 3D-luonnissa, kuvien luomisessa ja puhesynteesissä. Nämä mallit ovat mullistaneet 3D-tuotannon eri toimialoilla. Monet kohtaavat kuitenkin haasteen: niiden monimutkainen johdotus ja luodut silmät eivät usein ole yhteensopivia perinteisten renderöintiputkien, kuten Physically Based Rendering (PBR) kanssa. Diffuusiopohjaiset mallit, varsinkin ilman valokuvioita, osoittavat vaikuttavan monipuolisen 3D-materiaalin luomisen, mikä parantaa 3D-kehystä elokuvanteossa, pelaamisessa ja AR/VR:ssä.

Tämä artikkeli esittelee Paint3D:n, uuden kehyksen, jolla voidaan tuottaa erilaisia, korkearesoluutioisia 2K UV-tekstuurikarttoja teksturoimattomille 3D-verkoille, jotka on ehdollistettu visuaalisten tai tekstisyötteiden avulla. Paint3D:n päähaaste on tuottaa korkealaatuisia pintakuvioita ilman upotettua valaistusta, mikä mahdollistaa käyttäjän uudelleenmuokkauksen tai -valaistuksen nykyaikaisissa grafiikkaputkissa. Se käyttää esikoulutettua 2D-diffuusiomallia usean kuvan pintakuvioiden yhdistämiseen, luoden alustavat karkeat pintakuviointikartat. Näissä kartoissa näkyy kuitenkin usein valaistusartefakteja ja epätäydellisiä alueita, jotka johtuvat 2D-mallin rajoituksista valotehosteiden poistamisessa ja 3D-muotojen täydellisessä esittämisessä. Perehdymme Paint3D:n toimintaan, arkkitehtuuriin ja vertailuihin muihin syviin generatiivisiin kehyksiin. Aloitetaanpa.

Paint3D: Johdanto

Deep Generative AI -mallien ominaisuudet luonnollisen kielen luomisessa, 3D-luonnissa ja kuvasynteesitehtävissä ovat hyvin tunnettuja ja toteutettu tosielämän sovelluksissa, mullistaen 3D-sukupolviteollisuuden. Huolimatta niiden merkittävistä ominaisuuksista, moderni syvä generatiivinen tekoäly puitteet luovat verkkoja, joille on ominaista monimutkainen johdotus ja kaoottiset valaistustekstuurit, jotka eivät usein ole yhteensopivia tavanomaisten renderöintiputkien kanssa, mukaan lukien PBR tai fyysinen renderöinti. Kuten syvägeneratiiviset AI-mallit, myös tekstuurisynteesi on edennyt nopeasti erityisesti 2D-diffuusiomallien hyödyntämisessä. Tekstuurisynteesimalleissa käytetään esiopetettua syvyyttä kuvaan diffuusio malleja Käytä tekstiolosuhteita tehokkaasti korkealaatuisten tekstuurien luomiseen. Näissä lähestymistavoissa on kuitenkin ongelmia esivalaisttujen pintakuvioiden kanssa, jotka voivat vaikuttaa merkittävästi lopullisiin 3D-ympäristön renderöintiin ja aiheuttaa valaistusvirheitä, kun valoja vaihdetaan yleisten työnkulkujen puitteissa, kuten seuraavassa kuvassa näkyy. 

Kuten voidaan havaita, vapaalla valaistuksella varustettu pintakuviokartta toimii synkronoituna perinteisten renderöintiputkien kanssa ja tuottaa tarkat tulokset, kun taas pintakuviokartta esivalaistuksella sisältää sopimattomia varjoja uudelleenvalaistuksen yhteydessä. Toisaalta 3D-dataan koulutetut tekstuurin luontikehykset tarjoavat vaihtoehtoisen lähestymistavan, jossa kehys luo tekstuurit ymmärtämällä tietyn 3D-objektin koko geometrian. Vaikka ne saattavat tuottaa parempia tuloksia, 3D-datalla opetetuista tekstuurien luontikehyksestä puuttuu yleistyskyky, mikä estää niiden kyvyn soveltaa mallia 3D-objekteihin harjoitusdatan ulkopuolella. 

Nykyisillä tekstuurin luontimalleilla on kaksi kriittistä haastetta: kuvien ohjauksen tai erilaisten kehotteiden käyttäminen laajemman yleistysasteen saavuttamiseksi eri kohteissa, ja toinen haaste on kytketyn valaistuksen poistaminen esiharjoittelun tuloksista. Esivalaistut pintakuviot voivat mahdollisesti häiritä renderöintikoneissa olevien teksturoitujen objektien lopputuloksia, ja koska esiopetetut 2D-diffuusiomallit tarjoavat 2D-tuloksia vain näkymäalueella, niillä ei ole kattavaa ymmärrystä muodoista, mikä johtaa siihen, että ne eivät pysty 3D-objektien näkymän yhdenmukaisuuden säilyttämiseksi. 

Edellä mainituista haasteista johtuen Paint3D-kehys pyrkii kehittämään 3D-objekteille kaksivaiheisen tekstuurin diffuusiomallin, joka yleistyy erilaisiin valmiiksi koulutettuihin generatiivisiin malleihin ja säilyttää näkymän yhtenäisyyden samalla kun oppii salamannopeaa tekstuurin luomista. 

Paint3D on kaksivaiheinen karkeasta hienoon tekstuurin luontimalli, jonka tavoitteena on hyödyntää esikoulutetun vahvaa nopeaa ohjausta ja kuvanluontiominaisuuksia. generatiivinen tekoäly malleja 3D-objektien teksturointiin. Ensimmäisessä vaiheessa Paint3D-kehys ottaa ensin näytteitä moninäkymäkuvista esiopetetusta syvyystietoisesta 2D-kuvan diffuusiomallista asteittain mahdollistaakseen laadukkaiden ja rikkaiden tekstuuritulosten yleistämisen erilaisista kehotteista. Sitten malli luo alkuperäisen pintakuviokartan projisoimalla nämä kuvat takaisin 3D-verkkopinnalle. Toisessa vaiheessa malli keskittyy valaisemattomien tekstuurien tuottamiseen toteuttamalla valovaikutusten poistamiseen ja epätäydellisten alueiden muototietoiseen tarkentamiseen erikoistuneiden diffuusiomallien käyttämiä lähestymistapoja. Koko prosessin ajan Paint3D-kehys pystyy jatkuvasti luomaan semanttisesti korkealaatuisia 2K-tekstuureja ja eliminoi luontaiset valaistusvaikutukset. 

Yhteenvetona voidaan todeta, että Paint3D on uusi karkeasta hienoon generatiivinen tekoälymalli, jonka tavoitteena on tuottaa monipuolisia, valottomia ja korkearesoluutioisia 2K UV-tekstuurikarttoja teksturoimattomille 3D-verkoille saavuttaakseen huipputason 3D-objektien teksturoinnin erilaisilla ehdollisilla ehdoilla. syötteitä, mukaan lukien tekstiä ja kuvia, ja tarjoaa merkittävän edun synteesi- ja grafiikan muokkaustehtäviin. 

Metodologia ja arkkitehtuuri

Paint3D-kehys luo ja jalostaa pintakuviokarttoja asteittain luodakseen monipuolisia ja korkealaatuisia pintakuviokarttoja 3D-malleille käyttämällä haluttuja ehdollisia syötteitä, mukaan lukien kuvat ja kehotteet, kuten seuraavassa kuvassa näkyy. 

Karkeassa vaiheessa Paint3D-malli käyttää valmiiksi koulutettuja 2D-kuvan diffuusiomalleja usean näkymän kuvien näyttelemiseen ja luo sitten alkuperäiset pintakuviointikartat projisoimalla nämä kuvat takaisin verkon pinnalle. Toisessa vaiheessa eli jalostusvaiheessa Paint3D-malli käyttää diffuusioprosessia UV-tilassa parantaakseen karkeita pintakuviointikarttoja, jolloin saavutetaan korkealaatuinen, maalaamaton ja valaistusvapaa toiminto, joka varmistaa lopullisen tekstuurin visuaalisen vetovoiman ja täydellisyyden. . 

Vaihe 1: Progressiivinen karkean tekstuurin luominen

Progressiivisessa karkean tekstuurin luontivaiheessa Paint3D-malli luo karkean UV-tekstuurikartan 3D-verkoille, jotka käyttävät esikoulutettua syvyystietoista 2D-diffuusiomallia. Tarkemmin sanottuna malli käyttää ensin erilaisia ​​kameranäkymiä syvyyskartan hahmontamiseen, sitten käyttää syvyysolosuhteita kuvien näyttelemiseen kuvan diffuusiomallista ja sitten projisoi nämä kuvat takaisin verkkopinnalle. Kehys suorittaa renderöinti-, näytteenotto- ja takaisinprojisointilähestymistapoja vuorotellen parantaakseen pintakuvioverkkojen yhtenäisyyttä, mikä lopulta auttaa pintakuviokartan asteittaisessa luomisessa. 

Malli alkaa generoida näkyvän alueen tekstuuria kameranäkymien keskittyessä 3D-verkkoon ja renderöi 3D-verkon syvyyskartalle ensimmäisestä näkymästä. Malli ottaa sitten näytteitä tekstuurikuvasta ulkonäön ja syvyysolosuhteiden perusteella. Sitten malli projisoi kuvan takaisin 3D-verkkoon. Näkökulmien osalta Paint3D-malli toteuttaa samanlaisen lähestymistavan, mutta pienellä muutoksella suorittamalla tekstuurin näytteenottoprosessin käyttämällä kuvamaalausta. Lisäksi malli ottaa huomioon aikaisempien näkökulmien pintakuvioidut alueet, jolloin renderöintiprosessi voi tulostaa syvyyskuvan lisäksi myös osittain värillisen RGB-kuvan, jossa on väritön maski nykyisessä näkymässä. 

Malli käyttää sitten syvyystietoista kuvan maalausmallia maalausenkooderilla täyttämään RGB-kuvan värittömän alueen. Malli luo sitten pintakuviokartan näkymästä projisoimalla maalatun kuvan takaisin nykyisen näkymän 3D-verkkoon, jolloin malli voi luoda pintakuviokartan asteittain ja saavuttaa koko karkean rakennekartan. Lopuksi malli laajentaa tekstuurin näytteenottoprosessin kohtaukseen tai objektiin, jossa on useita näkymiä. Tarkemmin sanottuna malli käyttää kameraparia kahden syvyyskartan kaappaamiseen alkuperäisen pintakuviointinäytteenoton aikana symmetrisistä näkökulmista. Malli yhdistää sitten kaksi syvyyskarttaa ja muodostaa syvyysruudukon. Malli korvaa yhden syvyyskuvan syvyysruudukolla suorittaakseen usean näkymän syvyystietoisen tekstuurinäytteenoton. 

Vaihe 2: Tekstuurin parantaminen UV-tilassa

Vaikka karkeiden pintakuviointikarttojen ulkonäkö on loogista, se kohtaa joitain haasteita, kuten 2D-kuvan diffuusiomallien mukanaan tuomia pintakuvioreikiä renderöinnin aikana itsestään tukkeutumisesta tai salaman varjoista. Paint3D-mallin tavoitteena on suorittaa diffuusioprosessi UV-tilassa karkean pintakuviointikartan pohjalta, mikä yrittää lieventää ongelmia ja parantaa pintakuviokartan visuaalista vetovoimaa entisestään tekstuurin jalostuksen aikana. Valtavirran kuvan diffuusiomallin jalostaminen UV-avaruudessa olevilla pintakuviointikartoilla aiheuttaa kuitenkin tekstuurin epäjatkuvuutta, koska pintakuviointikartta syntyy 3D-pinnan tekstuurin UV-kartoituksella, joka leikkaa jatkuvan tekstuurin sarjaksi yksittäisiä fragmentteja UV-tilassa. tilaa. Fragmentoinnin seurauksena mallin on vaikea oppia 3D-naapurisuhteita fragmenttien välillä, mikä johtaa tekstuurin epäjatkuvuusongelmiin. 

Malli jalostaa tekstuurin karttaa UV-avaruudessa suorittamalla diffuusioprosessin tekstuurifragmenttien viereisyystietojen ohjauksessa. On tärkeää huomata, että UV-avaruudessa sijaintikartta edustaa tekstuurifragmenttien 3D-naapuritietoa, jolloin malli käsittelee jokaista ei-taustaelementtiä 3D-pistekoordinaattina. Diffuusioprosessin aikana malli sulattaa 3D-naapuritiedot lisäämällä yksittäisen sijaintikartan kooderin esiopetettuun kuvan diffuusiomalliin. Uusi enkooderi muistuttaa suunnittelua ControlNet-kehystä ja siinä on sama arkkitehtuuri kuin kuvan diffuusiomallissa toteutetulla kooderilla, jossa nollakonvoluutiokerros yhdistää nämä kaksi. Lisäksi tekstuurin diffuusiomallia opetetaan pintakuvio- ja sijaintikartoista koostuvalla tietojoukolla, ja malli oppii ennustamaan meluiseen latenttiin lisättyä kohinaa. Tämän jälkeen malli optimoi sijaintikooderin ja pysäyttää opetetun kohinanvaimentimen kuvan diffuusiotehtävää varten. 

Malli käyttää sitten samanaikaisesti ehdollisen kooderin ja muiden kooderien sijaintia tarkennustehtävien suorittamiseen UV-tilassa. Tässä suhteessa mallissa on kaksi hienosäätömahdollisuutta: UVHD tai UV High Definition ja UV-maalaus. UVHD-menetelmä on rakennettu parantamaan pintakuviokartan visuaalista vetovoimaa ja estetiikkaa. UVHD:n saavuttamiseksi malli käyttää kuvanparannusenkooderia ja sijaintienkooderia diffuusiomallin kanssa. Malli käyttää UV-maalausmenetelmää UV-tason pintakuviointireikien täyttämiseen, mikä pystyy välttämään renderöinnin aikana syntyneet itsetukkeutumisongelmat. Jalostusvaiheessa Paint3D-malli suorittaa ensin UV-maalauksen ja sitten UVHD-maalauksen lopullisen jalostetun pintakuviokartan luomiseksi. Integroimalla nämä kaksi parannusmenetelmää Paint3D-kehys pystyy tuottamaan täydellisiä, monipuolisia, korkearesoluutioisia ja valottomia UV-tekstuurikarttoja. 

Paint3D: Kokeilut ja tulokset

Paint3D-mallissa käytetään Vakaa diffuusio text2image-malli auttaa sitä tekstuurin luontitehtävissä, kun se käyttää kuvan enkooderikomponenttia käsittelemään kuvaolosuhteita. Paint3D-kehys käyttää ControlNet-toimialueen koodereita parantaakseen otettaan ehdollisiin ohjauksiin, kuten kuvan maalaamiseen, syvyyteen ja teräväpiirtokuvaan. Malli on toteutettu PyTorch-kehyksessä Kaoliinilla toteutetuilla renderöinnillä ja tekstuuriprojektioilla. 

Tekstuurien vertailu

Analysoidaksemme sen suorituskykyä, aloitamme arvioimalla Paint3D:n tekstuurin luontitehostetta, kun se on ehdoiteltu tekstikehotteilla, ja vertaamme sitä uusimpaan kehykseen, mukaan lukien Text2Tex, TEXTure ja LatentPaint. Kuten seuraavasta kuvasta voidaan havaita, Paint3D-kehys ei ainoastaan ​​loista luomaan korkealaatuisia pintakuvioyksityiskohtia, vaan se myös syntetisoi valottoman pintakuviokartan kohtuullisen hyvin. 

Vertailun vuoksi Latent-Paint-kehys on taipuvainen luomaan epäselviä tekstuureja, jotka johtavat epäoptimaalisiin visuaalisiin tehosteisiin. Toisaalta, vaikka TEXTure-kehys tuottaa selkeitä tekstuureja, siitä puuttuu sileys ja siinä on havaittavia liitoksia ja saumoja. Lopuksi, Text2Tex-kehys tuottaa sileitä tekstuureja erittäin hyvin, mutta se ei toista suorituskykyä hienojen pintakuvioiden luomisessa monimutkaisilla yksityiskohdilla. 

Seuraavassa kuvassa Paint3D-kehystä verrataan määrällisesti huipputason kehyksiin. 

Kuten voidaan havaita, Paint3D-kehys ylittää kaikki olemassa olevat mallit ja merkittävällä marginaalilla lähes 30 % parantuneella FID-perustasolla ja noin 40 % parantuneella KID-perustasolla. FID- ja KID-peruspisteiden paraneminen osoittaa Paint3D:n kyvyn luoda korkealaatuisia tekstuureja erilaisille objekteille ja luokille. 

Kuvan ja tekstuurin vertailu

Luodaksemme Paint3D:n luovia ominaisuuksia visuaalisten kehotteiden avulla käytämme TEXTure-mallia perusviivana. Kuten aiemmin mainittiin, Paint3D-malli käyttää kuvakooderia, joka on peräisin Stable Diffusionin text2image-mallista. Kuten seuraavasta kuvasta näkyy, Paint3D-kehys syntetisoi hienoja tekstuureja erittäin hyvin ja pystyy silti säilyttämään korkean tarkkuuden kuvaolosuhteissa. 

Toisaalta TEXTure-kehys pystyy luomaan Paint3D:n kaltaisen tekstuurin, mutta se ei pysty esittämään pintakuvioiden yksityiskohtia tarkasti kuvassa. Lisäksi, kuten seuraavassa kuvassa osoitetaan, Paint3D-kehys tarjoaa paremmat FID- ja KID-peruspisteet verrattuna TEXTure-kehykseen, jolloin edellinen laskee 40.83:sta 26.86:een, kun taas jälkimmäinen 9.76:sta 4.94:ään. 

Loppuajatukset

Tässä artikkelissa olemme puhuneet Paint3D:stä, karkeasta hienoon uuteen kehykseen, joka pystyy tuottamaan valottomia, monipuolisia ja korkearesoluutioisia 2K UV-tekstuurikarttoja teksturoimattomille 3D-verkoille, jotka on ehdollistettu joko visuaalisilla tai tekstisyötteillä. Paint3D-kehyksen tärkein kohokohta on, että se pystyy luomaan valottomia korkearesoluutioisia 2K UV-kuvioita, jotka ovat semanttisesti johdonmukaisia ​​ilman kuvan tai tekstin syöttämistä. Karkeasta hienoon lähestymistapansa ansiosta Paint3D-kehys tuottaa valottomia, monipuolisia ja korkearesoluutioisia pintakuviokarttoja ja tarjoaa paremman suorituskyvyn kuin nykyiset tekniikan huipputason kehykset. 

"Ammatiltaan insinööri, sydämeltään kirjailija". Kunal on tekninen kirjoittaja, jolla on syvä rakkaus ja ymmärrys tekoälystä ja ML:stä. Hän on omistautunut yksinkertaistamaan monimutkaisia ​​käsitteitä näillä aloilla kiinnostavan ja informatiivisen dokumentaationsa avulla.