Kunstig intelligens

Paint3D: En Innføring

Published July 15, 2024

Updated May 21, 2026

Kunal Kejriwal

Utviklingen av dype generative AI-modeller har akselerert utviklingen av AI med bemerkelsesverdige evner i naturlig språkgenerering, 3D-generering, bildegenerering og tale-syntese. 3D-generative modeller har forandret mange bransjer og anvendelser, og har revolusjonert det nåværende 3D-produksjonslandskapet. Imidlertid møter mange nåværende dype generative modeller en vanlig hindring: kompleks kobling og genererte mesh med lys-teksturer er ofte uforenlig med tradisjonelle rendering-pipelines som PBR (Physically Based Rendering). Diffusjons-baserte modeller, som genererer 3D-objekter uten lys-teksturer, besitter bemerkelsesverdige evner for divers 3D-objektgenerering, og forbedrer eksisterende 3D-rammeverk over hele bransjer som filmproduksjon, spill og forbedret virkelighet.

I denne artikkelen skal vi diskutere Paint3D, et nytt coarse-to-fine-rammeverk som kan produsere diverse, høyoppløselige 2K UV-teksturer for uteksturede 3D-mesh, betinget på enten visuelle eller tekstuelle innputt. Hovedutfordringen som Paint3D løser er å generere høykvalitets-teksturer uten å innlemme lys-informasjon, slik at brukerne kan redigere eller omligne innen moderne grafikk-pipelines. For å løse dette problemet, bruker Paint3D-rammeverket et forhåndstreent 2D-diffusjonsmodell for å utføre multi-viewport-teksturfusjon og generere viewport-betingede bilder, som først produserer en grov tekstur-mappe. Imidlertid, siden 2D-modeller ikke fullstendig kan deaktivere lys-effekter eller fullstendig representere 3D-former, kan tekstur-mappen vise lys-artefakter og ufullstendige områder.

I denne artikkelen skal vi undersøke Paint3D-rammeverket i dybden, og sammenligne det med nåværende deep generative rammeverk. La oss begynne.

Paint3D: En Innføring

Dype generative AI-modeller har demonstrert bemerkelsesverdige evner i naturlig språkgenerering, 3D-generering og bilde-syntese, og er implementert i virkelige anvendelser, og har revolusjonert 3D-genererings-industrien. Imidlertid, til tross for deres bemerkelsesverdige evner, produserer moderne dype generative AI-rammeverk ofte mesh med kompleks kobling og kaotiske lys-teksturer som er uforenlig med konvensjonelle rendering-pipelines, inkludert Physically Based Rendering (PBR). Liksom, tekstur-syntese har fremmet raskt, spesielt med bruk av 2D-diffusjonsmodeller. Disse modellene bruker effektivt forhåndstreente dybde-til-bilde-diffusjonsmodeller og tekst-betingelser for å generere høykvalitets-teksturer. Imidlertid, en betydelig utfordring består: forhåndsløste teksturer kan negativt påvirke den endelige 3D-miljø-renderingen, og introdusere lys-feil når lysene justeres innen vanlige arbeidsflyter, som vist i følgende bilde.

Som observert, fungerer tekstur-kart uten forhåndsløsning sammen med tradisjonelle rendering-pipelines, og leverer nøyaktige resultater. I motsetning, inkluderer tekstur-kart med forhåndsløsning uønskede skygger når omligning brukes. Tekstur-genererings-rammeverk trent på 3D-data tilbyr en alternativ tilnærming, og genererer teksturer ved å forstå en bestemt 3D-objekts hele geometri. Imidlertid, selv om disse rammeverkene kan levere bedre resultater, mangler de generaliserings-evnene som trengs for å anvende modellen på 3D-objekter utenfor deres treningsdata.

Nåværende tekstur-genererings-modeller møter to kritiske utfordringer: å oppnå bred generalisering over forskjellige objekter ved hjelp av bilde-veiledning eller diverse påminnelser, og å eliminere koblet lys fra forhåndstrening-resultater. Forhåndsløste teksturer kan forstyrre den endelige teksturen på teksturede objekter innen rendering-motorer. I tillegg, siden forhåndstreente 2D-diffusjonsmodeller bare gir 2D-resultater i viewport-domænet, mangler de en omfattende forståelse av former, og fører til inkonsistenser i å opprettholde viewport-konsistens for 3D-objekter.

For å løse disse utfordringene, utvikler Paint3D-rammeverket et dual-stage tekstur-diffusjonsmodell for 3D-objekter som generaliserer over forskjellige forhåndstreente generative modeller og opprettholder viewport-konsistens mens det genererer lys-frie teksturer.

Paint3D er et dual-stage, coarse-to-fine tekstur-genereringsmodell som utnytter de sterke påminnelser og bilde-genererings-evnene til forhåndstreente generative AI-modeller for å teksturere 3D-objekter. I den første fasen, sampler Paint3D multi-viewport-bilder fra et forhåndstreent dybde-til-bilde-diffusjonsmodell progressivt, og muliggjør generalisering av høykvalitets-teksturer fra diverse påminnelser. Modellen genererer så en initial tekstur-mappe ved å projisere disse bildene tilbake på 3D-mesh-overflaten. I den andre fasen, fokuserer modellen på å generere lys-frie teksturer ved å implementere tilnærminger som brukes av diffusjonsmodeller som spesialiserer seg på å fjerne lys-påvirkninger og forbedre form-tilknyttede ufullstendige områder. Gjennom hele prosessen, genererer Paint3D-rammeverket konsistent høykvalitets-2K-teksturer semantisk, og eliminerer intrinsiske lys-effekter.

I sammenfatning, er Paint3D et nytt, coarse-to-fine generativt AI-modell designet for å produsere diverse, lys-frie, høyoppløselige 2K UV-teksturer for uteksturede 3D-mesh. Det har som mål å oppnå state-of-the-art-ytelse i teksturering av 3D-objekter med forskjellige betingede innputt, inkludert tekst og bilder, og tilbyr betydelige fordeler for syntese og grafikk-redigering-oppgaver.

Metodologi og Arkitektur

Paint3D-rammeverket genererer og forbedrer tekstur-kart progressivt for å produsere diverse og høykvalitets-teksturer for 3D-modeller ved hjelp av betingede innputt som bilder og påminnelser, som vist i følgende bilde.

Steg 1: Progressiv Grov Tekstur-Generering

I den første fasen, coarse-tekstur-generering, bruker Paint3D forhåndstreente 2D-bilde-diffusjonsmodeller for å sample multi-viewport-bilder, som så projiseres tilbake på mesh-overflaten for å skape den initielle tekstur-kart. Denne fasen begynner med å generere en dybde-kart fra forskjellige kamera-viewport. Modellen bruker dybde-betingelser for å sample bilder fra diffusjonsmodellen, som så projiseres tilbake på 3D-mesh-overflaten. Denne alternativ rendering, sampling og projeksjon-tilnærming forbedrer konsistensen av tekstur-mesh og hjelper med å generere tekstur-kart progressivt.

Prosessen begynner med de synlige områdene av 3D-mesh, og fokuserer på å generere tekstur fra den første kamera-viewport ved å rendre 3D-mesh til en dybde-kart. Et tekstur-bilde samples basert på utseende og dybde-betingelser, og projiseres tilbake på mesh. Denne metoden gjentas for påfølgende viewport, og inkorporerer tidligere teksturer for å rendre ikke bare en dybde-bilde, men også en delvis farget RGB-bilde med ufargede masker. Modellen bruker en dybde-til-bilde-inpainting-encoder for å fylle ufargede områder, og genererer en fullstendig grov tekstur-kart ved å projisere inpaintede bilder tilbake på 3D-mesh.

For mer komplekse scener eller objekter, bruker modellen flere viewport. Først, fanger den to dybde-kart fra symmetriske viewport og kombinerer dem i en dybde-grid, som erstatter en enkelt dybde-bilde for multi-viewport-dybde-til-tekstur-sampling.

Steg 2: Tekstur-Forbedring i UV-Rom

Til tross for å generere logiske grove tekstur-kart, oppstår utfordringer som tekstur-hull fra rendering-prosesser og lys-skygger fra 2D-bilde-diffusjonsmodeller. For å løse disse, utfører Paint3D en diffusjons-prosess i UV-rom basert på den grove tekstur-kart, og forbedrer det visuelle uttrykket og løser problemene.

Imidlertid, kan forbedring av tekstur-kart i UV-rom introdusere diskontinuiteter på grunn av fragmentering av kontinuerlige teksturer i separate fragmenter. For å mildne dette, forbedrer Paint3D tekstur-kart ved å bruke naboinformasjonen til tekstur-fragmenter. I UV-rom, representerer posisjons-kartet 3D-naboinformasjonen til tekstur-fragmenter, og behandler hver non-bakgrunns-element som en 3D-punktkoordinat. Modellen bruker en ekstra posisjons-kart-encoder, lignende ControlNet, for å integrere denne naboinformasjonen under diffusjons-prosessen.

Modellen bruker samtidig posisjonen til den betingede encoder og andre encodere for å utføre forbedrings-oppgaver i UV-rom, og tilbyr to evner: UVHD (UV High Definition) og UV-inpainting. UVHD forbedrer det visuelle uttrykket og estetikken, og bruker en bilde-forbedrings-encoder og posisjons-encoder med diffusjonsmodellen. UV-inpainting fyller tekstur-hull, og unngår selv-occlusion-problemer fra rendering. Forbedrings-fasen begynner med UV-inpainting, og følges av UVHD for å produsere en endelig forbedret tekstur-kart.

Ved å integrere disse forbedrings-metodene, genererer Paint3D-rammeverket fullstendige, diverse, høyoppløselige og lys-frie UV-teksturer, og gjør det til en robust løsning for teksturering av 3D-objekter.

Paint3D: Eksperimenter og Resultater

Paint3D-modellen bruker Stable Diffusion text2image-modellen for å hjelpe med tekstur-genererings-oppgaver, mens bilde-encoder-komponenten håndterer bilde-betingelser. For å forbedre kontrollen over betingede oppgaver som bilde-inpainting, dybde-håndtering og høyoppløselige bilder, bruker Paint3D-rammeverket ControlNet-domene-encodere. Modellen er implementert på PyTorch-rammeverket, og rendering og tekstur-projeksjoner utføres på Kaolin.

Tekst til Teksturer Sammenligning

For å evaluere Paint3D-s ytelse, begynner vi med å analysere dens tekstur-generering når den er betinget med tekstlige påminnelser, og sammenligner det med nåværende state-of-the-art-rammeverk som Text2Tex, TEXTure og LatentPaint. Som vist i følgende bilde, overgår Paint3D-rammeverket ikke bare i å generere høykvalitets-tekstur-detajler, men også i å syntetisere en lys-fri tekstur-kart.

Ved å utnytte de robuste evnene til Stable Diffusion og ControlNet-encodere, tilbyr Paint3D overlegen tekstur-kvalitet og fleksibilitet. Sammenligningen høydepunkter Paint3D-s evne til å produsere detaljerte, høyoppløselige teksturer uten innlemmet lys, og gjør det til en ledende løsning for 3D-teksturering-oppgaver.

I sammenligning, er Latent-Paint-rammeverket utsatt for å generere uklare teksturer som resulterer i underoptimalt visuelt uttrykk. På den andre siden, selv om TEXTure-rammeverket genererer klare teksturer, mangler det smidighet og viser merkbar splicing og søm. Til slutt, genererer Text2Tex-rammeverket glatte teksturer merkelig godt, men det feiler i å replikere ytelsen for å generere fine teksturer med intrikate detaljer. Følgende bilde sammenligner Paint3D-rammeverket med nåværende state-of-the-art-rammeverk kvantitativt.

Som det kan observeres, overgår Paint3D-rammeverket alle eksisterende modeller, og med en betydelig margin på nesten 30% forbedring i FID-baselinjen og omtrent 40% forbedring i KID-baselinjen. Forbedringen i FID- og KID-baselinjene demonstrerer Paint3D-s evne til å generere høykvalitets-teksturer over diverse objekter og kategorier.

Bilde til Tekstur Sammenligning

For å generere Paint3D-s generative evner ved hjelp av visuelle påminnelser, bruker vi TEXTure-modellen som baselinjen. Som nevnt tidligere, bruker Paint3D-modellen en bilde-encoder fra text2image-modellen fra Stable Diffusion. Som det kan sees i følgende bilde, syntetiserer Paint3D-rammeverket usedvanlige teksturer merkelig godt, og er fortsatt i stand til å opprettholde høy trofasthet i forhold til bilde-betingelsen.

På den andre siden, er TEXTure-rammeverket i stand til å generere en tekstur lik Paint3D, men det feiler i å representere tekstur-detajlene i bilde-betingelsen nøyaktig. Videre, som demonstrert i følgende bilde, leverer Paint3D-rammeverket bedre FID- og KID-baselinje-resultater enn TEXTure-rammeverket, med den første som går ned fra 40,83 til 26,86, mens den andre viser en nedgang fra 9,76 til 4,94.

Slutt tanker

I denne artikkelen har vi diskutert Paint3D, et nytt coarse-to-fine-rammeverk som kan produsere lys-frie, diverse og høyoppløselige 2K UV-teksturer for uteksturede 3D-mesh, betinget på enten visuelle eller tekstlige innputt. Hoved-høydepunktet til Paint3D-rammeverket er at det er i stand til å generere lys-frie høyoppløselige 2K UV-teksturer som er semantisk konsistente uten å være betinget på bilde- eller tekst-innputt. Takket være sin coarse-to-fine-tilnærming, produserer Paint3D-rammeverket lys-frie, diverse og høyoppløselige tekstur-kart, og leverer bedre ytelse enn nåværende state-of-the-art-rammeverk.

Kunal Kejriwal

En ingeniør av yrke, en forfatter av hjerte. Kunal er en teknisk forfatter med en dyp kjærlighet og forståelse av AI og ML, dedikert til å forenkle komplekse konsepter i disse feltene gjennom sin engasjerende og informerende dokumentasjon.