Følg os

Kunstig intelligens

Paint3D: Belysningsfri diffusionsmodel til billedgenerering

mm

Den hurtige udvikling af AI Generative-modeller, især dybe generative AI-modeller, har betydeligt avancerede muligheder inden for naturlig sproggenerering, 3D-generering, billedgenerering og talesyntese. Disse modeller har revolutioneret 3D-produktion på tværs af forskellige industrier. Men mange står over for en udfordring: deres komplekse ledninger og genererede masker er ofte ikke kompatible med traditionelle renderingsrørledninger som Physically Based Rendering (PBR). Diffusionsbaserede modeller, især uden lysteksturer, demonstrerer imponerende mangfoldig 3D-aktivering, der forbedrer 3D-rammer inden for filmproduktion, spil og AR/VR.

Denne artikel introducerer Paint3D, en ny ramme til fremstilling af forskellige, højopløselige 2K UV-teksturkort til uteksturerede 3D-masker, betinget af visuelle eller tekstmæssige input. Paint3D's største udfordring er at generere teksturer af høj kvalitet uden indlejret belysning, hvilket muliggør genredigering eller genbelysning af brugere inden for moderne grafiske pipelines. Den anvender en fortrænet 2D-diffusionsmodel til multi-view teksturfusion, der genererer indledende grove teksturkort. Disse kort viser dog ofte belysningsartefakter og ufuldstændige områder på grund af 2D-modellens begrænsninger i at deaktivere lyseffekter og fuldt ud repræsentere 3D-former. Vi vil dykke ned i Paint3Ds virkemåde, arkitektur og sammenligninger med andre dybe generative rammer. Lad os begynde.

Paint3D: En introduktion

Mulighederne for Deep Generative AI-modeller i naturligt sproggenerering, 3D-generering og billedsynteseopgaver er velkendte og implementeret i virkelige applikationer, hvilket revolutionerer 3D-generationsindustrien. PĂĄ trods af deres bemærkelsesværdige evner, moderne dyb generativ AI rammer genererer masker, der er karakteriseret ved komplekse ledninger og kaotiske lysteksturer, der ofte er uforenelige med konventionelle renderingsrørledninger, herunder PBR eller fysisk baseret rendering. Ligesom dybe generative AI-modeller er tekstursyntese ogsĂĄ gĂĄet hurtigt frem, især ved at bruge 2D-diffusionsmodeller. Tekstursyntesemodeller anvender forudtrænede dybde-til-billede diffusionsmodeller effektivt at bruge tekstbetingelser til at generere teksturer af høj kvalitet. Disse tilgange stĂĄr imidlertid over for problemer med præ-belyste teksturer, der kan pĂĄvirke de endelige 3D-miljøgengivelser betydeligt og introducere lysfejl, nĂĄr lysene ændres inden for de almindelige arbejdsgange, som vist i det følgende billede. 

Som det kan ses, fungerer teksturkortet med fri belysning synkroniseret med de traditionelle renderingspipelines og leverer nøjagtige resultater, hvorimod teksturkortet med forbelysning inkluderer upassende skygger, nĂĄr genbelysning anvendes. PĂĄ den anden side tilbyder strukturgenereringsrammeværker trænet pĂĄ 3D-data en alternativ tilgang, hvor rammen genererer teksturerne ved at forstĂĄ et specifikt 3D-objekts hele geometri. Selvom de muligvis giver bedre resultater, mangler teksturgenereringsrammer, der er trænet pĂĄ 3D-data, generaliseringsevner, der hindrer deres evne til at anvende modellen pĂĄ 3D-objekter uden for deres træningsdata. 

Nuværende teksturgenereringsmodeller stĂĄr over for to kritiske udfordringer: Brug af billedvejledning eller forskellige prompter for at opnĂĄ en bredere grad af generalisering pĂĄ tværs af forskellige objekter, og den anden udfordring er elimineringen af ​​koblet belysning pĂĄ resultaterne opnĂĄet fra fortræning. De præ-belyste teksturer kan potentielt forstyrre de endelige resultater af de teksturerede objekter i gengivelsesmotorer, og da de forudtrænede 2D-diffusionsmodeller kun giver 2D-resultater i view-domænet, mangler de omfattende forstĂĄelse af former, der fører til, at de ikke er i stand til for at opretholde visningskonsistens for 3D-objekter. 

PĂĄ grund af de udfordringer, der er nævnt ovenfor, forsøger Paint3D-rammen at udvikle en dobbelttrins teksturdiffusionsmodel for 3D-objekter, der generaliserer til forskellige forudtrænede generative modeller og bevarer visningskonsistensen, mens man lærer lynfri teksturgenerering. 

Paint3D er en to-trins model til generering af grov til fin tekstur, der har til formĂĄl at udnytte den stærke, hurtige vejledning og billedgenereringsevner hos præ-trænet generativ AI modeller til at strukturere 3D-objekter. I det første trin prøver Paint3D-rammeværket først multi-view-billeder fra en forudtrænet dybdebevidst 2D-billeddiffusionsmodel gradvist for at muliggøre generalisering af højkvalitets og rig teksturresultater fra forskellige prompter. Modellen genererer derefter et indledende teksturkort ved at projicere disse billeder tilbage pĂĄ 3D mesh-overfladen. I anden fase fokuserer modellen pĂĄ at generere lysløse teksturer ved at implementere tilgange, der anvendes af diffusionsmodeller, der er specialiseret i fjernelse af lyspĂĄvirkninger og formbevidst forfining af ufuldstændige omrĂĄder. Gennem hele processen er Paint3D-rammen konsekvent i stand til at generere højkvalitets 2K-teksturer semantisk og eliminerer iboende belysningseffekter. 

For at opsummere det, er Paint3D en ny, grov til fin generativ AI-model, der har til formĂĄl at producere forskelligartede, lysløse og højopløselige 2K UV-teksturkort til uteksturerede 3D-masker for at opnĂĄ den nyeste ydeevne i teksturering af 3D-objekter med forskellige betingede input, herunder tekst og billeder, og giver en betydelig fordel til syntese- og grafikredigeringsopgaver. 

Metodik og arkitektur

Paint3D-rammen genererer og forfiner teksturkort gradvist for at generere forskellige teksturkort af høj kvalitet til 3D-modeller ved hjælp af ønskede betingede input, herunder billeder og prompter, som vist i det følgende billede. 

I den grove fase bruger Paint3D-modellen forudtrænede 2D-billeddiffusionsmodeller til at prøve multi-view-billeder og opretter derefter de indledende teksturkort, der tilbageprojicerer disse billeder pĂĄ overfladen af ​​nettet. I anden fase, dvs. forfiningsstadiet, bruger Paint3D-modellen en diffusionsproces i UV-rummet til at forbedre grove teksturkort og opnĂĄr sĂĄledes høj kvalitet, maling og lysløs funktion, der sikrer den visuelle appel og fuldstændighed af den endelige tekstur . 

Trin 1: Progressiv generering af grov tekstur

I den progressive grove teksturgenereringsfase genererer Paint3D-modellen et groft UV-teksturkort for 3D-maskerne, der bruger en forudtrænet dybdebevidst 2D-diffusionsmodel. For at være mere specifik bruger modellen først forskellige kameravisninger til at gengive dybdekortet, bruger derefter dybdebetingelser til at prøve billeder fra billeddiffusionsmodellen og projicerer derefter disse billeder tilbage pĂĄ maskeoverfladen. Rammeværket udfører gengivelses-, prøveudtagnings- og tilbageprojektionsmetoderne skiftevis for at forbedre konsistensen af ​​teksturmaskerne, hvilket i sidste ende hjælper med den progressive generering af teksturkortet. 

Modellen begynder at generere teksturen af ​​det synlige omrĂĄde med kameravisningerne med fokus pĂĄ 3D-nettet og gengiver 3D-nettet til et dybdekort fra den første visning. Modellen prøver derefter et teksturbillede for en udseendetilstand og en dybdetilstand. Modellen projicerer derefter billedet tilbage pĂĄ 3D-nettet. For synspunkterne udfører Paint3D-modellen en lignende tilgang, men med en lille ændring ved at udføre teksturprøvetagningsprocessen ved hjælp af en billedmalermetode. Desuden tager modellen de teksturerede omrĂĄder fra tidligere synspunkter i betragtning, hvilket gør det muligt for gengivelsesprocessen ikke kun at udskrive et dybdebillede, men ogsĂĄ et delvist farvet RGB-billede med en ufarvet maske i den aktuelle visning. 

Modellen bruger derefter en dybdebevidst billedinpainting-model med en inpainting-koder til at udfylde det ufarvede omrĂĄde i RGB-billedet. Modellen genererer derefter teksturkortet fra visningen ved at projicere det indmalede billede tilbage i 3D-nettet under den aktuelle visning, hvilket gør det muligt for modellen at generere teksturkortet progressivt og nĂĄ frem til hele kortet med grov struktur. Endelig udvider modellen teksturprøvetagningsprocessen til en scene eller et objekt med flere visninger. For at være mere specifik bruger modellen et par kameraer til at fange to dybdekort under den indledende teksturprøvetagning fra symmetriske synspunkter. Modellen kombinerer derefter to dybdekort og komponerer et dybdegitter. Modellen erstatter det enkelte dybdebillede med dybdegitteret for at udføre multi-view dybdebevidst tekstursampling. 

Trin 2: Teksturforfining i UV-rum

Selvom udseendet af grove teksturkort er logisk, stĂĄr det over for nogle udfordringer som teksturhuller forĂĄrsaget under gengivelsesprocessen af ​​selvokklusion eller lynskygger pĂĄ grund af involvering af 2D-billeddiffusionsmodeller. Paint3D-modellen sigter mod at udføre en diffusionsproces i UV-rummet pĂĄ basis af et groft teksturkort, der forsøger at afbøde problemerne og forbedre den visuelle appel af teksturkortet endnu mere under teksturforfining. Forfining af den almindelige billeddiffusionsmodel med teksturkortene i UV-rummet introducerer imidlertid teksturdiskontinuitet, da teksturkortet genereres af UV-kortlægningen af ​​teksturen af ​​3D-overfladen, der skærer den kontinuerlige tekstur i en række individuelle fragmenter i UV-en. plads. Som et resultat af fragmenteringen finder modellen det vanskeligt at lære 3D-tilgrænsende forhold mellem fragmenterne, hvilket fører til problemer med teksturdiskontinuitet. 

Modellen forfiner teksturkortet i UV-rummet ved at udføre diffusionsprocessen under vejledning af teksturfragmenters tilstødende information. Det er vigtigt at bemærke, at i UV-rummet er det positionskortet, der repræsenterer 3D-tilgrænsende information for teksturfragmenter, hvor modellen behandler hvert ikke-baggrundselement som en 3D-punktkoordinat. Under diffusionsprocessen fusionerer modellen 3D-tilstødende information ved at tilføje en individuel positionskortkoder til den forudtrænede billeddiffusionsmodel. Den nye koder ligner designet af ControlNet-rammeværket og har samme arkitektur som koderen implementeret i billeddiffusionsmodellen med nul-foldningslaget, der forbinder de to. Ydermere trænes teksturdiffusionsmodellen pĂĄ et datasæt bestĂĄende af tekstur- og positionskort, og modellen lærer at forudsige den støj, der tilføjes til den støjende latente. Modellen optimerer derefter positionskoderen og fryser den trænede denoiser til dens billedspredningsopgave. 

Modellen bruger derefter samtidig positionen af ​​betinget encoder og andre encodere til at udføre forfiningsopgaver i UV-rummet. I denne henseende har modellen to forfiningsegenskaber: UVHD eller UV High Definition og UV-maling. UVHD-metoden er struktureret til at forbedre teksturkortets visuelle appel og æstetik. For at opnĂĄ UVHD bruger modellen en billedforbedringsencoder og en positionskoder med diffusionsmodellen. Modellen bruger UV-inpainting-metoden til at udfylde teksturhullerne i UV-planet, der er i stand til at undgĂĄ selvokklusionsproblemer genereret under gengivelsen. I forfiningsstadiet udfører Paint3D-modellen først UV-inpainting og udfører derefter UVHD for at generere det endelige raffinerede teksturkort. Ved at integrere de to forfiningsmetoder er Paint3D-rammen i stand til at producere komplette, forskelligartede UV-teksturkort med høj opløsning og lysfri. 

Paint3D: Eksperimenter og resultater

Paint3D-modellen anvender Stabil diffusion text2image-modellen til at hjælpe den med teksturgenereringsopgaver, mens den anvender billedkoderkomponenten til at hĂĄndtere billedbetingelser. For yderligere at forbedre sit greb om betingede kontroller som billedmaling, dybde og billed-high definition, anvender Paint3D-rammeværket ControlNet-domænekodere. Modellen er implementeret pĂĄ PyTorch-rammeværket med gengivelse og teksturprojektioner implementeret pĂĄ Kaolin. 

Tekst til tekstur sammenligning

For at analysere dens ydeevne starter vi med at evaluere Paint3D's teksturgenereringseffekt, nĂĄr den er betinget ved hjælp af tekstuelle prompter, og sammenligner den med de nyeste rammer, herunder Text2Tex, TEXTure og LatentPaint. Som det kan ses pĂĄ det følgende billede, udmærker Paint3D-rammen sig ikke kun ved at generere teksturdetaljer af høj kvalitet, men den syntetiserer ogsĂĄ et belysningsfrit teksturkort rimeligt godt. 

Til sammenligning er Latent-Paint-rammen tilbøjelig til at generere slørede teksturer, der resulterer i suboptimale visuelle effekter. PĂĄ den anden side, selvom TEXTure-rammen genererer klare teksturer, mangler den glathed og udviser mærkbare splejsninger og sømme. Endelig genererer Text2Tex rammeværket glatte teksturer bemærkelsesværdigt godt, men det formĂĄr ikke at replikere ydeevnen til at generere fine teksturer med indviklede detaljer. 

Følgende billede sammenligner Paint3D-rammen med state of the art-rammerne kvantitativt. 

Som det kan ses, udkonkurrerer Paint3D-rammeværket alle de eksisterende modeller og med en betydelig margin med næsten 30% forbedring i FID-baseline og cirka 40% forbedring i KID-baseline. Forbedringen i FID- og KID-baseline-scorerne demonstrerer Paint3Ds evne til at generere højkvalitetsteksturer pĂĄ tværs af forskellige objekter og kategorier. 

Billede til tekstur sammenligning

For at generere Paint3D's generative muligheder ved hjælp af visuelle prompter, bruger vi TEXTure-modellen som baseline. Som tidligere nævnt anvender Paint3D-modellen en billedkoder, der stammer fra text2image-modellen fra Stable Diffusion. Som det kan ses pĂĄ det følgende billede, syntetiserer Paint3D-rammen udsøgte teksturer bemærkelsesværdigt godt og er stadig i stand til at opretholde høj kvalitet i forhold til billedtilstanden. 

PĂĄ den anden side er TEXTure-rammen i stand til at generere en tekstur, der ligner Paint3D, men den kommer til kort at repræsentere teksturdetaljerne i billedtilstanden nøjagtigt. Ydermere, som vist i det følgende billede, leverer Paint3D-rammen bedre FID- og KID-baseline-scores sammenlignet med TEXTure-rammen, hvor førstnævnte falder fra 40.83 til 26.86, mens sidstnævnte viser et fald fra 9.76 til 4.94. 

Afsluttende tanker

I denne artikel har vi talt om Paint3D, en groft til fin ny ramme, der er i stand til at producere lysløse, forskelligartede og højopløselige 2K UV-teksturkort til uteksturerede 3D-masker, der er betinget af enten visuelle eller tekstmæssige input. Det vigtigste højdepunkt ved Paint3D-rammeværket er, at det er i stand til at generere lysløse højopløselige 2K UV-teksturer, der er semantisk konsistente uden at være betinget af billed- eller tekstinput. PĂĄ grund af sin grov-til-fin tilgang producerer Paint3D-rammeværket lysløse, forskelligartede og højopløselige teksturkort og leverer bedre ydeevne end de nuværende state-of-the-art rammer. 

"En ingeniør af profession, en forfatter udenad". Kunal er en teknisk skribent med en dyb kærlighed og forståelse for AI og ML, dedikeret til at forenkle komplekse begreber på disse områder gennem sin engagerende og informative dokumentation.