Kunstig intelligens

LucidDreamer: Høytiltroppig tekst-til-3D-generering via Interval Score Matching

Published December 15, 2023

Updated April 28, 2026

Kunal Kejriwal

De nylige fremstegene i tekst-til-3D-generative AI-rammeverk har markert en betydelig milepæl i generative modeller. De åpner vei for nye muligheter i å lage 3D-aktiver over en rekke virkelige scenarier. Digitale 3D-aktiver har nå en uunnværlig plass i vår digitale tilstedeværelse, og muliggjør omfattende visualisering og interaksjon med komplekse miljøer og objekter som speiler våre virkelige erfaringer. Disse 3D-generative AI-rammeverkene brukes i ulike domener, inkludert animasjon, arkitektur, spill, forbedret og virtuell virkelighet, og mye mer. De brukes også omfattende i nettbaserte konferanser, detaljhandel, utdanning og markedsføring.

Likevel, til tross for løftene fra disse fremstegene i tekst-til-3D-generative rammeverk, kommer den omfattende bruken av 3D-teknologier med en stor utfordring. Generering av høykvalitets 3D-bilder og medieinnhold krever fortsatt betydelig tid, innsats, ressurser og spesialisert ekspertise. Selv med disse kravene oppfylt, feiler tekst-til-3D-generering ofte i å rendre detaljerte og høykvalitets 3D-modeller. Dette problemet med rendering og lavkvalitets 3D-generering er mer utbredt i rammeverk som bruker Score Distillation Sampling (SDS)-metoden. Denne artikkelen vil diskutere de bemerkelsesverdige manglene observert i modeller som bruker SDS-metoden, som introduserer inkonsistenser og lavkvalitets oppdateringsretninger, og resulterer i en over-glattingseffekt på det genererte utgangspunktet. Vi vil også introdusere LucidDreamer-rammeverket, en ny tilnærming som bruker Interval Score Matching (ISM)-metoden for å overvinne over-glattingproblemet. Vi vil utforske modellens arkitektur og dens ytelse mot state-of-the-art tekst-til-3D-generative rammeverk. Så, la oss komme i gang.

LucidDreamer3D : En introduksjon til 3D-generering med Interval Score Matching

En viktig grunn til at 3D-genereringsmodeller har vært et samtaleemne i den generative AI-industrien er på grunn av deres vidstrakte anvendelser over ulike domener og industrier, og deres evne til å produsere 3D-innhold i sanntid. Takket være deres vidstrakte praktiske anvendelser, har utviklere foreslått flere 3D-innholdsgenereringsmetoder, hvorav tekst-til-3D-generative rammeverk står ut fra resten på grunn av deres evne til å bruke kun tekstbeskrivelser til å generere imaginative 3D-modeller. Tekst-til-3D-generative rammeverk oppnår dette ved å bruke en forhånds trenet tekst-til-bilde-diffusjonsmodell som en sterk bilde før overoppsving av trening av en neural parameterisert 3D-modell, og slik å rendre 3D-bilder konsistent som stemmer overens med teksten. Denne evnen til å rendre konstante 3D-bilder er grunnlagt i bruken av Score Distillation Sampling fundamentalt, og tillater SDS å fungere som den sentrale mekanismen for å bringe 2D-resultater fra diffusjonsmodeller til deres 3D-ekvivalenter, og slik å muliggjøre trening av 3D-modeller uten å bruke treningsbilder. Til tross for deres effektivitet, lider 3D-generative AI-rammeverk som bruker SDS-metoden ofte av forvrengning og over-glattingproblemer som hindrer de praktiske implementeringene av høykvalitets 3D-generering.

For å takle over-glattingproblemet, implementerer LucidDreamer-rammeverket en ISM eller Interval Score Matching-tilnærming, en ny tilnærming som bruker to effektive mekanismer. Først bruker ISM-tilnærmingen DDIM-inversjonsmetoden for å mildne den gjennomsnittlige effekten forårsaket av pseudo-Grund Truth-inkonsistenser ved å produsere en inverserbar diffusjonstrajektorie. For det andre, i stedet for å matche bildene som rendres av 3D-modellen med pseudo-Grund Truth-ene, matcher ISM-metoden dem mellom to intervallesteg i diffusjonstrajektorien, og hjelper dermed å unngå høy rekonstruksjonsfeil ved å unngå en-stegs rekonstruksjon. Bruken av ISM over SDS resulterer i konsistent høy ytelse med svært realistiske og detaljerte utgangspunkter.

Overordnet sett har LucidDreamer-rammeverket som mål å bidra med følgende i 3D-generativ AI

Gir en dyptgående analyse av SDS, det grunnleggende konseptet i tekst-til-3D-generative rammeverk, og identifiserer dens viktigste begrensninger av lavkvalitets pseudo-Grund Truth-er, og gir en forklaring for over-glattingseffekten som møtes av disse 3D-generative rammeverkene.
For å motvirke begrensningene som er påført av SDS-tilnærmingen, introduserer LucidDreamer-rammeverket Interval Score Matching, en ny tilnærming som bruker interval-basert matching og inverserbar diffusjonstrajektorie for å overgå SDS ved å produsere svært realistiske og detaljerte utgangspunkter.
Oppnår state-of-the-art-ytelse ved å integrere ISM-metoden med 3D-Gaussian Splatting for å overgå eksisterende metoder for 3D-innholdsgenerering med lav treningkost.

SDS-begrensninger

Som nevnt tidligere, er SDS en av de mest populære tilnærmingene for tekst-til-3D-genereringmodeller, og den søker moduser for betinget post-prior i den latente rommet til DDPM. SDS-tilnærmingen bruker også en forhånds trenet DDPM for å modellere den betingede posterior, og søker å destillere 3D-representasjonene for betinget posterior som oppnås ved å minimere følgende KL-divergens. Videre bruker SDS-tilnærmingen også den vektete støyende score-matching-objektivet for DDP-trening. Det primære objektivet til SDS-tilnærpingen kan også sees som å matche utsikten til 3D-modellen med pseudo-Grund Truth-estimatet i ett enkelt steg av DDPM. Likevel, har utviklere observert at destilleringprosessen ofte overseer viktige aspekter av DDPM-komponenten, og følgende figur demonstrerer hvordan en forhånds trenet DDPM tenderer til å predikere pseudo-Grund Truth-er med inkonsistente trekk, og produserer lavkvalitets utgangspunkter under destilleringprosessen.

Likevel, oppdateringsretninger under uønskede omstendigheter oppdateres til 3D-representasjonene som ultimate resulterer i over-glattingseffekter. Videre, er det verdt å merke seg at DDPM-komponenten er innsensitive, og trekkene til pseudo-Grund Truth-ene endrer seg betydelig selv med den minste endringen i inndata. Tillegg, tilfeldighet i både kamera-pose og støy-komponenten av inndata kan føre til fluktuasjoner som er uunngåelige under destillering. Optimering av inndata for inkonsistente pseudo-Grund Truth-er resulterer i gjennomsnittlige resultater. Hva mer er at SDS-tilnærpingen oppnår pseudo-Grund Truth-er med en enkelt-stegs-prediksjon for alle tidsintervaller, og tar ikke hensyn til begrensningene til en enkelt-stegs-DDPM-komponent som er ute av stand til å produsere høykvalitets utgangspunkter, noe som indikerer at destillering av 3D-aktiver eller bilder med SDS-komponenten kanskje ikke er den mest ideelle tilnærmingen.

LucidDreamer : Metodologi og virkemåte

LucidDreamer-rammeverket introduserer ISM-tilnærpingen, men det bygger også på erfaringer fra andre rammeverk, inkludert tekst-til-3D-generative modeller, diffusjonsmodeller og differensielle 3D-representasjonsrammeverk. Med det sagt, la oss se nærmere på arkitekturen og metodologien til LucidDreamer-rammeverket.

Interval Score Matching eller ISM

Over-glatting- og lavkvalitets utgangspunktsproblemer som møtes av de fleste tekst-til-3D-generative rammeverk kan tilskrives deres bruk av SDS-tilnærpingen som søker å matche pseudo-Grund Truth-ene med 3D-representasjonene som er inkonsistent og ofte av lav kvalitet. For å motvirke problemene som møtes av SDS, introduserer LucidDreamer-rammeverket ISM eller Interval Score Matching, en ny tilnærping som har to arbeidsfaser. I den første fasen, oppnår ISM-komponenten mer konsistente pseudo-Grund Truth-er under destillering, uavhengig av tilfeldighet i kamera-pose og støy. I den andre fasen, genererer rammeverket pseudo-Grund Truth-er med bedre kvalitet.

En annen betydelig begrensning til SDS er generering av pseudo-Grund Truth-er med en enkelt-stegs-prediksjon for alle tidsintervaller, noe som gjør det vanskelig å garantere høykvalitets pseudo-Grund Truth-er, og det danner grunnlaget for å forbedre den visuelle kvaliteten til pseudo-Grund Truth-ene. På en lignende måte, kan SDS-objektivet sees som å matche utsikten til 3D-modellen med pseudo-Grund Truth-estimatet som estimeres i ett enkelt steg av DDPM, selv om destilleringprosessen overseer en kritisk aspekt av DDPM-komponenten, nemlig at den produserer lavkvalitets pseudo-Grund Truth-er med inkonsistente trekk under destilleringprosessen.

Overordnet sett, lover ISM-komponenten å levere flere fordeler over tidligere metoder brukt i tekst-til-3D-generative modeller. Først, takket være ISM-tilnærpingens evne til å levere høykvalitets pseudo-Grund Truth-er konsistent, er den i stand til å produsere høykvalitets destillering-utgangspunkter med finere strukturer og rikere detaljer, og slik å eliminere behovet for stor skala veiledning, og øke fleksibiliteten for 3D-innholdskreasjon. For det andre, overgangen fra SDS-tilnærpingen til ISM-tilnærpingen har marginale beregningsmessige overhoder, særlig siden ISM-tilnærpingen ikke kompromitterer med den overordnede effektiviteten, selv om den krever ekstra beregningskostnader for DDIM-inversjoner.

Figuren over demonstrerer virkemåten til ISM-tilnærpingen, og gir en oversikt over arkitekturen til LucidDreamer-rammeverket. Rammeverket initialiserer først Gaussian Splatting, dvs. 3D-representasjonene, ved å bruke en forhånds trenet tekst-til-3D-generativ modell ved å bruke en prompt. Det inkorporeres deretter med en forhånds trenet 2D DDPM-komponent for å forstyrre tilfeldige utsikter til støyende ubetingede latente trajektorier ved å bruke DDIM-inversjoner, og deretter oppdaterer med intervallet score. Takket være dens arkitektur, fokuserer kjernen til å optimalisere ISM-komponenten på å oppdatere 3D-representasjonene mot pseudo-Grund Truth-er som er av høy kvalitet og konsistente, men likevel beregningsvennlige. Dette prinsippet er det som tillater ISM å sammenfalle med de grunnleggende objektivet til SDS-tilnærpingen, samtidig som den refinerer den eksisterende metoden.

DDIM-inversjon

LucidDreamer-rammeverket søker å produsere mer konsistente pseudo-Grund Truth-er i samsvar med 3D-representasjonene. Derfor, i stedet for å produsere 3D-representasjoner, bruker LucidDreamer-rammeverket DDIM-inversjonsmetoden for å predikere støyende latente 3D-representasjoner, og predikerer en inverserbar støyende latent trajektorie på en iterativ måte. Videre, er det på grunn av inverserbarheten til DDIM-inversjon at LucidDreamer-rammeverket er i stand til å øke konsistensen til pseudo-Grund Truth-ene betydelig for alle tidsintervaller.

Avansert genereringspipeline

LucidDreamer-rammeverket introduserer også en avansert pipeline i tillegg til ISM for å utforske faktorene som påvirker den visuelle kvaliteten til tekst-til-3D-generering, og introduserer 3D-Gaussian Splatting eller 3DGS som 3D-generering, og 3D-punktsky-genereringsmodeller for initialisering.

3D-Gaussian Splatting

Eksisterende arbeider har indikert at økning av batch-størrelse og rendre-oppløsning for trening forbedrer betydelig den visuelle kvaliteten. Likevel, er de fleste lærbare 3D-representasjoner som brukes for tekst-til-3D-generering tids- og minnekreverende. På den andre siden, gir 3D-Gaussian Splatting-tilnærpingen effektive resultater både i optimalisering og rendre, og tillater den avanserte genereringspipelinen i LucidDreamer-rammeverket å oppnå stor batch-størrelse og høyoppløst rendre, selv når det opererer med begrensede beregningsressurser.

Initialisering

De fleste state-of-the-art tekst-til-3D-generative rammeverk initialiserer sine 3D-representasjoner med begrensede geometrier som sirkel, boks eller sylinder, noe som ofte resulterer i uønskede utgangspunkter for ikke-akse-symmetriske objekter. På den andre siden, da LucidDreamer-rammeverket introduserer 3D-Gaussian Splatting som 3D-representasjoner, kan rammeverket naturlig adoptere flere tekst-til-punkt-generative rammeverk for å generere en grov initialisering med menneskelige inndata. Initialiseringsstrategien booster dermed konvergenshastigheten betydelig.

LucidDreamer : Eksperimenter og resultater

Tekst-til-3D-generering

Figuren over demonstrerer resultater generert av LucidDreamer-modellen med den originale stabil diffusjonsmetoden, mens den følgende figuren diskuterer de genererte resultater på ulike finjusterte kontrollpunkter.

Som det kan ses, er LucidDreamer-rammeverket i stand til å generere høykonsistente 3D-innhold ved å bruke inndata-tekst og semantiske hint. Videre, med bruk av ISM, genererer LucidDreamer-rammeverket intrikate og mer realistiske bilder, og unngår vanlige problemer som over-metning eller over-glatting, samtidig som det excellerer i å generere vanlige objekter, samt støtter kreative skaperverk.

ISM-generell tilnærming

For å evaluere ISM-generell tilnærping, gjennomføres en sammenligning mellom ISM- og SDS-metodene i både eksplisitte og implisitte representasjoner, og resultater demonstreres i følgende bilde.

Kvalitativ sammenligning

For å analysere den kvalitative effekten til LucidDreamer-rammeverket, sammenlignes det med gjeldende state-of-the-art-baselinemodeller, og for å sikre en rettferdig sammenligning, brukes Stable Diffusion 2.1-rammeverket for destillering, og resultater demonstreres i følgende bilde. Som det kan ses, leverer rammeverket høykvalitets- og geometrisk nøyaktige resultater, samtidig som det forbruker færre ressurser og tid.

Videre, for å gi en mer omfattende evaluering, gjennomfører utviklerne også en brukerstudie. Evalueringen velger 28 promter og bruker ulike tekst-til-3D-genereringsmetoder på hver prompt for å generere objekter. Resultatene ble deretter rangert av brukerne basert på graden av sammenfall med inndata-prompten og dens trofasthet.

LucidDreamer : Anvendelser

Takket være sin eksepsjonelle ytelse på en rekke tekst-til-3D-genereringsoppgaver, har LucidDreamer-rammeverket flere potensielle anvendelser, inkludert null-skudd-avatargenerering, personlig tekst-til-3D-generering og null-skudd 2D- og 3D-redigering.

Bildet øverst til venstre demonstrerer LucidDreamer-rammeverkets potensiale i null-skudd 2D- og 3D-redigeringsoppgaver, mens bildene nederst til venstre demonstrerer rammeverkets evne til å generere personlige tekst-til-3D-utgangspunkter med LoRA, mens bildet til høyre viser rammeverkets evne til å generere 3D-avatarer.

Slutt tanker

I denne artikkelen, har vi diskutert LucidDreamer, en ny tilnærping som bruker Interval Score Matching eller ISM-metoden for å overvinne over-glattingproblemet, og diskutert modellens arkitektur og dens ytelse mot state-of-the-art tekst-til-3D-generative rammeverk. Vi har også diskutert hvordan SDS eller Score Distillation Sampling, en vanlig tilnærping implementert i de fleste state-of-the-art tekst-til-3D-generative modeller, ofte resulterer i over-glatting av de genererte bildene, og hvordan LucidDreamer-rammeverket motvirker dette problemet ved å introdusere en ny tilnærping, ISM eller Interval Score Matching-tilnærpingen, for å generere høykvalitets- og mer realistiske 3D-bilder. Resultatene og evalueringen indikerer effekten til LucidDreamer-rammeverket på en rekke 3D-genereringsoppgaver, og hvordan rammeverket allerede performer bedre enn gjeldende state-of-the-art 3D-generative modeller. Den eksepsjonelle ytelsen til rammeverket åpner vei for en rekke praktiske anvendelser, som allerede er diskutert.

Unite.AI