Connect with us

Kunstig intelligens

LucidDreamer: Høytiltroppig tekst-til-3D-generering via Interval Score Matching

mm

De nylige fremstegene i tekst-til-3D-generative AI-rammeverk har markert en betydelig milepæl i generative modeller. De åpner vei for nye muligheter i å lage 3D-aktiver over en rekke virkelige scenarier. Digitale 3D-aktiver har nå en uunnværlig plass i vår digitale tilstedeværelse, og muliggjør omfattende visualisering og interaksjon med komplekse miljøer og objekter som speiler våre virkelige erfaringer. Disse 3D-generative AI-rammeverkene brukes i ulike domener, inkludert animasjon, arkitektur, spill, forbedret og virtuell virkelighet, og mye mer. De brukes også omfattende i nettbaserte konferanser, detaljhandel, utdanning og markedsføring.

Likevel, til tross for løftene fra disse fremstegene i tekst-til-3D-generative rammeverk, kommer den omfattende bruken av 3D-teknologier med en stor utfordring. Generering av høykvalitets 3D-bilder og medieinnhold krever fortsatt betydelig tid, innsats, ressurser og spesialisert ekspertise. Selv med disse kravene oppfylt, feiler tekst-til-3D-generering ofte i å rendre detaljerte og høykvalitets 3D-modeller. Dette problemet med rendering og lavkvalitets 3D-generering er mer utbredt i rammeverk som bruker Score Distillation Sampling (SDS)-metoden. Denne artikkelen vil diskutere de bemerkelsesverdige manglene observert i modeller som bruker SDS-metoden, som introduserer inkonsistenser og lavkvalitets oppdateringsretninger, og resulterer i en over-glattingseffekt på det genererte utgangspunktet. Vi vil også introdusere LucidDreamer-rammeverket, en ny tilnærming som bruker Interval Score Matching (ISM)-metoden for å overvinne over-glattingproblemet. Vi vil utforske modellens arkitektur og dens ytelse mot state-of-the-art tekst-til-3D-generative rammeverk. Så, la oss komme i gang.

LucidDreamer3D : En introduksjon til 3D-generering med Interval Score Matching

En viktig grunn til at 3D-genereringsmodeller har vært et samtaleemne i den generative AI-industrien er på grunn av deres vidstrakte anvendelser over ulike domener og industrier, og deres evne til å produsere 3D-innhold i sanntid. Takket være deres vidstrakte praktiske anvendelser, har utviklere foreslått flere 3D-innholdsgenereringsmetoder, hvorav tekst-til-3D-generative rammeverk står ut fra resten på grunn av deres evne til å bruke kun tekstbeskrivelser til å generere imaginative 3D-modeller. Tekst-til-3D-generative rammeverk oppnår dette ved å bruke en forhånds trenet tekst-til-bilde-diffusjonsmodell som en sterk bilde før overoppsving av trening av en neural parameterisert 3D-modell, og slik å rendre 3D-bilder konsistent som stemmer overens med teksten. Denne evnen til å rendre konstante 3D-bilder er grunnlagt i bruken av Score Distillation Sampling fundamentalt, og tillater SDS å fungere som den sentrale mekanismen for å bringe 2D-resultater fra diffusjonsmodeller til deres 3D-ekvivalenter, og slik å muliggjøre trening av 3D-modeller uten å bruke treningsbilder. Til tross for deres effektivitet, lider 3D-generative AI-rammeverk som bruker SDS-metoden ofte av forvrengning og over-glattingproblemer som hindrer de praktiske implementeringene av høykvalitets 3D-generering.

For å takle over-glattingproblemet, implementerer LucidDreamer-rammeverket en ISM eller Interval Score Matching-tilnærming, en ny tilnærming som bruker to effektive mekanismer. Først bruker ISM-tilnærmingen DDIM-inversjonsmetoden for å mildne den gjennomsnittlige effekten forårsaket av pseudo-Grund Truth-inkonsistenser ved å produsere en inverserbar diffusjonstrajektorie. For det andre, i stedet for å matche bildene som rendres av 3D-modellen med pseudo-Grund Truth-ene, matcher ISM-metoden dem mellom to intervallesteg i diffusjonstrajektorien, og hjelper dermed å unngå høy rekonstruksjonsfeil ved å unngå en-stegs rekonstruksjon. Bruken av ISM over SDS resulterer i konsistent høy ytelse med svært realistiske og detaljerte utgangspunkter.

Overordnet sett har LucidDreamer-rammeverket som mål å bidra med følgende i 3D-generativ AI

  1. Gir en dyptgående analyse av SDS, det grunnleggende konseptet i tekst-til-3D-generative rammeverk, og identifiserer dens viktigste begrensninger av lavkvalitets pseudo-Grund Truth-er, og gir en forklaring for over-glattingseffekten som møtes av disse 3D-generative rammeverkene.
  2. For å motvirke begrensningene som er påført av SDS-tilnærmingen, introduserer LucidDreamer-rammeverket Interval Score Matching, en ny tilnærming som bruker interval-basert matching og inverserbar diffusjonstrajektorie for å overgå SDS ved å produsere svært realistiske og detaljerte utgangspunkter.
  3. Oppnår state-of-the-art-ytelse ved å integrere ISM-metoden med 3D-Gaussian Splatting for å overgå eksisterende metoder for 3D-innholdsgenerering med lav treningkost.

SDS-begrensninger

Som nevnt tidligere, er SDS en av de mest populære tilnærmingene for tekst-til-3D-genereringmodeller, og den søker moduser for betinget post-prior i den latente rommet til DDPM. SDS-tilnærmingen bruker også en forhånds trenet DDPM for å modellere den betingede posterior, og søker å destillere 3D-representasjonene for betinget posterior som oppnås ved å minimere følgende KL-divergens. Videre bruker SDS-tilnærmingen også den vektete støyende score-matching-objektivet for DDP-trening. Det primære objektivet til SDS-tilnærpingen kan også sees som å matche utsikten til 3D-modellen med pseudo-Grund Truth-estimatet i ett enkelt steg av DDPM. Likevel, har utviklere observert at destilleringprosessen ofte overseer viktige aspekter av DDPM-komponenten, og følgende figur demonstrerer hvordan en forhånds trenet DDPM tenderer til å predikere pseudo-Grund Truth-er med inkonsistente trekk, og produserer lavkvalitets utgangspunkter under destilleringprosessen.

Likevel, oppdateringsretninger under uønskede omstendigheter oppdateres til 3D-representasjonene som ultimate resulterer i over-glattingseffekter. Videre, er det verdt å merke seg at DDPM-komponenten er innsensitive, og trekkene til pseudo-Grund Truth-ene endrer seg betydelig selv med den minste endringen i inndata. Tillegg, tilfeldighet i både kamera-pose og støy-komponenten av inndata kan føre til fluktuasjoner som er uunngåelige under destillering. Optimering av inndata for inkonsistente pseudo-Grund Truth-er resulterer i gjennomsnittlige resultater. Hva mer er at SDS-tilnærpingen oppnår pseudo-Grund Truth-er med en enkelt-stegs-prediksjon for alle tidsintervaller, og tar ikke hensyn til begrensningene til en enkelt-stegs-DDPM-komponent som er ute av stand til å produsere høykvalitets utgangspunkter, noe som indikerer at destillering av 3D-aktiver eller bilder med SDS-komponenten kanskje ikke er den mest ideelle tilnærmingen.

LucidDreamer : Metodologi og virkemåte

LucidDreamer-rammeverket introduserer ISM-tilnærpingen, men det bygger også på erfaringer fra andre rammeverk, inkludert tekst-til-3D-generative modeller, diffusjonsmodeller og differensielle 3D-representasjonsrammeverk. Med det sagt, la oss se nærmere på arkitekturen og metodologien til LucidDreamer-rammeverket.

Interval Score Matching eller ISM

Over-glatting- og lavkvalitets utgangspunktsproblemer som møtes av de fleste tekst-til-3D-generative rammeverk kan tilskrives deres bruk av SDS-tilnærpingen som søker å matche pseudo-Grund Truth-ene med 3D-representasjonene som er inkonsistent og ofte av lav kvalitet. For å motvirke problemene som møtes av SDS, introduserer LucidDreamer-rammeverket ISM eller Interval Score Matching, en ny tilnærping som har to arbeidsfaser. I den første fasen, oppnår ISM-komponenten mer konsistente pseudo-Grund Truth-er under destillering, uavhengig av tilfeldighet i kamera-pose og støy. I den andre fasen, genererer rammeverket pseudo-Grund Truth-er med bedre kvalitet.

En annen betydelig begrensning til SDS er generering av pseudo-Grund Truth-er med en enkelt-stegs-prediksjon for alle tidsintervaller, noe som gjør det vanskelig å garantere høykvalitets pseudo-Grund Truth-er, og det danner grunnlaget for å forbedre den visuelle kvaliteten til pseudo-Grund Truth-ene. På en lignende måte, kan SDS-objektivet sees som å matche utsikten til 3D-modellen med pseudo-Grund Truth-estimatet som estimeres i ett enkelt steg av DDPM, selv om destilleringprosessen overseer en kritisk aspekt av DDPM-komponenten, nemlig at den produserer lavkvalitets pseudo-Grund Truth-er med inkonsistente trekk under destilleringprosessen.

Overordnet sett, lover ISM-komponenten å levere flere fordeler over tidligere metoder brukt i tekst-til-3D-generative modeller. Først, takket være ISM-tilnærpingens evne til å levere høykvalitets pseudo-Grund Truth-er konsistent, er den i stand til å produsere høykvalitets destillering-utgangspunkter med finere strukturer og rikere detaljer, og slik å eliminere behovet for stor skala veiledning, og øke fleksibiliteten for 3D-innholdskreasjon. For det andre, overgangen fra SDS-tilnærpingen til ISM-tilnærpingen har marginale beregningsmessige overhoder, særlig siden ISM-tilnærpingen ikke kompromitterer med den overordnede effektiviteten, selv om den krever ekstra beregningskostnader for DDIM-inversjoner.

Figuren over demonstrerer virkemåten til ISM-tilnærpingen, og gir en oversikt over arkitekturen til LucidDreamer-rammeverket. Rammeverket initialiserer først Gaussian Splatting, dvs. 3D-representasjonene, ved å bruke en forhånds trenet tekst-til-3D-generativ modell ved å bruke en prompt. Det inkorporeres deretter med en forhånds trenet 2D DDPM-komponent for å forstyrre tilfeldige utsikter til støyende ubetingede latente trajektorier ved å bruke DDIM-inversjoner, og deretter oppdaterer med intervallet score. Takket være dens arkitektur, fokuserer kjernen til å optimalisere ISM-komponenten på å oppdatere 3D-representasjonene mot pseudo-Grund Truth-er som er av høy kvalitet og konsistente, men likevel beregningsvennlige. Dette prinsippet er det som tillater ISM å sammenfalle med de grunnleggende objektivet til SDS-tilnærpingen, samtidig som den refinerer den eksisterende metoden.

DDIM-inversjon

LucidDreamer-rammeverket søker å produsere mer konsistente pseudo-Grund Truth-er i samsvar med 3D-representasjonene. Derfor, i stedet for å produsere 3D-representasjoner, bruker LucidDreamer-rammeverket DDIM-inversjonsmetoden for å predikere støyende latente 3D-representasjoner, og predikerer en inverserbar støyende latent trajektorie på en iterativ måte. Videre, er det på grunn av inverserbarheten til DDIM-inversjon at LucidDreamer-rammeverket er i stand til å øke konsistensen til pseudo-Grund Truth-ene betydelig for alle tidsintervaller.

Avansert genereringspipeline

LucidDreamer-rammeverket introduserer også en avansert pipeline i tillegg til ISM for å utforske faktorene som påvirker den visuelle kvaliteten til tekst-til-3D-generering, og introduserer 3D-Gaussian Splatting eller 3DGS som 3D-generering, og 3D-punktsky-genereringsmodeller for initialisering.

3D-Gaussian Splatting

Eksisterende arbeider har indikert at økning av batch-størrelse og rendre-oppløsning for trening forbedrer betydelig den visuelle kvaliteten. Likevel, er de fleste lærbare 3D-representasjoner som brukes for tekst-til-3D-generering tids- og minnekreverende. På den andre siden, gir 3D-Gaussian Splatting-tilnærpingen effektive resultater både i optimalisering og rendre, og tillater den avanserte genereringspipelinen i LucidDreamer-rammeverket å oppnå stor batch-størrelse og høyoppløst rendre, selv når det opererer med begrensede beregningsressurser.

Initialisering

De fleste state-of-the-art tekst-til-3D-generative rammeverk initialiserer sine 3D-representasjoner med begrensede geometrier som sirkel, boks eller sylinder, noe som ofte resulterer i uønskede utgangspunkter for ikke-akse-symmetriske objekter. På den andre siden, da LucidDreamer-rammeverket introduserer 3D-Gaussian Splatting som 3D-representasjoner, kan rammeverket naturlig adoptere flere tekst-til-punkt-generative rammeverk for å generere en grov initialisering med menneskelige inndata. Initialiseringsstrategien booster dermed konvergenshastigheten betydelig.

LucidDreamer : Eksperimenter og resultater

Tekst-til-3D-generering

Figuren over demonstrerer resultater generert av LucidDreamer-modellen med den originale stabil diffusjonsmetoden, mens den følgende figuren diskuterer de genererte resultater på ulike finjusterte kontrollpunkter.

Som det kan ses, er LucidDreamer-rammeverket i stand til å generere høykonsistente 3D-innhold ved å bruke inndata-tekst og semantiske hint. Videre, med bruk av ISM, genererer LucidDreamer-rammeverket intrikate og mer realistiske bilder, og unngår vanlige problemer som over-metning eller over-glatting, samtidig som det excellerer i å generere vanlige objekter, samt støtter kreative skaperverk.

ISM-generell tilnærming

For å evaluere ISM-generell tilnærping, gjennomføres en sammenligning mellom ISM- og SDS-metodene i både eksplisitte og implisitte representasjoner, og resultater demonstreres i følgende bilde.

Kvalitativ sammenligning

For å analysere den kvalitative effekten til LucidDreamer-rammeverket, sammenlignes det med gjeldende state-of-the-art-baselinemodeller, og for å sikre en rettferdig sammenligning, brukes Stable Diffusion 2.1-rammeverket for destillering, og resultater demonstreres i følgende bilde. Som det kan ses, leverer rammeverket høykvalitets- og geometrisk nøyaktige resultater, samtidig som det forbruker færre ressurser og tid.

Videre, for å gi en mer omfattende evaluering, gjennomfører utviklerne også en brukerstudie. Evalueringen velger 28 promter og bruker ulike tekst-til-3D-genereringsmetoder på hver prompt for å generere objekter. Resultatene ble deretter rangert av brukerne basert på graden av sammenfall med inndata-prompten og dens trofasthet.

LucidDreamer : Anvendelser

Takket være sin eksepsjonelle ytelse på en rekke tekst-til-3D-genereringsoppgaver, har LucidDreamer-rammeverket flere potensielle anvendelser, inkludert null-skudd-avatargenerering, personlig tekst-til-3D-generering og null-skudd 2D- og 3D-redigering.

Bildet øverst til venstre demonstrerer LucidDreamer-rammeverkets potensiale i null-skudd 2D- og 3D-redigeringsoppgaver, mens bildene nederst til venstre demonstrerer rammeverkets evne til å generere personlige tekst-til-3D-utgangspunkter med LoRA, mens bildet til høyre viser rammeverkets evne til å generere 3D-avatarer.

Slutt tanker

I denne artikkelen, har vi diskutert LucidDreamer, en ny tilnærping som bruker Interval Score Matching eller ISM-metoden for å overvinne over-glattingproblemet, og diskutert modellens arkitektur og dens ytelse mot state-of-the-art tekst-til-3D-generative rammeverk. Vi har også diskutert hvordan SDS eller Score Distillation Sampling, en vanlig tilnærping implementert i de fleste state-of-the-art tekst-til-3D-generative modeller, ofte resulterer i over-glatting av de genererte bildene, og hvordan LucidDreamer-rammeverket motvirker dette problemet ved å introdusere en ny tilnærping, ISM eller Interval Score Matching-tilnærpingen, for å generere høykvalitets- og mer realistiske 3D-bilder. Resultatene og evalueringen indikerer effekten til LucidDreamer-rammeverket på en rekke 3D-genereringsoppgaver, og hvordan rammeverket allerede performer bedre enn gjeldende state-of-the-art 3D-generative modeller. Den eksepsjonelle ytelsen til rammeverket åpner vei for en rekke praktiske anvendelser, som allerede er diskutert.

En ingeniør av yrke, en forfatter av hjerte. Kunal er en teknisk forfatter med en dyp kjærlighet og forståelse av AI og ML, dedikert til å forenkle komplekse konsepter i disse feltene gjennom sin engasjerende og informerende dokumentasjon.