Connect with us

LucidDreamer: High-Fidelity Text-to-3D Generation via Interval Score Matching

Kunstig intelligens

LucidDreamer: High-Fidelity Text-to-3D Generation via Interval Score Matching

mm

De seneste fremskridt i tekst-til-3D-genereringsrammer har markeret en betydelig milepæl i generative modeller. De baner vejen for nye muligheder for at oprette 3D-aktiver på tværs af mange virkelige scenarier. Digitale 3D-aktiver har nu en uundværlig plads i vores digitale tilstedeværelse, hvilket muliggør en omfattende visualisering og interaktion med komplekse miljøer og objekter, der spejler vores virkelige erfaringer. Disse 3D-genereringsrammer anvendes i forskellige domæner, herunder animation, arkitektur, gaming, forstærket og virtuel virkelighed og meget mere. De anvendes også omfattende i online-konferencer, detailhandel, uddannelse og marketing.

Men selvom disse fremskridt i tekst-til-3D-genereringsrammer har store løfter, kommer den omfattende brug af 3D-teknologier med en stor udfordring. Generering af højkvalitets 3D-billeder og medieindhold kræver stadig betydelig tid, indsats, ressourcer og dygtig ekspertise. Selv med disse krav opfyldt, kan tekst-til-3D-generering ofte ikke rendre detaljerede og højkvalitets 3D-modeller. Dette problem med rendering og lavkvalitets 3D-generering er mere udbredt i rammer, der anvender Score Distillation Sampling (SDS)-metoden. Denne artikel vil diskutere de bemærkelsesværdige mangler, der er observeret i modeller, der anvender SDS-metoden, som introducerer inkonsistenser og lavkvalitetsopdateringsretninger, hvilket resulterer i en overglatteringsvirkning på den genererede output. Vi vil også introducere LucidDreamer-rammen, en ny tilgang, der anvender Interval Score Matching (ISM)-metoden til at overvinde overglatteringsproblemet. Vi vil udforske modellens arkitektur og dens præstation i forhold til state-of-the-art tekst-til-3D-genereringsrammer. Så lad os komme i gang.

LucidDreamer3D: En introduktion til 3D-generering med Interval Score Matching

En stor grund til, at 3D-genereringsmodeller har været emnet for den generative AI-industri, er på grund af deres vidt forgrenede anvendelser på tværs af forskellige domæner og industrier, samt deres evne til at producere 3D-indhold i realtid. Takket være deres vidt forgrenede praktiske anvendelser har udviklere foreslået talrige 3D-indholdsgenereringsmetoder, hvoraf tekst-til-3D-genereringsrammer står ud fra resten på grund af deres evne til at bruge intet andet end tekstbeskrivelser til at generere imaginative 3D-modeller. Tekst-til-3D-genereringsrammer opnår dette ved at bruge en forudtrænet tekst-til-billeddiffusionsmodel til at supervisere træningen af en neuralparametreret 3D-model, hvilket muliggør rendering af 3D-billeder, der er konsekvent med teksten. Denne evne til at rendre konsekvente 3D-billeder er baseret på brugen af Score Distillation Sampling fundamentalt, og tillader SDS at fungere som den centrale mekanisme til at bringe 2D-resultater fra diffusionsmodeller til deres 3D-modsatte, hvilket muliggør træning af 3D-modeller uden brug af træningsbilleder. Selvom de er effektive, lider 3D-genereringsrammer, der anvender SDS-metoden, ofte under forvrængning og overglatteringsproblemer, der hindrer de praktiske implementeringer af højkvalitets 3D-generering.

For at tackle overglatteringsproblemerne implementerer LucidDreamer-rammen en ISM eller Interval Score Matching-tilgang, en ny tilgang, der anvender to effektive mekanismer. Først anvender ISM-tilgangen DDIM-inversionsmetoden til at mildne den gennemsnitsvirkning, der skyldes pseudo-grundsandens inkonsistenser ved at producere en inversibel diffusionsbane. Anden, i stedet for at matche billederne, der renderes af 3D-modellen med pseudo-grundsandene, matcher ISM-metoden dem mellem to intervaltrin i diffusionsbanen, hvilket hjælper med at undgå høj rekonstruktionsfejl ved at undgå enkelttrinsrekonstruktion. Anvendelsen af ISM over SDS resulterer i konsekvent høj præstation med højrealistiske og detaljerede output.

Samlet set har LucidDreamer-rammen til formål at bidrage til følgende i 3D-genererings-AI

  1. Tilbyder en dybdegående analyse af SDS, det grundlæggende begreb i tekst-til-3D-genereringsrammer, og identificerer dets nøglebegrænsninger af lavkvalitets pseudo-grundsand og forklarer overglatteringsvirkningen, der mødes af disse 3D-genereringsrammer.
  2. For at modvirke begrænsningerne, der er påført af SDS-tilgangen, introducerer LucidDreamer-rammen Interval Score Matching, en ny tilgang, der anvender intervalbaseret matching og inversibel diffusionsbaner til at overgå SDS ved at producere højrealistiske og detaljerede output.
  3. Opnår state-of-the-art-præstation ved at integrere ISM-metoden med 3D-Gaussian Splatting til at overgå eksisterende metoder til 3D-indholdsgenerering med lave træningsomkostninger.

SDS-begrænsninger

Som nævnt tidligere er SDS en af de mest populære tilgange til tekst-til-3D-genereringsmodeller, og den søger modus for betinget post prior i den latente rum af DDPM. SDS-tilgangen anvender også en forudtrænet DDPM til at modellere den betingede posterior, og sigter mod at destillere 3D-repræsentationer for betinget posterior, der opnås ved at minimere følgende KL-divergens. Desuden anvender SDS-tilgangen også den vægtede støjreduktions-score-matching-objektiv til DDP-træning. Det primære formål med SDS-tilgangen kan også ses som at matche visningen af 3D-modellen med pseudo-grundsandene, der estimeres i ét trin af DDPM. Men udviklere har observeret, at destillationsprocessen ofte overseer nøgleaspekter af DDPM, og følgende figur demonstrerer, hvordan en forudtrænet DDPM tenderer til at forudsige pseudo-grundsand med inkonsistente træk, og producerer lavkvalitetsoutput under destillationsprocessen.

Men opdateringsretninger under uønskede omstændigheder opdateres til 3D-repræsentationer, der ultimativt resulterer i overglattede resultater. Desuden er det værd at bemærke, at DDPM-komponenten er inputfølsom, og trækkene af pseudo-grundsandene ændrer sig betydeligt, selv med den mindste ændring i input. Tilfældighed i både kamerastilling og støjkomponenten af input kan tilføje til fluktuationer, der er uundgåelige under destillation. Optimering af input for inkonsistente pseudo-grundsand resulterer i gennemsnitsresultater. Hvad mere er, SDS-tilgangen opnår pseudo-grundsand med enkelttrinsforudsigelse for alle tidsintervaller og tager ikke hensyn til begrænsningerne af en enkelttrins-DDPM-komponent, der ikke kan producere højkvalitetsoutput, hvilket indikerer, at destillation af 3D-aktiver eller billeder med SDS-komponenten måske ikke er den mest ideelle tilgang.

LucidDreamer: Metodik og arbejdsprincip

LucidDreamer-rammen introducerer ISM-tilgangen, men den bygger også på erfaringer fra andre rammer, herunder tekst-til-3D-genereringsmodeller, diffusionsmodeller og differentiable 3D-repræsentationsrammer. Med det sagt, lad os have en dybdegående kig på arkitekturen og metodikken af LucidDreamer-rammen.

Interval Score Matching eller ISM

Overglatterings- og lavkvalitetsoutputproblemerne, der mødes af de fleste tekst-til-3D-genereringsrammer, kan tilskrives deres brug af SDS-tilgangen, der sigter mod at matche pseudo-grundsandene med 3D-repræsentationerne, der er inkonsistent og ofte af lav kvalitet. For at modvirke problemerne, der mødes af SDS, introducerer LucidDreamer-rammen ISM eller Interval Score Matching, en ny tilgang, der har to arbejdsfaser. I den første fase opnår ISM-komponenten mere konsekvente pseudo-grundsand under destillation, uanset tilfældigheden i kamerastilling og støj. I den anden fase genererer rammen pseudo-grundsand med bedre kvalitet.

En anden stor begrænsning af SDS er generering af pseudo-grundsand med enkelttrinsforudsigelse for alle tidsintervaller, hvilket gør det vanskeligt at garantere højkvalitets pseudo-grundsand, og det danner grundlag for at forbedre den visuelle kvalitet af pseudo-grundsandene. På samme måde kan SDS-objektivet ses som at matche visningen af 3D-modellen med pseudo-grundsandene, der estimeres i ét trin af DDPM, selvom destillationsprocessen overseer en kritisk aspekt af DDPM-komponenten, nemlig at den producerer lavkvalitets pseudo-grundsand med inkonsistente træk under destillationsprocessen.

Samlet set lover ISM-komponenten at levere flere fordele over tidligere metoder, der er anvendt i tekst-til-3D-genereringsmodeller. Først og fremmest takket være ISM’s evne til at levere højkvalitets pseudo-grundsand konsekvent, er den i stand til at producere højfidelitetsdestillationsoutput med finere strukturer og rigere detaljer, hvilket eliminerer behovet for stor skala vejledning og forbedrer fleksibiliteten for 3D-indholdsskabelse. Anden, overgangen fra SDS-tilgangen til ISM-tilgangen har marginalt beregningsmæssigt overhead, især da ISM-tilgangen ikke kompromitterer med den samlede effektivitet, selvom den kræver ekstra beregningsomkostninger for DDIM-inversioner.

Figuren ovenfor demonstrerer arbejdsprincippet i ISM-tilgangen og giver en oversigt over arkitekturen af LucidDreamer-rammen. Rammen initialiserer først Gaussian Splatting, dvs. 3D-repræsentationerne, ved hjælp af en forudtrænet tekst-til-3D-genereringsmodel ved hjælp af en prompt. Den inkorporerer derefter en forudtrænet 2D-DDPM-komponent til at forstyrre tilfældige visninger til støjende ubetingede latente baner ved hjælp af DDIM-inversioner og derefter opdaterer med intervalscoret. Takket være dens arkitektur fokuserer kerneoptimeringen af ISM-komponenten på at opdatere 3D-repræsentationerne mod pseudo-grundsand, der er af høj kvalitet og træk-konsistente, men beregningsvenlige. Dette princip er, hvad der tillader ISM at være i overensstemmelse med de grundlæggende mål for SDS-tilgangen, mens den forbedrer den eksisterende metode.

DDIM-inversion

LucidDreamer-rammen sigter mod at producere mere konsekvente pseudo-grundsand i overensstemmelse med 3D-repræsentationerne. Derfor, i stedet for at producere 3D-repræsentationer, anvender LucidDreamer-rammen DDIM-inversionsmetoden til at forudsige støjlatente 3D-repræsentationer og forudsiger en inversibel støjlatent bane i en iterativ måde. Desuden er det på grund af den inverse egenskab af DDIM-inversion, at LucidDreamer-rammen kan øge konsistensen af pseudo-grundsand betydeligt for alle tidsintervaller.

Avanceret genereringspipeline

LucidDreamer-rammen introducerer også en avanceret pipeline til at udforske faktorerne, der påvirker den visuelle kvalitet af tekst-til-3D-generering, og introducerer 3D-Gaussian Splatting eller 3DGS som dens 3D-genererings- og 3D-punktskygenereringsmodeller til initialisering.

3D-Gaussian Splatting

Eksisterende arbejder har vist, at øgning af batchstørrelsen og renderingsopløsningen under træning forbedrer den visuelle kvalitet betydeligt. Men de fleste lærelige 3D-repræsentationer, der er anvendt til tekst-til-3D-generering, er tids- og memorykrævende. På den anden side giver 3D-Gaussian Splatting-metoden effektive resultater i både optimering og rendering, hvilket tillader den avancerede genereringspipeline i LucidDreamer-rammen at opnå stor batchstørrelse samt højopløsningsrendering, selv når den kører med begrænsede beregningsressourcer.

Initialisering

De fleste state-of-the-art tekst-til-3D-genereringsrammer initialiserer deres 3D-repræsentationer med begrænsede geometrier som cirkler, kasser eller cylindere, hvilket ofte resulterer i uønskede output på ikke-aksiale symmetriske objekter. På den anden side kan LucidDreamer-rammen, da den introducerer 3D-Gaussian Splatting som 3D-repræsentationer, naturligt adoptere flere tekst-til-punkts-genereringsrammer til at generere en grov initialisering med menneskelige input. Initialiseringsstrategien booster samlet set konvergenshastigheden betydeligt.

LucidDreamer: Eksperimenter og resultater

Tekst-til-3D-generering

Figuren ovenfor demonstrerer resultaterne, der er genereret af LucidDreamer-modellen med den originale stabil diffusionsmetode, mens den følgende figur diskuterer de genererede resultater på forskellige finjusterede checkpoints.

Som det kan ses, er LucidDreamer-rammen i stand til at generere højkonsekvent 3D-indhold ved hjælp af inputtekst og semantiske hints. Desuden, med brug af ISM, genererer LucidDreamer-rammen intrikate og mere realistiske billeder, mens den undgår almindelige problemer som overmættethed eller overglatteringsproblemer, mens den excellerer i generering af almindelige objekter samt støtter kreative skabelser.

ISM-generelisering

For at evaluere ISM-genereliseringen udføres en sammenligning mellem ISM- og SDS-metoderne i både eksplisitte og implicitte repræsentationer, og resultaterne demonstreres i følgende figur.

Kvalitativ sammenligning

For at analysere den kvalitative effektivitet af LucidDreamer-rammen sammenlignes den med aktuelle SoTA-baselinemodeller, og for at sikre en fair sammenligning anvendes Stable Diffusion 2.1-rammen til destillation, og resultaterne demonstreres i følgende figur. Som det kan ses, leverer rammen højfidelitets- og geometrisk præcise resultater, mens den forbruger færre ressourcer og tid.

Desuden, for at give en mere omfattende evaluering, udfører udviklerne også en brugerundersøgelse. Evalueringen vælger 28 prompts og anvender forskellige tekst-til-3D-genereringsmetoder på hver prompt til at generere objekter. Resultaterne blev derefter rangeret af brugerne på basis af graden af overensstemmelse med inputprompten og dens fidelitet.

LucidDreamer: Anvendelser

Takket være dens exceptionelle præstation på en bred vifte af tekst-til-3D-genereringstasks har LucidDreamer-rammen flere potentielle anvendelser, herunder zero-shot avatar-generering, personlig tekst-til-3D-generering og zero-shot 2D- og 3D-redigering.

Figuren øverst til venstre demonstrerer LucidDreamer-rammens potentiale i zero-shot 2D- og 3D-redigeringstasks, mens billederne nederst til venstre demonstrerer rammens evne til at generere personlige tekst-til-3D-output med LoRA, mens billedet til højre viser rammens evne til at generere 3D-avatare.

Endelige tanker

I denne artikel har vi talt om LucidDreamer, en ny tilgang, der anvender Interval Score Matching-metoden til at overvinde overglatteringsproblemet, og diskuteret modellens arkitektur og dens præstation i forhold til state-of-the-art tekst-til-3D-genereringsrammer. Vi har også talt om, hvordan SDS eller Score Distillation Sampling, en almindelig tilgang, der er implementeret i de fleste state-of-the-art tekst-til-3D-genereringsmodeller, ofte resulterer i overglatteringsproblemer, og hvordan LucidDreamer-rammen modvirker dette problem ved at introducere en ny tilgang, Interval Score Matching-tilgangen, til at generere højfidelitets- og mere realistiske 3D-billeder. Resultaterne og evalueringen indikerer effektiviteten af LucidDreamer-rammen på en bred vifte af 3D-genereringstasks, og hvordan rammen allerede performer bedre end aktuelle state-of-the-art 3D-genereringsmodeller. Den exceptionelle præstation af rammen åbner op for en bred vifte af praktiske anvendelser, som allerede er diskuteret.

En ingeniør af profession, en forfatter af hjerte. Kunal er en teknisk forfatter med en dyb kærlighed og forståelse af AI og ML, dedikeret til at forenkle komplekse koncepter inden for disse felter gennem sin engagerende og informative dokumentation.