Kunstmatige intelligentie

Dreamcraft3D: Hiërarchische 3D-generatie met bootstrapped diffusieprior

Published November 16, 2023

Updated April 4, 2026

Kunal Kejriwal

Generatieve AI-modellen zijn al een tijdje een hot topic van discussie binnen de AI-industrie. Het recente succes van 2D-generatieve modellen heeft de weg geëffend voor de methoden die we gebruiken om visuele inhoud vandaag te creëren. Hoewel de AI-gemeenschap opmerkelijk succes heeft behaald met 2D-generatieve modellen, blijft het genereren van 3D-inhoud een grote uitdaging voor diepe generatieve AI-kaders. Dit is vooral het geval omdat de vraag naar gegenereerde 3D-inhoud een hoogtepunt bereikt, aangedreven door een breed scala aan visuele games, applicaties, virtual reality en zelfs cinema. Het is de moeite waard om op te merken dat, hoewel er 3D-generatieve AI-kaders zijn die aanvaardbare resultaten leveren voor bepaalde categorieën en taken, ze niet in staat zijn om 3D-objecten efficiënt te genereren. Deze tekortkoming kan worden toegeschreven aan het gebrek aan uitgebreide 3D-gegevens voor het trainen van de kaders. Onlangs hebben ontwikkelaars voorgesteld om de richtlijnen van vooraf getrainde tekst-naar-afbeelding AI-generatieve modellen te gebruiken, een benadering die veelbelovende resultaten heeft laten zien.

In dit artikel zullen we de DreamCraft3D-kader bespreken, een hiërarchisch model voor het genereren van 3D-inhoud dat coherente en hoogwaardige 3D-objecten van hoge kwaliteit produceert. De DreamCraft3D-kader gebruikt een 2D-referentiebeeld om de geometrische beeldvorming te begeleiden, waarbij de textuur wordt verbeterd met een focus op het aanpakken van consistentieproblemen die worden aangetroffen door huidige kaders of methoden. Bovendien gebruikt de DreamCraft3D-kader een view-afhankelijk diffusiemodel voor score-distillatiebemonstering, waardoor de geometrie wordt gesculptureerd die bijdraagt aan coherente rendering.

We zullen een diepgaande blik werpen op de DreamCraft3D-kader voor 3D-inhoudgeneratie. Bovendien zullen we het concept van het gebruik van vooraf getrainde Text-to-Image (T2I)-modellen voor 3D-inhoudgeneratie onderzoeken en bekijken hoe de DreamCraft3D-kader deze benadering probeert te gebruiken om realistische 3D-inhoud te genereren.

DreamCraft3D : Een introductie

DreamCraft3D is een hiërarchische pijplijn voor het genereren van 3D-inhoud. De DreamCraft3D-kader probeert een staat-van-de-kunst T2I of Tekst-naar-Afbeelding generatief kader te gebruiken om hoogwaardige 2D-afbeeldingen te creëren met een tekstprompt. Deze benadering stelt de DreamCraft3D-kader in staat om de mogelijkheden van staat-van-de-kunst 2D-diffusiemodellen te maximaliseren om de visuele semantiek te representeren zoals beschreven in de tekstprompt, terwijl het de creatieve vrijheid behoudt die wordt aangeboden door deze 2D AI-generatieve kaders. De gegenereerde afbeelding wordt vervolgens omgezet in 3D met behulp van gekoppelde geometrische textuurversterking en geometrische beeldvorming, en gespecialiseerde technieken worden toegepast bij elke fase met behulp van het decomponeren van het probleem.

Voor geometrie richt de DreamCraft3D-kader zich sterk op de globale 3D-structuur en multi-view consistentie, waardoor er ruimte is voor compromissen op het gebied van gedetailleerde texturen in de afbeeldingen. Zodra de kader de geometrie-gerelateerde problemen heeft opgelost, verschuift het zijn focus naar het optimaliseren van coherente en realistische texturen door het implementeren van een 3D-bewust diffusie dat de 3D-optimalisatiebenadering bootstrapt. Er zijn twee belangrijke ontwerpparameters voor de twee optimalisatiefases, namelijk de geometrische beeldvorming en de textuurversterking.

Met alles wat is gezegd, zou het veilig zijn om de DreamCraft3D te beschrijven als een AI-generatief kader dat een hiërarchische 3D-inhoudgeneratiepijplijn gebruikt om essentieel 2D-afbeeldingen om te zetten in hun 3D-tegenhangers, terwijl het de holistische 3D-consistentie behoudt.

Gebruik van vooraf getrainde T2I of Tekst-naar-Afbeelding-modellen

Het idee om vooraf getrainde T2I of Tekst-naar-Afbeelding-modellen te gebruiken voor het genereren van 3D-inhoud werd voor het eerst geïntroduceerd door de DreamFusion-kader in 2022. De DreamFusion-kader probeerde om een SDS of Score Distillatie Sample-verlies te gebruiken om het 3D-kader te optimaliseren op een manier die de renderingen bij willekeurige gezichtspunten zou laten samenvallen met de tekst-geconditioneerde afbeeldingsverdelingen zoals geïnterpreteerd door een efficiënte tekst-naar-afbeelding diffusiekader. Hoewel de DreamFusion-benadering aanvaardbare resultaten leverde, waren er twee belangrijke problemen, namelijk vaagheid en oververzadiging. Om deze problemen aan te pakken, implementeren recente werken verschillende fase-wijze optimalisatiestrategieën in een poging om het 2D-distillatieverlies te verbeteren, wat uiteindelijk leidt tot betere kwaliteit en realistische 3D-gegenereerde afbeeldingen.

Hoewel deze kaders ondanks hun recente succes niet in staat zijn om de mogelijkheid van 2D-generatieve kaders te evenaren om complexe inhoud te synthetiseren. Bovendien zijn deze kaders vaak geplaagd door de Janus Issue, een aandoening waarbij 3D-renderingen die afzonderlijk plausibel lijken, stylistische en semantische inconsistenties vertonen wanneer ze als geheel worden onderzocht.

Om de problemen die in eerdere werken zijn aangetroffen aan te pakken, onderzoekt de DreamCraft3D-kader de mogelijkheid om een holistische hiërarchische 3D-inhoudgeneratiepijplijn te gebruiken en zoekt inspiratie in het handmatige artistieke proces waarin een concept eerst wordt opgeschreven in een 2D-ontwerp, waarna de kunstenaar de ruwe geometrie sculpteert, de geometrische details verfijnt en hoogwaardige texturen schildert. Door dezelfde benadering te volgen, deelt de DreamCraft3D-kader de uitgebreide 3D-inhoud- of afbeeldinggeneratietaken op in verschillende beheersbare stappen. Het begint met het genereren van een hoogwaardige 2D-afbeelding met een tekstprompt en gaat verder met het gebruik van textuurversterking en geometrische beeldvorming om de afbeelding naar 3D te tillen. Het opsplitsen van het proces in opeenvolgende stappen helpt de DreamCraft3D-kader om het potentieel van hiërarchische generatie te maximaliseren, wat uiteindelijk resulteert in superieure kwaliteit 3D-afbeeldingengeneratie.

In de eerste fase gebruikt de DreamCraft3D-kader geometrische beeldvorming om consistente en plausibele 3D-geometrische vormen te produceren met behulp van de 2D-afbeelding als referentie. Bovendien maakt de fase niet alleen gebruik van het SDS-verlies voor fotometrische verliezen en nieuwe gezichtspunten bij het referentiegezichtspunt, maar de kader introduceert ook een breed scala aan strategieën om geometrische consistentie te bevorderen. De kader probeert om de Zero-1-to-3, een viewpoint-geconditioneerde off-the-shelf afbeeldingstranslatiemodel, te gebruiken om de referentieafbeelding te gebruiken om de verdeling van de nieuwe gezichtspunten te modelleren. Bovendien gaat de kader over van impliciete oppervlaktevertegenwoordiging naar mesh-vertegenwoordiging voor grof tot fijn geometrische verfijning.

De tweede fase van de DreamCraft3D-kader gebruikt een bootstrapped score-distillatiebenadering om de texturen van de afbeelding te versterken, aangezien de huidige view-geconditioneerde diffusiemodellen zijn getraind op een beperkte hoeveelheid 3D-gegevens, waardoor ze vaak moeite hebben om de prestaties of fideliteit van 2D-diffusiemodellen te evenaren. Dankzij deze beperking, fine-tuned de diffusiemodel in overeenstemming met multi-view-afbeeldingen van de 3D-instantie die wordt geoptimaliseerd, en deze benadering helpt de kader om de 3D-texturen te versterken terwijl multi-view-consistentie wordt behouden. Wanneer de diffusiemodel traint op deze multi-view-renderingen, biedt het betere richtlijnen voor de 3D-textuur-optimalisatie, en deze benadering helpt de DreamCraft3D-kader om een ongelofelijke hoeveelheid textuurdetails te bereiken terwijl view-consistentie wordt behouden.

Zoals te zien is in de bovenstaande afbeeldingen, is de DreamCraft3D-kader in staat om creatieve 3D-afbeeldingen en -inhoud te produceren met realistische texturen en intrigerende geometrische structuren. In de eerste afbeelding is het lichaam van Son Goku, een anime-personage gemengd met het hoofd van een wild zwijn, terwijl de tweede afbeelding een Beagle toont die is gekleed in de outfit van een detective. Hieronder volgen enkele aanvullende voorbeelden.

DreamCraft3D : Werking en architectuur

De DreamCraft3D-kader probeert om een staat-van-de-kunst T2I of Tekst-naar-Afbeelding generatief kader te gebruiken om hoogwaardige 2D-afbeeldingen te creëren met een tekstprompt. Deze benadering stelt de DreamCraft3D-kader in staat om de mogelijkheden van staat-van-de-kunst 2D-diffusiemodellen te maximaliseren om de visuele semantiek te representeren zoals beschreven in de tekstprompt, terwijl het de creatieve vrijheid behoudt die wordt aangeboden door deze 2D AI-generatieve kaders. De gegenereerde afbeelding wordt vervolgens omgezet in 3D met behulp van gekoppelde geometrische textuurversterking en geometrische beeldvorming, en gespecialiseerde technieken worden toegepast bij elke fase met behulp van het decomponeren van het probleem. De volgende afbeelding vat de werking van de DreamCraft3D-kader samen.

Laten we een gedetailleerde blik werpen op de belangrijkste ontwerpparameters voor de textuurversterking en de geometrische beeldvorming.

Geometrische beeldvorming

Geometrische beeldvorming is de eerste fase waarin de DreamCraft3D-kader probeert om een 3D-model te creëren dat overeenkomt met het uiterlijk van de referentieafbeelding bij hetzelfde referentiegezichtspunt, terwijl het maximale plausibiliteit waarborgt, zelfs onder verschillende gezichtspunten. Om maximale plausibiliteit te waarborgen, maakt de kader gebruik van het SDS-verlies om plausibele afbeeldingsrendering te stimuleren voor elk individueel bemonsterd gezichtspunt dat een vooraf getraind diffusiemodel kan herkennen. Bovendien, om de richtlijnen van de referentieafbeelding effectief te gebruiken, penaliseert de kader fotometrische verschillen tussen de referentie en de gegenereerde afbeeldingen bij het referentiegezichtspunt, en het verlies wordt alleen berekend binnen de voorgrondregio van het gezichtspunt. Bovendien, om scène-spariteit te stimuleren, implementeert de kader ook een masker-verlies dat de silhouet rendert. Ondanks dit, blijft het behouden van uiterlijk en semantiek over consistentie bij achtergezichten een uitdaging, waardoor de kader aanvullende benaderingen gebruikt om gedetailleerde en coherente geometrie te produceren.

3D-bewust diffusieprior

De 3D-optimalisatiemethoden die gebruikmaken van per-view-supervisie alleen zijn onderbepaald, waardoor de DreamCraft3D-kader gebruikmaakt van Zero-1-to-3, een view-geconditioneerde diffusiemodel, als de Zero-1-to-3-kader een verbeterde viewpoint-awareness biedt, aangezien het is getraind op een grotere schaal van 3D-gegevensassets. Bovendien is de Zero-1-to-3-kader een fijngestelde diffusiemodel dat de afbeelding hallucineert in relatie met de camera-houding, gegeven de referentieafbeelding.

Progressieve view-training

Het direct afleiden van vrije gezichtspunten in 360 graden kan leiden tot geometrische artefacten of inconsistenties, zoals een extra been op een stoel, een gebeurtenis die kan worden toegeschreven aan de ambiguïteit van een enkele referentieafbeelding. Om deze hindernis te overwinnen, vergroot de DreamCraft3D-kader de trainingsgezichtspunten progressief, waarna de gevestigde geometrie geleidelijk wordt doorgegeven om resultaten in 360 graden te verkrijgen.

Diffusie-tijdstap-afname

De DreamCraft3D-kader gebruikt een diffusie-tijdstap-afnamestrategie in een poging om overeen te komen met de 3D-optimalisatie van grof tot fijn. Aan het begin van het optimalisatieproces, geeft de kader prioriteit aan het bemonsteren van een grotere diffusietijdstap, in een poging om de globale structuur te bieden. Terwijl de kader verdergaat met het trainingsproces, annealt het de bemonsteringsbereik lineair over de loop van honderden iteraties. Dankzij de afnamestrategie, weet de kader om een plausibele globale geometrie te vestigen tijdens de vroege optimalisatiestappen, voordat het de structurele details verfijnt.

Gedetailleerde structurele verbetering

De DreamCraft3D-kader optimaliseert een impliciete oppervlaktevertegenwoordiging aanvankelijk om een grove structuur te vestigen. De kader gebruikt vervolgens dit resultaat en koppelt het aan een deformeerbare tetraëdergrid of DMTet om een getextureerde 3D-mesh-vertegenwoordiging te initialiseren, die het leren van textuur en geometrie ontwart. Wanneer de kader klaar is met de structurele verbetering, kan het model hoogfrequente details behouden die zijn verkregen uit de referentieafbeelding door de texturen alleen te verfijnen.

Textuurversterking met behulp van bootstrapped score-bemonstering

Hoewel de geometrische beeldvormingsfase de nadruk legt op het leren van gedetailleerde en coherente geometrie, kan het de textuur enigszins vertroebelen, wat een gevolg kan zijn van de afhankelijkheid van de kader van een 2D-prior-model dat op een grove resolutie werkt, evenals de beperkte scherpte die wordt aangeboden door het 3D-diffusiemodel. Bovendien treden gemeenschappelijke textuurproblemen op, waaronder oververzadiging en overgladheid, als gevolg van een grote classifier-vrije richtlijn.

De kader gebruikt een VSD of Variational Score Distillatie-verlies om de realiteit van de texturen te verhogen. De kader kiest voor een Stable Diffusie-model tijdens deze fase om hoogresolutiegradiënten te verkrijgen. Bovendien houdt de kader de tetraëdergrid vast om realistische rendering te stimuleren en de algehele structuur van de mesh te optimaliseren. Tijdens de leerafase gebruikt de DreamCraft3D-kader niet de Zero-1-to-3-kader, aangezien dit een negatief effect heeft op de kwaliteit van de texturen, en deze inconsistenties kunnen terugkeren, waardoor bizarre 3D-uitvoer ontstaat.

Experimenten en resultaten

Om de prestaties van de DreamCraft3D-kader te evalueren, wordt het vergeleken met huidige staat-van-de-kunst-kaders, en de kwalitatieve en kwantitatieve resultaten worden geanalyseerd.

Vergelijking met basismodellen

Om de prestaties te evalueren, wordt de DreamCraft3D-kader vergeleken met 5 staat-van-de-kunst-kaders, waaronder DreamFusion, Magic3D, ProlificDreamer, Magic123 en Make-it-3D. De testbenchmark bestaat uit 300 invoerafbeeldingen die een mengsel zijn van echte afbeeldingen en afbeeldingen gegenereerd door de Stable Diffusie-kader. Elke afbeelding in de testbenchmark heeft een tekstprompt, een voorspelde dieptekaart en een alfamasker voor de voorgrond. De kader haalt de tekstprompts voor de echte afbeeldingen uit een afbeeldingstitelkader.

Kwalitatieve analyse

De volgende afbeelding vergelijkt de DreamCraft3D-kader met de huidige basismodellen, en zoals te zien is, hebben de kaders die afhankelijk zijn van de tekst-naar-3D-benadering, vaak te maken met multi-view-consistentieproblemen.

Aan de ene kant hebt u de ProlificDreamer-kader die realistische texturen biedt, maar het ontbreekt aan het genereren van een plausibele 3D-object. Kaders zoals de Make-it-3D-kader die afhankelijk zijn van Image-naar-3D-methoden, kunnen hoogwaardige frontale gezichtspunten creëren, maar ze kunnen de ideale geometrie voor de afbeeldingen niet behouden. De afbeeldingen gegenereerd door de Magic123-kader bieden betere geometrische regularisatie, maar ze genereren oververzadigde en gladde geometrische texturen en details. In vergelijking met deze kaders, biedt de DreamCraft3D-kader die gebruikmaakt van een bootstrapped score-distillatiebenadering, niet alleen semantische consistentie, maar verbetert het ook de algehele verbeeldingsdiversiteit.

Kwantitatieve analyse

In een poging om overtuigende 3D-afbeeldingen te genereren die niet alleen lijken op de invoerreferentieafbeelding, maar ook semantiek vanuit verschillende gezichtspunten consistent overbrengen, worden de technieken die worden gebruikt door de DreamCraft3D-kader vergeleken met basismodellen, en de evaluatieproces maakt gebruik van vier metrics: PSNR en LPIPS voor het meten van fideliteit bij het referentiegezichtspunt, Contextuele Afstand voor het beoordelen van pixelniveau-overeenstemming, en CLIP om semantische coherentie te schatten. De resultaten worden weergegeven in de volgende afbeelding.

Conclusie

In dit artikel hebben we de DreamCraft3D-kader besproken, een hiërarchische pijplijn voor het genereren van 3D-inhoud. De DreamCraft3D-kader probeert om een staat-van-de-kunst T2I of Tekst-naar-Afbeelding generatief kader te gebruiken om hoogwaardige 2D-afbeeldingen te creëren met een tekstprompt. Deze benadering stelt de DreamCraft3D-kader in staat om de mogelijkheden van staat-van-de-kunst 2D-diffusiemodellen te maximaliseren om de visuele semantiek te representeren zoals beschreven in de tekstprompt, terwijl het de creatieve vrijheid behoudt die wordt aangeboden door deze 2D AI-generatieve kaders. De gegenereerde afbeelding wordt vervolgens omgezet in 3D met behulp van gekoppelde geometrische textuurversterking en geometrische beeldvorming, en gespecialiseerde technieken worden toegepast bij elke fase met behulp van het decomponeren van het probleem. Als resultaat van deze benadering kan de DreamCraft3D-kader hoogwaardige en consistente 3D-assets produceren met overtuigende texturen, die vanuit meerdere gezichtspunten kunnen worden bekeken.

Unite.AI