KI-Modelle und Plattformen

DreamCraft3D: Hierarchische 3D-Generierung mit bootstrapped Diffusion Prior

Veröffentlicht am 16. November 2023

Aktualisiert am 22. Mai 2026

Von

Kunal Kejriwal

Generative KI-Modelle sind seit geraumer Zeit ein heißes Thema in der KI-Industrie. Der jüngste Erfolg von 2D-Generationsmodellen hat den Weg für die Methoden geebnet, die wir heute verwenden, um visuellen Inhalt zu erstellen. Obwohl die KI-Gemeinschaft mit 2D-Generationsmodellen bemerkenswerte Erfolge erzielt hat, bleibt die Generierung von 3D-Inhalten eine große Herausforderung für tiefe generative KI-Frameworks. Dies gilt insbesondere, da die Nachfrage nach 3D-generierten Inhalten einen neuen Höchststand erreicht, getrieben von einer Vielzahl von visuellen Spielen, Anwendungen, virtueller Realität und sogar Kino. Es ist erwähnenswert, dass es 3D-Generations-KI-Frameworks gibt, die akzeptable Ergebnisse für bestimmte Kategorien und Aufgaben liefern, aber sie sind nicht in der Lage, 3D-Objekte effizient zu generieren. Dieses Defizit kann auf den Mangel an umfassenden 3D-Daten für die Ausbildung der Frameworks zurückgeführt werden. Kürzlich haben Entwickler vorgeschlagen, die Anleitung von vorgebildeten Text-zu-Bild-KI-Generationsmodellen zu nutzen, ein Ansatz, der vielversprechende Ergebnisse gezeigt hat.

In diesem Artikel werden wir das DreamCraft3D-Framework diskutieren, ein hierarchisches Modell für die Generierung von 3D-Inhalten, das kohärente und hochwertige 3D-Objekte von hoher Qualität produziert. Das DreamCraft3D-Framework verwendet ein 2D-Referenzbild, um die Geometrieskulptur-Phase zu leiten und die Textur mit Fokus auf die Lösung von Konsistenzproblemen zu verbessern, die von aktuellen Frameworks oder Methoden auftraten. Darüber hinaus verwendet das DreamCraft3D-Framework ein view-abhängiges Diffusionsmodell für die Score-Destillationsstichprobe, um die Geometrie zu skulptieren, die zu kohärenter Rendering beiträgt.

Wir werden einen genaueren Blick auf das DreamCraft3D-Framework für die Generierung von 3D-Inhalten werfen. Darüber hinaus werden wir das Konzept der Nutzung vorgebildeter Text-zu-Bild-(T2I)-Modelle für die Generierung von 3D-Inhalten erforschen und untersuchen, wie das DreamCraft3D-Framework diesen Ansatz nutzt, um realistische 3D-Inhalte zu generieren.

DreamCraft3D: Eine Einführung

DreamCraft3D ist eine hierarchische Pipeline für die Generierung von 3D-Inhalten. Das DreamCraft3D-Framework versucht, ein State-of-the-Art-T2I- oder Text-zu-Bild-Generationsframework zu nutzen, um hochwertige 2D-Bilder mit einem Textprompt zu erstellen. Der Ansatz ermöglicht es dem DreamCraft3D-Framework, die Fähigkeiten von State-of-the-Art-2D-Diffusionsmodellen zu maximieren, um die visuellen Semantiken zu repräsentieren, die im Textprompt beschrieben werden, während die kreative Freiheit erhalten bleibt, die von diesen 2D-KI-Generationsframeworks angeboten wird. Das erzeugte Bild wird dann mit Hilfe von kaschierten geometrischen Texturen und geometrischen Skulpturphassen in 3D umgewandelt, und spezielle Techniken werden bei jedem Schritt mit Hilfe der Zerlegung des Problems angewendet.

Für die Geometrie konzentriert sich das DreamCraft3D-Framework stark auf die globale 3D-Struktur und die Multi-View-Konsistenz, wodurch Platz für Kompromisse bei den detaillierten Texturen in den Bildern bleibt. Sobald das Framework die geometrischen Probleme beseitigt hat, konzentriert es sich auf die Optimierung kohärenter und realistischer Texturen durch die Implementierung einer 3D-bewussten Diffusion, die den 3D-Optimierungsansatz bootstrapped. Es gibt zwei wichtige Designaspekte für die beiden Optimierungsphasen, nämlich die geometrische Skulptur und die Texturen-Boosting.

Mit all dem Gesagten kann das DreamCraft3D als ein KI-Generationsframework beschrieben werden, das eine hierarchische 3D-Inhalts-Generierungspipeline nutzt, um im Wesentlichen 2D-Bilder in ihre 3D-Gegenstücke umzuwandeln, während die holistische 3D-Konsistenz erhalten bleibt.

Nutzung vorgebildeter T2I- oder Text-zu-Bild-Modelle

Die Idee, vorgebildete T2I- oder Text-zu-Bild-Modelle für die Generierung von 3D-Inhalten zu nutzen, wurde erstmals vom DreamFusion-Framework im Jahr 2022 vorgestellt. Das DreamFusion-Framework versuchte, eine SDS- oder Score-Destillationsstichproben-Verlustfunktion zu implementieren, um das 3D-Framework so zu optimieren, dass die Renderings bei zufälligen Blickwinkeln mit den textkonditionierten Bildverteilungen übereinstimmen, wie sie von einem effizienten Text-zu-Bild-Diffusionsframework interpretiert werden. Obwohl der DreamFusion-Ansatz anständige Ergebnisse lieferte, gab es zwei große Probleme: Unschärfe und Überättigung. Um diese Probleme zu lösen, implementieren neuere Arbeiten verschiedene schrittweise Optimierungsstrategien, um den 2D-Destillationsverlust zu verbessern, was letztendlich zu besseren Qualität und realistischeren 3D-generierten Bildern führt.

Jedoch können diese Frameworks trotz des jüngsten Erfolgs nicht die Fähigkeit von 2D-Generationsframeworks erreichen, komplexe Inhalte zu synthetisieren. Darüber hinaus sind diese Frameworks oft von dem “Janus-Problem” betroffen, einer Bedingung, bei der 3D-Renderings, die individuell plausibel erscheinen, stilistische und semantische Inkonsistenzen aufweisen, wenn sie als Ganzes betrachtet werden.

Um die Probleme zu lösen, die von vorherigen Arbeiten auftraten, erforscht das DreamCraft3D-Framework die Möglichkeit, eine holistische hierarchische 3D-Inhalts-Generierungspipeline zu nutzen und sucht Inspiration in dem manuellen künstlerischen Prozess, bei dem ein Konzept zunächst in eine 2D-Skizze umgesetzt wird, nach der der Künstler die grobe Geometrie skulptiert, die geometrischen Details verfeinert und hochwertige Texturen malt. Im gleichen Sinne teilt das DreamCraft3D-Framework die umfassenden 3D-Inhalts- oder Bildgenerierungsaufgaben in verschiedene handhabbare Schritte auf.

In der ersten Phase setzt das DreamCraft3D-Framework geometrische Skulptur ein, um konsistente und plausible 3D-geometrische Formen unter Verwendung des 2D-Bildes als Referenz zu produzieren. Darüber hinaus nutzt die Phase nicht nur die SDS-Verlustfunktion für photometrische Verluste und neue Ansichten bei der Referenzansicht, sondern das Framework führt auch eine Vielzahl von Strategien ein, um die geometrische Konsistenz zu fördern. Das Framework zielt darauf ab, das Zero-1-to-3, ein Blickwinkel-konditioniertes Bildübersetzungsmodell, zu nutzen, um die Referenzbildverteilung zu modellieren. Darüber hinaus geht das Framework auch von einer impliziten Oberflächenrepräsentation zu einer Mesh-Repräsentation für die grobe bis feine geometrische Verfeinerung über.

Die zweite Phase des DreamCraft3D-Frameworks nutzt einen bootstrapped Score-Destillationsansatz, um die Texturen des Bildes zu verbessern, da die aktuellen view-konditionierten Diffusionsmodelle auf einer begrenzten Menge an 3D-Daten trainiert werden, was dazu führt, dass sie oft Schwierigkeiten haben, die Leistung oder Fidelität von 2D-Diffusionsmodellen zu erreichen. Dank dieser Einschränkung feinjustiert das DreamCraft3D-Framework das Diffusionsmodell gemäß den Multi-View-Bildern der 3D-Instanz, die optimiert wird, und dieser Ansatz hilft dem Framework, die 3D-Texturen zu verbessern, während die Multi-View-Konsistenz erhalten bleibt. Wenn das Diffusionsmodell auf diesen Multi-View-Renderings trainiert wird, bietet es bessere Anleitung für die 3D-Texturoptimierung, und dieser Ansatz hilft dem DreamCraft3D-Framework, eine enorme Texturdetailierung zu erreichen, während die Blickkonsistenz erhalten bleibt.

Wie in den oben genannten Bildern zu sehen ist, ist das DreamCraft3D-Framework in der Lage, kreative 3D-Bilder und -Inhalte mit realistischen Texturen und intrikaten geometrischen Strukturen zu produzieren. Im ersten Bild ist der Körper von Son Goku, einer Anime-Figur, mit dem Kopf eines wilden Ebers gemischt, während das zweite Bild einen Beagle in der Kleidung eines Detektivs zeigt. Es folgen einige weitere Beispiele.

DreamCraft3D: Funktionsweise und Architektur

Das DreamCraft3D-Framework versucht, ein State-of-the-Art-T2I- oder Text-zu-Bild-Generationsframework zu nutzen, um hochwertige 2D-Bilder mit einem Textprompt zu erstellen. Der Ansatz ermöglicht es dem DreamCraft3D-Framework, die Fähigkeiten von State-of-the-Art-2D-Diffusionsmodellen zu maximieren, um die visuellen Semantiken zu repräsentieren, die im Textprompt beschrieben werden, während die kreative Freiheit erhalten bleibt, die von diesen 2D-KI-Generationsframeworks angeboten wird. Das erzeugte Bild wird dann mit Hilfe von kaschierten geometrischen Texturen und geometrischen Skulpturphassen in 3D umgewandelt, und spezielle Techniken werden bei jedem Schritt mit Hilfe der Zerlegung des Problems angewendet.

Lassen Sie uns einen detaillierteren Blick auf die wichtigsten Designaspekte für die Texturen-Boosting- und geometrische Skulptur-Phasen werfen.

Geometrie-Skulptur

Die geometrische Skulptur ist die erste Phase, in der das DreamCraft3D-Framework versucht, ein 3D-Modell zu erstellen, das mit dem Aussehen des Referenzbildes bei der gleichen Referenzansicht übereinstimmt, während es gleichzeitig die maximale Plausibilität unter verschiedenen Blickwinkeln sicherstellt. Um die maximale Plausibilität zu gewährleisten, nutzt das Framework die SDS-Verlustfunktion, um plausibles Bildrendering für jeden einzelnen beprobten Blickwinkel zu fördern, den ein vorgebildetes Diffusionsmodell erkennen kann. Darüber hinaus wird die photometrische Differenz zwischen dem Referenzbild und den gerenderten Bildern bei der Referenzansicht bestraft, und der Verlust wird nur innerhalb der Vordergrundregion der Ansicht berechnet. Darüber hinaus implementiert das Framework auch einen Maskenverlust, um die Silhouette zu rendern. Trotzdem bleibt die Aufrechterhaltung des Aussehens und der Semantik über Rückansichten hinweg konsistent eine Herausforderung, weshalb das Framework zusätzliche Ansätze einsetzt, um detaillierte und kohärente Geometrie zu produzieren.

3D-bewusste Diffusion Prior

Die 3D-Optimierungsverfahren, die nur die per-View-Supervision verwenden, sind unterbestimmt, was der Hauptgrund ist, warum das DreamCraft3D-Framework das Zero-1-to-3, ein Blickwinkel-konditioniertes Diffusionsmodell, nutzt, da das Zero-1-to-3-Framework eine verbesserte Blickwinkel-Bewusstsein bietet, da es auf einer größeren Menge an 3D-Daten-Assets trainiert wurde. Darüber hinaus ist das Zero-1-to-3-Framework ein feinjustiertes Diffusionsmodell, das das Bild in Bezug auf die Kameraposition gegeben dem Referenzbild halluziniert.

Progressive View-Training

Die direkte Ableitung von freien Ansichten in 360 Grad kann zu geometrischen Artefakten oder Unstimmigkeiten wie einem zusätzlichen Bein auf dem Stuhl führen, ein Ereignis, das der Ambiguität von einem einzelnen Referenzbild zugeschrieben werden kann. Um diese Hürde zu überwinden, erweitert das DreamCraft3D-Framework die Trainingsansichten schrittweise, woraufhin die etablierte Geometrie allmählich propagiert wird, um Ergebnisse in 360 Grad zu erhalten.

Diffusions-Zeitschritt-Annealing

Das DreamCraft3D-Framework nutzt eine Diffusions-Zeitschritt-Annealing-Strategie, um mit dem grob-feinen Fortschritt der 3D-Optimierung übereinzustimmen. Zu Beginn des Optimierungsprozesses gibt das Framework der Stichprobennahme eines größeren Diffusions-Zeitschritts den Vorrang, um die globale Struktur zu liefern. Wenn das Framework mit dem Trainingsprozess fortfährt, annealt es den Stichprobenbereich linear über den Verlauf von Hunderten von Iterationen. Dank der Annealing-Strategie kann das Framework eine plausiblen globale Geometrie während der frühen Optimierungsschritte etablieren, bevor es die strukturellen Details verfeinert.

Detaillierte Struktur-Verbesserung

Das DreamCraft3D-Framework optimiert eine implizite Oberflächenrepräsentation zunächst, um eine grobe Struktur zu etablieren. Das Framework nutzt dann dieses Ergebnis und kombiniert es mit einem deformierbaren Tetraeder-Gitter oder DMTet, um eine texturierte 3D-Mesh-Repräsentation zu initialisieren, die das Lernen von Textur und Geometrie entkoppelt. Wenn das Framework mit der Struktur-Verbesserung fertig ist, kann das Modell die hochfrequenten Details, die aus dem Referenzbild erhalten werden, durch die Verfeinerung der Texturen allein erhalten.

Texturen-Boosting mit bootstrapped Score-Sampling

Obwohl die geometrische Skulptur-Phase die Betonung auf das Lernen von detaillierter und kohärenter Geometrie legt, kann sie die Textur bis zu einem bestimmten Grad unscharf machen, was auf die Abhängigkeit des Frameworks von einem 2D-Prior-Modell zurückzuführen ist, das auf einer groben Auflösung arbeitet, zusammen mit der begrenzten Schärfe, die das 3D-Diffusionsmodell bietet. Darüber hinaus treten häufige Texturprobleme wie Überättigung und Überglättung auf, die auf eine große Klassifizierungs-freie Anleitung zurückzuführen sind.

Das Framework nutzt einen VSD- oder Variational-Score-Destillations-Verlust, um die Realistik der Texturen zu verbessern. Das Framework wählt ein Stable-Diffusionsmodell während dieser Phase, um hochauflösende Gradienten zu erhalten. Darüber hinaus hält das Framework das Tetraeder-Gitter fest, um realistisches Rendering zu fördern und die Gesamtstruktur des Mesh zu optimieren. Während der Lernphase nutzt das DreamCraft3D-Framework nicht das Zero-1-to-3-Framework, da es einen negativen Einfluss auf die Qualität der Texturen hat, und diese inkonsistenten Texturen können wiederkehrend auftreten, was zu seltsamen 3D-Ausgaben führen kann.

Experimente und Ergebnisse

Um die Leistung des DreamCraft3D-Frameworks zu bewerten, wird es mit aktuellen State-of-the-Art-Frameworks verglichen, und die qualitativen und quantitativen Ergebnisse werden analysiert.

Vergleich mit Baseline-Modellen

Um die Leistung zu bewerten, wird das DreamCraft3D-Framework mit 5 State-of-the-Art-Frameworks verglichen, darunter DreamFusion, Magic3D, ProlificDreamer, Magic123 und Make-it-3D. Der Test-Benchmark umfasst 300 Eingabebilder, die eine Mischung aus realen Bildern und Bildern sind, die von dem Stable-Diffusionsframework generiert wurden. Jedes Bild im Test-Benchmark hat einen Textprompt, eine vorhergesagte Tiefenmap und eine Alphamaskierung für den Vordergrund. Das Framework bezieht die Textprompts für die realen Bilder von einem Bildunterschrift-Framework.

Qualitative Analyse

Das folgende Bild vergleicht das DreamCraft3D-Framework mit den aktuellen Baseline-Modellen, und wie zu sehen ist, haben die Frameworks, die auf dem Text-zu-3D-Ansatz basieren, oft Multi-View-Konsistenzprobleme.

Auf der einen Seite haben Sie das ProlificDreamer-Framework, das realistische Texturen bietet, aber bei der Generierung eines plausiblen 3D-Objekts versagt. Frameworks wie das Make-it-3D-Framework, das auf Image-zu-3D-Methoden setzt, können hochwertige Frontalansichten erstellen, aber sie können die ideale Geometrie für die Bilder nicht aufrechterhalten. Die von dem Magic123-Framework generierten Bilder bieten bessere geometrische Regularisierung, aber sie erzeugen übermäßig gesättigte und geglättete geometrische Texturen und Details. Im Vergleich zu diesen Frameworks nutzt das DreamCraft3D-Framework, das einen bootstrapped Score-Destillationsansatz verwendet, nicht nur semantische Konsistenz, sondern verbessert auch die Vorstellungskraft.

Quantitative Analyse

Um ansprechende 3D-Bilder zu generieren, die nicht nur dem Eingabe-Referenzbild ähneln, sondern auch Semantik aus verschiedenen Perspektiven konsistent vermitteln, werden die Techniken, die vom DreamCraft3D-Framework verwendet werden, mit Baseline-Modellen verglichen, und der Bewertungsprozess nutzt vier Metriken: PSNR und LPIPS für die Messung der Fidelität bei der Referenzansicht, Contextual Distance für die Bewertung der Pixel-Übereinstimmung und CLIP, um die semantische Kohärenz zu schätzen. Die Ergebnisse werden im folgenden Bild demonstriert.

Fazit

In diesem Artikel haben wir DreamCraft3D, eine hierarchische Pipeline für die Generierung von 3D-Inhalten, diskutiert. Das DreamCraft3D-Framework zielt darauf ab, ein State-of-the-Art-T2I- oder Text-zu-Bild-Generationsframework zu nutzen, um hochwertige 2D-Bilder mit einem Textprompt zu erstellen. Dieser Ansatz ermöglicht es dem DreamCraft3D-Framework, die Fähigkeiten von State-of-the-Art-2D-Diffusionsmodellen zu maximieren, um die visuellen Semantiken zu repräsentieren, die im Textprompt beschrieben werden, während die kreative Freiheit erhalten bleibt, die von diesen 2D-KI-Generationsframeworks angeboten wird. Das erzeugte Bild wird dann mit Hilfe von kaschierten geometrischen Texturen und geometrischen Skulpturphassen in 3D umgewandelt, und spezielle Techniken werden bei jedem Schritt mit Hilfe der Zerlegung des Problems angewendet. Als Ergebnis dieses Ansatzes kann das DreamCraft3D-Framework hochwertige und konsistente 3D-Assets mit ansprechenden Texturen produzieren, die aus verschiedenen Blickwinkeln betrachtet werden können.