Vernetzen Sie sich mit uns

Künstliche Intelligenz

Dreamcraft3D: Hierarchische 3D-Generierung mit Bootstrapped Diffusion Prior

mm
Aktualisiert on

Generative KI-Modelle sind seit einiger Zeit ein heißes Diskussionsthema in der KI-Branche. Der jüngste Erfolg generativer 2D-Modelle hat den Weg für die Methoden geebnet, die wir heute zur Erstellung visueller Inhalte verwenden. Obwohl die KI-Community mit generativen 2D-Modellen bemerkenswerte Erfolge erzielt hat, bleibt die Generierung von 3D-Inhalten eine große Herausforderung für tiefe generative KI-Frameworks. Dies gilt insbesondere, da die Nachfrage nach 3D-generierten Inhalten ein Allzeithoch erreicht, angetrieben durch eine breite Palette visueller Spiele, Anwendungen, virtueller Realität und sogar Kino. Es ist erwähnenswert, dass es zwar generative 3D-KI-Frameworks gibt, die für bestimmte Kategorien und Aufgaben akzeptable Ergebnisse liefern, diese jedoch nicht in der Lage sind, 3D-Objekte effizient zu generieren. Dieser Mangel ist auf das Fehlen umfassender 3D-Daten zum Training der Frameworks zurückzuführen. Kürzlich haben Entwickler vorgeschlagen, die Anleitung vorab trainierter generativer Text-zu-Bild-KI-Modelle zu nutzen, ein Ansatz, der vielversprechende Ergebnisse gezeigt hat.

In diesem Artikel besprechen wir das DreamCraft3D-Framework, ein hierarchisches Modell zur Generierung von 3D-Inhalten, das kohärente und hochauflösende 3D-Objekte von hoher Qualität erzeugt. Das DreamCraft3D-Framework verwendet ein 2D-Referenzbild, um die Phase der Geometrieformung zu leiten und die Textur zu verbessern, wobei der Schwerpunkt auf der Behebung von Konsistenzproblemen liegt, die bei aktuellen Frameworks oder Methoden auftreten. Darüber hinaus verwendet das DreamCraft3D-Framework ein ansichtsabhängiges Diffusionsmodell für die Partitur-Destillationsstichprobe, das bei der Formung von Geometrie hilft, die zu einem kohärenten Rendering beiträgt.

Wir werden einen genaueren Blick auf das DreamCraft3D-Framework für die Generierung von 3D-Inhalten werfen. Darüber hinaus werden wir das Konzept der Nutzung vorab trainierter Text-to-Image (T2I)-Modelle für die Generierung von 3D-Inhalten untersuchen und untersuchen, wie das DreamCraft3D-Framework diesen Ansatz nutzen möchte, um realistische 3D-Inhalte zu generieren.

DreamCraft3D: Eine Einführung

DreafCraft3D ist eine hierarchische Pipeline zum Generieren von 3D-Inhalten. Das DreamCraft3D-Framework versucht, ein hochmodernes T2I- oder Text-to-Image-generatives Framework zu nutzen, um mithilfe von a hochwertige 2D-Bilder zu erstellen Textaufforderung. Der Ansatz ermöglicht es dem DreamCraft3D-Framework, die Fähigkeiten modernster 2D-Diffusionsmodelle zur Darstellung der visuellen Semantik, wie in der Textaufforderung beschrieben, zu maximieren und gleichzeitig die kreative Freiheit zu bewahren, die diese generativen 2D-KI-Frameworks bieten. Das erzeugte Bild wird dann mit Hilfe kaskadierter geometrischer Texturverstärkung und geometrischer Bildhauerphasen in 3D angehoben, und die speziellen Techniken werden in jeder Phase mithilfe der Zerlegung des Problems angewendet. 

Bei der Geometrie konzentriert sich das DreamCraft3D-Framework stark auf die globale 3D-Struktur und die Konsistenz mehrerer Ansichten und lässt so Raum für Kompromisse bei den detaillierten Texturen in den Bildern. Sobald das Framework geometriebezogene Probleme beseitigt, verlagert es seinen Fokus auf die Optimierung kohärenter und realistischer Texturen durch die Implementierung einer 3D-bewussten Diffusion, die den 3D-Optimierungsansatz unterstützt. Für die beiden Optimierungsphasen gibt es zwei wichtige Designüberlegungen, nämlich die geometrische Bildhauerei und die Texturverstärkung. 

Alles in allem kann man DreamCraft3D getrost als eins bezeichnen Generatives KI-Framework das eine hierarchische Pipeline zur Generierung von 3D-Inhalten nutzt, um 2D-Bilder im Wesentlichen in ihre 3D-Gegenstücke umzuwandeln und gleichzeitig die ganzheitliche 3D-Konsistenz beizubehalten. 

Nutzung vorab trainierter T2I- oder Text-to-Image-Modelle

Die Idee, vorab trainierte T2I- oder Text-to-Image-Modelle zur Generierung von 3D-Inhalten zu nutzen, wurde erstmals 2022 vom DreamFusion-Framework eingeführt. Das DreamFusion-Framework versuchte, einen SDS- oder Score-Destillation-Sample-Verlust zu erzwingen, um das 3D-Framework so zu optimieren, dass das Renderings aus zufälligen Blickwinkeln würden sich an den textbedingten Bildverteilungen orientieren, wie sie von einem effizienten Text-zu-Bild-Diffusions-Framework interpretiert werden. Obwohl der DreamFusion-Ansatz gute Ergebnisse lieferte, gab es zwei große Probleme: Unschärfe und Übersättigung. Um diese Probleme anzugehen, implementieren neuere Arbeiten verschiedene stufenweise Optimierungsstrategien, um den 2D-Destillationsverlust zu verbessern, was letztendlich zu einer besseren Qualität und realistischeren 3D-erzeugten Bildern führt. 

Trotz des jüngsten Erfolgs dieser Frameworks können sie jedoch nicht mit der Fähigkeit von 2D-generativen Frameworks mithalten, komplexe Inhalte zu synthetisieren. Darüber hinaus sind diese Frameworks häufig mit dem „Janus-Problem“, eine Bedingung, bei der 3D-Renderings die einzeln plausibel erscheinen, weisen in ihrer Gesamtheit stilistische und semantische Inkonsistenzen auf. 

Um die Probleme früherer Arbeiten anzugehen, untersucht das DreamCraft3D-Framework die Möglichkeit der Verwendung einer ganzheitlichen hierarchischen Pipeline zur Generierung von 3D-Inhalten und lässt sich vom manuellen künstlerischen Prozess inspirieren, bei dem ein Konzept zunächst in einen 2D-Entwurf niedergeschrieben wird und anschließend der Künstler Formt die grobe Geometrie, verfeinert die geometrischen Details und malt hochauflösende Texturen. Dem gleichen Ansatz folgend, hat die Das DreamCraft3D-Framework unterteilt die umfangreichen Aufgaben zur Erstellung von 3D-Inhalten oder Bildern in verschiedene überschaubare Schritte. Es beginnt mit der Generierung eines qualitativ hochwertigen 2D-Bildes mithilfe einer Textaufforderung und setzt dann die Verwendung von Texturverstärkung und Geometrieformung fort, um das Bild in die 3D-Stufen zu heben. Die Aufteilung des Prozesses in aufeinanderfolgende Phasen hilft dem DreamCraft2D-Framework, das Potenzial der hierarchischen Generierung zu maximieren, was letztendlich zu einer qualitativ hochwertigen 3D-Bildgenerierung führt. 

In der ersten Phase nutzt das DreamCraft3D-Framework geometrische Bildhauerei, um konsistente und plausible 3D-geometrische Formen zu erzeugen, wobei das 2D-Bild als Referenz dient. Darüber hinaus nutzt die Stufe nicht nur den SDS-Verlust für photometrische Verluste und neue Ansichten in der Referenzansicht, sondern das Framework führt auch eine breite Palette von Strategien zur Förderung der geometrischen Konsistenz ein. Das Framework zielt darauf ab, das Zero-1-to-3, ein aussichtsbedingtes Standard-Bildübersetzungsmodell, zu nutzen, um das Referenzbild zur Modellierung der Verteilung der neuartigen Ansichten zu verwenden. Darüber hinaus geht das Framework auch von der impliziten Oberflächendarstellung zur Netzdarstellung über, um eine grobe bis feine geometrische Verfeinerung zu ermöglichen. 

Die zweite Stufe des DreamCraft3D-Frameworks verwendet einen Bootstrapped-Score-Destillationsansatz, um die Texturen des Bildes zu verbessern, da die aktuellen ansichtsbedingten Diffusionsmodelle auf einer begrenzten Menge an 3D-Daten trainiert werden, weshalb sie oft Schwierigkeiten haben, deren Leistung oder Wiedergabetreue zu erreichen 2D-Diffusionsmodelle. Dank dieser Einschränkung optimiert das DreamCraft3D-Framework das Diffusionsmodell entsprechend den Multi-View-Bildern der 3D-Instanz, die optimiert wird. Dieser Ansatz hilft dem Framework dabei, die 3D-Texturen zu erweitern und gleichzeitig die Multi-View-Konsistenz beizubehalten. Wenn das Diffusionsmodell auf diesen Multi-View-Renderings trainiert, bietet es eine bessere Anleitung für die 3D-Texturoptimierung, und dieser Ansatz hilft dem DreamCraft3D-Framework, eine wahnsinnige Menge an Texturdetails zu erreichen und gleichzeitig die Ansichtskonsistenz beizubehalten. 

Wie in den obigen Bildern zu sehen ist, ist das DreamCraft3D-Framework in der Lage, kreative 3D-Bilder und -Inhalte mit realistischen Texturen und komplizierten geometrischen Strukturen zu erstellen. Auf dem ersten Bild ist der Körper von Son Goku, einer Anime-Figur, gemischt mit dem Kopf eines laufenden Wildschweins zu sehen, während das zweite Bild einen Beagle im Detektivkostüm zeigt. Nachfolgend finden Sie einige weitere Beispiele. 

DreamCraft3D: Arbeiten und Architektur

Das DreamCraft3D-Framework versucht, ein hochmodernes T2I- oder Text-to-Image-generatives Framework zu nutzen, um mithilfe einer Texteingabeaufforderung hochwertige 2D-Bilder zu erstellen. Der Ansatz ermöglicht es dem DreamCraft3D-Framework, die Fähigkeiten modernster 2D-Diffusionsmodelle zur Darstellung der visuellen Semantik, wie in der Textaufforderung beschrieben, zu maximieren und gleichzeitig die kreative Freiheit zu bewahren, die diese generativen 2D-KI-Frameworks bieten. Das erzeugte Bild wird dann mit Hilfe kaskadierter geometrischer Texturverstärkung und geometrischer Bildhauerphasen in 3D angehoben, und die speziellen Techniken werden in jeder Phase mithilfe der Zerlegung des Problems angewendet. Das folgende Bild fasst kurz die Funktionsweise des DreamCraft3D-Frameworks zusammen. 

Werfen wir einen detaillierten Blick auf die wichtigsten Designüberlegungen für die Phasen der Texturverstärkung und der geometrischen Bildhauerei. 

Geometrie-Bildhauerei

Geometry Sculpting ist die erste Phase, in der das DreamCraft3D-Framework versucht, ein 3D-Modell so zu erstellen, dass es mit dem Erscheinungsbild des Referenzbilds in derselben Referenzansicht übereinstimmt und gleichzeitig maximale Plausibilität auch unter verschiedenen Betrachtungswinkeln gewährleistet. Um maximale Plausibilität zu gewährleisten, nutzt das Framework den SDS-Verlust, um eine plausible Bildwiedergabe für jede einzelne abgetastete Ansicht zu fördern, die ein vorab trainiertes Diffusionsmodell erkennen kann. Um die Führung durch das Referenzbild effektiv zu nutzen, bestraft das Framework außerdem fotometrische Unterschiede zwischen dem Referenzbild und den gerenderten Bildern in der Referenzansicht, und der Verlust wird nur innerhalb des Vordergrundbereichs der Ansicht berechnet. Um die Szenensparsamkeit zu fördern, implementiert das Framework außerdem einen Maskenverlust, der die Silhouette rendert. Dennoch bleibt die konsistente Beibehaltung des Erscheinungsbilds und der Semantik über die Rückansichten hinweg immer noch eine Herausforderung, weshalb das Framework zusätzliche Ansätze verwendet, um detaillierte und kohärente Geometrie zu erzeugen. 

3D-bewusste Diffusion Prior

Die 3D-Optimierungsmethoden, die nur die Überwachung pro Ansicht nutzen, sind unzureichend eingeschränkt, was der Hauptgrund dafür ist, dass das DreamCraft3D-Framework Zero-1-to-3, ein ansichtsbedingtes Diffusionsmodell, als Zero-1-to verwendet -3-Framework bietet ein verbessertes Blickwinkelbewusstsein, da es auf einem größeren Maßstab von 3D-Datenbeständen trainiert wurde. Darüber hinaus ist das Zero-1-to-3-Framework ein fein abgestimmtes Diffusionsmodell, das das Bild in Bezug auf die Kameraposition anhand des Referenzbilds halluziniert. 

Progressive View-Schulung

Die direkte Ableitung freier 360-Grad-Ansichten kann zu geometrischen Artefakten oder Unstimmigkeiten wie einem zusätzlichen Bein auf dem Stuhl führen, ein Ereignis, das auf die Mehrdeutigkeit eines einzelnen Referenzbildes zurückzuführen sein könnte. Um diese Hürde zu überwinden, vergrößert das DreamCraft3D-Framework die Trainingsansichten schrittweise, woraufhin die bewährte Geometrie schrittweise weitergegeben wird, um Ergebnisse in 360 Grad zu erzielen. 

Diffusionszeit-Schritt-Glühen

Das DreamCraft3D-Framework verwendet eine Diffusions-Zeitschritt-Annealing-Strategie, um sich an die Grob-zu-Fein-Progression der 3D-Optimierung anzupassen. Zu Beginn des Optimierungsprozesses legt das Framework Wert darauf, einen größeren Diffusionszeitschritt abzutasten, um die globale Struktur bereitzustellen. Während das Framework mit dem Trainingsprozess fortfährt, tempert es den Stichprobenbereich über Hunderte von Iterationen linear. Dank der Annealing-Strategie gelingt es dem Framework, in frühen Optimierungsschritten vor der Verfeinerung der Strukturdetails eine plausible globale Geometrie zu etablieren. 

Detaillierte strukturelle Verbesserung

Das DreamCraft3D-Framework optimiert zunächst eine implizite Oberflächendarstellung, um eine grobe Struktur zu erstellen. Das Framework verwendet dann dieses Ergebnis und koppelt es mit einem verformbaren Tetraedergitter oder DMTet, um eine texturierte 3D-Netzdarstellung zu initialisieren, die das Lernen von Textur und Geometrie entwirrt. Wenn das Framework mit der strukturellen Verbesserung fertig ist, ist das Modell in der Lage, hochfrequente Details zu bewahren, die aus dem Referenzbild erhalten wurden, indem es ausschließlich die Texturen verfeinert. 

Texturverstärkung mithilfe von Bootstrapped Score Sampling

Obwohl in der Geometrie-Bildhauerphase der Schwerpunkt auf dem Erlernen detaillierter und kohärenter Geometrie liegt, verwischt sie die Textur bis zu einem gewissen Grad, was daran liegen könnte, dass das Framework auf einem 2D-Vormodell basiert, das mit einer groben Auflösung arbeitet, zusammen mit der eingeschränkten Schärfe, die das 3D bietet Diffusionsmodell. Darüber hinaus treten häufige Texturprobleme wie Übersättigung und übermäßige Glättung als Folge einer umfassenden, klassifikatorfreien Führung auf. 

Das Framework nutzt einen VSD- oder Variational Score Distillation-Verlust, um den Realismus der Texturen zu erhöhen. Das Framework entscheidet sich in dieser speziellen Phase für ein stabiles Diffusionsmodell, um hochauflösende Gradienten zu erhalten. Darüber hinaus hält das Gerüst das tetraedrische Gitter fest, um eine realistische Darstellung zu ermöglichen und die Gesamtstruktur des Netzes zu optimieren. Während der Lernphase nutzt das DreamCraft3D-Framework nicht das Zero-1-to-3-Framework, da es sich negativ auf die Qualität der Texturen auswirkt und diese inkonsistenten Texturen möglicherweise wiederkehren, was zu bizarren 3D-Ausgaben führt. 

Experimente und Ergebnisse

Um die Leistung des DreamCraft3D-Frameworks zu bewerten, wird es mit aktuellen State-of-the-Art-Frameworks verglichen und die qualitativen und quantitativen Ergebnisse analysiert. 

Vergleich mit Basismodellen

Um die Leistung zu bewerten, wird das DreamCraft3D-Framework mit fünf hochmodernen Frameworks verglichen, darunter DreamFusion, Magic5D, ProlificDreamer, Magic3 und Make-it-123D. Der Test-Benchmark umfasst 3 Eingabebilder, die eine Mischung aus realen Bildern und Bildern sind, die vom Stable Diffusion-Framework generiert wurden. Jedes Bild im Testbenchmark verfügt über eine Textaufforderung, eine vorhergesagte Tiefenkarte und eine Alphamaske für den Vordergrund. Das Framework bezieht die Textaufforderungen für die echten Bilder aus einem Bildunterschriften-Framework. 

Qualitative Analyse

Das folgende Bild vergleicht das DreamCraft3D-Framework mit den aktuellen Basismodellen. Wie man sieht, sind die Frameworks, die auf dem Text-zu-3D-Ansatz basieren, häufig mit Problemen bei der Konsistenz mehrerer Ansichten konfrontiert. 

Einerseits gibt es das ProlificDreamer-Framework, das realistische Texturen bietet, aber bei der Generierung eines plausiblen 3D-Objekts unzureichend ist. Frameworks wie das Make-it-3D-Framework, die auf Image-to-3D-Methoden basieren, schaffen es, qualitativ hochwertige Frontalansichten zu erstellen, sie können jedoch nicht die ideale Geometrie für die Bilder beibehalten. Die vom Magic123-Framework generierten Bilder bieten eine bessere geometrische Regularisierung, erzeugen jedoch übermäßig gesättigte und geglättete geometrische Texturen und Details. Im Vergleich zu diesen Frameworks behält das DreamCraft3D-Framework, das eine Bootstrapped-Score-Destillationsmethode verwendet, nicht nur die semantische Konsistenz bei, sondern verbessert auch die allgemeine Vorstellungsvielfalt. 

Quantitative Analyse

Um überzeugende 3D-Bilder zu generieren, die nicht nur dem eingegebenen Referenzbild ähneln, sondern auch die Semantik aus verschiedenen Perspektiven konsistent vermitteln, werden die vom DreamCraft3D-Framework verwendeten Techniken mit Basismodellen verglichen und der Bewertungsprozess verwendet vier Metriken: PSNR und LPIPS zur Messung der Wiedergabetreue am Referenzblickpunkt, kontextbezogene Distanz zur Beurteilung der Kongruenz auf Pixelebene und CLIP zur Schätzung der semantischen Kohärenz. Die Ergebnisse sind im folgenden Bild dargestellt. 

Zusammenfassung

In diesem Artikel haben wir DreamCraft3D besprochen, eine hierarchische Pipeline zum Generieren von 3D-Inhalten. Das DreamCraft3D-Framework zielt darauf ab, ein hochmodernes generatives Text-to-Image (T2I)-Framework zu nutzen, um mithilfe einer Textaufforderung hochwertige 2D-Bilder zu erstellen. Dieser Ansatz ermöglicht es dem DreamCraft3D-Framework, die Fähigkeiten modernster 2D-Diffusionsmodelle bei der Darstellung der in der Textaufforderung beschriebenen visuellen Semantik zu maximieren und gleichzeitig die kreative Freiheit zu bewahren, die diese generativen 2D-KI-Frameworks bieten. Das erzeugte Bild wird dann durch kaskadierte geometrische Texturverstärkungs- und geometrische Bildhauerphasen in 3D umgewandelt. In jeder Phase werden spezielle Techniken angewendet, die durch die Zerlegung des Problems unterstützt werden. Als Ergebnis dieses Ansatzes kann das DreamCraft3D-Framework hochauflösende und konsistente 3D-Assets mit überzeugenden Texturen erzeugen, die aus mehreren Blickwinkeln betrachtet werden können. 

„Von Beruf Ingenieur, von Herzen Schriftsteller“. Kunal ist ein technischer Autor mit einer tiefen Liebe und einem tiefen Verständnis für KI und ML, der sich der Vereinfachung komplexer Konzepte in diesen Bereichen durch seine ansprechende und informative Dokumentation widmet.