Connect with us

Künstliche Intelligenz

Dreamcraft3D: Hierarchische 3D-Generierung mit bootstrapped Diffusion Prior

mm

Generative KI-Modelle sind seit geraumer Zeit ein heißes Thema in der KI-Industrie. Der jüngste Erfolg von 2D-Generationsmodellen hat den Weg für die Methoden geebnet, die wir heute verwenden, um visuelle Inhalte zu erstellen. Obwohl die KI-Gemeinschaft bemerkenswerte Erfolge mit 2D-Generationsmodellen erzielt hat, bleibt die Generierung von 3D-Inhalten eine große Herausforderung für tiefere generative KI-Rahmenwerke. Dies gilt insbesondere, da die Nachfrage nach 3D-generierten Inhalten einen neuen Höchststand erreicht, getrieben von einer breiten Palette von visuellen Spielen, Anwendungen, virtueller Realität und sogar Kino. Es ist erwähnenswert, dass es zwar 3D-Generations-KI-Rahmenwerke gibt, die akzeptable Ergebnisse für bestimmte Kategorien und Aufgaben liefern, sie jedoch nicht in der Lage sind, 3D-Objekte effizient zu generieren. Dieser Mangel kann auf den Mangel an umfangreichen 3D-Daten für die Ausbildung der Rahmenwerke zurückgeführt werden. Kürzlich haben Entwickler vorgeschlagen, die Anleitung von vorgebildeten Text-Bild-KI-Generationsmodellen zu nutzen, ein Ansatz, der vielversprechende Ergebnisse gezeigt hat.

In diesem Artikel werden wir das DreamCraft3D-Rahmenwerk diskutieren, ein hierarchisches Modell für die Generierung von 3D-Inhalten, das kohärente und hochwertige 3D-Objekte von hoher Qualität erzeugt. Das DreamCraft3D-Rahmenwerk verwendet ein 2D-Referenzbild, um die Geometrieskulptur-Phase zu leiten, wobei die Textur mit Fokus auf die Lösung von Konsistenzproblemen, die von aktuellen Rahmenwerken oder Methoden auftraten, verbessert wird. Darüber hinaus verwendet das DreamCraft3D-Rahmenwerk ein view-abhängiges Diffusionsmodell für die Score-Destillationsstichprobe, um die Skulptur der Geometrie zu unterstützen, die zu kohärenter Rendering beiträgt.

Wir werden einen genaueren Blick auf das DreamCraft3D-Rahmenwerk für die 3D-Inhaltsgenerierung werfen. Darüber hinaus werden wir das Konzept der Nutzung vorgebildeter Text-Bild- (T2I-) Modelle für die 3D-Inhaltsgenerierung erforschen und untersuchen, wie das DreamCraft3D-Rahmenwerk diesen Ansatz nutzen möchte, um realistische 3D-Inhalte zu generieren.

DreamCraft3D: Eine Einführung

DreamCraft3D ist eine hierarchische Pipeline für die Generierung von 3D-Inhalten. Das DreamCraft3D-Rahmenwerk versucht, ein State-of-the-Art-T2I- oder Text-Bild-Generationsrahmenwerk zu nutzen, um hochwertige 2D-Bilder mit einem Textprompt zu erstellen. Der Ansatz ermöglicht es dem DreamCraft3D-Rahmenwerk, die Fähigkeiten von State-of-the-Art-2D-Diffusionsmodellen zu maximieren, um die visuellen Semantiken, wie im Textprompt beschrieben, darzustellen, während die kreative Freiheit, die von diesen 2D-KI-Generationsrahmenwerken angeboten wird, erhalten bleibt. Das erzeugte Bild wird dann mit Hilfe von kaschierten geometrischen Textur-Boosting- und geometrischen Skulptur-Phasen in 3D gehoben, und spezielle Techniken werden in jeder Phase mit Hilfe der Zerlegung des Problems angewendet.

Für die Geometrie konzentriert sich das DreamCraft3D-Rahmenwerk stark auf die globale 3D-Struktur und die Multi-View-Konsistenz, wodurch Platz für Kompromisse bei den detaillierten Texturen in den Bildern geschaffen wird. Sobald das Rahmenwerk die geometrischen Probleme beseitigt hat, konzentriert es sich auf die Optimierung kohärenter und realistischer Texturen durch die Implementierung einer 3D-bewussten Diffusion, die den 3D-Optimierungsansatz bootstrapped. Es gibt zwei wichtige Designaspekte für die beiden Optimierungsphasen, nämlich die geometrische Skulptur und die Textur-Boosting.

Mit all dem Gesagten lässt sich das DreamCraft3D als ein KI-Generationsrahmenwerk beschreiben, das eine hierarchische 3D-Inhalts-Generierungspipeline nutzt, um im Wesentlichen 2D-Bilder in ihre 3D-Gegenstücke umzuwandeln, während die holistische 3D-Konsistenz erhalten bleibt.

Nutzung vorgebildeter T2I- oder Text-Bild-Modelle

Die Idee, vorgebildete T2I- oder Text-Bild-Modelle für die Generierung von 3D-Inhalten zu nutzen, wurde erstmals 2022 vom DreamFusion-Rahmenwerk vorgeschlagen. Das DreamFusion-Rahmenwerk versuchte, eine SDS- oder Score-Destillationsstichproben-Verlustfunktion zu erzwingen, um das 3D-Rahmenwerk so zu optimieren, dass die Renderings bei zufälligen Blickwinkeln mit den textkonditionierten Bildverteilungen übereinstimmen, wie sie von einem effizienten Text-Bild-Diffusionsmodell interpretiert werden. Obwohl der DreamFusion-Ansatz annehmbare Ergebnisse lieferte, gab es zwei große Probleme: Unschärfe und Überättigung. Um diese Probleme zu bekämpfen, implementieren aktuelle Arbeiten verschiedene schrittweise Optimierungsstrategien, um den 2D-Destillationsverlust zu verbessern, was letztendlich zu besserer Qualität und realistischeren 3D-erzeugten Bildern führt.

Trotz des jüngsten Erfolgs dieser Rahmenwerke sind sie nicht in der Lage, die Fähigkeit von 2D-Generationsrahmenwerken zu synthetisieren, komplexe Inhalte zu erzeugen. Darüber hinaus sind diese Rahmenwerke oft von dem “Janus-Problem” betroffen, einem Zustand, bei dem 3D-Renderings, die individuell plausibel erscheinen, stilistische und semantische Inkonsistenzen aufweisen, wenn sie als Ganzes betrachtet werden.

Um die Probleme, die von vorherigen Arbeiten auftraten, zu bekämpfen, erforscht das DreamCraft3D-Rahmenwerk die Möglichkeit, eine holistische hierarchische 3D-Inhalts-Generierungspipeline zu nutzen und sucht Inspiration in dem manuellen künstlerischen Prozess, bei dem ein Konzept zunächst in eine 2D-Skizze gebracht wird, nach der der Künstler die grobe Geometrie skulptiert, die geometrischen Details verfeinert und hochwertige Texturen malt. Indem das DreamCraft3D-Rahmenwerk dem gleichen Ansatz folgt, zerlegt es die umfangreichen 3D-Inhalts- oder Bildgenerierungsaufgaben in verschiedene handhabbare Schritte. Es beginnt damit, ein hochwertiges 2D-Bild mit einem Textprompt zu erstellen, und geht dann dazu über, Textur-Boosting und geometrische Skulptur zu nutzen, um das Bild in die 3D-Phasen zu heben. Die Aufteilung des Prozesses in nachfolgende Schritte ermöglicht es dem DreamCraft3D-Rahmenwerk, das Potenzial der hierarchischen Generierung zu maximieren, was letztendlich zu einer überlegenen Qualität der 3D-Bildgenerierung führt.

In der ersten Phase setzt das DreamCraft3D-Rahmenwerk geometrische Skulptur ein, um konsistente und plausiblere 3D-geometrische Formen unter Verwendung des 2D-Bildes als Referenz zu erzeugen. Darüber hinaus nutzt die Phase nicht nur die SDS-Verlustfunktion für photometrische Verluste und neue Ansichten bei der Referenzansicht, sondern das Rahmenwerk führt auch eine Vielzahl von Strategien ein, um die geometrische Konsistenz zu fördern. Das Rahmenwerk zielt darauf ab, das Zero-1-to-3, ein aus Sichtwinkel bedingtes Bildübersetzungsmodell, zu nutzen, um die Referenzbildverteilung zu modellieren. Darüber hinaus geht das Rahmenwerk von der impliziten Oberflächenrepräsentation zu einer Mesh-Repräsentation für die grobe bis feine geometrische Verfeinerung über.

Die zweite Phase des DreamCraft3D-Rahmenwerks nutzt einen bootstrapped Score-Destillationsansatz, um die Texturen des Bildes zu verbessern, da die aktuellen view-konditionierten Diffusionsmodelle auf einer begrenzten Menge an 3D-Daten trainiert werden, was dazu führt, dass sie oft Schwierigkeiten haben, die Leistung oder Fidelität von 2D-Diffusionsmodellen zu erreichen. Dank dieser Einschränkung feinjustiert das DreamCraft3D-Rahmenwerk das Diffusionsmodell entsprechend den Multi-View-Bildern der 3D-Instanz, die optimiert wird, und dieser Ansatz hilft dem Rahmenwerk, die 3D-Texturen zu verbessern, während die Multi-View-Konsistenz erhalten bleibt. Wenn das Diffusionsmodell auf diesen Multi-View-Renderings trainiert wird, bietet es bessere Anleitung für die 3D-Texturoptimierung, und dieser Ansatz hilft dem DreamCraft3D-Rahmenwerk, eine enorme Menge an Texturdetails zu erreichen, während die Sichtkonsistenz erhalten bleibt.

Wie in den oben genannten Bildern zu sehen ist, ist das DreamCraft3D-Rahmenwerk in der Lage, kreative 3D-Bilder und -Inhalte mit realistischen Texturen und intrikaten geometrischen Strukturen zu erzeugen. Im ersten Bild ist der Körper von Son Goku, einer Anime-Figur, mit dem Kopf eines wilden Ebers gemischt, während das zweite Bild einen Beagle in der Kleidung eines Detektivs zeigt. Es folgen einige zusätzliche Beispiele.

DreamCraft3D: Funktionsweise und Architektur

Das DreamCraft3D-Rahmenwerk versucht, ein State-of-the-Art-T2I- oder Text-Bild-Generationsrahmenwerk zu nutzen, um hochwertige 2D-Bilder mit einem Textprompt zu erstellen. Der Ansatz ermöglicht es dem DreamCraft3D-Rahmenwerk, die Fähigkeiten von State-of-the-Art-2D-Diffusionsmodellen zu maximieren, um die visuellen Semantiken, wie im Textprompt beschrieben, darzustellen, während die kreative Freiheit, die von diesen 2D-KI-Generationsrahmenwerken angeboten wird, erhalten bleibt. Das erzeugte Bild wird dann mit Hilfe von kaschierten geometrischen Textur-Boosting- und geometrischen Skulptur-Phasen in 3D gehoben, und spezielle Techniken werden in jeder Phase mit Hilfe der Zerlegung des Problems angewendet. Das folgende Bild fasst die Funktionsweise des DreamCraft3D-Rahmenwerks kurz zusammen.

Lassen Sie uns einen detaillierten Blick auf die wichtigsten Designaspekte für die Textur-Boosting- und geometrischen Skulptur-Phasen werfen.

Geometrische Skulptur

Die geometrische Skulptur ist die erste Phase, in der das DreamCraft3D-Rahmenwerk versucht, ein 3D-Modell zu erstellen, das mit dem Aussehen des Referenzbildes bei der gleichen Referenzansicht übereinstimmt, während es die maximale Plausibilität auch unter verschiedenen Blickwinkeln sicherstellt. Um die maximale Plausibilität zu gewährleisten, nutzt das Rahmenwerk die SDS-Verlustfunktion, um plausibles Bildrendering für jeden einzelnen beprobten Blickwinkel zu fördern, den ein vorgebildetes Diffusionsmodell erkennen kann. Darüber hinaus, um die Anleitung von der Referenzbild effektiv zu nutzen, bestraft das Rahmenwerk photometrische Unterschiede zwischen der Referenz und den gerenderten Bildern bei der Referenzansicht, und der Verlust wird nur innerhalb der Vordergrundregion der Ansicht berechnet. Darüber hinaus, um die Szenensparsamkeit zu fördern, implementiert das Rahmenwerk auch eine Masken-Verlustfunktion, die die Silhouette rendern. Trotzdem bleibt es eine Herausforderung, Aussehen und Semantik über die Rückansichten hinweg konsistent zu halten, weshalb das Rahmenwerk zusätzliche Ansätze einsetzt, um detaillierte und kohärente Geometrie zu produzieren.

3D-bewusster Diffusions-Prior

Die 3D-Optimierungsverfahren, die nur die pro-Blickwinkel-Überwachung verwenden, sind unterbestimmt, was der Hauptgrund dafür ist, dass das DreamCraft3D-Rahmenwerk das Zero-1-to-3, ein aus Sichtwinkel bedingtes Diffusionsmodell, nutzt, da das Zero-1-to-3-Rahmenwerk eine verbesserte Blickwinkel-Bewusstsein bietet, da es auf einer größeren Menge an 3D-Daten trainiert wurde. Darüber hinaus ist das Zero-1-to-3-Rahmenwerk ein feinjustiertes Diffusionsmodell, das das Bild in Bezug auf die Kameraposition halluciniert, wenn das Referenzbild gegeben ist.

Schrittweises View-Training

Die direkte Ableitung von freien Ansichten in 360 Grad kann zu geometrischen Artefakten oder Unstimmigkeiten wie einem zusätzlichen Bein auf dem Stuhl führen, ein Ereignis, das der Mehrdeutigkeit eines einzelnen Referenzbildes zugeschrieben werden kann. Um dieses Hindernis zu überwinden, erweitert das DreamCraft3D-Rahmenwerk die Trainingsansichten schrittweise, woraufhin die etablierte Geometrie allmählich propagiert wird, um Ergebnisse in 360 Grad zu erhalten.

Diffusions-Zeitschritt-Annealing

Das DreamCraft3D-Rahmenwerk nutzt eine Diffusions-Zeitschritt-Annealing-Strategie, um der grob-feinen Progression der 3D-Optimierung zu entsprechen. Zu Beginn des Optimierungsprozesses priorisiert das Rahmenwerk die Stichprobennahme eines größeren Diffusions-Zeitschritts, um die globale Struktur zu liefern. Wenn das Rahmenwerk mit dem Trainingsprozess fortfährt, linearisiert es den Stichprobenbereich über den Verlauf von hunderten von Iterationen. Dank der Annealing-Strategie gelingt es dem Rahmenwerk, eine plausiblere globale Geometrie während der frühen Optimierungsschritte zu etablieren, bevor es die strukturellen Details verfeinert.

Detaillierte Struktur-Verbesserung

Das DreamCraft3D-Rahmenwerk optimiert zunächst eine implizite Oberflächenrepräsentation, um eine grobe Struktur zu etablieren. Das Rahmenwerk nutzt dann dieses Ergebnis und kombiniert es mit einem deformierbaren Tetraeder-Gitter oder DMTet, um eine texturierte 3D-Mesh-Repräsentation zu initialisieren, die das Lernen von Textur und Geometrie entkoppelt. Wenn das Rahmenwerk mit der Struktur-Verbesserung fertig ist, kann das Modell die hochfrequenten Details, die aus dem Referenzbild erhalten werden, erhalten, indem es die Texturen allein verfeinert.

Textur-Boosting mit bootstrapped Score-Stichprobe

Obwohl die geometrische Skulptur-Phase betont, detaillierte und kohärente Geometrie zu lernen, unscharft die Textur zu einem bestimmten Grad, was auf die Abhängigkeit des Rahmenwerks von einem 2D-Prior-Modell zurückzuführen ist, das bei einer groben Auflösung arbeitet, zusammen mit der begrenzten Schärfe, die von dem 3D-Diffusionsmodell angeboten wird. Darüber hinaus treten häufige Texturprobleme wie Überättigung und Überglättung auf, die durch eine große klassifizierungslose Anleitung verursacht werden.

Das Rahmenwerk nutzt eine VSD- oder Variations-Score-Destillations-Verlustfunktion, um die Realistik der Texturen zu verbessern. Das Rahmenwerk wählt ein Stable-Diffusionsmodell während dieser Phase, um hochauflösende Gradienten zu erhalten. Darüber hinaus hält das Rahmenwerk das Tetraeder-Gitter fest, um realistisches Rendering zu fördern, um die Gesamtstruktur des Mesh zu optimieren. Während der Lernphase nutzt das DreamCraft3D-Rahmenwerk nicht das Zero-1-to-3-Rahmenwerk, da es einen negativen Einfluss auf die Qualität der Texturen hat, und diese inkonsistenten Texturen können wiederkehrend auftreten, was zu seltsamen 3D-Ausgaben führt.

Experimente und Ergebnisse

Um die Leistung des DreamCraft3D-Rahmenwerks zu bewerten, wird es mit aktuellen State-of-the-Art-Rahmenwerken verglichen, und die qualitativen und quantitativen Ergebnisse werden analysiert.

Vergleich mit Baseline-Modellen

Um die Leistung zu bewerten, wird das DreamCraft3D-Rahmenwerk mit 5 State-of-the-Art-Rahmenwerken verglichen, darunter DreamFusion, Magic3D, ProlificDreamer, Magic123 und Make-it-3D. Der Test-Benchmark umfasst 300 Eingabebilder, die eine Mischung aus realen Bildern und solchen sind, die von dem Stable-Diffusions-Rahmenwerk generiert wurden. Jedes Bild im Test-Benchmark hat einen Textprompt, eine vorhergesagte Tiefen-Karte und eine Alpha-Maske für den Vordergrund. Das Rahmenwerk bezieht die Textprompts für die realen Bilder von einem Bild-Beschreibung-Rahmenwerk.

Qualitative Analyse

Das folgende Bild vergleicht das DreamCraft3D-Rahmenwerk mit den aktuellen Baseline-Modellen, und wie es zu sehen ist, haben die Rahmenwerke, die auf dem Text-zu-3D-Ansatz basieren, oft Multi-View-Konsistenzprobleme.

Einerseits haben Sie das ProlificDreamer-Rahmenwerk, das realistische Texturen bietet, aber Schwierigkeiten hat, ein plausibles 3D-Objekt zu generieren. Rahmenwerke wie das Make-it-3D-Rahmenwerk, das auf dem Bild-zu-3D-Verfahren basiert, können hochwertige Frontalansichten erstellen, aber sie können die ideale Geometrie für die Bilder nicht aufrechterhalten. Die von dem Magic123-Rahmenwerk generierten Bilder bieten bessere geometrische Regularisierung, aber sie generieren überättigte und geglättete geometrische Texturen und Details. Im Vergleich zu diesen Rahmenwerken nutzt das DreamCraft3D-Rahmenwerk, das einen bootstrapped Score-Destillationsansatz verwendet, nicht nur semantische Konsistenz, sondern verbessert auch die Vorstellungskraft.

Quantitative Analyse

In einem Versuch, überzeugende 3D-Bilder zu erzeugen, die nicht nur dem Eingabe-Referenzbild ähneln, sondern auch Semantik aus verschiedenen Perspektiven konsistent vermitteln, werden die Techniken, die von dem DreamCraft3D-Rahmenwerk verwendet werden, mit Baseline-Modellen verglichen, und der Bewertungsprozess nutzt vier Metriken: PSNR und LPIPS für die Messung der Fidelität bei der Referenzansicht, Kontext-Entfernung für die Bewertung der Pixel-Übereinstimmung und CLIP, um die semantische Kohärenz zu schätzen. Die Ergebnisse werden im folgenden Bild demonstriert.

Schlussfolgerung

In diesem Artikel haben wir DreamCraft3D, eine hierarchische Pipeline für die Generierung von 3D-Inhalten, diskutiert. Das DreamCraft3D-Rahmenwerk versucht, ein State-of-the-Art-T2I- oder Text-Bild-Generationsrahmenwerk zu nutzen, um hochwertige 2D-Bilder mit einem Textprompt zu erstellen. Dieser Ansatz ermöglicht es dem DreamCraft3D-Rahmenwerk, die Fähigkeiten von State-of-the-Art-2D-Diffusionsmodellen zu maximieren, um die visuellen Semantiken, wie im Textprompt beschrieben, darzustellen, während die kreative Freiheit, die von diesen 2D-KI-Generationsrahmenwerken angeboten wird, erhalten bleibt. Das erzeugte Bild wird dann mit Hilfe von kaschierten geometrischen Textur-Boosting- und geometrischen Skulptur-Phasen in 3D gehoben, und spezielle Techniken werden in jeder Phase mit Hilfe der Zerlegung des Problems angewendet. Als Ergebnis dieses Ansatzes kann das DreamCraft3D-Rahmenwerk hochwertige und konsistente 3D-Assets mit überzeugenden Texturen erzeugen, die aus mehreren Blickwinkeln betrachtet werden können.

Ein Ingenieur von Beruf, ein Schriftsteller von Herzen. Kunal ist ein technischer Schriftsteller mit einer tiefen Liebe und einem tiefen Verständnis für KI und ML, der sich der Aufgabe widmet, komplexe Konzepte in diesen Bereichen durch seine ansprechenden und informativen Dokumentationen zu vereinfachen.