Stummel Zero123++: Ein einzelnes Bild zum konsistenten Diffusionsbasismodell mit mehreren Ansichten – Unite.AI
Vernetzen Sie sich mit uns

Künstliche Intelligenz

Zero123++: Ein einzelnes Bild zum konsistenten Diffusionsbasismodell mit mehreren Ansichten

mm

Veröffentlicht

 on

In den letzten Jahren kam es zu einem rasanten Fortschritt in der Leistung, Effizienz und den generativen Fähigkeiten neuer Romane Generative KI-Modelle die umfangreiche Datensätze und 2D-Diffusionsgenerierungspraktiken nutzen. Heutzutage sind generative KI-Modelle hervorragend in der Lage, verschiedene Formen von 2D- und in gewissem Maße auch 3D-Medieninhalten zu generieren, darunter Texte, Bilder, Videos, GIFs und mehr. 

In diesem Artikel werden wir über das Zero123++-Framework sprechen, ein generatives KI-Modell mit bildkonditionierter Diffusion mit dem Ziel, 3D-konsistente Bilder mit mehreren Ansichten mithilfe einer einzigen Ansichtseingabe zu generieren. Um den Vorteil früherer vorab trainierter generativer Modelle zu maximieren, implementiert das Zero123++-Framework zahlreiche Trainings- und Konditionierungsschemata, um den Aufwand für die Feinabstimmung von handelsüblichen Diffusionsbildmodellen zu minimieren. Wir werden uns eingehender mit der Architektur, der Funktionsweise und den Ergebnissen des Zero123++-Frameworks befassen und seine Fähigkeiten analysieren, aus einem einzigen Bild konsistente Mehrfachansichtsbilder von hoher Qualität zu generieren. Also lasst uns anfangen. 

Zero123 und Zero123++: Eine Einführung

Das Zero123++-Framework ist ein generatives KI-Modell mit bildkonditionierter Diffusion, das darauf abzielt, 3D-konsistente Bilder mit mehreren Ansichten mithilfe einer einzigen Ansichtseingabe zu generieren. Das Zero123++-Framework ist eine Fortsetzung des Zero123- oder Zero-1-to-3-Frameworks, das die neuartige Zero-Shot-Bildsynthesetechnik nutzt, um Open-Source-Einzelbild-zu-3D-Konvertierungen voranzutreiben. Obwohl das Zero123++-Framework eine vielversprechende Leistung liefert, weisen die vom Framework generierten Bilder sichtbare geometrische Inkonsistenzen auf, und dies ist der Hauptgrund dafür, dass immer noch eine Lücke zwischen 3D-Szenen und Bildern mit mehreren Ansichten besteht. 

Das Zero-1-to-3-Framework dient als Grundlage für mehrere andere Frameworks, darunter SyncDreamer, One-2-3-45, Consistent123 und mehr, die dem Zero123-Framework zusätzliche Ebenen hinzufügen, um konsistentere Ergebnisse bei der Generierung von 3D-Bildern zu erzielen. Andere Frameworks wie ProlificDreamer, DreamFusion, DreamGaussian und andere verfolgen einen optimierungsbasierten Ansatz, um 3D-Bilder zu erhalten, indem sie ein 3D-Bild aus verschiedenen inkonsistenten Modellen destillieren. Obwohl diese Techniken effektiv sind und zufriedenstellende 3D-Bilder erzeugen, könnten die Ergebnisse durch die Implementierung eines Basisdiffusionsmodells verbessert werden, das in der Lage ist, Bilder mit mehreren Ansichten konsistent zu erzeugen. Dementsprechend übernimmt das Zero123++-Framework die Null-1 in die Null-3 und optimiert ein neues Multi-View-Basisdiffusionsmodell von Stable Diffusion. 

Im Zero-1-to-3-Framework wird jede neuartige Ansicht unabhängig generiert, und dieser Ansatz führt zu Inkonsistenzen zwischen den generierten Ansichten, da Diffusionsmodelle Stichprobencharakter haben. Um dieses Problem zu lösen, verwendet das Zero123++-Framework einen Kachel-Layout-Ansatz, bei dem das Objekt von sechs Ansichten in einem einzigen Bild umgeben wird und die korrekte Modellierung für die gemeinsame Verteilung der Mehrfachansichtsbilder eines Objekts gewährleistet. 

Eine weitere große Herausforderung für Entwickler, die am Zero-1-to-3-Framework arbeiten, besteht darin, dass es die von ihm gebotenen Funktionen nicht ausreichend nutzt Stable Diffusion Das führt letztendlich zu Ineffizienz und zusätzlichen Kosten. Es gibt zwei Hauptgründe, warum das Zero-1-to-3-Framework die von Stable Diffusion gebotenen Möglichkeiten nicht maximieren kann

  1. Beim Training mit Bildbedingungen integriert das Zero-1-to-3-Framework die von Stable Diffusion angebotenen lokalen oder globalen Konditionierungsmechanismen nicht effektiv. 
  2. Während des Trainings verwendet das Zero-1-to-3-Framework eine reduzierte Auflösung, einen Ansatz, bei dem die Ausgabeauflösung unter die Trainingsauflösung reduziert wird, was die Qualität der Bilderzeugung für Modelle mit stabiler Diffusion verringern kann. 

Um diese Probleme anzugehen, implementiert das Zero123++-Framework eine Reihe von Konditionierungstechniken, die die Nutzung der von Stable Diffusion bereitgestellten Ressourcen maximieren und die Qualität der Bilderzeugung für Stable Diffusion-Modelle aufrechterhalten. 

Verbesserung der Konditionierung und Konsistenz

In einem Versuch, die Bildkonditionierung und die Bildkonsistenz bei mehreren Ansichten zu verbessern, implementierte das Zero123++-Framework verschiedene Techniken, wobei das Hauptziel darin bestand, frühere Techniken wiederzuverwenden, die aus dem vorab trainierten Stable Diffusion-Modell stammen. 

Multi-View-Generierung

Die unverzichtbare Qualität der Erzeugung konsistenter Multi-View-Bilder liegt in der korrekten Modellierung der gemeinsamen Verteilung mehrerer Bilder. Im Zero-1-to-3-Framework wird die Korrelation zwischen Bildern mit mehreren Ansichten ignoriert, da das Framework für jedes Bild die bedingte Randverteilung unabhängig und separat modelliert. Im Zero123++-Framework haben sich die Entwickler jedoch für einen Kachel-Layout-Ansatz entschieden, der 6 Bilder in einem einzigen Frame/Bild kachelt, um eine konsistente Mehrfachansichtsgenerierung zu ermöglichen. Der Prozess wird im folgenden Bild veranschaulicht. 

Darüber hinaus wurde festgestellt, dass Objektausrichtungen dazu neigen, eindeutig zu sein, wenn das Modell anhand von Kameraposen trainiert wird. Um diese eindeutige Zuordnung zu verhindern, trainiert das Zero-1-to-3-Framework Kameraposen mit Höhenwinkeln und relativem Azimut zur Eingabe. Um diesen Ansatz umzusetzen, ist es notwendig, den Höhenwinkel der Eingabeansicht zu kennen, der dann zur Bestimmung der relativen Pose zwischen neuartigen Eingabeansichten verwendet wird. Beim Versuch, diesen Höhenwinkel zu ermitteln, fügen Frameworks häufig ein Höhenschätzungsmodul hinzu, und dieser Ansatz geht häufig mit zusätzlichen Fehlern in der Pipeline einher. 

Lärmplan

Der skalierte lineare Zeitplan, der ursprüngliche Rauschplan für stabile Diffusion, konzentriert sich hauptsächlich auf lokale Details, aber wie im folgenden Bild zu sehen ist, weist er nur sehr wenige Schritte mit niedrigerem SNR oder Signal-Rausch-Verhältnis auf. 

Diese Schritte mit niedrigem Signal-Rausch-Verhältnis erfolgen früh während der Rauschunterdrückungsphase, einer Phase, die für die Bestimmung der globalen Niederfrequenzstruktur von entscheidender Bedeutung ist. Die Reduzierung der Anzahl der Schritte während der Rauschunterdrückungsphase, entweder während der Interferenz oder beim Training, führt häufig zu einer größeren strukturellen Variation. Obwohl dieses Setup ideal für die Einzelbildgenerierung ist, schränkt es die Fähigkeit des Frameworks ein, die globale Konsistenz zwischen verschiedenen Ansichten sicherzustellen. Um diese Hürde zu überwinden, optimiert das Zero123++-Framework ein LoRA-Modell auf dem V-Vorhersage-Framework Stable Diffusion 2, um eine Spielzeugaufgabe auszuführen. Die Ergebnisse werden unten gezeigt. 

Mit dem skaliert-linearen Rauschplan passt das LoRA-Modell nicht zu stark an, sondern hellt das Bild nur leicht auf. Umgekehrt generiert das LoRA-Framework bei der Arbeit mit dem linearen Rauschplan unabhängig von der Eingabeaufforderung erfolgreich ein leeres Bild, was den Einfluss des Rauschplans auf die Fähigkeit des Frameworks zeigt, sich global an neue Anforderungen anzupassen. 

Skalierte Referenzaufmerksamkeit für lokale Bedingungen

Die Einzelansichtseingabe oder die Konditionierungsbilder im Zero-1-to-3-Framework werden mit den verrauschten Eingaben in der Merkmalsdimension verkettet, die für die Bildkonditionierung verrauscht werden sollen.

Diese Verkettung führt zu einer falschen pixelweisen räumlichen Übereinstimmung zwischen dem Zielbild und der Eingabe. Um eine ordnungsgemäße lokale Konditionierungseingabe bereitzustellen, verwendet das Zero123++-Framework eine skalierte Referenzaufmerksamkeit, einen Ansatz, bei dem die Ausführung eines entrauschenden UNet-Modells auf ein zusätzliches Referenzbild verwiesen wird, gefolgt vom Anhängen von Wertmatrizen und einem Selbstaufmerksamkeitsschlüssel aus der Referenz Das Bild wird den jeweiligen Aufmerksamkeitsebenen zugewiesen, wenn die Modelleingabe entrauscht wird. Dies wird in der folgenden Abbildung veranschaulicht. 

Der Referenzaufmerksamkeitsansatz ist in der Lage, das Diffusionsmodell so zu steuern, dass es ohne Feinabstimmung Bilder erzeugt, die eine ähnliche Textur wie das Referenzbild und semantische Inhalte aufweisen. Mit einer Feinabstimmung liefert der Referenzaufmerksamkeitsansatz überlegene Ergebnisse bei der Skalierung des Latents. 

Globale Konditionierung: FlexDiffuse

Im ursprünglichen Stable Diffusion-Ansatz sind die Texteinbettungen die einzige Quelle für globale Einbettungen, und der Ansatz verwendet das CLIP-Framework als Textkodierer, um Kreuzuntersuchungen zwischen den Texteinbettungen und den latenten Modellen durchzuführen. Daher steht es den Entwicklern frei, die Ausrichtung zwischen den Texträumen und den resultierenden CLIP-Bildern für globale Bildkonditionierungen zu verwenden. 

Das Zero123++-Framework schlägt vor, eine trainierbare Variante des linearen Führungsmechanismus zu nutzen, um die globale Bildkonditionierung mit minimalem Aufwand in das Framework zu integrieren Feintuning erforderlich, und die Ergebnisse werden im folgenden Bild gezeigt. Wie man sieht, ist die Qualität des vom Framework generierten Inhalts ohne das Vorhandensein einer globalen Bildkonditionierung für sichtbare Bereiche, die dem Eingabebild entsprechen, zufriedenstellend. Die Qualität des vom Framework generierten Bildes für unsichtbare Regionen verschlechtert sich jedoch erheblich, was hauptsächlich darauf zurückzuführen ist, dass das Modell nicht in der Lage ist, auf die globale Semantik des Objekts zu schließen. 

Modellarchitektur

Das Zero123++-Framework wird mit dem Stable Diffusion 2v-Modell als Grundlage unter Verwendung der verschiedenen im Artikel erwähnten Ansätze und Techniken trainiert. Das Zero123++-Framework ist auf dem Objaverse-Datensatz vorab trainiert, der mit zufälliger HDRI-Beleuchtung gerendert wird. Das Framework übernimmt auch den phasenweisen Trainingsplanansatz, der im Stable Diffusion Image Variations-Framework verwendet wird, um den Umfang der erforderlichen Feinabstimmung weiter zu minimieren und so viel wie möglich in der vorherigen Stable Diffusion beizubehalten. 

Die Funktionsweise oder Architektur des Zero123++-Frameworks kann weiter in aufeinanderfolgende Schritte oder Phasen unterteilt werden. In der ersten Phase optimiert das Framework die KV-Matrizen der Queraufmerksamkeitsschichten und der Selbstaufmerksamkeitsschichten von Stable Diffusion mit AdamW als Optimierer, 1000 Aufwärmschritten und dem Kosinus-Lernratenplan, der bei 7×10 maximiert-5. In der zweiten Phase verwendet das Framework eine äußerst konservative konstante Lernrate mit 2000 Aufwärmsätzen und nutzt den Min-SNR-Ansatz, um die Effizienz während des Trainings zu maximieren. 

Zero123++: Ergebnisse und Leistungsvergleich

Qualitative Leistung

Um die Leistung des Zero123++-Frameworks anhand seiner generierten Qualität zu bewerten, wird es mit SyncDreamer und Zero-1-to-3-XL verglichen, zwei der besten State-of-the-Art-Frameworks für die Inhaltsgenerierung. Die Frameworks werden mit vier Eingabebildern mit unterschiedlichem Umfang verglichen. Das erste Bild ist eine elektrische Spielzeugkatze, die direkt aus dem Objaverse-Datensatz stammt und eine große Unsicherheit am hinteren Ende des Objekts aufweist. Das zweite ist das Bild eines Feuerlöschers und das dritte ist das Bild eines Hundes, der auf einer Rakete sitzt, generiert vom SDXL-Modell. Das endgültige Bild ist eine Anime-Illustration. Die erforderlichen Höhenschritte für die Frameworks werden mithilfe der Höhenschätzungsmethode des One-2-3-4-5-Frameworks erreicht, und die Hintergrundentfernung wird mithilfe des SAM-Frameworks erreicht. Wie man sehen kann, generiert das Zero123++-Framework konsistent hochwertige Multi-View-Bilder und ist in der Lage, gleichermaßen gut auf domänenfremde 2D-Illustrationen und KI-generierte Bilder zu verallgemeinern. 

Quantitative Analyse

Um das Zero123++-Framework quantitativ mit den modernen Zero-1-to-3- und Zero-1to-3 XL-Frameworks zu vergleichen, bewerten Entwickler den Learned Perceptual Image Patch Similarity (LPIPS)-Score dieser Modelle anhand der Validierungs-Split-Daten, einer Teilmenge des Objaverse-Datensatzes. Um die Leistung des Modells bei der Generierung von Bildern mit mehreren Ansichten zu bewerten, kacheln die Entwickler die Ground-Truth-Referenzbilder bzw. 6 generierten Bilder und berechnen dann den LPIPS-Score (Learned Perceptual Image Patch Similarity). Die Ergebnisse werden unten demonstriert und wie deutlich zu sehen ist, erzielt das Zero123++-Framework die beste Leistung beim Validierungs-Split-Set. 

Text-to-Multi-View-Auswertung

Um die Fähigkeit des Zero123++-Frameworks bei der Generierung von Text in Multi-View-Inhalten zu bewerten, verwenden Entwickler zunächst das SDXL-Framework mit Textaufforderungen, um ein Bild zu generieren, und wenden dann das Zero123++-Framework auf das generierte Bild an. Die Ergebnisse sind in der folgenden Abbildung dargestellt. Wie man sieht, liefert das Zero1++-Framework im Vergleich zum Zero-3-to-123-Framework, das keine konsistente Generierung mehrerer Ansichten garantieren kann, konsistente, realistische und hochdetaillierte Multi-Views. Sehen Sie sich Bilder an, indem Sie Folgendes implementieren Text-zu-Bild-zu-Mehrfachansicht Ansatz oder Pipeline. 

Zero123++ Tiefenkontrollnetz

Zusätzlich zum Basis-Framework Zero123++ haben Entwickler auch das Depth ControlNet Zero123++ veröffentlicht, eine tiefengesteuerte Version des ursprünglichen Frameworks, das auf der ControlNet-Architektur basiert. Die normalisierten linearen Bilder werden in Bezug auf die nachfolgenden RGB-Bilder gerendert und ein ControlNet-Framework wird trainiert, um die Geometrie des Zero123++-Frameworks mithilfe der Tiefenwahrnehmung zu steuern. 

Zusammenfassung

In diesem Artikel haben wir über Zero123++ gesprochen, ein generatives KI-Modell mit bildkonditionierter Diffusion mit dem Ziel, 3D-konsistente Bilder mit mehreren Ansichten mithilfe einer einzigen Ansichtseingabe zu generieren. Um den Vorteil früherer vorab trainierter generativer Modelle zu maximieren, implementiert das Zero123++-Framework zahlreiche Trainings- und Konditionierungsschemata, um den Aufwand für die Feinabstimmung von handelsüblichen Diffusionsbildmodellen zu minimieren. Wir haben auch die verschiedenen Ansätze und Verbesserungen besprochen, die durch das Zero123++-Framework implementiert werden und dabei helfen, Ergebnisse zu erzielen, die mit denen aktueller, hochmoderner Frameworks vergleichbar sind und diese sogar übertreffen. 

Doch trotz seiner Effizienz und der Fähigkeit, konsistent hochwertige Multi-View-Bilder zu erzeugen, gibt es beim Zero123++-Framework noch Raum für Verbesserungen, wobei potenzielle Forschungsbereiche u. a

  • Zweistufiges Refiner-Modell Dies könnte die Unfähigkeit von Zero123++ lösen, globale Anforderungen an Konsistenz zu erfüllen. 
  • Zusätzliche Scale-Ups um die Fähigkeit von Zero123++ weiter zu verbessern, Bilder von noch höherer Qualität zu erzeugen. 

„Von Beruf Ingenieur, von Herzen Schriftsteller“. Kunal ist ein technischer Autor mit einer tiefen Liebe und einem tiefen Verständnis für KI und ML, der sich der Vereinfachung komplexer Konzepte in diesen Bereichen durch seine ansprechende und informative Dokumentation widmet.