Künstliche Intelligenz
Splatter-Bild: Ultra-Schnelle 3D-Rekonstruktion aus einer einzigen Ansicht

Die 3D-Rekonstruktion von Objekten aus einer einzigen Ansicht mit Hilfe von Convolutional Networks hat bemerkenswerte Fähigkeiten demonstriert. Modelle für die 3D-Rekonstruktion aus einer einzigen Ansicht erzeugen das 3D-Modell eines Objekts mithilfe eines einzigen Bildes als Referenz, was es zu einem der heißesten Forschungsthemen im Bereich des Computersehens macht.

Beispielsweise betrachten wir das Motorrad im obigen Bild. Die Erzeugung seiner 3D-Struktur erfordert eine komplexe Pipeline, die zunächst Hinweise aus niedrigauflösenden Bildern mit hochauflösender semantischer Information und Wissen über die strukturelle Anordnung von Teilen kombiniert.
Aufgrund des komplexen Prozesses war die 3D-Rekonstruktion aus einer einzigen Ansicht eine große Herausforderung im Bereich des Computersehens. Um die Effizienz der 3D-Rekonstruktion aus einer einzigen Ansicht zu verbessern, haben Entwickler an Splatter-Bild gearbeitet, einer Methode, die darauf abzielt, ultra-schnelle 3D-Form- und 3D-Erscheinungsbild-Konstruktion von Objekten zu erreichen. Im Kern verwendet das Splatter-Bild-Framework die Gaussian-Splatting-Methode, um 3D-Darstellungen zu analysieren und profitiert von der Geschwindigkeit und Qualität, die es bietet.
Kürzlich wurde die Gaussian-Splatting-Methode von zahlreichen Multi-View-Rekonstruktionsmodellen für Echtzeit-Rendering, verbesserte Skalierung und schnelles Training implementiert. Wie bereits erwähnt, ist Splatter-Bild das erste Framework, das die Gaussian-Splatting-Methode für Rekonstruktionsaufgaben aus einer einzigen Ansicht implementiert.
In diesem Artikel werden wir uns damit befassen, wie das Splatter-Bild-Framework die Gaussian-Splatting-Methode nutzt, um ultra-schnelle 3D-Rekonstruktion aus einer einzigen Ansicht zu erreichen. Also los geht’s.
Splatter-Bild: Ein Versuch der ultra-schnellen 3D-Rekonstruktion aus einer einzigen Ansicht
Wie bereits erwähnt, ist Splatter-Bild ein ultra-schneller Ansatz für die 3D-Objekt-Rekonstruktion aus einer einzigen Ansicht auf der Grundlage der Gaussian-Splatting-Methode. Splatter-Bild ist das erste Computer-Vision-Framework, das Gaussian-Splatting für monokulare 3D-Objekt-Generierung implementiert, da traditionell Gaussian-Splatting Multi-View-3D-Objekt-Rekonstruktions-Frameworks angetrieben hat. Allerdings unterscheidet sich das Splatter-Bild-Framework von vorherigen Methoden dadurch, dass es ein lernbasierter Ansatz ist und die Rekonstruktion während des Testens nur die Feed-Forward-Auswertung des neuronalen Netzes erfordert.
Splatter-Bild basiert grundlegend auf den Rendering-Eigenschaften von Gaussian-Splatting und der hohen Verarbeitungsgeschwindigkeit, um 3D-Rekonstruktionen zu generieren. Das Splatter-Bild-Framework verfügt über ein einfaches Design: das Framework verwendet ein 2D-Bild-zu-Bild-Neuronales-Netz, um für jedes Eingabe-Bild-Pixel ein 3D-Gaußsches Verteilungsmuster vorherzusagen und kartiert das Eingabe-Bild auf ein 3D-Gaußsches Verteilungsmuster pro Pixel. Die resultierenden 3D-Gaußschen Verteilungsmuster haben die Form eines Bildes, bekannt als Splatter-Bild, und sie liefern auch eine 360-Grad-Darstellung des Bildes. Der Prozess wird im folgenden Bild demonstriert.

Obwohl der Prozess einfach und geradlinig ist, gibt es einige wichtige Herausforderungen, denen sich das Splatter-Bild-Framework bei der Verwendung von Gaussian-Splatting zur Generierung von 3D-Gaußschen Verteilungsmustern für 3D-Darstellungen aus einer einzigen Ansicht gegenübersieht. Die erste große Hürde besteht darin, ein Neuronales Netz zu entwerfen, das das Bild eines Objekts als Eingabe annimmt und eine entsprechende Gaußsche Verteilungsmischung als Ausgabe generiert, die alle Seiten des Bildes darstellt. Um dies zu bewältigen, nutzt das Splatter-Bild die Tatsache, dass die generierte Gaußsche Verteilungsmischung eine Menge oder eine ungeordnete Sammlung von Elementen ist, die dennoch in einer geordneten Datenstruktur gespeichert werden kann. Dementsprechend verwendet das Framework ein 2D-Bild als Container für die 3D-Gaußschen Verteilungsmuster, wobei jedes Pixel im Container die Parameter eines Gaußschen Verteilungsmusters enthält, einschließlich seiner Eigenschaften wie Form, Opazität und Farbe.
Indem das Splatter-Bild-Framework 3D-Gaußsche Verteilungsmengen in einem Bild speichert, kann es die Rekonstruktionshürden überwinden, die beim Lernen eines Bildes zu einem Bild-Neuronales-Netz auftreten. Durch die Verwendung dieses Ansatzes kann der Rekonstruktionsprozess nur durch die Verwendung effizienter 2D-Operatoren implementiert werden, anstatt auf 3D-Operatoren zurückzugreifen. Darüber hinaus ermöglicht das Splatter-Bild-Framework im Splatter-Bild-Framework die 3D-Darstellung als Mischung von 3D-Gaußschen Verteilungsmustern, um die Vorteile der Rendering-Geschwindigkeit und des Speicherbedarfs, die durch Gaussian-Splatting angeboten werden, auszunutzen, was die Effizienz beim Training und bei der Inferenz verbessert. Wenn wir fortfahren, demonstriert das Splatter-Bild-Framework nicht nur die Fähigkeit, 3D-Darstellungen aus einer einzigen Ansicht zu generieren, sondern zeigt auch eine bemerkenswerte Effizienz, da es sogar auf einem einzigen GPU auf Standard-3D-Objekt-Benchmarks trainiert werden kann. Darüber hinaus kann das Splatter-Bild-Framework erweitert werden, um mehrere Bilder als Eingabe zu verwenden. Es kann dies erreichen, indem es die einzelnen Gaußschen Verteilungsmengen auf einen gemeinsamen Referenzpunkt registriert und dann die Kombination der Gaußschen Verteilungsmengen vorhersagt, die aus den einzelnen Ansichten stammen. Das Framework injiziert auch leichte Cross-Attention-Schichten in seiner Architektur, die es ermöglichen, dass sich die verschiedenen Ansichten während der Vorhersage gegenseitig beeinflussen.
Aus empirischer Sicht ist es erwähnenswert, dass das Splatter-Bild-Framework eine 360-Grad-Rekonstruktion des Objekts erzeugen kann, obwohl es nur eine Seite des Objekts sieht. Das Framework weist dann verschiedene Gaußsche Verteilungsmuster in einem 2D-Nachbarschaftsbereich verschiedenen Teilen des 3D-Objekts zu, um die generierte 360-Grad-Information im 2D-Bild zu kodieren. Darüber hinaus setzt das Framework die Opazität mehrerer Gaußscher Verteilungsmuster auf Null, was sie deaktiviert und es ermöglicht, sie während der Nachbearbeitung zu entfernen.
Zusammenfassend ist das Splatter-Bild-Framework
- Ein neuer Ansatz, um 3D-Objekt-Rekonstruktionen aus einer einzigen Ansicht zu generieren, indem die Gaussian-Splatting-Methode portiert wird.
- Erweitert die Methode für die 3D-Objekt-Rekonstruktion aus mehreren Ansichten.
- Erreicht eine Spitzenleistung bei der 3D-Objekt-Rekonstruktion auf Standard-Benchmarks mit außergewöhnlicher Geschwindigkeit und Qualität.
Splatter-Bild: Methodik und Architektur
Gaussian-Splatting
Wie bereits erwähnt, ist Gaussian-Splatting die primäre Methode, die vom Splatter-Bild-Framework implementiert wird, um 3D-Objekt-Rekonstruktionen aus einer einzigen Ansicht zu generieren. In einfachen Worten ist Gaussian-Splatting eine Rasterisierungsmethode für die Rekonstruktion von 3D-Bildern und Echtzeit-Rendering von Bildern mit mehreren Blickwinkeln. Der 3D-Raum im Bild wird als Gaußsche Verteilungsmuster bezeichnet, und maschinelle Lernalgorithmen werden implementiert, um die Parameter jedes Gaußschen Verteilungsmusters zu lernen. Gaussian-Splatting erfordert kein Training während des Renderns, was zu schnelleren Rendernzeiten führt. Das folgende Bild fasst die Architektur des 3D-Gaussian-Splatting zusammen.

3D-Gaussian-Splatting verwendet zunächst die Menge der Eingabebilder, um eine Punktwolke zu generieren. Gaussian-Splatting verwendet dann die Eingabebilder, um die externen Parameter der Kamera wie Neigung und Position zu schätzen, indem die Pixel zwischen den Bildern abgeglichen werden, und diese Parameter werden dann verwendet, um die Punktwolke zu berechnen. Mithilfe verschiedener maschineller Lernalgorithmen optimiert Gaussian-Splatting dann vier Parameter für jedes Gaußsche Verteilungsmuster, nämlich Position (wo befindet es sich), Kovarianz (das Ausmaß seiner Dehnung oder Skalierung in einer 3×3-Matrix), Farbe (welche RGB-Farbskala) und Alpha (die Transparenz messend). Der Optimierungsprozess rendert das Bild für jede Kameraposition und verwendet es, um die Parameter näher an das Originalbild zu bringen. Als Ergebnis ist die resultierende 3D-Gaussian-Splatting-Ausgabe ein Bild, genannt Splatter-Bild, das dem Originalbild am meisten ähnelt, wenn es aus der Kameraposition aufgenommen wird, aus der es stammt.

Darüber hinaus liefert die Opazitätsfunktion und die Farbfunktion in Gaussian-Splatting ein Strahlungsfeld mit der Blickrichtung des 3D-Punkts. Das Framework rendert dann das Strahlungsfeld auf ein Bild, indem es die Farben integriert, die entlang des Strahls beobachtet werden, der durch das Pixel verläuft. Gaussian-Splatting stellt diese Funktionen als Kombination von farbigen Gaußschen Verteilungsmustern dar, wobei das Gaußsche Mittel oder Zentrum sowie die Gaußsche Kovarianz helfen, seine Form und Größe zu bestimmen. Jedes Gaußsche Verteilungsmuster hat auch eine Opazitätseigenschaft und eine Blickrichtungs-abhängige Farbeigenschaft, die zusammen das Strahlungsfeld definieren.
Splatter-Bild
Die Renderer-Komponente kartiert die Menge der 3D-Gaußschen Verteilungsmuster auf ein Bild. Um die 3D-Rekonstruktion aus einer einzigen Ansicht durchzuführen, sucht das Framework nach einer inversen Funktion für 3D-Gaußsche Verteilungsmuster, die die Mischung der 3D-Gaußschen Verteilungsmuster aus einem Bild rekonstruiert. Der Schlüsselaspekt hierbei ist, eine effektive, aber einfache Gestaltung für die inverse Funktion vorzuschlagen. Insbesondere generiert das Framework für ein Eingabebild ein Gaußsches Verteilungsmuster für jedes einzelne Pixel mithilfe eines Bild-zu-Bild-Neuronales-Netz-Architektur, um ein Bild, das Splatter-Bild, als Ausgabe zu erzeugen. Das Netzwerk generiert auch die Form, die Opazität und die Farbe.
Nun könnte man sich fragen, wie das Splatter-Bild-Framework die 3D-Darstellung eines Objekts rekonstruieren kann, obwohl es nur auf eine seiner Ansichten zugreift? In Echtzeit lernt das Splatter-Bild-Framework, einige der verfügbaren Gaußschen Verteilungsmuster zu verwenden, um die Ansicht zu rekonstruieren, und verwendet die verbleibenden Gaußschen Verteilungsmuster, um automatisch unsichtbare Teile des Bildes zu rekonstruieren. Um seine Effizienz zu maximieren, kann das Framework automatisch Gaußsche Verteilungsmuster ausschalten, indem es vorhersagt, ob die Opazität Null ist. Wenn die Opazität Null ist, werden die Gaußschen Verteilungsmuster ausgeschaltet, und das Framework rendert diese Punkte nicht, sondern entfernt sie während der Nachbearbeitung.
Bild-Levels-Verlust
Ein wesentlicher Vorteil der Ausnutzung der Geschwindigkeit und Effizienz, die durch die Gaussian-Splatting-Methode angeboten wird, ist, dass sie es dem Framework ermöglicht, alle Bilder bei jeder Iteration zu rendern, sogar für Chargen mit relativ größeren Chargengrößen. Darüber hinaus bedeutet dies, dass das Framework nicht nur dekomponierbare Verluste verwenden kann, sondern auch Bild-Levels-Verluste, die sich nicht in Verluste pro Pixel aufteilen lassen.
Skalennormierung
Es ist schwierig, die Größe eines Objekts zu schätzen, wenn man nur eine einzige Ansicht sieht, und es ist eine schwierige Aufgabe, diese Zweideutigkeit aufzulösen, wenn es mit einem Verlust trainiert wird. Das gleiche Problem tritt nicht in synthetischen Datensätzen auf, da alle Objekte mit identischen Kameraintern und den Objekten in einem festen Abstand von der Kamera gerendert werden, was letztendlich hilft, die Zweideutigkeit aufzulösen. In Datensätzen mit echten Bildern ist die Zweideutigkeit jedoch offensichtlich, und das Splatter-Bild-Framework verwendet mehrere Vorverarbeitungsmethoden, um die Skala aller Objekte ungefähr zu fixieren.
Blick-abhängige Farbe
Um blick-abhängige Farben darzustellen, verwendet das Splatter-Bild-Framework sphärische Harmoniken, um die Farben über das lambertsche Farbmodell hinaus zu verallgemeinern. Für jedes Gaußsche Verteilungsmuster definiert das Modell Koeffizienten, die vom Netzwerk vorhergesagt werden, und die sphärischen Harmoniken. Die Blickrichtungsänderung transformiert eine Blickrichtung in der Kamera-Quelle in ihre entsprechende Blickrichtung im Bezugssystem. Das Modell findet dann die entsprechenden Koeffizienten, um die transformierte Farbfunktion zu finden. Das Modell kann dies tun, weil die sphärischen Harmoniken bei Rotation geschlossen sind, zusammen mit jeder anderen Ordnung.
Neuronales Netz-Architektur
Der größte Teil der Architektur des Prädiktors, der das Eingabebild auf die Kombination von Gaußschen Verteilungsmustern kartiert, ist identisch mit dem Prozess, der im SongUNet-Framework verwendet wird. Die letzte Schicht in der Architektur wird durch eine 1×1-Faltungs-Schicht ersetzt, wobei die Farbmodell-Breite der Ausgabekanäle bestimmt. Gegeben das Eingabebild, erzeugt das Netzwerk einen Ausgabekanal-Tensor als Ausgabe, und für jeden Pixel-Kanal kodiert es die Parameter, die dann in Offset, Opazität, Rotation, Tiefe und Farbe transformiert werden. Das Framework verwendet nichtlineare Funktionen, um die Parameter zu aktivieren und die Gaußschen Verteilungsmuster-Parameter zu erhalten.
Um 3D-Darstellungen mit mehreren Ansichten zu rekonstruieren, wendet das Splatter-Bild-Framework das gleiche Netzwerk auf jede Eingabe-Ansicht an und verwendet dann den Blickwinkel-Ansatz, um die einzelnen Rekonstruktionen zu kombinieren. Darüber hinaus, um eine effiziente Koordination und Informationsaustausch zwischen den Ansichten im Netzwerk zu ermöglichen, führt das Splatter-Bild-Framework zwei Modifikationen im Netzwerk durch. Erstens konditioniert das Framework das Modell mit seiner jeweiligen Kameraposition und überträgt Vektoren, indem es jeden Eintrag mithilfe einer sinusförmigen Positionseinbettung kodiert, was zu mehreren Dimensionen führt. Zweitens fügt das Framework Cross-Attention-Schichten hinzu, um die Kommunikation zwischen den Merkmalen verschiedener Ansichten zu ermöglichen.
Splatter-Bild: Experimente und Ergebnisse
Das Splatter-Bild-Framework misst die Qualität seiner Rekonstruktionen, indem es die Novel-View-Synthese-Qualität bewertet, da das Framework die Quell-Ansicht verwendet und die 3D-Form rendert, um unbeobachtete Ansichten zu rekonstruieren. Das Framework bewertet seine Leistung, indem es die SSIM oder Strukturelle Ähnlichkeit, Peak-Signal-Rausch-Verhältnis oder PSNR und Perzeptuelle Qualität oder LPIPS-Punkte misst.
Leistung der 3D-Rekonstruktion aus einer einzigen Ansicht
Die folgende Tabelle zeigt die Leistung des Splatter-Bild-Modells bei der 3D-Rekonstruktion aus einer einzigen Ansicht auf dem ShapeNet-Benchmark.

Wie zu sehen ist, übertrifft das Splatter-Bild-Framework alle deterministischen Rekonstruktionsmethoden bei den LPIPS- und SSIM-Punkten. Die Punkte zeigen an, dass das Splatter-Bild-Modell Bilder mit schärferen Rekonstruktionen generiert. Darüber hinaus übertrifft das Splatter-Bild-Modell auch alle deterministischen Basismodelle in Bezug auf den PSNR-Punkt, was darauf hinweist, dass die generierten Rekonstruktionen auch genauer sind. Darüber hinaus, neben der Übertragung aller deterministischen Methoden, erfordert das Splatter-Bild-Framework nur relative Kamerapositionen, um seine Effizienz in beiden Trainings- und Testphasen zu verbessern.
Das folgende Bild zeigt die qualitative Leistungsfähigkeit des Splatter-Bild-Frameworks, und wie zu sehen ist, generiert das Modell Rekonstruktionen mit dünnen und interessanten Geometrien und erfasst die Details der bedingten Ansichten.

Das folgende Bild zeigt, dass die Rekonstruktionen, die vom Splatter-Bild-Framework generiert werden, nicht nur schärfer sind, sondern auch eine bessere Genauigkeit aufweisen als vorherige Modelle, insbesondere unter unkonventionellen Bedingungen mit dünnen Strukturen und begrenzter Sichtbarkeit.

3D-Rekonstruktion aus mehreren Ansichten
Um seine Fähigkeiten bei der 3D-Rekonstruktion aus mehreren Ansichten zu bewerten, wird das Splatter-Bild-Framework auf dem SpaneNet-SRN-Cars-Datensatz für Zwei-Ansichten-Vorhersagen trainiert. Bestehende Methoden verwenden absolute Kamerapositionskonditionierung für 3D-Rekonstruktionsaufgaben aus mehreren Ansichten, was bedeutet, dass das Modell lernt, sich hauptsächlich auf die kanonische Ausrichtung des Objekts im Objekt zu verlassen. Obwohl es den Job erledigt, begrenzt es die Anwendbarkeit der Modelle, da die absolute Kameraposition oft für ein neues Bild eines Objekts unbekannt ist.

Abschließende Gedanken
In diesem Artikel haben wir über Splatter-Bild gesprochen, eine Methode, die darauf abzielt, ultra-schnelle 3D-Form- und 3D-Erscheinungsbild-Konstruktion von Objekten zu erreichen. Im Kern verwendet das Splatter-Bild-Framework die Gaussian-Splatting-Methode, um 3D-Darstellungen zu analysieren und profitiert von der Geschwindigkeit und Qualität, die es bietet. Das Splatter-Bild-Framework verarbeitet Bilder mithilfe einer Standard-2D-CNN-Architektur, um ein Pseudo-Bild vorherzusagen, das ein farbiges Gaußsches Verteilungsmuster pro Pixel enthält. Durch die Verwendung der Gaussian-Splatting-Methode kann das Splatter-Bild-Framework schnelles Rendering mit schneller Inferenz kombinieren, was zu schnellem Training und schnellerer Auswertung auf realen und synthetischen Benchmarks führt.












