Künstliche Intelligenz

Wie funktioniert die Einzelansicht-3D-Rekonstruktion?

Veröffentlicht 19. Januar 2024

Kunal Kejriwal

Traditionell haben Modelle für die Einzelansicht-Objektrekonstruktion, die auf Faltungs-Neuronalen Netzen basieren, bei Rekonstruktionsaufgaben eine bemerkenswerte Leistung gezeigt. In den letzten Jahren hat sich die 3D-Rekonstruktion in Einzelansichten zu einem beliebten Forschungsthema in der KI-Community entwickelt. Unabhängig von der verwendeten spezifischen Methodik haben alle Einzelansicht-3D-Rekonstruktionsmodelle den gemeinsamen Ansatz, ein Encoder-Decoder-Netzwerk in ihr Framework zu integrieren. Dieses Netzwerk führt komplexe Überlegungen zur 3D-Struktur im Ausgaberaum durch.

In diesem Artikel werden wir untersuchen, wie die Einzelansicht-3D-Rekonstruktion in Echtzeit funktioniert und welche aktuellen Herausforderungen diese Frameworks bei Rekonstruktionsaufgaben bewältigen müssen. Wir werden verschiedene Schlüsselkomponenten und Methoden besprechen, die von 3D-Rekonstruktionsmodellen mit Einzelansicht verwendet werden, und Strategien untersuchen, die die Leistung dieser Frameworks verbessern könnten. Darüber hinaus analysieren wir die Ergebnisse modernster Frameworks, die Encoder-Decoder-Methoden verwenden. Lass uns eintauchen.

Einzelansicht-3D-Objektrekonstruktion

Bei der 3D-Objektrekonstruktion in einer Einzelansicht wird ein 3D-Modell eines Objekts aus einem einzigen Blickwinkel oder, einfacher ausgedrückt, aus einem einzelnen Bild erstellt. Beispielsweise ist es ein komplexer Prozess, aus einem Bild die 3D-Struktur eines Objekts, beispielsweise eines Motorrads, abzuleiten. Es kombiniert Wissen über die strukturelle Anordnung von Teilen, Bildhinweise auf niedriger Ebene und semantische Informationen auf hoher Ebene. Dieses Spektrum umfasst zwei Hauptaspekte: Wiederaufbau und Anerkennung. Der Rekonstruktionsprozess erkennt die 3D-Struktur des Eingabebildes anhand von Hinweisen wie Schattierung, Textur und visuellen Effekten. Im Gegensatz dazu klassifiziert der Erkennungsprozess das Eingabebild und ruft ein geeignetes 3D-Modell aus einer Datenbank ab.

Aktuelle Einzelansicht-3D-Objektrekonstruktionsmodelle können sich in der Architektur unterscheiden, sie werden jedoch durch die Einbeziehung einer Encoder-Decoder-Struktur in ihr Framework vereinheitlicht. In dieser Struktur ordnet der Encoder das Eingabebild einer latenten Darstellung zu, während der Decoder komplexe Rückschlüsse auf die 3D-Struktur des Ausgaberaums zieht. Um diese Aufgabe erfolgreich auszuführen, muss das Netzwerk sowohl High-Level- als auch Low-Level-Informationen integrieren. Darüber hinaus sind viele hochmoderne Encoder-Decoder-Methoden für Einzelansichts-3D-Rekonstruktionsaufgaben auf Erkennung angewiesen, was ihre Rekonstruktionsmöglichkeiten einschränkt. Darüber hinaus kann die Leistung moderner Faltungs-Neuronaler Netze bei der Einzelansicht-3D-Objektrekonstruktion übertroffen werden, ohne explizit auf die 3D-Objektstruktur zu schließen. Allerdings wird die Dominanz der Erkennung in Faltungsnetzwerken bei Einzelansicht-Objektrekonstruktionsaufgaben durch verschiedene experimentelle Verfahren beeinflusst, einschließlich Auswertungsprotokollen und Datensatzzusammensetzung. Solche Faktoren ermöglichen es dem Framework, eine Abkürzungslösung zu finden, in diesem Fall die Bilderkennung.

Herkömmlicherweise gehen Einzelansicht-Frameworks für die 3D-Objektrekonstruktion die Rekonstruktionsaufgaben mithilfe des „Form aus Schattierung“-Ansatzes an, wobei Textur und Unschärfe als exotische Ansichten für die Rekonstruktionsaufgaben dienen. Da diese Techniken einen einzigen Tiefenhinweis verwenden, können sie Aussagen über die sichtbaren Teile einer Oberfläche liefern. Darüber hinaus eine Menge Einzelansicht-3D-Rekonstruktions-Frameworks Verwenden Sie mehrere Hinweise zusammen mit Strukturwissen, um die Tiefe eines einzelnen monokularen Bildes abzuschätzen. Diese Kombination ermöglicht es diesen Frameworks, die Tiefe der sichtbaren Oberflächen vorherzusagen. Neuere Tiefenschätzungs-Frameworks nutzen Faltungs-Neuronale Netzwerkstrukturen, um Tiefe in einem monokularen Bild zu extrahieren.

Für eine effektive Einzelansicht-3D-Rekonstruktion müssen Modelle jedoch nicht nur über die 3D-Struktur der sichtbaren Objekte im Bild nachdenken, sondern sie müssen auch die unsichtbaren Teile im Bild mithilfe bestimmter aus den Daten gelernter Prioritäten halluzinieren. Um dies zu erreichen, setzen die meisten Modelle derzeit trainierte neuronale Faltungsnetzwerkstrukturen ein, um 2D-Bilder mithilfe direkter 3D-Überwachung in 3D-Formen abzubilden, während viele andere Frameworks eine voxelbasierte Darstellung von 3D-Formen verwendeten und eine latente Darstellung dazu verwendeten Erzeugen Sie 3D-Aufwärtsfaltungen. Bestimmte Frameworks unterteilen den Ausgaberaum auch hierarchisch, um die Rechen- und Speichereffizienz zu verbessern, die es dem Modell ermöglicht, 3D-Formen mit höherer Auflösung vorherzusagen. Die aktuelle Forschung konzentriert sich auf die Verwendung schwächerer Formen der Überwachung für Einzelansicht-3D-Formvorhersagen unter Verwendung von Faltungs-Neuronalen Netzen. Dabei werden entweder vorhergesagte Formen und ihre grundwahren Vorhersagen verglichen, um Formregressoren zu trainieren, oder mehrere Lernsignale verwendet, um mittlere Formen zu trainieren, die das Modell bei der Vorhersage unterstützen Verformungen. Ein weiterer Grund für die begrenzten Fortschritte bei der Einzelansicht-3D-Rekonstruktion ist die begrenzte Menge an Trainingsdaten, die für die Aufgabe verfügbar sind.

Die 3D-Rekonstruktion in Einzelansichten ist eine komplexe Aufgabe, da visuelle Daten nicht nur geometrisch, sondern auch semantisch interpretiert werden. Obwohl sie nicht völlig unterschiedlich sind, umfassen sie unterschiedliche Spektren von der geometrischen Rekonstruktion bis zur semantischen Erkennung. Rekonstruktionsaufgaben pro Pixel zur 3D-Struktur des Objekts im Bild. Rekonstruktionsaufgaben erfordern kein semantisches Verständnis des Bildinhalts und können mithilfe einfacher Bildmerkmale wie Textur, Farbe, Schattierung, Schatten, Perspektive und Fokus erreicht werden. Die Erkennung hingegen ist ein Extremfall der Verwendung der Bildsemantik, da Erkennungsaufgaben ganze Objekte und Mengen verwenden, um das Objekt in der Eingabe zu klassifizieren und die entsprechende Form aus der Datenbank abzurufen. Obwohl Erkennungsaufgaben fundierte Schlussfolgerungen zu den Teilen des Objekts liefern können, die in den Bildern nicht sichtbar sind, ist die semantische Lösung nur möglich, wenn sie durch ein in der Datenbank vorhandenes Objekt erklärt werden kann.

Obwohl sich Erkennungs- und Rekonstruktionsaufgaben erheblich voneinander unterscheiden können, neigen beide dazu, wertvolle Informationen zu ignorieren, die im Eingabebild enthalten sind. Es ist ratsam, diese beiden Aufgaben gemeinsam zu nutzen, um die bestmöglichen Ergebnisse und genaue 3D-Formen für die Objektrekonstruktion zu erzielen. Für optimale Einzelansichts-3D-Rekonstruktionsaufgaben sollte das Modell also Strukturwissen, Bildhinweise auf niedriger Ebene und und ein umfassendes Verständnis des Objekts.

Einzelansicht-3D-Rekonstruktion: Konventioneller Aufbau

Um den herkömmlichen Aufbau zu erklären und den Aufbau eines Einzelansicht-3D-Rekonstruktionsrahmens zu analysieren, werden wir einen Standardaufbau zum Schätzen der 3D-Form anhand einer Einzelansicht oder eines Bildes des Objekts einsetzen. Der für Trainingszwecke verwendete Datensatz ist der ShapeNet-Datensatz und bewertet die Leistung über 13 Klassen hinweg, sodass das Modell verstehen kann, wie die Anzahl der Klassen in einem Datensatz die Formschätzungsleistung des Modells bestimmt.

Die meisten modernen neuronalen Faltungsnetze verwenden ein einzelnes Bild, um hochauflösende 3D-Modelle vorherzusagen. Diese Frameworks können anhand der Darstellung ihrer Ausgabe kategorisiert werden: Tiefenkarten, Punktwolken und Voxelgitter. Das Modell verwendet OGN oder Octree Generating Networks als repräsentative Methode, die in der Vergangenheit den Voxel-Grid-Ansatz übertroffen hat und/oder die vorherrschenden Ausgabedarstellungen abdecken kann. Im Gegensatz zu bestehenden Methoden, die Ausgabedarstellungen verwenden, ermöglicht der OGN-Ansatz dem Modell, hochauflösende Formen vorherzusagen, und verwendet Octrees, um den belegten Raum effizient darzustellen.

Baselines

Zur Auswertung der Ergebnisse nutzt das Modell zwei Baselines, die das Problem als reine Erkennungsaufgabe betrachten. Die erste Baseline basiert auf Clustering, während die zweite Baseline den Datenbankabruf durchführt.

Clustering

Als Clustering-Basislinie verwendet das Modell den K-Means-Algorithmus, um die Trainingsformen in K Unterkategorien zu gruppieren oder zu bündeln, und führt den Algorithmus auf 32*32*32 Voxelisierungen aus, die zu einem Vektor abgeflacht sind. Nach der Ermittlung der Clusterzuordnungen wechselt das Modell wieder zur Arbeit mit Modellen mit höherer Auflösung. Das Modell berechnet dann die mittlere Form innerhalb jedes Clusters und legt einen Schwellenwert für die mittleren Formen fest, wobei der optimale Wert durch Maximieren der durchschnittlichen IoU oder Schnittmenge über Union über die Modelle berechnet wird. Da das Modell die Beziehung zwischen den 3D-Formen und den Bildern in den Trainingsdaten kennt, kann das Modell das Bild problemlos dem entsprechenden Cluster zuordnen.

Abruf

Die Retrieval-Grundlinie lernt, Formen und Bilder in einen gemeinsamen Raum einzubetten. Das Modell berücksichtigt die paarweise Ähnlichkeit von 3D-Matrixformen im Trainingssatz, um den Einbettungsraum zu konstruieren. Das Modell erreicht dies, indem es den Multi-Dimensional Scaling with Sammon-Mapping-Ansatz verwendet, um jede Zeile in der Matrix auf einen niedrigdimensionalen Deskriptor zu komprimieren. Um die Ähnlichkeit zwischen zwei beliebigen Formen zu berechnen, verwendet das Modell außerdem den Lichtfelddeskriptor. Darüber hinaus trainiert das Modell ein Faltungs-Neuronales Netzwerk, um Bilder einem Deskriptor zuzuordnen, um die Bilder in den Raum einzubetten.

Analyse

Einzelansichts-3D-Rekonstruktionsmodelle verfolgen unterschiedliche Strategien, wodurch sie in einigen Bereichen andere Modelle übertreffen, in anderen jedoch hinterherhinken. Um verschiedene Frameworks zu vergleichen und ihre Leistung zu bewerten, verwenden wir verschiedene Metriken, darunter der mittlere IoU-Score.

Wie im obigen Bild zu sehen ist, bieten aktuelle 3D-Rekonstruktionsmodelle trotz unterschiedlicher Architekturen eine nahezu ähnliche Leistung. Es ist jedoch interessant festzustellen, dass das Retrieval-Framework, obwohl es sich um eine reine Erkennungsmethode handelt, andere Modelle hinsichtlich der mittleren und mittleren IoU-Werte übertrifft. Das Clustering-Framework liefert solide Ergebnisse und übertrifft die Frameworks AtlasNet, OGN und Matryoshka. Das unerwartetste Ergebnis dieser Analyse ist jedoch, dass Oracle NN trotz der Verwendung einer perfekten Retrieval-Architektur alle anderen Methoden übertrifft. Obwohl die Berechnung des mittleren IoU-Scores beim Vergleich hilfreich ist, liefert sie kein vollständiges Bild, da die Varianz der Ergebnisse unabhängig vom Modell hoch ist.

Gemeinsame Bewertungsmetriken

3D-Rekonstruktionsmodelle mit Einzelansicht verwenden häufig unterschiedliche Bewertungsmetriken, um ihre Leistung bei einer Vielzahl von Aufgaben zu analysieren. Im Folgenden sind einige der häufig verwendeten Bewertungsmetriken aufgeführt.

Schnittpunkt über Union

Der Mittelwert der Schnittmenge über der Union ist eine Metrik, die üblicherweise als quantitatives Maß verwendet wird und als Benchmark dient 3D-Rekonstruktionsmodelle in Einzelansicht. Obwohl IoU einen gewissen Einblick in die Leistung des Modells bietet, wird es nicht als einzige Metrik zur Bewertung einer Methode angesehen, da es nur dann die Qualität der vom Modell vorhergesagten Form angibt, wenn die Werte ausreichend hoch sind und eine erhebliche Diskrepanz zwischen ihnen beobachtet wird niedrige und mittlere Werte für zwei gegebene Formen.

Fasenabstand

Der Fasenabstand wird auf Punktwolken definiert und wurde so konzipiert, dass er zufriedenstellend auf verschiedene 3D-Darstellungen angewendet werden kann. Die Bewertungsmetrik „Fasenabstand“ reagiert jedoch sehr empfindlich auf Ausreißer, was sie zu einem problematischen Maß für die Bewertung der Modellleistung macht, da der Abstand des Ausreißers von der Referenzform die Generierungsqualität maßgeblich bestimmt.

F-Score

Der F-Score ist eine gängige Bewertungsmetrik, die von den meisten 3D-Rekonstruktionsmodellen mit mehreren Ansichten aktiv verwendet wird. Die F-Score-Metrik ist als harmonisches Mittel zwischen Erinnerung und Präzision definiert und bewertet explizit den Abstand zwischen den Oberflächen der Objekte. Präzision zählt den Prozentsatz der rekonstruierten Punkte, die innerhalb einer vordefinierten Entfernung zur Grundwahrheit liegen, um die Genauigkeit der Rekonstruktion zu messen. Recall hingegen zählt den Prozentsatz der Punkte auf der Grundwahrheit, die innerhalb einer vordefinierten Entfernung zur Rekonstruktion liegen, um die Vollständigkeit der Rekonstruktion zu messen. Darüber hinaus können Entwickler durch Variation des Abstandsschwellenwerts die Strenge der F-Score-Metrik steuern.

Analyse pro Klasse

Die von den oben genannten Frameworks bereitgestellte Leistungsähnlichkeit kann nicht darauf zurückzuführen sein, dass Methoden auf verschiedenen Teilmengen von Klassen ausgeführt werden. Die folgende Abbildung zeigt die konsistente relative Leistung über verschiedene Klassen hinweg, wobei die Oracle NN-Abrufbasislinie von allen das beste Ergebnis erzielt Methoden, die eine hohe Varianz für alle Klassen beobachten.

Darüber hinaus könnte die Anzahl der für eine Klasse verfügbaren Trainingsbeispiele zu der Annahme führen, dass sie die Leistung pro Klasse beeinflusst. Wie jedoch in der folgenden Abbildung dargestellt, hat die Anzahl der für eine Klasse verfügbaren Trainingsbeispiele keinen Einfluss auf die Leistung pro Klasse, und die Anzahl der Beispiele in einer Klasse und ihr mittlerer IoU-Score korrelieren nicht.

Qualitative Analyse

Die im obigen Abschnitt diskutierten quantitativen Ergebnisse werden durch qualitative Ergebnisse untermauert, wie in der folgenden Abbildung dargestellt.

Für die meisten Klassen gibt es keinen signifikanten Unterschied zwischen der Clustering-Basislinie und den Vorhersagen, die von Decoder-basierten Methoden getroffen werden. Der Clustering-Ansatz liefert keine Ergebnisse, wenn der Abstand zwischen der Stichprobe und der mittleren Clusterform groß ist oder wenn die mittlere Form selbst den Cluster nicht gut genug beschreiben kann. Andererseits liefern Frameworks, die decoderbasierte Methoden und eine Retrieval-Architektur verwenden, die genauesten und ansprechendsten Ergebnisse, da sie feine Details in das generierte 3D-Modell einbeziehen können.

Einzelansicht-3D-Rekonstruktion: Abschließende Gedanken

In diesem Artikel haben wir über die Einzelansicht-3D-Objektrekonstruktion gesprochen und darüber, wie sie funktioniert, und über zwei Baselines gesprochen: Retrieval und Classification, wobei der Retrieval-Baseline-Ansatz aktuelle Modelle auf dem neuesten Stand übertrifft. Endlich aber Einzelansicht-3D-Objektrekonstruktion ist eines der heißesten und am meisten erforschten Themen in der KI-Community, und obwohl in den letzten Jahren erhebliche Fortschritte erzielt wurden, ist die Einzelansicht-3D-Objektrekonstruktion noch lange nicht perfekt, und in den kommenden Jahren müssen erhebliche Hindernisse überwunden werden.

Verwandte Themen:3D-Objekt 3D-Rekonstruktion