Connect with us

Künstliche Intelligenz

Wie funktioniert die 3D-Rekonstruktion aus einer einzigen Ansicht?

mm

Traditionell haben Modelle für die 3D-Rekonstruktion von Objekten aus einer einzigen Ansicht, die auf konvolutionellen neuronalen Netzen basieren, bemerkenswerte Leistungen bei Rekonstruktionsaufgaben gezeigt. In den letzten Jahren ist die 3D-Rekonstruktion aus einer einzigen Ansicht zu einem beliebten Forschungsthema in der KI-Gemeinschaft geworden. Unabhängig von der spezifischen Methodik, die eingesetzt wird, teilen sich alle Modelle für die 3D-Rekonstruktion aus einer einzigen Ansicht den gemeinsamen Ansatz, ein Encoder-Decoder-Netzwerk innerhalb ihres Rahmens zu integrieren. Dieses Netzwerk führt komplexe Überlegungen zur 3D-Struktur im Ausgaberaum durch.

In diesem Artikel werden wir erkunden, wie die 3D-Rekonstruktion aus einer einzigen Ansicht in Echtzeit funktioniert und welche Herausforderungen diese Rahmenbedingungen bei Rekonstruktionsaufgaben haben. Wir werden verschiedene Schlüsselkomponenten und Methoden diskutieren, die von Modellen für die 3D-Rekonstruktion aus einer einzigen Ansicht verwendet werden, und Strategien erforschen, die die Leistung dieser Rahmenbedingungen verbessern könnten. Darüber hinaus werden wir die Ergebnisse analysieren, die von state-of-the-art-Rahmenbedingungen erzeugt werden, die Encoder-Decoder-Methoden verwenden. Lass uns hineintauchen.

3D-Objekt-Rekonstruktion aus einer einzigen Ansicht

Die 3D-Objekt-Rekonstruktion aus einer einzigen Ansicht beinhaltet die Erstellung eines 3D-Modells eines Objekts aus einer einzigen Perspektive, oder in einfacheren Worten, aus einem einzigen Bild. Zum Beispiel ist die Ableitung der 3D-Struktur eines Objekts, wie eines Motorrads, aus einem Bild ein komplexer Prozess. Es kombiniert Kenntnisse über die strukturelle Anordnung von Teilen, niedrige Bildhinweise und hohe semantische Informationen. Dieses Spektrum umfasst zwei Hauptaspekte: Rekonstruktion und Erkennung. Der Rekonstruktionsprozess erkennt die 3D-Struktur des Eingabebildes mithilfe von Hinweisen wie Schattierung, Textur und visuellen Effekten. Im Gegensatz dazu klassifiziert der Erkennungsprozess das Eingabebild und ruft ein geeignetes 3D-Modell aus einer Datenbank ab.

Aktuelle Modelle für die 3D-Objekt-Rekonstruktion aus einer einzigen Ansicht können in ihrer Architektur variieren, aber sie sind durch die Einbeziehung einer Encoder-Decoder-Struktur in ihrem Rahmen vereint. In dieser Struktur ordnet der Encoder das Eingabebild einer latenten Darstellung zu, während der Decoder komplexe Überlegungen zur 3D-Struktur des Ausgaberaums anstellt. Um diese Aufgabe erfolgreich auszuführen, muss das Netzwerk sowohl hoch- als auch niedrige Informationen integrieren. Darüber hinaus verlassen sich viele state-of-the-art-Encoder-Decoder-Methoden auf die Erkennung für die 3D-Rekonstruktion aus einer einzigen Ansicht, was ihre Rekonstruktionsfähigkeiten begrenzt. Darüber hinaus kann die Leistung moderner konvolutioneller neuronaler Netze bei der 3D-Objekt-Rekonstruktion aus einer einzigen Ansicht übertroffen werden, ohne die 3D-Objektstruktur explizit abzuleiten. Die Dominanz der Erkennung in konvolutionellen Netzen bei der 3D-Objekt-Rekonstruktion aus einer einzigen Ansicht wird jedoch durch verschiedene experimentelle Verfahren beeinflusst, einschließlich Evaluierungsprotokollen und Datensatzzusammensetzung. Solche Faktoren ermöglichen es dem Rahmen, eine Abkürzungslösung zu finden, in diesem Fall die Bilderkennung.

Traditionell nähern sich Rahmenbedingungen für die 3D-Objekt-Rekonstruktion aus einer einzigen Ansicht Rekonstruktionsaufgaben mit dem Ansatz “Form aus Schattierung” an, wobei Textur und Unschärfen als exotische Ansichten für die Rekonstruktionsaufgaben dienen. Da diese Techniken einen einzelnen Tiefenhinweis verwenden, sind sie in der Lage, eine Begründung für die sichtbaren Teile einer Oberfläche zu liefern. Darüber hinaus verwenden viele Rahmenbedingungen für die 3D-Rekonstruktion aus einer einzigen Ansicht mehrere Hinweise sowie strukturelles Wissen, um die Tiefe aus einem einzelnen monokularen Bild zu schätzen, eine Kombination, die es diesen Rahmenbedingungen ermöglicht, die Tiefe der sichtbaren Oberflächen vorherzusagen. Neuere Tiefenschätzungsräume setzen konvolutionelle neuronale Netzstrukturen ein, um die Tiefe in einem monokularen Bild zu extrahieren. 

Für eine effektive 3D-Rekonstruktion aus einer einzigen Ansicht müssen Modelle jedoch nicht nur über die 3D-Struktur der sichtbaren Objekte im Bild nachdenken, sondern auch die unsichtbaren Teile im Bild mithilfe bestimmter Priors, die aus den Daten gelernt wurden, hallucinieren. Um dies zu erreichen, setzen die meisten Modelle derzeit trainierte konvolutionelle neuronale Netzstrukturen ein, um 2D-Bilder in 3D-Formen mithilfe direkter 3D-Überwachung zu kartieren, während viele andere Rahmenbedingungen eine voxelbasierte Darstellung der 3D-Form verwenden und eine latente Darstellung verwenden, um 3D-Up-Konvolutionen zu erzeugen. Bestimmte Rahmenbedingungen partitionieren auch den Ausgaberaum hierarchisch, um die Rechen- und Speichereffizienz zu verbessern, was es dem Modell ermöglicht, höher auflösende 3D-Formen vorherzusagen. Aktuelle Forschung konzentriert sich auf die Verwendung schwächerer Formen der Überwachung für die 3D-Formvorhersage aus einer einzigen Ansicht mithilfe konvolutioneller neuronaler Netze, entweder durch Vergleichen der vorhergesagten Formen und ihrer Ground-Truth-Vorhersagen, um Formregressoren zu trainieren, oder durch Verwenden mehrerer Lernsignale, um mittlere Formen zu trainieren, die dem Modell helfen, Deformationen vorherzusagen. Ein weiterer Grund für die begrenzten Fortschritte bei der 3D-Rekonstruktion aus einer einzigen Ansicht ist die begrenzte Menge an Trainingsdaten, die für diese Aufgabe verfügbar sind. 

Weiterhin ist die 3D-Rekonstruktion aus einer einzigen Ansicht eine komplexe Aufgabe, da sie nicht nur visuelle Daten geometrisch, sondern auch semantisch interpretiert. Obwohl sie nicht völlig unterschiedlich sind, umspannen sie unterschiedliche Spektren von geometrischer Rekonstruktion bis hin zur semantischen Erkennung. Rekonstruktionsaufgaben erfordern eine Pixel-weise Überlegung der 3D-Struktur des Objekts im Bild. Rekonstruktionsaufgaben erfordern keine semantische Verständnis des Inhalts des Bildes und können mithilfe niedriger Bildhinweise wie Textur, Farbe, Schattierung, Schatten, Perspektive und Fokus erreicht werden. Die Erkennung hingegen ist ein extremer Fall der Verwendung von Bildsemantik, da Erkennungsaufgaben ganze Objekte verwenden und es sich um die Klassifizierung des Objekts im Eingabebild und die Abrufung der entsprechenden Form aus der Datenbank handelt. Obwohl Erkennungsaufgaben robuste Überlegungen zu den nicht sichtbaren Teilen des Objekts im Bild liefern können, ist die semantische Lösung nur dann machbar, wenn sie durch ein Objekt in der Datenbank erklärt werden kann. 

Obwohl Erkennungs- und Rekonstruktionsaufgaben sich erheblich voneinander unterscheiden können, ignorieren sie beide wertvolle Informationen, die im Eingabebild enthalten sind. Es ist ratsam, diese beiden Aufgaben in Verbindung miteinander zu verwenden, um die besten möglichen Ergebnisse zu erzielen und genaue 3D-Formen für die Objektrekonstruktion zu erhalten, d. h. für die optimale 3D-Rekonstruktion aus einer einzigen Ansicht sollte das Modell strukturelles Wissen, niedrige Bildhinweise und ein hohes Verständnis des Objekts verwenden. 

3D-Rekonstruktion aus einer einzigen Ansicht: Konventionelle Einrichtung

Um die konventionelle Einrichtung zu erklären und die Einrichtung eines Rahmens für die 3D-Rekonstruktion aus einer einzigen Ansicht zu analysieren, werden wir eine Standard-Einrichtung für die Schätzung der 3D-Form mithilfe eines einzelnen Bildes oder einer einzigen Ansicht des Objekts verwenden. Der Datensatz, der für Trainingszwecke verwendet wird, ist der ShapeNet-Datensatz, und evaluiert die Leistung über 13 Klassen, was es dem Modell ermöglicht, zu verstehen, wie die Anzahl der Klassen in einem Datensatz die Form-Schätzung des Modells bestimmt.

Die meisten modernen konvolutionellen neuronalen Netze verwenden ein einzelnes Bild, um hochauflösende 3D-Modelle vorherzusagen, und diese Rahmenbedingungen können auf der Grundlage der Darstellung ihrer Ausgabe in Kategorien eingeteilt werden: Tiefenkarten, Punktwolken und Voxel-Gitter. Das Modell verwendet OGN oder Octree-Generierungsnetze als seine repräsentative Methode, die historisch gesehen die Voxel-Gitter-Ansatz übertroffen hat und/oder die dominanten Ausgabedarstellungen abdecken kann. Im Gegensatz zu bestehenden Methoden, die Ausgabedarstellungen verwenden, ermöglicht der OGN-Ansatz dem Modell, hochauflösende Formen vorherzusagen und verwendet Octrees, um den belegten Raum effizient zu repräsentieren. 

Referenzwerte

Um die Ergebnisse zu bewerten, setzt das Modell zwei Referenzwerte ein, die das Problem rein als eine Erkennungsaufgabe betrachten. Der erste Referenzwert basiert auf der Clusterbildung, während der zweite Referenzwert die Datenbankabfrage durchführt. 

Clusterbildung

Beim Cluster-Referenzwert verwendet das Modell den K-Means-Algorithmus, um die Trainingsformen in K-Subkategorien zu clustern oder zu gruppieren, und führt den Algorithmus auf 32*32*32-Voxelisierungen aus, die in einen Vektor flachgezogen werden. Nach der Bestimmung der Clusterzuweisungen wechselt das Modell zurück zur Arbeit mit Modellen mit höherer Auflösung. Das Modell berechnet dann die mittlere Form innerhalb jedes Clusters und schwellt die mittleren Formen, wobei der optimale Wert durch Maximieren des mittleren IoU oder der Überlappung über die Modelle berechnet wird. Da das Modell die Beziehung zwischen den 3D-Formen und den Bildern im Trainingsdatensatz kennt, kann das Modell das Bild leicht mit seinem entsprechenden Cluster abgleichen. 

Abfrage

Der Abfrage-Referenzwert lernt, Formen und Bilder in einem gemeinsamen Raum zu einbetten. Das Modell betrachtet die paargeweise Ähnlichkeit von 3D-Formen im Trainingsdatensatz, um den Einbettungsraum zu konstruieren. Das Modell erreicht dies, indem es den Ansatz des multi-dimensionalen Skalierens mit der Sammon-Abbildung verwendet, um jeden Zeile in der Matrix zu einem niedrigdimensionalen Deskriptor zu komprimieren. Darüber hinaus berechnet das Modell, um die Ähnlichkeit zwischen zwei beliebigen Formen zu berechnen, den Lichtfeld-Deskriptor. Zusätzlich trainiert das Modell ein konvolutionelles neuronales Netz, um Bilder in einen Deskriptor zu kartieren, um die Bilder in den Raum einzuhausen. 

Analyse

Modelle für die 3D-Rekonstruktion aus einer einzigen Ansicht verfolgen unterschiedliche Strategien, wodurch sie in bestimmten Bereichen andere Modelle übertreffen, während sie in anderen Bereichen hinter ihnen zurückbleiben. Um verschiedene Rahmenbedingungen zu vergleichen und ihre Leistung zu bewerten, haben wir verschiedene Metriken, eine davon ist der mittlere IoU-Wert. 

Wie aus dem obigen Bild hervorgeht, liefern aktuelle state-of-the-art-3D-Rekonstruktionsmodelle trotz unterschiedlicher Architekturen fast identische Leistungen. Es ist jedoch interessant zu beachten, dass die Abfrage-Rahmenbedingung, obwohl sie eine reine Erkennungsmethode ist, die Abfrage-Rahmenbedingung andere Modelle in Bezug auf den mittleren und den Median-IoU-Wert übertroffen hat. Die Cluster-Rahmenbedingung liefert solide Ergebnisse und übertrifft die AtlasNet-, die OGN- und die Matryoshka-Rahmenbedingungen. Die überraschendste Folge dieser Analyse bleibt jedoch die Oracle-NN, die alle anderen Methoden übertroffen hat, obwohl sie eine perfekte Abfrage-Architektur verwendet. Obwohl die Berechnung des mittleren IoU-Werts hilft, ist dies nicht ausreichend, um die Modelle zu vergleichen, da die Varianz in den Ergebnissen unabhängig vom Modell hoch ist. 

Gängige Bewertungsmetriken

Modelle für die 3D-Rekonstruktion aus einer einzigen Ansicht verwenden oft verschiedene Bewertungsmetriken, um ihre Leistung bei einer Vielzahl von Aufgaben zu analysieren. Folgende sind einige der gängigsten Bewertungsmetriken. 

Überlappung

Der Mittelwert der Überlappung ist eine Metrik, die häufig als quantitative Messung verwendet wird, um als Benchmark für Modelle für die 3D-Rekonstruktion aus einer einzigen Ansicht zu dienen. Obwohl die IoU einige Einblicke in die Leistung des Modells bietet, wird sie nicht als einzige Metrik zur Bewertung einer Methode betrachtet, da sie die Qualität der vom Modell vorhergesagten Form nur dann angibt, wenn die Werte ausreichend hoch sind, wobei ein signifikanter Unterschied zwischen den niedrigen und mittleren Werten für zwei gegebene Formen beobachtet wird. 

Chamfer-Distanz

Die Chamfer-Distanz ist auf Punktwolken definiert und wurde so konzipiert, dass sie auf verschiedene 3D-Darstellungen zufriedenstellend angewendet werden kann. Die Chamfer-Distanz-Bewertungsmetrik ist jedoch sehr empfindlich gegenüber Ausreißern, was sie zu einer problematischen Messung für die Bewertung der Modellleistung macht, wobei die Distanz des Ausreißers von der Referenzform die Generierungsqualität erheblich bestimmt. 

F-Score

Der F-Score ist eine gängige Bewertungsmetrik, die von den meisten multi-view-3D-Rekonstruktionsmodellen aktiv verwendet wird. Der F-Score-Metrik wird als harmonischer Mittelwert zwischen Recall- und Präzisionswert definiert und bewertet den Abstand zwischen den Oberflächen der Objekte explizit. Die Präzision zählt den Prozentsatz der rekonstruierten Punkte, die innerhalb eines vordefinierten Abstands zur Ground-Truth liegen, um die Genauigkeit der Rekonstruktion zu messen. Der Recall hingegen zählt den Prozentsatz der Punkte auf der Ground-Truth, die innerhalb eines vordefinierten Abstands zur Rekonstruktion liegen, um die Vollständigkeit der Rekonstruktion zu messen. Darüber hinaus kann durch Variation des Abstands-Schwellenwerts die Strenge der F-Score-Metrik gesteuert werden. 

Pro-Klassen-Analyse

Die Ähnlichkeit in der Leistung, die von den oben genannten Rahmenbedingungen geliefert wird, kann nicht das Ergebnis von Methoden sein, die auf unterschiedlichen Teilmengen von Klassen laufen, und die folgende Abbildung zeigt die konsistente relative Leistung über verschiedene Klassen, wobei die Oracle-NN-Abfrage-Baseline das beste Ergebnis von allen erzielt und alle Methoden eine hohe Varianz für alle Klassen aufweisen.  

Darüber hinaus könnte die Anzahl der Trainingsbeispiele, die für eine Klasse verfügbar sind, zu der Annahme führen, dass sie die Leistung pro Klasse beeinflusst. Wie jedoch in der folgenden Abbildung gezeigt wird, beeinflusst die Anzahl der Trainingsbeispiele, die für eine Klasse verfügbar sind, die Leistung pro Klasse nicht, und die Anzahl der Beispiele in einer Klasse und ihr mittlerer IoU-Wert sind nicht korreliert. 

Qualitative Analyse

Die quantitativen Ergebnisse, die in dem oben genannten Abschnitt diskutiert wurden, werden durch qualitative Ergebnisse gestützt, wie in der folgenden Abbildung gezeigt. 

Für die meisten Klassen gibt es keinen signifikanten Unterschied zwischen der Cluster-Baseline und den Vorhersagen, die von decoderbasierten Methoden gemacht werden. Der Cluster-Ansatz schlägt fehl, wenn der Abstand zwischen dem Beispiel und der mittleren Cluster-Form hoch ist oder wenn die mittlere Form selbst den Cluster nicht gut genug beschreiben kann. Andererseits liefern Rahmenbedingungen, die decoderbasierte Methoden und Abfrage-Architekturen verwenden, die genauesten und ansprechendsten Ergebnisse, da sie in der Lage sind, feine Details in das generierte 3D-Modell einzubeziehen. 

3D-Rekonstruktion aus einer einzigen Ansicht: Abschließende Gedanken

In diesem Artikel haben wir über die 3D-Objekt-Rekonstruktion aus einer einzigen Ansicht gesprochen und darüber, wie sie funktioniert, und haben zwei Baselines besprochen: Abfrage und Klassifizierung, wobei die Abfrage-Baseline die aktuellen state-of-the-art-Modelle übertroffen hat. Schließlich ist die 3D-Objekt-Rekonstruktion aus einer einzigen Ansicht, obwohl sie eines der heißesten Themen und am meisten erforschten Themen in der KI-Gemeinschaft ist, und trotz der erheblichen Fortschritte in den letzten Jahren, die 3D-Objekt-Rekonstruktion aus einer einzigen Ansicht noch weit von der Perfektion entfernt, mit erheblichen Hindernissen, die in den kommenden Jahren überwunden werden müssen. 

Ein Ingenieur von Beruf, ein Schriftsteller von Herzen. Kunal ist ein technischer Schriftsteller mit einer tiefen Liebe und einem tiefen Verständnis für KI und ML, der sich der Aufgabe widmet, komplexe Konzepte in diesen Bereichen durch seine ansprechenden und informativen Dokumentationen zu vereinfachen.