Kunstmatige intelligentie

Hoe werkt Single-View 3D Reconstructie?

Published January 19, 2024

Updated April 4, 2026

Kunal Kejriwal

Traditioneel hebben modellen voor single-view objectreconstructie, die zijn gebouwd op convolutionele neurale netwerken, een opmerkelijke prestatie laten zien in reconstructietaken. In de afgelopen jaren is single-view 3D reconstructie een populair onderzoeksgebied geworden in de AI-gemeenschap. Ongeacht de specifieke methodologie die wordt gebruikt, delen alle single-view 3D reconstructiemodellen de gemeenschappelijke aanpak van het incorporeren van een encoder-decoder netwerk binnen hun kader. Dit netwerk voert complexe redeneringen uit over de 3D-structuur in de uitvoerruimte.

In dit artikel zullen we onderzoeken hoe single-view 3D reconstructie in real-time werkt en de huidige uitdagingen waar deze kaders mee te maken krijgen bij reconstructietaken. We zullen verschillende belangrijke componenten en methoden bespreken die worden gebruikt door single-view 3D reconstructiemodellen en strategieën onderzoeken die de prestaties van deze kaders kunnen verbeteren. Bovendien zullen we de resultaten analyseren die worden geproduceerd door state-of-the-art kaders die encoder-decoder methoden gebruiken. Laten we erin duiken.

Single-View 3D Object Reconstructie

Single-view 3D object reconstructie houdt in dat een 3D-model van een object wordt gegenereerd vanuit een enkel gezichtspunt, of in eenvoudiger bewoordingen, vanuit een enkele afbeelding. Bijvoorbeeld, het afleiden van de 3D-structuur van een object, zoals een motorfiets vanuit een afbeelding, is een complex proces. Het combineert kennis van de structuur van onderdelen, lage-niveau beeldsignalen en hoge-niveau semantische informatie. Dit spectrum omvat twee belangrijke aspecten: reconstructie en herkenning. Het reconstructieproces onderscheidt de 3D-structuur van de invoerbeeld met behulp van signalen zoals schaduwen, textuur en visuele effecten. In tegenstelling tot de herkenning, die de invoerbeeld classificeert en een geschikt 3D-model ophaalt uit een database.

Huidige single-view 3D object reconstructiemodellen kunnen variëren in architectuur, maar ze worden verenigd door de incorporatie van een encoder-decoder structuur in hun kader. In deze structuur kaart de encoder de invoerbeeld naar een latent representatie, terwijl de decoder complexe inferenties maakt over de 3D-structuur van de uitvoerruimte. Om deze taak succesvol uit te voeren, moet het netwerk zowel hoge-niveau als lage-niveau informatie integreren. Bovendien zijn veel state-of-the-art encoder-decoder methoden afhankelijk van herkenning voor single-view 3D reconstructietaken, wat hun reconstructiecapaciteiten beperkt. Bovendien kan de prestatie van moderne convolutionele neurale netwerken in single-view 3D object reconstructie worden overtroffen zonder expliciet de 3D objectstructuur af te leiden. Echter, de dominantie van herkenning in convolutionele netwerken in single-view object reconstructietaken wordt beïnvloed door verschillende experimentele procedures, waaronder evaluatieprotocollen en datasetcompositie. Dergelijke factoren stellen het kader in staat om een shortcut-oplossing te vinden, in dit geval beeldherkenning.

Traditioneel gezien nemen single-view 3D object reconstructiekaders de reconstructietaken aan met behulp van de shape from shading-benadering, met textuur en defocus als exotische weergaven voor de reconstructietaken. Aangezien deze technieken een enkele dieptesignaal gebruiken, zijn ze in staat om redeneringen te bieden voor de zichtbare delen van een oppervlak. Bovendien gebruiken veel single-view 3D reconstructiekaders meerdere signalen samen met structurele kennis om diepte te schatten vanuit een enkele monocular beeld, een combinatie die het kader in staat stelt om de diepte van de zichtbare oppervlakken te voorspellen. Meer recente diepteschattingkaders gebruiken convolutionele neurale netwerkstructuren om diepte te extraheren uit een monocular beeld.

Echter, voor effectieve single-view 3D reconstructie, moeten modellen niet alleen redeneren over de 3D-structuur van de zichtbare objecten in de afbeelding, maar moeten ze ook de onzichtbare delen in de afbeelding hallucineren met behulp van bepaalde priors die zijn geleerd van de data. Om dit te bereiken, gebruiken de meeste modellen getrainde convolutionele neurale netwerkstructuren om 2D-afbeeldingen om te zetten in 3D-vormen met behulp van directe 3D-supervisie, terwijl veel andere kaders een voxel-gebaseerde representatie van 3D-vorm gebruiken en een latent representatie gebruiken om 3D up-convoluties te genereren. Bepaalde kaders partitioneren de uitvoerruimte ook hiërarchisch om de berekenings- en geheugenefficiëntie te verbeteren, waardoor het model hogeresolutie 3D-vormen kan voorspellen. Recent onderzoek richt zich op het gebruik van zwakkere vormen van supervisie voor single-view 3D-vormvoorspellingen met convolutionele neurale netwerken, hetzij door de voorspelde vormen en hun grondwaarheidsvoorspellingen te vergelijken om vormregressors te trainen, of door meerdere leersignalen te gebruiken om gemiddelde vormen te trainen die het model in staat stellen om deformities te voorspellen. Een andere reden achter de beperkte vooruitgang in single-view 3D reconstructie is de beperkte hoeveelheid trainingsdata die beschikbaar is voor de taak.

Verdergaand, is single view 3D reconstructie een complexe taak omdat het niet alleen visuele data geometrisch interpreteert, maar ook semantisch. Hoewel ze niet volledig verschillend zijn, beslaan ze verschillende spectrums, van geometrische reconstructie tot semantische herkenning. Reconstructietaken vereisen per-pixel redenering van de 3D-structuur van het object in de afbeelding. Reconstructietaken vereisen geen semantisch begrip van de inhoud van de afbeelding en kunnen worden bereikt met behulp van lage-niveau beeldsignalen, waaronder textuur, kleur, schaduwen, perspectief en focus. Herkenning daarentegen is een extreme vorm van het gebruik van beeldsemantiek, omdat herkenningstaken hele objecten gebruiken en neerkomen op het classificeren van het object in de invoer en het ophalen van de corresponderende vorm uit de database. Hoewel herkenningstaken robuuste redeneringen kunnen bieden over de delen van het object die niet zichtbaar zijn in de afbeeldingen, is de semantische oplossing alleen haalbaar als deze kan worden verklaard door een object dat aanwezig is in de database.

Hoewel herkenning- en reconstructietaken aanzienlijk van elkaar kunnen verschillen, negeren ze beide waardevolle informatie die is opgenomen in de invoerbeeld. Het is aan te raden om beide taken in unison met elkaar te gebruiken om de beste mogelijke resultaten te verkrijgen en nauwkeurige 3D-vormen voor objectreconstructie, d.w.z. voor optimale single-view 3D reconstructietaken, moet het model structurele kennis, lage-niveau beeldsignalen en hoge-niveau begrip van het object gebruiken.

Single-View 3D Reconstructie: Conventionele Opstelling

Om de conventionele opstelling uit te leggen en de opstelling van een single-view 3D reconstructiekader te analyseren, zullen we een standaardopstelling gebruiken voor het schatten van de 3D-vorm met behulp van een enkel gezichtspunt of afbeelding van het object. De dataset die wordt gebruikt voor trainingsdoeleinden is de ShapeNet-dataset, en evalueert de prestaties over 13 klassen, waardoor het model kan begrijpen hoe het aantal klassen in een dataset de vormschattingprestatie van het model bepaalt.

De meeste moderne convolutionele neurale netwerken gebruiken een enkele afbeelding om hoge-resolutie 3D-modellen te voorspellen, en deze kaders kunnen worden gecategoriseerd op basis van de representatie van hun uitvoer: dieptekaarten, puntenwolken en voxelroosters. Het model gebruikt OGN of Octree Generating Networks als zijn representatieve methode, die historisch gezien de voxelroosterbenadering heeft overtroffen en/of kan dekken van de dominante uitvoerrepresentaties. In tegenstelling tot bestaande methoden die uitvoerrepresentaties gebruiken, stelt de OGN-benadering het model in staat om hoge-resolutie vormen te voorspellen en gebruikt octrees om de bezette ruimte efficiënt te representeren.

Baselines

Om de resultaten te evalueren, gebruikt het model twee baselines die het probleem zuiver als een herkenningstaak beschouwen. De eerste baseline is gebaseerd op clustering, terwijl de tweede baseline database-opzoekingen uitvoert.

Clustering

Bij de clustering-baseline gebruikt het model de K-Means-algoritme om de trainingsvormen te clusteren of te groeperen in K subcategorieën, en voert de algoritme uit op 32*32*32 voxelisaties die zijn platgedrukt in een vector. Nadat de clustertoewijzingen zijn bepaald, schakelt het model over naar het werken met modellen met hogere resolutie. Het model berekent vervolgens de gemiddelde vorm binnen elke cluster en thresholdt de gemiddelde vormen waar de optimale waarde wordt berekend door de gemiddelde IoU of Intersection over Union over de modellen te maximaliseren. Aangezien het model de relatie tussen de 3D-vormen en de afbeeldingen in de trainingsdata kent, kan het model gemakkelijk de afbeelding matchen met zijn corresponderende cluster.

Opzoekingen

De opzoekingsbaseline leert om vormen en afbeeldingen in een gezamenlijke ruimte in te bedden. Het model beschouwt de paarwijze gelijkenis van 3D-matrixvormen in de trainingsset om de inbeddingsruimte te construeren. Het model bereikt dit door de Multi-Dimensionale Scaling met Sammon-mapping-benadering te gebruiken om elke rij in de matrix te comprimeren tot een laagdimensionale descriptor. Bovendien, om de gelijkenis tussen twee willekeurige vormen te berekenen, gebruikt het model de light field descriptor. Daarnaast traint het model een convolutioneel neurale netwerk om afbeeldingen om te zetten in een descriptor om de afbeeldingen in de ruimte in te bedden.

Analyse

Single-view 3D reconstructiemodellen volgen verschillende strategieën, waardoor ze andere modellen in sommige gebieden overtreffen, terwijl ze in andere gebieden tekortschieten. Om verschillende kaders te vergelijken en hun prestaties te evalueren, hebben we verschillende metrics, waarvan een de gemiddelde IoU-score is.

Zoals te zien is in de bovenstaande afbeelding, ondanks het feit dat ze verschillende architectuur hebben, leveren de huidige state-of-the-art 3D reconstructiemodellen bijna dezelfde prestaties. Echter, het is interessant om op te merken dat, ondanks het feit dat het een pure herkenningmethode is, de opzoekingsframework de andere modellen overtreft in termen van gemiddelde en mediaan IoU-scores. De clusteringframework levert solide resultaten en overtreft de AtlasNet-, de OGN- en de Matryoshka-frameworks. Echter, de meest onverwachte uitkomst van deze analyse is de Oracle NN die alle andere methoden overtreft, ondanks het feit dat het een perfecte opzoekingsarchitectuur gebruikt. Hoewel het berekenen van de gemiddelde IoU-score helpt bij de vergelijking, geeft het geen volledig beeld, aangezien de variantie in de resultaten hoog is, ongeacht het model.

Algemene Evaluatiemetrics

Single-View 3D Reconstructiemodellen gebruiken vaak verschillende evaluatiemetrics om hun prestaties op een breed scala aan taken te analyseren. Hieronder volgen enkele van de meest gebruikte evaluatiemetrics.

Intersectie Over Unie

De Gemiddelde van Intersectie Over Unie is een metric die vaak wordt gebruikt als een kwantitatieve maatstaf om te dienen als een benchmark voor single-view 3D reconstructiemodellen. Hoewel IoU enige inzicht geeft in de prestaties van het model, wordt het niet beschouwd als de enige metric om een methode te evalueren, aangezien het alleen de kwaliteit van de voorspelde vorm aangeeft als de waarden voldoende hoog zijn, met een aanzienlijk verschil tussen de lage en middelhoge scores voor twee gegeven vormen.

Chamfer Afstand

Chamfer Afstand is gedefinieerd op puntenwolken en is ontworpen om op verschillende 3D-representaties toe te passen. Echter, de Chamfer Afstand evaluatiemetric is zeer gevoelig voor outliers, waardoor het een problematische maatstaf is om de prestaties van het model te evalueren, met de afstand van de outlier tot de referentievorm die aanzienlijk de generatiekwaliteit bepaalt.

F-Score

De F-Score is een algemene evaluatiemetric die actief wordt gebruikt door de meeste multi-view 3D reconstructiemodellen. De F-Score metric is gedefinieerd als de harmonische gemiddelde tussen recall & precisie en evalueert de afstand tussen de oppervlakken van de objecten expliciet. Precisie telt het percentage van gereconstrueerde punten dat binnen een vooraf gedefinieerde afstand tot de grondwaarheid ligt, om de nauwkeurigheid van de reconstructie te meten. Recall daarentegen telt het percentage van punten op de grondwaarheid dat binnen een vooraf gedefinieerde afstand tot de reconstructie ligt, om de volledigheid van de reconstructie te meten. Bovendien kan de strengheid van de F-Score metric worden gecontroleerd door de afstandsdrempel te variëren.

Per-Klasse Analyse

De overeenkomst in prestaties die wordt geleverd door de bovenstaande kaders kan niet het resultaat zijn van methoden die worden uitgevoerd op verschillende subsets van klassen, en de volgende figuur toont de consistente relatieve prestaties over verschillende klassen, met de Oracle NN-opzoekingsbaseline die de beste resultaten behaalt, en alle methoden observeren een hoge variantie voor alle klassen.

Bovendien zou men kunnen aannemen dat het aantal trainingsmonsters dat beschikbaar is voor een klasse de per-klasse prestaties beïnvloedt. Echter, zoals wordt aangetoond in de volgende figuur, beïnvloedt het aantal trainingsmonsters dat beschikbaar is voor een klasse de per-klasse prestaties niet, en zijn het aantal monsters in een klasse en zijn gemiddelde IoU-score niet gecorreleerd.

Kwalitatieve Analyse

De kwantitatieve resultaten die in de bovenstaande sectie worden besproken, worden ondersteund door kwalitatieve resultaten, zoals wordt getoond in de volgende afbeelding.

Voor de meeste klassen is er geen aanzienlijk verschil tussen de clustering-baseline en de voorspellingen die worden gedaan door decoder-gebaseerde methoden. De clusteringbenadering faalt bij het leveren van resultaten wanneer de afstand tussen het monster en de gemiddelde cluster-vorm hoog is, of in situaties waarin de gemiddelde vorm zelf de cluster niet goed kan beschrijven. Aan de andere kant leveren kaders die decoder-gebaseerde methoden en opzoekingsarchitectuur gebruiken de meest nauwkeurige en aantrekkelijke resultaten, aangezien ze in staat zijn om fijne details op te nemen in het gegenereerde 3D-model.

Single View 3D Reconstructie: Eindgedachten

In dit artikel hebben we het gehad over Single View 3D Object Reconstructie en besproken hoe het werkt, en hebben we het gehad over twee baselines: Opzoekingen en Clustering, met de opzoekingsbaselinebenadering die de huidige state-of-the-art modellen overtreft. Ten slotte, hoewel Single View 3D Object Reconstructie een van de meest onderzochte onderwerpen is in de AI-gemeenschap, en ondanks de aanzienlijke vooruitgang die in de afgelopen jaren is geboekt, is Single View 3D Object Reconstructie verre van perfect, met aanzienlijke uitdagingen die in de komende jaren moeten worden overwonnen.

Related Topics:3D object 3D Reconstruction