Kunstig intelligens

Hvordan fungerer Single-View 3D-Rekonstruktion?

Published January 19, 2024

Updated April 4, 2026

Kunal Kejriwal

Traditionelt har modeller for single-view-objektrekonstruktion, der er baseret på convolutionelle neurale netværk, vist bemærkelsesværdig præstation i rekonstruktionsopgaver. I de seneste år er single-view 3D-rekonstruktion blevet en populær forskningsemne i AI-samfundet. Uanset den specifikke metode, der anvendes, deler alle single-view 3D-rekonstruktionsmodeller den fælles tilgang med at inkorporere et encoder-decoder-netværk i deres ramme. Dette netværk udfører kompleks resonnering om 3D-strukturen i output-rummet.

I denne artikel vil vi udforske, hvordan single-view 3D-rekonstruktion fungerer i realtid, og de nuværende udfordringer, disse rammer står overfor i rekonstruktionsopgaver. Vi vil diskutere forskellige nøglekomponenter og metoder, der anvendes af single-view 3D-rekonstruktionsmodeller, og udforske strategier, der kan forbedre disse rammers præstation. Derudover vil vi analysere resultaterne, der er produceret af state-of-the-art-rammer, der anvender encoder-decoder-metoder. Lad os dykke ned i det.

Single-View 3D-Objektrekonstruktion

Single-view 3D-objektrekonstruktion indebærer generering af en 3D-model af et objekt fra en enkelt synsvinkel, eller i simple vendinger, fra et enkelt billede. For eksempel, at slutte sig til 3D-strukturen af et objekt, såsom en motorcykel fra et billede, er en kompleks proces. Den kombinerer viden om den strukturelle anordning af dele, lavniveauer-billede-henvisninger og højniveauer-semantisk information. Dette spektrum omfatter to hovedaspekter: rekonstruktion og genkendelse. Rekonstruktionsprocessen skelner 3D-strukturen af input-billedet ved hjælp af hints som skygge, tekstur og visuelle effekter. Til gengæld klassificerer genkendelsesprocessen input-billedet og henter en passende 3D-model fra en database.

Nuværende single-view 3D-objektrekonstruktionsmodeller kan variere i arkitektur, men de er forenet af inklusionen af en encoder-decoder-struktur i deres ramme. I denne struktur kortlægger encoderen input-billedet til en latent repræsentation, mens decoderen udfører komplekse slutninger om 3D-strukturen af output-rummet. For at udføre denne opgave skal netværket integrere både højt- og lavtniveau-information. Derudover afhænger mange state-of-the-art encoder-decoder-metoder af genkendelse til single-view 3D-rekonstruktion, hvilket begrænser deres rekonstruktionsmuligheder. Desuden kan præstationen af moderne convolutionelle neurale netværk i single-view 3D-objektrekonstruktion overgås uden at slutte sig til 3D-objektets struktur. Men dominansen af genkendelse i convolutionelle netværk i single-view-objektrekonstruktionsopgaver påvirkes af forskellige eksperimentelle procedurer, herunder evalueringprotokoller og datasætsammensætning. Sådanne faktorer giver rammen mulighed for at finde en genvej-løsning, i dette tilfælde, billedgenkendelse.

Traditionelt nærmer single-view 3D-objektrekonstruktionsrammer sig rekonstruktionsopgaverne ved hjælp af shape-from-shading-tilgangen, med tekstur og defokus som eksotiske visninger til rekonstruktionsopgaverne. Da disse teknikker anvender en enkelt dybde-henvisning, kan de give begrundelse for de synlige dele af en overflade. Derudover anvender mange single-view 3D-rekonstruktionsrammer multiple hints sammen med strukturel viden til at estimerer dybde fra et enkelt monokulært billede, en kombination der giver disse rammer mulighed for at forudsige dybden af de synlige overflader. Mere nylige dybde-estimeringsrammer anvender convolutionelle neurale netværksstrukturer til at trække dybde i et monokulært billede.

Men til effektiv single-view 3D-rekonstruktion skal modellerne ikke kun slutte sig til 3D-strukturen af de synlige objekter i billedet, men de skal også hallucinere de usynlige dele i billedet ved hjælp af visse priorer, der er lært fra data. For at opnå dette anvender de fleste modeller i øjeblikket trænede convolutionelle neurale netværksstrukturer til at kortlægge 2D-billeder til 3D-former ved hjælp af direkte 3D-overvågning, hvorimod mange andre rammer anvender en voxel-baseret repræsentation af 3D-form og anvender en latent repræsentation til at generere 3D-op-konvolutioner. Visse rammer partitionerer også output-rummet hierarkisk for at forbedre beregnings- og hukommelseseffektivitet, hvilket giver modellen mulighed for at forudsige højere opløsninger af 3D-former. Nylig forskning fokuserer på at anvende svagere former for overvågning til single-view 3D-form-forudsigelser ved hjælp af convolutionelle neurale netværk, enten ved at sammenligne forudsagte former og deres grund-sandhed-forudsigelser for at træne form-regressorer eller ved at anvende multiple lærings-signaler til at træne middel-former, der hjælper modellen til at forudsige deformationer. En anden grund til de begrænsede fremskridt i single-view 3D-rekonstruktion er den begrænsede mængde træningsdata, der er tilgængelig for opgaven.

Ved at gå videre er single-view 3D-rekonstruktion en kompleks opgave, da den ikke kun fortolker visuel data geometrisk, men også semantisk. Selv om de ikke er helt forskellige, dækker de dog forskellige spektre fra geometrisk rekonstruktion til semantisk genkendelse. Rekonstruktionsopgaver kræver per-pixel-slutninger om 3D-strukturen af objektet i billedet. Rekonstruktionsopgaver kræver ikke semantisk forståelse af billedindholdet, og det kan opnås ved hjælp af lavniveauer-billede-henvisninger, herunder tekstur, farve, skygge, skygger, perspektiv og fokus. Genkendelse er på den anden side en ekstrem tilfælde af at anvende billed-semantik, da genkendelsesopgaver anvender hele objekter og klassificerer objektet i input og henter den tilsvarende form fra databasen. Selv om genkendelsesopgaver kan give robuste slutninger om objektdelene, der ikke er synlige i billederne, er den semantiske løsning kun mulig, hvis den kan forklares af et objekt, der er til stede i databasen.

Selv om genkendelse og rekonstruktionsopgaver kan være forskellige fra hinanden, ignorerer de begge værdifuld information i input-billedet. Det er rådeligt at anvende begge disse opgaver i forening med hinanden for at opnå de bedst mulige resultater og præcise 3D-former til objektrekonstruktion, dvs. for optimal single-view 3D-rekonstruktion, skal modellen anvende strukturel viden, lavniveauer-billede-henvisninger og højt-niveau-forståelse af objektet.

Single-View 3D-Rekonstruktion: Konventionel Opsætning

For at forklare den konventionelle opsætning og analysere opsætningen af en single-view 3D-rekonstruktionsramme, vil vi anvende en standardopsætning til at estimerer 3D-formen ved hjælp af en enkelt synsvinkel eller billede af objektet. Datasættet, der anvendes til træningsformål, er ShapeNet-datasættet, og evaluerer præstationen på tværs af 13 klasser, hvilket giver modellen mulighed for at forstå, hvordan antallet af klasser i et datasæt bestemmer form-estimeringspræstationen af modellen.

De fleste moderne convolutionelle neurale netværk anvender et enkelt billede til at forudsige højopløsnings-3D-modeller, og disse rammer kan kategoriseres på basis af output-repræsentationen: dybde-kort, punkt-skyer og voxel-gitter. Modellen anvender OGN eller Octree-Generating-Netværk som sin repræsentative metode, der historisk har overgået voxel-gitter-tilgangen og/eller kan dække den dominerende output-repræsentation. I modsætning til eksisterende metoder, der anvender output-repræsentationer, giver OGN-tilgangen modellen mulighed for at forudsige højopløsnings-former og anvender oktræer til at repræsentere det besatte rum effektivt.

Baselines

For at evaluere resultaterne anvender modellen to baselines, der betragter problemet som en ren genkendelsesopgave. Den første baseline er baseret på klastering, mens den anden baseline udfører database-henting.

Klastering

I klasteringsbaselinen anvender modellen K-Means-algoritmen til at klaster eller gruppere trænings-formerne i K-underkategorier og kører algoritmen på 32*32*32 voxeliseringer, der er fladet ud i en vektor. Efter at have bestemt klaster-tilknytningerne skifter modellen tilbage til at arbejde med modeller med højere opløsning. Modellen beregner herefter middel-formen inden for hver klaster og tærskler middel-formerne, hvor den optimale værdi beregnes ved at maksimere den gennemsnitlige IoU eller Intersection over Union over modellerne. Da modellen kender relationen mellem 3D-formerne og billederne i træningsdata, kan modellen let matche billedet med dets tilsvarende klaster.

Henting

Hentingsbaselinen lærer at indlejre former og billeder i et fælles rum. Modellen betragter den parvise lignende 3D-matrix-former i træningssættet for at konstruere indlejringen. Modellen opnår dette ved at anvende Multi-Dimensional Scaling med Sammon-mapping-tilgang til at komprimere hver række i matricen til en lav-dimensionel beskriver. Derudover for at beregne lignende mellem to vilkårlige former anvender modellen light field-beskrivelsen. Desuden træner modellen et convolutionelt neuralt netværk til at kortlægge billeder til en beskriver for at indlejre billederne i rummet.

Analys

Single-view 3D-rekonstruktionsmodeller følger forskellige strategier, hvilket resulterer i, at de overgår andre modeller i visse områder, mens de falder kort i andre. For at sammenligne forskellige rammer og evaluere deres præstation, har vi forskellige metrikker, en af dem er den gennemsnitlige IoU-score.

Som det kan ses i billedet ovenfor, leverer nuværende state-of-the-art 3D-rekonstruktionsmodeller næsten ens præstation, trods forskellige arkitekturer. Det er dog interessant at bemærke, at trods at det er en ren genkendelsesmetode, overgår hentingsrammen andre modeller i forhold til gennemsnitlige og median IoU-scores. Klasteringsrammen leverer solide resultater og overgår AtlasNet-, OGN- og Matryoshka-rammerne. Det mest uventede resultat af denne analyse er dog, at Oracle NN overgår alle andre metoder, trods at den anvender en perfekt hentingsarkitektur. Selv om beregning af den gennemsnitlige IoU-score hjælper med at sammenligne, giver det ikke det fulde billede, da variationen i resultater er høj, uanset modellen.

Fælles Evaluering Metrikker

Single-View 3D-Rekonstruktionsmodeller anvender ofte forskellige evaluering metrikker til at analysere deres præstation på en bred vifte af opgaver. Følgende er nogle af de almindelig anvendte evaluering metrikker.

Intersection Over Union

Den gennemsnitlige Intersection Over Union er en metrik, der almindigt anvendes som en kvantitativ måling til at fungere som en benchmark for single-view 3D-rekonstruktionsmodeller. Selv om IoU giver visse indsigt i modellens præstation, betragtes det ikke som den eneste metrik til at evaluere en metode, da det kun angiver kvaliteten af formen, der er forudsat af modellen, hvis værdierne er tilstrækkeligt høje med en betydelig diskrepans, der observeres mellem lav- og midt-niveau-scores for to givne former.

Chamfer Distance

Chamfer Distance defineres på punkt-skyer og er designet til at kunne anvendes til forskellige 3D-repræsentationer tilfredsstillende. Chamfer Distance-evaluering metrikken er dog meget følsom over for outliers, hvilket gør det til en problematisk måling til at evaluere modellens præstation, hvor afstanden fra outlier til reference-formen betydeligt bestemmer genereringskvaliteten.

F-Score

F-Score er en almindelig evaluering metrik, der aktivt anvendes af de fleste multi-view 3D-rekonstruktionsmodeller. F-Score-metrikken defineres som den harmoniske gennemsnit mellem recall og præcision og evaluerer afstanden mellem overfladerne af objekterne eksplicit. Præcision tæller procentdelen af rekonstruerede punkter, der ligger inden for en foruddefineret afstand til sandheden, for at måle nøjagtigheden af rekonstruktionen. Recall tæller på den anden side procentdelen af punkter på sandheden, der ligger inden for en foruddefineret afstand til rekonstruktionen for at måle fuldstændigheden af rekonstruktionen. Desuden kan udviklere kontrollere strengtheden af F-Score-metrikken ved at variere afstandsgrænsen.

Per-Klasse Analyse

Ligheden i præstation, der leveres af ovennævnte rammer, kan ikke være et resultat af metoder, der kører på forskellige undermængder af klasser, og følgende figur demonstrerer den konstante relative præstation på tværs af forskellige klasser, hvor Oracle NN-hentingsbaselinen opnår det bedste resultat af dem alle, og alle metoder observerer høj variation for alle klasser.

Desuden kan antallet af træningseksemplarer, der er tilgængelige for en klasse, føre en til at antage, at det påvirker præstationen per klasse. Men som demonstreret i følgende figur, påvirker antallet af træningseksemplarer, der er tilgængelige for en klasse, ikke præstationen per klasse, og antallet af eksemplarer i en klasse og dens gennemsnitlige IoU-score er ikke korreleret.

Kvalitativ Analyse

De kvantitative resultater, der er diskuteret i afsnittet ovenfor, støttes af kvalitative resultater, som vist i følgende billede.

For de fleste klasser er der ingen betydelig forskel mellem klasteringsbaselinen og forudsigelserne, der er lavet af decoder-baserede metoder. Klasteringsmetoden kan ikke levere resultater, når afstanden mellem eksemplaret og middel-klaster-formen er høj, eller i situationer, hvor middel-formen ikke kan beskrive klyngen tilstrækkeligt. På den anden side leverer rammer, der anvender decoder-baserede metoder og hentingsarkitektur, de mest præcise og tillokkende resultater, da de kan inkludere fine detaljer i den genererede 3D-model.

Single-View 3D-Rekonstruktion: Endelige Tanker

I denne artikel har vi talt om Single-View 3D-Objektrekonstruktion og diskuteret, hvordan det fungerer, og diskuteret to baselines: Henting og Klasseificering, hvor hentingsbaselinen overgår nuværende state-of-the-art-modeller. Til sidst, selv om Single-View 3D-Objektrekonstruktion er et af de hotteste emner og mest forskede emner i AI-samfundet, og trods betydelige fremskridt i de seneste år, er Single-View 3D-Objektrekonstruktion langt fra at være perfekt med betydelige vejblokkeringer at overvinde i de kommende år.

Related Topics:3D object 3D Reconstruction