Inteligență artificială

Cum funcționează reconstrucția 3D cu o singură vedere?

Published January 19, 2024

Updated April 4, 2026

Kunal Kejriwal

În mod tradițional, modelele pentru reconstrucția obiectelor cu o singură vedere, bazate pe rețele neuronale convoluționale, au arătat o performanță remarcabilă în sarcinile de reconstrucție. În ultimii ani, reconstrucția 3D cu o singură vedere a devenit un subiect de cercetare popular în comunitatea de inteligență artificială. Indiferent de metodologia specifică utilizată, toate modelele de reconstrucție 3D cu o singură vedere au în comun abordarea de a incorpora o rețea encoder-decoder în cadrul lor. Această rețea efectuează raționamente complexe despre structura 3D în spațiul de ieșire.

În acest articol, vom explora cum funcționează reconstrucția 3D cu o singură vedere în timp real și care sunt provocările actuale cu care se confruntă aceste cadre în sarcinile de reconstrucție. Vom discuta diverse componente și metode cheie utilizate de modelele de reconstrucție 3D cu o singură vedere și vom explora strategii care ar putea îmbunătăți performanța acestor cadre. De asemenea, vom analiza rezultatele produse de cadrele de ultimă generație care utilizează metodele encoder-decoder. Să începem.

Reconstrucția 3D a obiectelor cu o singură vedere

Reconstrucția 3D a obiectelor cu o singură vedere implică generarea unui model 3D al unui obiect dintr-o singură perspectivă, sau, în termeni mai simpli, dintr-o singură imagine. De exemplu, deducerea structurii 3D a unui obiect, cum ar fi o motocicletă, dintr-o imagine, este un proces complex. Acesta combină cunoștințe despre aranjamentul structural al părților, indicii de imagine de nivel scăzut și informații semantice de nivel înalt. Acest spectru cuprinde două aspecte principale: reconstrucția și recunoașterea. Procesul de reconstrucție distinge structura 3D a imaginii de intrare utilizând indicii precum umbra, textura și efectele vizuale. În contrast, procesul de recunoaștere clasifică imaginea de intrare și recuperează un model 3D adecvat dintr-o bază de date.

Modelele actuale de reconstrucție 3D a obiectelor cu o singură vedere pot varia în ceea ce privește arhitectura, dar sunt unificate prin includerea unei structuri encoder-decoder în cadrul lor. În această structură, encoderul mappează imaginea de intrare la o reprezentare latentă, în timp ce decoderul face inferențe complexe despre structura 3D a spațiului de ieșire. Pentru a executa cu succes această sarcină, rețeaua trebuie să integreze atât informații de nivel înalt, cât și de nivel scăzut. De asemenea, multe metode encoder-decoder de ultimă generație se bazează pe recunoaștere pentru sarcinile de reconstrucție 3D cu o singură vedere, ceea ce limitează capacitățile lor de reconstrucție. Mai mult, performanța rețelelor neuronale convoluționale moderne în reconstrucția 3D a obiectelor cu o singură vedere poate fi depășită fără a infera în mod explicit structura 3D a obiectului. Cu toate acestea, dominația recunoașterii în rețelele neuronale convoluționale în sarcinile de reconstrucție a obiectelor cu o singură vedere este influențată de diverse proceduri experimentale, inclusiv protocoalele de evaluare și compoziția bazei de date. Astfel de factori permit cadrelor să găsească o soluție de ocol, în acest caz, recunoașterea imaginilor.

În mod tradițional, cadrele de reconstrucție 3D a obiectelor cu o singură vedere abordează sarcinile de reconstrucție utilizând abordarea “shape from shading”, cu textură și defocalizare care servesc ca vedere exotice pentru sarcinile de reconstrucție. Deoarece aceste tehnici utilizează un singur indiciu de adâncime, ele sunt capabile să furnizeze raționamente pentru părțile vizibile ale unei suprafețe. Mai mult, multe cadre de reconstrucție 3D a obiectelor cu o singură vedere utilizează multiple indicii, împreună cu cunoștințe structurale, pentru a estima adâncimea dintr-o imagine monoculară, o combinație care permite acestor cadre să prevadă adâncimea suprafețelor vizibile. Cadrele mai recente de estimare a adâncimii utilizează structuri de rețele neuronale convoluționale pentru a extrage adâncimea dintr-o imagine monoculară.

Cu toate acestea, pentru o reconstrucție 3D eficientă cu o singură vedere, modelele nu numai că trebuie să raționeze despre structura 3D a obiectelor vizibile din imagine, dar trebuie să și “halucineze” părțile invizibile din imagine utilizând anumite priori învățate din date. Pentru a realiza acest lucru, majoritatea modelelor actuale utilizează structuri de rețele neuronale convoluționale antrenate pentru a mapa imagini 2D în forme 3D utilizând supraveghere directă 3D, în timp ce multe alte cadre utilizează reprezentări voxel ale formei 3D și utilizează o reprezentare latentă pentru a genera convoluții 3D ascendente. Anumite cadre partitionează spațiul de ieșire ierarhic pentru a îmbunătăți eficiența computațională și de memorie, ceea ce permite modelului să prevadă forme 3D de înaltă rezoluție. Cercetările recente se axează pe utilizarea unor forme mai slabe de supraveghere pentru predicțiile de formă 3D cu o singură vedere utilizând rețele neuronale convoluționale, fie prin compararea formelor prezise și a predicțiilor lor de referință pentru a antrena regresori de formă, fie prin utilizarea mai multor semnale de învățare pentru a antrena forme medii care ajută modelul să prevadă deformări. O altă cauză a progreselor limitate în reconstrucția 3D cu o singură vedere este cantitatea limitată de date de antrenare disponibile pentru această sarcină.

În continuare, reconstrucția 3D cu o singură vedere este o sarcină complexă, deoarece nu numai că interpretează datele vizuale geometric, dar și semantic. Deși nu sunt complet diferite, ele acoperă spectre diferite, de la reconstrucția geometrică la recunoașterea semantică. Sarcinile de reconstrucție necesită raționament per-pixel al structurii 3D a obiectului din imagine. Sarcinile de reconstrucție nu necesită înțelegere semantică a conținutului imaginii și pot fi realizate utilizând indicii de imagine de nivel scăzut, inclusiv textură, culoare, umbră, umbre, perspectivă și focalizare. Recunoașterea, pe de altă parte, este un caz extrem de utilizare a semanticilor imaginii, deoarece sarcinile de recunoaștere utilizează obiecte întregi și se reduc la clasificarea obiectului din intrare și la recuperarea formei corespunzătoare din baza de date. Deși sarcinile de recunoaștere pot furniza raționamente robuste despre părțile obiectului care nu sunt vizibile în imagini, soluția semantică este fezabilă numai dacă poate fi explicată de un obiect prezent în baza de date.

Deși sarcinile de recunoaștere și reconstrucție pot diferi semnificativ una de alta, ambele tind să ignore informații valoroase conținute în imaginea de intrare. Este recomandat să se utilizeze ambele sarcini în unison una cu cealaltă pentru a obține cele mai bune rezultate posibile și forme 3D precise pentru reconstrucția obiectelor, adică pentru reconstrucția 3D cu o singură vedere optimă, modelul trebuie să utilizeze cunoștințe structurale, indicii de imagine de nivel scăzut și înțelegere de nivel înalt a obiectului.

Reconstrucția 3D cu o singură vedere: Configurația convențională

Pentru a explica configurația convențională și a analiza configurația unui cadru de reconstrucție 3D cu o singură vedere, vom utiliza o configurație standard pentru estimarea formei 3D utilizând o singură vedere sau imagine a obiectului. Baza de date utilizată pentru antrenare este baza de date ShapeNet, și evaluăm performanța pe 13 clase, ceea ce permite modelului să înțeleagă cum numărul de clase dintr-o bază de date determină performanța de estimare a formei modelului.

Majoritatea rețelelor neuronale convoluționale moderne utilizează o singură imagine pentru a prezice modele 3D de înaltă rezoluție, și aceste cadre pot fi categorisite pe baza reprezentării ieșirii lor: hărți de adâncime, nori de puncte și grile voxel. Modelul utilizează OGN sau rețele neuronale generatoare de octree ca metodă reprezentativă, care istoric a depășit abordarea grilei voxel și/sau poate acoperi reprezentările de ieșire dominante. În contrast cu metodele existente care utilizează reprezentări de ieșire, abordarea OGN permite modelului să prevadă forme de înaltă rezoluție și utilizează octree pentru a reprezenta eficient spațiul ocupat.

Linii de bază

Pentru a evalua rezultatele, modelul utilizează două linii de bază care consideră problema pur ca o sarcină de recunoaștere. Prima linie de bază se bazează pe clusterizare, în timp ce a doua linie de bază efectuează recuperarea din baza de date.

Clusterizare

În linia de bază a clusterizării, modelul utilizează algoritmul K-Means pentru a clusteriza sau a grupa formele de antrenare în subcategorii K, și rulează algoritmul pe voxelizări 32*32*32 flattenate într-un vector. După determinarea asignării clusterului, modelul se întoarce la lucrul cu modele cu rezoluție mai mare. Modelul calculează apoi forma medie în fiecare cluster și pragurile formelor medii, unde valoarea optimă este calculată prin maximizarea mediei IoU sau a intersecției peste modele. Deoarece modelul cunoaște relația dintre formele 3D și imaginile din datele de antrenare, modelul poate să asocieze cu ușurință imaginea cu clusterul său corespunzător.

Recuperare

Linia de bază a recuperării învață să încorporeze forme și imagini într-un spațiu comun. Modelul consideră similaritatea pereche a matricelor de forme 3D din setul de antrenare pentru a construi spațiul de încorporare. Modelul realizează acest lucru utilizând abordarea Multi-Dimensional Scaling cu mapping Sammon pentru a comprima fiecare rând din matrice la un descriptor de dimensiune scăzută. Mai mult, pentru a calcula similaritatea dintre două forme arbitrare, modelul utilizează descriptorul de câmp luminos. De asemenea, modelul antrenează o rețea neuronală convoluțională pentru a mapa imagini la un descriptor pentru a încorpora imagini în spațiu.

Analiză

Modelele de reconstrucție 3D cu o singură vedere urmează strategii diferite, ca urmare a cărora ele depășesc alte modele în anumite domenii, în timp ce în altele nu reușesc. Pentru a compara diverse cadre și a evalua performanța lor, avem metrice diferite, una dintre ele fiind scorul mediu IoU.

Așa cum se poate vedea în imaginea de mai sus, în ciuda arhitecturilor diferite, modelele actuale de reconstrucție 3D cu o singură vedere oferă performanțe aproape similare. Cu toate acestea, este interesant de remarcat că, în ciuda faptului că este o metodă pur de recunoaștere, cadrul de recuperare depășește alte modele în ceea ce privește scorurile medii și mediane IoU. Cadrul de clusterizare oferă rezultate solide, depășind cadrele AtlasNet, OGN și Matryoshka. Cu toate acestea, cel mai neașteptat rezultat al acestei analize rămâne Oracle NN, care depășește toate celelalte metode, deși utilizează o arhitectură de recuperare perfectă. Deși calcularea scorului mediu IoU ajută la comparare, nu oferă o imagine completă, deoarece varianța în rezultate este ridicată, indiferent de model.

Metrici de evaluare comune

Modelele de reconstrucție 3D cu o singură vedere utilizează adesea diverse metrice de evaluare pentru a analiza performanța lor pe o gamă largă de sarcini. Următoarele sunt unele dintre metricile de evaluare comune.

Intersecția peste uniune

Media intersecției peste uniune este o metrică utilizată în mod obișnuit ca o măsură cantitativă pentru a servi ca o referință pentru modelele de reconstrucție 3D cu o singură vedere. Deși IoU oferă o oarecare perspectivă asupra performanței modelului, nu este considerată ca singura metrică pentru a evalua o metodă, deoarece indică calitatea formei prezise de model numai dacă valorile sunt suficient de ridicate, cu o discrepanță semnificativă observată între scorurile joase și medii pentru două forme date.

Distanța Chamfer

Distanța Chamfer este definită pe nori de puncte și a fost proiectată astfel încât să poată fi aplicată diferitelor reprezentări 3D în mod satisfăcător. Cu toate acestea, metrica de evaluare a distanței Chamfer este foarte sensibilă la valorile extreme, ceea ce o face o măsură problematică pentru a evalua performanța modelului, cu distanța valorii extreme de la forma de referință determinând în mod semnificativ calitatea generării.

Scor F

Scorul F este o metrică de evaluare comună utilizată în mod activ de majoritatea modelelor de reconstrucție 3D multi-vizuale. Metrica scorului F este definită ca media armonică între rechemare și precizie și evaluează distanța dintre suprafețele obiectelor în mod explicit. Precizia numără procentul de puncte reconstruite care se află într-o distanță prestabilită de la forma de referință, pentru a măsura acuratețea reconstrucției. Rechemarea, pe de altă parte, numără procentul de puncte de pe forma de referință care se află într-o distanță prestabilită de la reconstrucție, pentru a măsura integritatea reconstrucției. Mai mult, prin varierea pragului de distanță, dezvoltatorii pot controla severitatea metricii scorului F.

Analiză pe clase

Asemănarea în performanță oferită de cadrele de mai sus nu poate fi rezultatul metodelor care rulează pe subseturi diferite de clase, și figura de mai jos demonstrează performanța relativă consistentă pe diferite clase, cu linia de bază Oracle NN atingând cel mai bun rezultat, și toate metodele observând o varianță ridicată pentru toate clasele.

Mai mult, numărul de exemple de antrenare disponibile pentru o clasă ar putea determina pe cineva să presupună că influențează performanța pe clasă. Cu toate acestea, așa cum se demonstrează în figura de mai jos, numărul de exemple de antrenare disponibile pentru o clasă nu influențează performanța pe clasă, și numărul de exemple într-o clasă și scorul mediu IoU nu sunt corelate.

Analiză calitativă

Rezultatele cantitative discutate în secțiunea de mai sus sunt susținute de rezultate calitative, așa cum se arată în imaginea de mai jos.

Pentru majoritatea claselor, nu există o diferență semnificativă între linia de bază a clusterizării și predicțiile făcute de metodele bazate pe decodificator. Abordarea clusterizării nu reușește să ofere rezultate atunci când distanța dintre exemplu și forma medie a clusterului este mare, sau în situațiile în care forma medie însăși nu poate descrie clusterul suficient de bine. Pe de altă parte, cadrele care utilizează metode bazate pe decodificator și arhitecturi de recuperare oferă cele mai precise și atractive rezultate, deoarece ele sunt capabile să includă detalii fine în modelul 3D generat.

Reconstrucția 3D cu o singură vedere: Gânduri finale

În acest articol, am discutat despre reconstrucția 3D a obiectelor cu o singură vedere și am vorbit despre modul în care funcționează, și am discutat despre două linii de bază: recuperarea și clusterizarea, cu abordarea de recuperare care depășește modelele actuale de ultimă generație. În final, deși reconstrucția 3D a obiectelor cu o singură vedere este unul dintre cele mai fierbinți subiecte și cel mai cercetat în comunitatea de inteligență artificială, și deși s-au făcut progrese semnificative în ultimii ani, reconstrucția 3D a obiectelor cu o singură vedere este departe de a fi perfectă, cu obstacole semnificative de depășit în anii următori.

Related Topics:3D object 3D Reconstruction