škrbina Kako funkcionira 3D rekonstrukcija jednog prikaza? - Ujedinite se.AI
Povežite se s nama

Umjetna inteligencija

Kako funkcionira 3D rekonstrukcija jednog prikaza?

mm

Objavljeno

 on

Tradicionalno, modeli za rekonstrukciju objekta u jednom pogledu izgrađeni na konvolucijskim neuronskim mrežama pokazali su izvanredne performanse u zadacima rekonstrukcije. Posljednjih godina 3D rekonstrukcija jednog prikaza postala je popularna tema istraživanja u zajednici umjetne inteligencije. Bez obzira na specifičnu korištenu metodologiju, svi modeli 3D rekonstrukcije s jednim pogledom dijele zajednički pristup uključivanja mreže koder-dekoder unutar svog okvira. Ova mreža izvodi složeno razmišljanje o 3D strukturi u izlaznom prostoru.

U ovom ćemo članku istražiti kako 3D rekonstrukcija jednog prikaza funkcionira u stvarnom vremenu i trenutne izazove s kojima se ti okviri suočavaju u zadacima rekonstrukcije. Raspravljat ćemo o različitim ključnim komponentama i metodama koje koriste modeli 3D rekonstrukcije s jednim pogledom i istražiti strategije koje bi mogle poboljšati izvedbu ovih okvira. Osim toga, analizirat ćemo rezultate koje su proizveli najsuvremeniji okviri koji koriste metode koder-dekoder. Zaronimo.

Rekonstrukcija 3D objekta s jednim pogledom

Rekonstrukcija 3D objekta u jednom pogledu uključuje generiranje 3D modela objekta iz jedne točke gledišta, ili jednostavnije rečeno, iz jedne slike. Na primjer, zaključivanje 3D strukture objekta, kao što je motocikl iz slike, složen je proces. Kombinira znanje o strukturnom rasporedu dijelova, znakove slike niske razine i semantičke informacije visoke razine. Ovaj spektar obuhvaća dva glavna aspekta: rekonstrukcija i prepoznavanje. Proces rekonstrukcije raspoznaje 3D strukturu ulazne slike pomoću znakova kao što su sjenčanje, tekstura i vizualni efekti. Nasuprot tome, proces prepoznavanja klasificira ulaznu sliku i dohvaća odgovarajući 3D model iz baze podataka.

Trenutačni modeli rekonstrukcije 3D objekta s jednim pogledom mogu varirati u arhitekturi, ali su objedinjeni uključivanjem strukture koder-dekoder u svoj okvir. U ovoj strukturi, koder preslikava ulaznu sliku u latentnu reprezentaciju, dok dekoder donosi složene zaključke o 3D strukturi izlaznog prostora. Kako bi uspješno izvršila ovaj zadatak, mreža mora integrirati informacije visoke i niske razine. Dodatno, mnoge najsuvremenije metode koder-dekodera oslanjaju se na prepoznavanje zadataka 3D rekonstrukcije jednog pogleda, što ograničava njihove mogućnosti rekonstrukcije. Štoviše, izvedba modernih konvolucijskih neuronskih mreža u rekonstrukciji 3D objekta u jednom pogledu može se nadmašiti bez eksplicitnog zaključivanja strukture 3D objekta. Međutim, na dominaciju prepoznavanja u konvolucijskim mrežama u zadacima rekonstrukcije objekta s jednim pogledom utječu različiti eksperimentalni postupci, uključujući protokole evaluacije i sastav skupa podataka. Takvi čimbenici omogućuju okviru da pronađe rješenje prečaca, u ovom slučaju prepoznavanje slike.

Tradicionalno, okviri za rekonstrukciju 3D objekta s jednim pogledom pristupaju zadacima rekonstrukcije korištenjem pristupa oblika iz sjenčanja, s teksturom i defokusiranjem koji služe kao egzotični pogledi za zadatke rekonstrukcije. Budući da ove tehnike koriste jedan dubinski znak, one mogu dati objašnjenje za vidljive dijelove površine. Nadalje, puno toga okviri za 3D rekonstrukciju jednog prikaza koristiti više znakova zajedno sa strukturnim znanjem za procjenu dubine iz jedne monokularne slike, kombinacije koja omogućuje ovim okvirima predviđanje dubine vidljivih površina. Noviji okviri za procjenu dubine upotrebljavaju strukture konvolucijske neuronske mreže za izdvajanje dubine u monokularnoj slici. 

Međutim, za učinkovitu 3D rekonstrukciju jednog prikaza, modeli ne samo da moraju razmišljati o 3D strukturi vidljivih objekata na slici, već također moraju halucinirati nevidljive dijelove na slici koristeći određene prethodne podatke naučene iz podataka. Da bi se to postiglo, većina modela trenutačno koristi uvježbane strukture konvolucijske neuronske mreže za preslikavanje 2D slika u 3D oblike pomoću izravnog 3D nadzora, dok je mnogo drugih okvira primijenilo prikaze 3D oblika temeljene na vokselima i koristilo latentni prikaz za generirajte 3D up-konvolucije. Određeni okviri također hijerarhijski dijele izlazni prostor kako bi se poboljšala računalna i memorijska učinkovitost koja modelu omogućuje predviđanje 3D oblika više rezolucije. Nedavna istraživanja usmjerena su na upotrebu slabijih oblika nadzora za predviđanja 3D oblika u jednom pogledu pomoću konvolucijskih neuronskih mreža, bilo uspoređujući predviđene oblike i njihova temeljna predviđanja istinitosti za treniranje regresora oblika ili koristeći višestruke signale učenja za treniranje srednjih oblika koji pomažu modelu u predviđanju deformacije. Još jedan razlog ograničenog napretka u 3D rekonstrukciji jednog prikaza je ograničena količina podataka za obuku dostupnih za zadatak. 

Krećući se dalje, 3D rekonstrukcija s jednim prikazom složen je zadatak jer vizualne podatke ne interpretira samo geometrijski, već i semantički. Iako nisu potpuno različiti, oni obuhvaćaju različite spektre od geometrijske rekonstrukcije do semantičkog prepoznavanja. Zadaci rekonstrukcije po pikselu zaključivanje 3D strukture objekta na slici. Zadaci rekonstrukcije ne zahtijevaju semantičko razumijevanje sadržaja slike, a ono se može postići pomoću znakova slike niske razine, uključujući teksturu, boju, sjenčanje, sjene, perspektivu i fokus. S druge strane, prepoznavanje je ekstremni slučaj korištenja semantike slike jer zadaci prepoznavanja koriste cijele objekte i iznose za klasificiranje objekta u ulazu i dohvaćanje odgovarajućeg oblika iz baze podataka. Iako zadaci prepoznavanja mogu pružiti robusno zaključivanje o dijelovima objekta koji nisu vidljivi na slikama, semantičko rješenje je izvedivo samo ako se može objasniti objektom prisutnim u bazi podataka. 

Iako se zadaci prepoznavanja i rekonstrukcije mogu značajno razlikovati jedan od drugoga, oba imaju tendenciju ignoriranja vrijednih informacija sadržanih u ulaznoj slici. Preporučljivo je koristiti oba ova zadatka u skladu jedan s drugim kako bi se dobili najbolji mogući rezultati i točni 3D oblici za rekonstrukciju objekta, tj. za optimalne zadatke 3D rekonstrukcije jednog prikaza, model bi trebao koristiti strukturalno znanje, znakove slike niske razine, i razumijevanje objekta na visokoj razini. 

3D rekonstrukcija s jednim pogledom: konvencionalna postavka

Kako bismo objasnili konvencionalnu postavku i analizirali postavku okvira 3D rekonstrukcije s jednim pogledom, primijenit ćemo standardnu ​​postavku za procjenu 3D oblika pomoću jednog prikaza ili slike objekta. Skup podataka koji se koristi u svrhu obuke je skup podataka ShapeNet i procjenjuje izvedbu kroz 13 klasa koje omogućuju modelu da razumije kako broj klasa u skupu podataka određuje izvedbu procjene oblika modela.

Većina modernih konvolucijskih neuronskih mreža koristi jednu sliku za predviđanje 3D modela visoke razlučivosti, a ti se okviri mogu kategorizirati na temelju prikaza njihovog izlaza: dubinske karte, oblaci točaka i vokselske mreže. Model koristi OGN ili Octree Generating Networks kao svoju reprezentativnu metodu koja je povijesno nadmašila pristup vokselske mreže i/ili može pokriti dominantne prikaze izlaza. Za razliku od postojećih metoda koje koriste izlazne prikaze, OGN pristup omogućuje modelu predviđanje oblika visoke razlučivosti i koristi osmostabla za učinkovito predstavljanje zauzetog prostora. 

Polazne crte

Za procjenu rezultata, model postavlja dvije osnovne linije koje problem razmatraju isključivo kao zadatak prepoznavanja. Prva osnovna linija temelji se na klasteriranju, dok druga osnovna linija izvodi dohvaćanje baze podataka. 

grupiranje

Kao osnovna linija klasteriranja, model koristi algoritam K-Means za klasteriranje ili skupljanje oblika obuke u K potkategorija i pokreće algoritam na 32*32*32 vokselizacijama spljoštenim u vektor. Nakon utvrđivanja dodjele klastera, model se vraća na rad s modelima više rezolucije. Model zatim izračunava srednji oblik unutar svakog klastera i postavlja prag srednjih oblika gdje se optimalna vrijednost izračunava maksimiziranjem prosječnog IoU ili Intersection over Union preko modela. Budući da model poznaje odnos između 3D oblika i slika unutar podataka za obuku, model može lako uskladiti sliku s odgovarajućim klasterom. 

vađenje

Osnovna linija za dohvaćanje uči ugraditi oblike i slike u zajednički prostor. Model uzima u obzir parnu sličnost oblika 3D matrice u skupu za obuku za konstrukciju prostora za ugradnju. Model to postiže korištenjem višedimenzionalnog skaliranja sa pristupom mapiranja Sammona za komprimiranje svakog retka u matrici u niskodimenzionalni deskriptor. Nadalje, za izračunavanje sličnosti između dva proizvoljna oblika, model koristi deskriptor svjetlosnog polja. Dodatno, model trenira konvolucijsku neuronsku mrežu za mapiranje slika u deskriptor kako bi se slike ugradile u prostor. 

Analiza

Modeli 3D rekonstrukcije s jednim prikazom slijede različite strategije zbog čega u nekim područjima nadmašuju druge modele, dok u drugim podbacuju. Za usporedbu različitih okvira i procjenu njihove izvedbe imamo različite metrike, a jedna od njih je srednji IoU rezultat. 

Kao što se može vidjeti na gornjoj slici, unatoč različitim arhitekturama, trenutni najsuvremeniji modeli 3D rekonstrukcije daju gotovo slične performanse. Međutim, zanimljivo je primijetiti da unatoč tome što je čista metoda prepoznavanja, okvir za pronalaženje nadmašuje druge modele u smislu srednje vrijednosti i medijana IoU rezultata. Okvir klasteriranja daje solidne rezultate koji nadmašuju okvire AtlasNet, OGN i Matryoshka. Međutim, najneočekivaniji ishod ove analize ostaje da Oracle NN nadmašuje sve druge metode unatoč korištenju savršene arhitekture dohvaćanja. Iako izračun srednjeg IoU rezultata pomaže u usporedbi, ne daje potpunu sliku jer je varijanca u rezultatima velika bez obzira na model. 

Uobičajena metrika evaluacije

Modeli 3D rekonstrukcije s jednim prikazom često koriste različite metrike procjene za analizu svoje izvedbe na širokom rasponu zadataka. Slijede neke od često korištenih metrika procjene. 

Raskrižje preko unije

Srednja vrijednost presjeka preko unije je metrika koja se obično koristi kao kvantitativna mjera koja služi kao referentna vrijednost za modeli 3D rekonstrukcije s jednim pogledom. Iako IoU pruža određeni uvid u izvedbu modela, ne smatra se jedinom metrikom za procjenu metode budući da ukazuje na kvalitetu oblika predviđenog modelom samo ako su vrijednosti dovoljno visoke s uočenim značajnim odstupanjem između niske i srednje ocjene za dva zadana oblika. 

Udaljenost skošenja

Chamfer Distance definirana je na oblacima točaka i dizajnirana je na način da se može na zadovoljavajući način primijeniti na različite 3D prikaze. Međutim, metrika procjene udaljenosti zakošenja vrlo je osjetljiva na odstupanja što ga čini problematičnom mjerom za procjenu izvedbe modela, pri čemu udaljenost odstupanja od referentnog oblika značajno određuje kvalitetu generiranja. 

F-rezultat

F-Score je uobičajena metrika procjene koju aktivno koristi većina modela 3D rekonstrukcije s više prikaza. F-Score metrika definirana je kao harmonijska sredina između prisjećanja i preciznosti i eksplicitno procjenjuje udaljenost između površina objekata. Preciznost broji postotak rekonstruiranih točaka koje leže unutar unaprijed definirane udaljenosti od istine tla, kako bi se izmjerila točnost rekonstrukcije. S druge strane, opoziv broji postotak točaka na temelju istine koje leže unutar unaprijed definirane udaljenosti do rekonstrukcije kako bi se izmjerila potpunost rekonstrukcije. Nadalje, mijenjanjem praga udaljenosti, programeri mogu kontrolirati strogost metrike F-Score. 

Analiza po klasi

Sličnost u izvedbi koju isporučuju gore navedeni okviri ne može biti rezultat metoda koje se izvode na različitim podskupovima klasa, a sljedeća slika pokazuje dosljednu relativnu izvedbu u različitim klasama s osnovnom linijom dohvaćanja Oracle NN koja postiže najbolji rezultat od svih i svih metode koje promatraju visoku varijancu za sve klase.  

Nadalje, broj dostupnih uzoraka obuke za razred može navesti na pretpostavku da utječe na izvedbu po razredu. Međutim, kao što je prikazano na sljedećoj slici, broj uzoraka obuke dostupnih za razred ne utječe na izvedbu po razredu, a broj uzoraka u razredu i njegov srednji IoU rezultat nisu u korelaciji. 

Kvalitativna analiza

Kvantitativni rezultati o kojima se govori u gornjem odjeljku potkrijepljeni su kvalitativnim rezultatima kao što je prikazano na sljedećoj slici. 

Za većinu klasa ne postoji značajna razlika između osnovne linije klasteriranja i predviđanja načinjenih metodama temeljenim na dekoderu. Pristup klasteriranja ne daje rezultate kada je udaljenost između uzorka i srednjeg oblika klastera velika ili u situacijama kada sam srednji oblik ne može dovoljno dobro opisati klaster. S druge strane, okviri koji koriste metode temeljene na dekoderu i arhitekturu dohvaćanja daju najtočnije i najprivlačnije rezultate budući da mogu uključiti fine detalje u generirani 3D model. 

3D rekonstrukcija jednog prikaza: Završne misli

U ovom smo članku govorili o 3D rekonstrukciji objekta s jednim prikazom i o tome kako funkcionira te o dvije osnovne linije: pronalaženju i klasifikaciji, s pristupom osnovne linije pronalaženja koji nadmašuje trenutne najsuvremenije modele. Konačno, iako 3D rekonstrukcija objekta u jednom pogledu je jedna od najpopularnijih tema i tema koja se najviše istražuje u AI zajednici, i unatoč značajnom napretku u posljednjih nekoliko godina, rekonstrukcija 3D objekta s jednim prikazom daleko je od savršene sa značajnim preprekama koje treba prevladati u nadolazećim godinama. 

"Inženjer po struci, književnik po duši". Kunal je tehnički pisac s dubokom ljubavlju i razumijevanjem AI i ML, posvećen pojednostavljenju složenih koncepata u tim poljima kroz svoju zanimljivu i informativnu dokumentaciju.