Kunstig intelligens
Hvordan fungerer 3D-rekonstruksjon med enkelt visning?

Tradisjonelt har modeller for enkeltvisningsobjektrekonstruksjon bygget på konvolusjonelle nevrale nettverk vist bemerkelsesverdig ytelse i rekonstruksjonsoppgaver. De siste årene har enkeltvisnings 3D-rekonstruksjon dukket opp som et populært forskningstema i AI-samfunnet. Uavhengig av den spesifikke metoden som brukes, deler alle single-view 3D-rekonstruksjonsmodeller den vanlige tilnærmingen med å innlemme et koder-dekoder-nettverk innenfor rammene deres. Dette nettverket utfører komplekse resonnementer om 3D-strukturen i utdatarommet.
I denne artikkelen vil vi utforske hvordan enkeltvisnings 3D-rekonstruksjon fungerer i sanntid og de nåværende utfordringene disse rammene møter i rekonstruksjonsoppgaver. Vi vil diskutere ulike nøkkelkomponenter og metoder brukt av single-view 3D-rekonstruksjonsmodeller og utforske strategier som kan forbedre ytelsen til disse rammeverkene. I tillegg vil vi analysere resultatene produsert av state-of-the-art rammeverk som bruker koder-dekoder-metoder. La oss dykke inn.
Enkeltvisning 3D-objektrekonstruksjon
Single-view 3D-objektrekonstruksjon innebærer å generere en 3D-modell av et objekt fra et enkelt synspunkt, eller i enklere termer, fra et enkelt bilde. For eksempel er det en kompleks prosess å utlede 3D-strukturen til et objekt, for eksempel en motorsykkel, fra et bilde. Den kombinerer kunnskap om det strukturelle arrangementet av deler, bildesignaler på lavt nivå og semantisk informasjon på høyt nivå. Dette spekteret omfatter to hovedaspekter: rekonstruksjon og anerkjennelse. Rekonstruksjonsprosessen skiller 3D-strukturen til inndatabildet ved hjelp av signaler som skyggelegging, tekstur og visuelle effekter. I motsetning til dette klassifiserer gjenkjenningsprosessen inngangsbildet og henter en passende 3D-modell fra en database.
Gjeldende single-view 3D-objektrekonstruksjonsmodeller kan variere i arkitektur, men de er forenet ved å inkludere en koder-dekoder-struktur i rammeverket. I denne strukturen kartlegger koderen inngangsbildet til en latent representasjon, mens dekoderen gjør komplekse slutninger om 3D-strukturen til utgangsrommet. For å kunne utføre denne oppgaven, må nettverket integrere både høynivå- og lavnivåinformasjon. I tillegg er mange toppmoderne koder-dekodermetoder avhengige av gjenkjenning for enkeltvisnings 3D-rekonstruksjonsoppgaver, noe som begrenser deres rekonstruksjonsevne. Dessuten kan ytelsen til moderne konvolusjonelle nevrale nettverk i enkeltvisnings 3D-objektrekonstruksjon overgås uten å eksplisitt utlede 3D-objektstrukturen. Imidlertid påvirkes dominansen av gjenkjenning i konvolusjonelle nettverk i enkeltvisningsobjektrekonstruksjonsoppgaver av forskjellige eksperimentelle prosedyrer, inkludert evalueringsprotokoller og datasettsammensetning. Slike faktorer gjør at rammeverket kan finne en snarveisløsning, i dette tilfellet bildegjenkjenning.
Tradisjonelt nærmer enkelt-visnings 3D-objektrekonstruksjonsrammeverk rekonstruksjonsoppgavene ved å bruke form fra skyggelegging, med tekstur og defokus som fungerer som eksotiske visninger for rekonstruksjonsoppgavene. Siden disse teknikkene bruker en enkelt dybdesignal, er de i stand til å gi begrunnelse for de synlige delene av en overflate. Dessuten mye enkeltvisnings 3D-rekonstruksjonsrammeverk bruke flere signaler sammen med strukturell kunnskap for å estimere dybde fra et enkelt monokulært bilde, en kombinasjon som lar disse rammene forutsi dybden til de synlige overflatene. Nyere rammeverk for dybdeestimering distribuerer konvolusjonelle nevrale nettverksstrukturer for å trekke ut dybde i et monokulært bilde.
For effektiv enkeltvisnings 3D-rekonstruksjon må modellene imidlertid ikke bare resonere om 3D-strukturen til de synlige objektene i bildet, men de må også hallusinere de usynlige delene i bildet ved å bruke visse forutsetninger som er lært fra dataene. For å oppnå dette, distribuerer et flertall av modellene for tiden trente konvolusjonelle nevrale nettverksstrukturer for å kartlegge 2D-bilder til 3D-former ved hjelp av direkte 3D-tilsyn, mens mange andre rammeverk distribuerte en voxel-basert representasjon av 3D-form, og brukte en latent representasjon for å generere 3D opp-konvolusjoner. Enkelte rammeverk deler også utdatarommet hierarkisk for å forbedre beregnings- og minneeffektiviteten som gjør at modellen kan forutsi 3D-former med høyere oppløsning. Nyere forskning fokuserer på å bruke svakere former for tilsyn for enkeltvisnings 3D-formprediksjoner ved bruk av konvolusjonelle nevrale nettverk, enten ved å sammenligne predikerte former og deres grunnsannhetsprediksjoner for å trene formregressorer eller bruke flere læringssignaler for å trene gjennomsnittsformer som hjelper modellen å forutsi deformasjoner. En annen grunn bak de begrensede fremskritt innen enkeltvisnings 3D-rekonstruksjon er den begrensede mengden treningsdata som er tilgjengelig for oppgaven.
Å bevege seg sammen er 3D-rekonstruksjon med enkelt visning en kompleks oppgave, siden den ikke bare tolker visuelle data geometrisk, men også semantisk. Selv om de ikke er helt forskjellige, spenner de over forskjellige spekter fra geometrisk rekonstruksjon til semantisk gjenkjennelse. Rekonstruksjonsoppgaver per piksel resonnement av 3D-strukturen til objektet i bildet. Rekonstruksjonsoppgaver krever ikke semantisk forståelse av innholdet i bildet, og det kan oppnås ved å bruke bildesignaler på lavt nivå, inkludert tekstur, farge, skyggelegging, skygger, perspektiv og fokus. Gjenkjenning på den annen side er et ekstremt tilfelle av bruk av bildesemantikk fordi gjenkjenningsoppgaver bruker hele objekter og mengder for å klassifisere objektet i inngangen, og hente den tilsvarende formen fra databasen. Selv om gjenkjenningsoppgaver kan gi robuste resonnementer om delene av objektet som ikke er synlige i bildene, er den semantiske løsningen mulig bare hvis den kan forklares av et objekt som er tilstede i databasen.
Selv om gjenkjennelses- og rekonstruksjonsoppgaver kan avvike betydelig fra hverandre, har de begge en tendens til å ignorere verdifull informasjon i inndatabildet. Det er tilrådelig å bruke begge disse oppgavene i samklang med hverandre for å oppnå best mulig resultater, og nøyaktige 3D-former for gjenoppbygging av objekter, dvs. for optimal enkeltvisnings 3D-rekonstruksjonsoppgaver, bør modellen bruke strukturell kunnskap, bildesignaler på lavt nivå, og forståelse på høyt nivå av objektet.
Single-View 3D Rekonstruksjon: Konvensjonell oppsett
For å forklare det konvensjonelle oppsettet og analysere oppsettet av et enkeltvisnings 3D-rekonstruksjonsrammeverk, vil vi distribuere et standardoppsett for å estimere 3D-formen ved å bruke en enkelt visning eller bilde av objektet. Datasettet som brukes til opplæringsformål er ShapeNet-datasettet, og evaluerer ytelsen på tvers av 13 klasser som lar modellen forstå hvordan antall klasser i et datasett bestemmer formestimeringsytelsen til modellen.
Et flertall av moderne konvolusjonelle nevrale nettverk bruker et enkelt bilde for å forutsi høyoppløselige 3D-modeller, og disse rammeverkene kan kategoriseres på grunnlag av representasjonen av deres utgang: dybdekart, punktskyer og voxel-nett. Modellen bruker OGN eller Octree Generating Networks som sin representative metode som historisk sett har utkonkurrert voxel grid-tilnærmingen, og/eller kan dekke de dominerende output-representasjonene. I motsetning til eksisterende metoder som bruker utdatarepresentasjoner, lar OGN-tilnærmingen modellen forutsi høyoppløselige former, og bruker oktre for å effektivt representere det okkuperte rommet.
linjene
For å evaluere resultatene, bruker modellen to grunnlinjer som ser på problemet rent som en gjenkjennelsesoppgave. Den første grunnlinjen er basert på klynging, mens den andre grunnlinjen utfører databasehenting.
Gruppering
I clustering-grunnlinjen bruker modellen K-Means-algoritmen til å gruppere eller samle treningsformene i K-underkategorier, og kjører algoritmen på 32*32*32 vokseliseringer flatet ut til en vektor. Etter å ha bestemt klyngetilordningene, går modellen tilbake til å jobbe med modeller med høyere oppløsning. Modellen beregner deretter gjennomsnittsformen innenfor hver klynge, og terskler for gjennomsnittsformene der den optimale verdien beregnes ved å maksimere gjennomsnittlig IoU eller Intersection over Union over modellene. Siden modellen kjenner forholdet mellom 3D-formene og bildene i treningsdataene, kan modellen lett matche bildet med dens tilsvarende klynge.
Henting
Innhentingsgrunnlinjen lærer å legge inn former og bilder i et felles rom. Modellen vurderer den parvise likheten til 3D-matriseformer i treningssettet for å konstruere innebyggingsrommet. Modellen oppnår dette ved å bruke multi-dimensjonal skalering med Sammon-kartleggingsmetoden for å komprimere hver rad i matrisen til en lavdimensjonal deskriptor. Videre, for å beregne likheten mellom to vilkårlige former, bruker modellen lysfeltbeskrivelsen. I tillegg trener modellen et konvolusjonelt nevralt nettverk for å kartlegge bilder til en deskriptor for å bygge inn bildene i rommet.
Analyse
Single-view 3D-rekonstruksjonsmodeller følger forskjellige strategier som et resultat av at de utkonkurrerer andre modeller på noen områder, mens de kommer til kort på andre. For å sammenligne ulike rammeverk, og evaluere ytelsen deres, har vi forskjellige beregninger, en av dem er gjennomsnittlig IoU-poengsum.
Som det kan sees på bildet ovenfor, til tross for at de har forskjellige arkitekturer, leverer nåværende toppmoderne 3D-rekonstruksjonsmodeller nesten lik ytelse. Det er imidlertid interessant å merke seg at til tross for at det er en ren gjenkjennelsesmetode, utkonkurrerer gjenfinningsrammeverket andre modeller når det gjelder gjennomsnittlig og median IoU-score. Clustering-rammeverket leverer solide resultater som overgår AtlasNet-, OGN- og Matryoshka-rammeverket. Det mest uventede resultatet av denne analysen er imidlertid at Oracle NN overgår alle andre metoder til tross for at de har brukt en perfekt gjenfinningsarkitektur. Selv om beregning av gjennomsnittlig IoU-poengsum hjelper i sammenligningen, gir det ikke et fullstendig bilde siden variansen i resultatene er høy uavhengig av modellen.
Vanlige evalueringsberegninger
Single-View 3D-rekonstruksjonsmodeller bruker ofte forskjellige evalueringsmålinger for å analysere ytelsen deres på et bredt spekter av oppgaver. Følgende er noen av de vanligste evalueringsberegningene.
Kryss over union
Mean of Intersection Over Union er en beregning som ofte brukes som et kvantitativt mål for å tjene som en målestokk for enkeltvisnings 3D-rekonstruksjonsmodeller. Selv om IoU gir en viss innsikt i modellens ytelse, anses det ikke som den eneste beregningen for å evaluere en metode, siden den indikerer kvaliteten på formen forutsagt av modellen bare hvis verdiene er tilstrekkelig høye med et betydelig avvik som observeres mellom lav- og mellomtoner for to gitte former.
Fasavstand
Fasavstand er definert på punktskyer, og den er utformet på en måte som kan brukes på forskjellige 3D-representasjoner på en tilfredsstillende måte. Imidlertid er beregningsverdien for avfasningsavstand svært følsom for uteliggere, noe som gjør det til et problematisk mål å evaluere modellens ytelse, med avstanden til uteliggeren fra referanseformen som i betydelig grad bestemmer generasjonskvaliteten.
F-poengsum
F-score er en vanlig evalueringsmetrik som brukes aktivt av et flertall av multi-view 3D-rekonstruksjonsmodeller. F-Score-metrikken er definert som det harmoniske gjennomsnittet mellom gjenkalling og presisjon, og den evaluerer avstanden mellom overflatene til objektene eksplisitt. Presisjon teller prosentandelen av rekonstruerte punkter som ligger innenfor en forhåndsdefinert avstand til grunnsannheten, for å måle nøyaktigheten til rekonstruksjonen. Recall på den annen side teller prosentandelen av poeng på grunnsannheten som ligger innenfor en forhåndsdefinert avstand til rekonstruksjonen for å måle fullstendigheten av rekonstruksjonen. Videre, ved å variere avstandsterskelen, kan utviklere kontrollere strengheten til F-Score-metrikken.
Analyse per klasse
Likheten i ytelse levert av rammeverket ovenfor kan ikke være et resultat av metoder som kjører på forskjellige undergrupper av klasser, og den følgende figuren viser den konsistente relative ytelsen på tvers av forskjellige klasser med Oracle NN-innhentingsgrunnlinjen som oppnår det beste resultatet av dem alle, og alle metoder som observerer høy varians for alle klasser.
Videre kan antallet treningsprøver tilgjengelig for en klasse få en til å anta at det påvirker ytelsen per klasse. Imidlertid, som vist i den følgende figuren, påvirker ikke antall treningsprøver tilgjengelig for en klasse ytelsen per klasse, og antall prøver i en klasse og dens gjennomsnittlige IoU-poengsum er ikke korrelert.
Kvalitativ analyse
De kvantitative resultatene som er diskutert i avsnittet ovenfor, støttes av kvalitative resultater som vist i bildet nedenfor.
For et flertall av klasser er det ingen signifikant forskjell mellom klyngingsgrunnlinjen og spådommene gjort av dekoderbaserte metoder. Clustering-tilnærmingen klarer ikke å levere resultater når avstanden mellom prøven og den gjennomsnittlige klyngeformen er høy, eller i situasjoner der gjennomsnittsformen i seg selv ikke kan beskrive klyngen godt nok. På den annen side gir rammeverk som bruker dekoderbaserte metoder og gjenfinningsarkitektur de mest nøyaktige og tiltalende resultatene siden de er i stand til å inkludere fine detaljer i den genererte 3D-modellen.
Single View 3D Reconstruction : Final Thoughts
I denne artikkelen har vi snakket om Single View 3D Object Reconstruction, og snakket om hvordan det fungerer, og snakket om to grunnlinjer: Retrieval og Classification, med retrieval baseline-tilnærmingen som overgår nåværende toppmoderne modeller. Til slutt, selv om Enkeltvisning 3D-objektrekonstruksjon er et av de heteste emnene og mest undersøkte emnene i AI-samfunnet, og til tross for betydelige fremskritt de siste årene, er Single View 3D Object Reconstruction langt fra å være perfekt med betydelige veisperringer å overvinne i de kommende årene.