Kunstig intelligens
Hvordan fungerer enkeltvis 3D-rekonstruksjon?

Tradisjonelt har modeller for enkeltvis gjenrekonstruksjon av objekter bygget på konvolusjonsneurale nettverk vist bemerkelsesverdig ytelse i gjenrekonstruksjonsoppgaver. I de senere år har enkeltvis 3D-rekonstruksjon blitt et populært forskningsemne i AI-samfunnet. Uavhengig av den spesifikke metoden som brukes, deler alle enkeltvis 3D-rekonstruksjonsmodeller den felles tilnærmingen til å inkorporere et encoder-decoder-nettverk i deres rammeverk. Dette nettverket utfører kompleks resonnering om 3D-strukturen i utgangsrommet.
I denne artikkelen skal vi utforske hvordan enkeltvis 3D-rekonstruksjon fungerer i sanntid og de nåværende utfordringene disse rammeverkene møter i gjenrekonstruksjonsoppgaver. Vi skal diskutere ulike nøkkelkomponenter og metoder som brukes av enkeltvis 3D-rekonstruksjonsmodeller og utforske strategier som kan forbedre ytelsen til disse rammeverkene. I tillegg skal vi analysere resultater produsert av state-of-the-art-rammeverk som bruker encoder-decoder-metoder. La oss dykke inn.
Enkeltvis 3D-objektgjenrekonstruksjon
Enkeltvis 3D-objektgjenrekonstruksjon innebærer å generere en 3D-modell av et objekt fra ett enkelt synspunkt, eller med andre ord, fra ett enkelt bilde. For eksempel, å slutte seg til 3D-strukturen til et objekt, som en motorsykkel fra et bilde, er en kompleks prosess. Den kombinerer kunnskap om den strukturelle ordningen av deler, lav-nivå bildehint og høy-nivå semantisk informasjon. Dette spekteret omfatter to hovedaspekter: gjenrekonstruksjon og gjenkjennelse. Gjenrekonstruksjonsprosessen skjønner 3D-strukturen til inndata-bildet ved hjelp av hint som skygge, tekstur og visuelle effekter. På den andre siden klassifiserer gjenkjennelsesprosessen inndata-bildet og henter en passende 3D-modell fra en database.
Nåværende enkeltvis 3D-objektgjenrekonstruksjonsmodeller kan variere i arkitektur, men de er forent av inkluderingen av en encoder-decoder-struktur i deres rammeverk. I denne strukturen kartlegger encoderen inndata-bildet til en latent representasjon, mens decoderen gjør komplekse slutninger om 3D-strukturen i utgangsrommet. For å utføre denne oppgaven må nettverket integrere både høy-nivå og lav-nivå informasjon. I tillegg er mange state-of-the-art encoder-decoder-metoder avhengige av gjenkjennelse for enkeltvis 3D-gjenrekonstruksjon, noe som begrenser deres gjenrekonstruksjonsmuligheter. Dessuten kan ytelsen til moderne konvolusjonsneurale nettverk i enkeltvis 3D-objektgjenrekonstruksjon overgås uten å eksplisitt slutte seg til 3D-objektstrukturen. Imidlertid er dominansen av gjenkjennelse i konvolusjonsneurale nettverk i enkeltvis objektgjenrekonstruksjonsoppgaver påvirket av ulike eksperimentelle prosedyrer, inkludert evalueringprotokoller og datasettsammensetning. Slike faktorer muliggjør at rammeverket finner en kortvei-løsning, i dette tilfelle bildegjenkjennelse.
Tradisjonelt nærmer enkeltvis 3D-objektgjenrekonstruksjonsrammeverk seg gjenrekonstruksjonsoppgavene ved hjelp av shape-from-shading-tilnærmingen, med tekstur og defokus som eksotiske visninger for gjenrekonstruksjonsoppgavene. Ettersom disse teknikkene bruker ett enkelt dybdehint, er de i stand til å gi grunn til de synlige delene av en overflate. Dessuten bruker mange enkeltvis 3D-rekonstruksjonsrammeverk flere hint sammen med strukturell kunnskap for å anslå dybde fra ett enkelt monokulært bilde, en kombinasjon som tillater disse rammeverkene å forutsi dybden av de synlige overflatene. Mer nylige dybde-estimeringsrammeverk setter konvolusjonsneurale nettverksstrukturer i bruk for å trekke ut dybde i et monokulært bilde.
Men for effektiv enkeltvis 3D-gjenrekonstruksjon, må modellene ikke bare slutte seg til 3D-strukturen til de synlige objektene i bildet, men de må også hallucinere de usynlige delene i bildet ved hjelp av visse prioriteringer lært fra dataene. For å oppnå dette, setter de fleste modellene i bruk trente konvolusjonsneurale nettverksstrukturer for å kartlegge 2D-bilder til 3D-former ved hjelp av direkte 3D-overvåking, mens mange andre rammeverk setter en voxel-basert representasjon av 3D-form i bruk og bruker en latent representasjon for å generere 3D-opphøydinger. Visse rammeverk partitionerer også utgangsrommet hierarkisk for å forbedre beregnings- og minneeffektivitet, noe som muliggjør at modellen kan forutsi høyoppløste 3D-former. Nylig forskning fokuserer på å bruke svakere former for overvåking for enkeltvis 3D-formforutsigelse ved hjelp av konvolusjonsneurale nettverk, enten ved å sammenligne forutsagte former og deres grunntruth-forutsagelser for å trene formregressorer eller ved å bruke flere læringsignaler for å trene gjennomsnittsformer som hjelper modellen å forutsi deformasjoner. En annen grunn til de begrensede fremgangene i enkeltvis 3D-gjenrekonstruksjon er den begrensede mengden treningdata tilgjengelig for oppgaven.
Ved å gå videre, er enkeltvis 3D-gjenrekonstruksjon en kompleks oppgave, da den ikke bare tolker visuell data geometrisk, men også semantisk. Selv om de ikke er fullstendig forskjellige, dekker de forskjellige spekter fra geometrisk gjenrekonstruksjon til semantisk gjenkjennelse. Gjenrekonstruksjonsoppgaver krever per-piksel-resonnering om 3D-strukturen til objektet i bildet. Gjenrekonstruksjonsoppgaver krever ikke semantisk forståelse av innholdet i bildet, og det kan oppnås ved hjelp av lav-nivå bildehint, inkludert tekstur, farge, skygge, skygge, perspektiv og fokus. Gjenkjennelse på den andre siden er et ekstremt tilfelle av å bruke bilde-semantikk, da gjenkjennelsesoppgaver bruker hele objekter og klassifiserer objektet i inndata og henter den tilsvarende formen fra databasen. Selv om gjenkjennelsesoppgaver kan gi robust resonnering om de usynlige delene av objektet, er den semantiske løsningen kun mulig hvis den kan forklares av et objekt til stede i databasen.
Selv om gjenkjennelse og gjenrekonstruksjonsoppgaver kan være forskjellige fra hverandre, ignorerer de begge verdifull informasjon i inndata-bildet. Det er råd å bruke begge disse oppgavene i forening med hverandre for å oppnå de beste mulige resultater, og nøyaktige 3D-former for objektgjenrekonstruksjon, dvs. for optimal enkeltvis 3D-gjenrekonstruksjon, skal modellen bruke strukturell kunnskap, lav-nivå bildehint og høy-nivå forståelse av objektet.
Enkeltvis 3D-gjenrekonstruksjon: Konvensjonell oppsett
For å forklare det konvensjonelle oppsettet og analysere oppsettet til en enkeltvis 3D-gjenrekonstruksjonsrammeverk, skal vi bruke et standardoppsett for å anslå 3D-formen ved hjelp av ett enkelt synspunkt eller bilde av objektet. Datasettet som brukes til trening er ShapeNet-datasettet, og evaluere ytelsen over 13 klasser som tillater modellen å forstå hvordan antallet klasser i et dataset bestemmer formanslutningsytelsen til modellen.
De fleste moderne konvolusjonsneurale nettverk bruker ett enkelt bilde for å forutsi høyoppløste 3D-modeller, og disse rammeverkene kan kategoriseres basert på representasjonen av deres utgang: dybdekart, punktskyer og voxelraster. Modellen bruker OGN eller Octree Generating Networks som sin representative metode som historisk har overgått voxelraster-tilnærmingen, og/eller kan dekke de dominerende utgangsrepresentasjonene. I kontrast med eksisterende metoder som bruker utgangsrepresentasjoner, tillater OGN-tilnærmingen modellen å forutsi høyoppløste former og bruker oktreer for å effektivt representere det okkuperte rommet.
Baselinjer
For å evaluere resultater, setter modellen i bruk to baselinjer som betrakter problemet som en ren gjenkjennelsesoppgave. Den første baselinjen er basert på klastering, mens den andre baselinjen utfører databasereising.
Klastering
I klasteringsbaselinjen, setter modellen i bruk K-Means-algoritmen for å klaster eller gruppere treningssformene i K underkategorier og kjører algoritmen på 32*32*32 voxeliseringer flattet ut i en vektor. Etter å ha bestemt klaster-tildelingene, bytter modellen tilbake til å arbeide med modeller med høyere oppløsning. Modellen beregner deretter gjennomsnittsformen innen hver klasse og terskler gjennomsnittsformene hvor den optimale verdien beregnes ved å maksimere gjennomsnittlig IoU eller Intersection over Union over modellene. Ettersom modellen kjenner til forholdet mellom 3D-formene og bildene i treningdataene, kan modellen lett sammenligne bildet med sin tilsvarende klasse.
Reising
Reisingsbaselinjen lærer å innbette former og bilder i et felles rom. Modellen betrakter den parvise likheten mellom 3D-matriseformer i treningsssettet for å konstruere innbettelsesrommet. Modellen oppnår dette ved å bruke Multi-Dimensional Scaling med Sammon-mapping-tilnærmingen for å komprimere hver rad i matrisen til en lavdimensjonal beskrivelse. Dessuten, for å beregne likheten mellom to vilkårlige former, setter modellen i bruk lysfeltbeskrivelsen. I tillegg trener modellen et konvolusjonsneuralt nettverk for å kartlegge bilder til en beskrivelse for å innbette bildene i rommet.
Analys
Enkeltvis 3D-gjenrekonstruksjonsmodeller følger forskjellige strategier som et resultat av at de overgår andre modeller i noen områder, mens de mangler i andre. For å sammenligne forskjellige rammeverk og evaluere deres ytelse, har vi forskjellige metrikker, en av dem er gjennomsnittlig IoU-poeng.

Som det kan sees i bildet over, til tross for å ha forskjellige arkitekturer, leverer nåværende state-of-the-art 3D-gjenrekonstruksjonsmodeller nesten like god ytelse. Imidlertid er det interessant å merke seg at til tross for å være en ren gjenkjennelsesmetode, overgår reisingsrammeverket andre modeller i forhold til gjennomsnittlig og median IoU-poeng. Klasteringsrammeverket leverer solide resultater og overgår AtlasNet, OGN og Matryoshka-rammeverkene. Imidlertid er det mest uventede resultatet av denne analysen at Oracle NN overgår alle andre metoder til tross for å bruke en perfekt reisingsarkitektur. Selv om beregning av gjennomsnittlig IoU-poeng hjelper i sammenligningen, gir det ikke et fullstendig bilde, da variasjonen i resultater er høy uavhengig av modellen.
Felles evalueringmetrikker
Enkeltvis 3D-gjenrekonstruksjonsmodeller bruker ofte forskjellige evalueringmetrikker for å analysere deres ytelse på en rekke oppgaver. Følgende er noen av de vanligste evalueringmetrikkerne.
Intersection Over Union
Gjennomsnittlig Intersection Over Union er en metrikk som vanligvis brukes som en kvantitativ måling for å tjene som en benchmark for enkeltvis 3D-gjenrekonstruksjonsmodeller. Selv om IoU gir noen innsikt i modellens ytelse, betraktes det ikke som den eneste metrikken for å evaluere en metode, da det indikerer kvaliteten på formen forutsagt av modellen kun hvis verdiene er tilstrekkelig høye med en betydelig diskrepans observert mellom lav- og midtrekkepoeng for to gitt former.
Chamfer Distance
Chamfer Distance er definert på punktskyer og er designet for å kunne brukes til forskjellige 3D-representasjoner tilfredsstillende. Imidlertid er Chamfer Distance-evalueringmetrikken høyest sensitiv for outliers, noe som gjør det til en problematisk måling for å evaluere modellens ytelse, med avstanden til outlier fra referanseformen bestemmer genereringskvaliteten betydelig.
F-Score
F-Score er en vanlig evalueringmetrikk som aktivt brukes av de fleste multi-vis 3D-gjenrekonstruksjonsmodeller. F-Score-metrikken er definert som den harmoniske gjennomsnittet mellom recall og presisjon, og den evaluerer avstanden mellom overflatene til objektene eksplisitt. Presisjon teller prosentandelen av gjenrekonstruerte punkter som ligger innen en forhåndsdefinert avstand til grunntruth, for å måle nøyaktigheten av gjenrekonstruksjonen. Recall på den andre siden teller prosentandelen av punkter på grunntruth som ligger innen en forhåndsdefinert avstand til gjenrekonstruksjonen for å måle fullstendigheten av gjenrekonstruksjonen. Dessuten kan utviklere kontrollere strengheten av F-Score-metrikken ved å variere avstandsterskelen.
Per-klasse-analys
Likheten i ytelse levert av ovenstående rammeverk kan ikke være et resultat av metoder som kjører på forskjellige undersett av klasser, og følgende figur demonstrerer den konsistente relative ytelsen over forskjellige klasser med Oracle NN-reisingsbaselinjen som oppnår det beste resultatet av alle, og alle metoder observerer høy variasjon for alle klasser.

Dessuten kan antallet treningseksemplarer tilgjengelige for en klasse føre en til å anta at det påvirker per-klasse-ytelsen. Imidlertid, som demonstrert i følgende figur, påvirker antallet treningseksemplarer tilgjengelige for en klasse ikke per-klasse-ytelsen, og antallet eksemplarer i en klasse og dens gjennomsnittlige IoU-poeng er ikke korrelert.

Kvalitativ analys
De kvantitative resultater diskutert i seksjonen over er støttet av kvalitative resultater, som vist i følgende bilde.

For de fleste klasser, er det ingen betydelig forskjell mellom klasteringsbaselinjen og forutsagelsene gjort av decoder-baserte metoder. Klasteringsmetoden svikter i å levere resultater når avstanden mellom eksemplaret og gjennomsnittsformen er høy, eller i situasjoner hvor gjennomsnittsformen selv ikke kan beskrive clusteret godt nok. På den andre siden leverer rammeverk som bruker decoder-baserte metoder og reisingsarkitektur de mest nøyaktige og tiltalende resultater, da de kan inkludere fine detaljer i den genererte 3D-modellen.
Enkeltvis 3D-gjenrekonstruksjon: Endelige tanker
I denne artikkelen har vi talt om Enkeltvis 3D-objektgjenrekonstruksjon og talt om hvordan det fungerer, og talt om to baselinjer: Reising og Klassifisering, med reisingsbaselinjen som overgår nåværende state-of-the-art-modeller. Til slutt, selv om Enkeltvis 3D-objektgjenrekonstruksjon er ett av de heteste emnene og mest forskede emnene i AI-samfunnet, og til tross for å ha gjort betydelige fremskritt i de siste årene, er Enkeltvis 3D-objektgjenrekonstruksjon langt ifra å være perfekt, med betydelige hindringer å overvinne i de kommende årene.












