Connect with us

Kunstig intelligens

Splatter Billede: Ultra-Hurtig Enkelt-Vis 3D-Rekonstruktion

mm
Splatter Image: Ultra-Fast Single-View 3D Reconstruction

Enkelt-vis 3D-objektrekonstruktion med convolutionelle netværk har demonstreret bemærkelsesværdige evner. Enkelt-vis 3D-rekonstruktionsmodeller genererer 3D-modellen af ethvert objekt ved hjælp af et enkelt billede som reference, hvilket gør det til et af de hotteste emner for forskning i computer vision.

For eksempel, lad os overveje motorcyklen i billedet ovenfor. At generere dets 3D-struktur kræver en kompleks pipeline, der først kombinerer hints fra lavniveaubilleder med højniveausemantisk information og viden om den strukturelle anordning af dele.

På grund af den komplekse proces har enkelt-vis 3D-rekonstruktion været en stor udfordring i computer vision. I et forsøg på at forbedre effektiviteten af enkelt-vis 3D-rekonstruktion har udviklere arbejdet på Splatter Billede, en metode, der sigter mod at opnå ultra-hurtig enkelt-vis 3D-form og 3D-udseende konstruktion af objekter. I dens kerne bruger Splatter Billede-rammen Gaussian Splatting-metoden til at analysere 3D-repræsentationer, hvilket udnytter hastigheden og kvaliteten, den tilbyder.

For nylig er Gaussian Splatting-metoden blevet implementeret af talrige multi-vis rekonstruktionsmodeller til realtid-rendering, forbedret skalerbarhed og hurtig træning. Med det sagt er Splatter Billede det første rammeværk, der implementerer Gaussian Splatting-metoden til enkelt-vis rekonstruktionsopgaver.

I denne artikel vil vi udforske, hvordan Splatter Billede-rammen anvender Gaussian Splatting til at opnå ultra-hurtig enkelt-vis 3D-rekonstruktion. Så lad os komme i gang.

Splatter Billede : Et Forsøg på Ultra-Hurtig Enkelt-Vis 3D-Rekonstruktion

Som nævnt tidligere er Splatter Billede en ultra-hurtig tilgang til enkelt-vis 3D-objektrekonstruktion baseret på Gaussian Splatting-metoden. Splatter Billede er det første computer vision-rammeværk, der implementerer Gaussian Splatting til monokulær 3D-objektgenerering, da Gaussian Splatting traditionelt har drevet multi-vis 3D-objektrekonstruktionsrammeværk. Men hvad adskiller Splatter Billede-rammen fra tidligere metoder er, at det er en læring-baseret tilgang, og rekonstruktion i testning kun kræver feed-forward-evaluering af neuralt netværk.

Splatter Billede afhænger fundamentalt af Gaussian Splatting-renderkvaliteter og høj proceshastighed til at generere 3D-rekonstruktioner. Splatter Billede-rammen har en simpel design: rammen bruger et 2D-billede-til-billede neuralt netværk til at forudsige en 3D-Gaussian per inputbilledepixel og mapper inputbilledet til en 3D-Gaussian per pixel. De resulterende 3D-Gaussians har formen af et billede, kendt som Splatter Billede, og Gaussians giver også en 360-graders repræsentation af billedet. Processen demonstreres i følgende billede.

Selvom processen er simpel og direkte, er der nogle nøgleudfordringer, som Splatter Billede-rammen står over for, når den bruger Gaussian Splatting til at generere 3D-Gaussians til enkelt-vis 3D-repræsentationer. Den første store forhindring er at designe et neuralt netværk, der accepterer billedet af et objekt som input og genererer en tilsvarende Gaussian-blanding, der repræsenterer alle sider af billedet som output. For at tackle dette udnytter Splatter Billede-rammen, at selvom den genererede Gaussian-blanding er en samling eller en usorteret samling af elementer, kan den stadig gemmes i en sorteret datastruktur. Herefter bruger rammen et 2D-billede som en beholder til 3D-Gaussians, og hver pixel i beholderen indeholder parametrene for en Gaussian, herunder egenskaber som form, opacitet og farve.

Ved at gemme 3D-Gaussian-sæt i et billede kan Splatter Billede-rammen reducere rekonstruktionshinderne, der mødes, når man lærer et billede til et billede neuralt netværk. Ved at bruge denne tilgang kan rekonstruktionsprocessen implementeres kun ved hjælp af effektive 2D-operatører i stedet for at afhænge af 3D-operatører. Yderligere kan Splatter Billede-rammen i rammen 3D-repræsentationen som en blanding af 3D-Gaussians udnytte renderingshastigheden og hukommelseseffektiviteten, der tilbydes af Gaussian Splatting, hvilket forbedrer effektiviteten i træning såvel som i inferens. Fremover kan Splatter Billede-rammen ikke kun generere enkelt-vis 3D-repræsentationer, men den demonstrerer også bemærkelsesværdig effektivitet, da den kan trænes selv på en enkelt GPU på standard 3D-objektbenchmark. Yderligere kan Splatter Billede-rammen udvides til at tage flere billeder som input. Den kan opnå dette ved at registrere de enkelte Gaussian-blandinger til en fælles reference og derefter tage kombinationen af Gaussian-blandinger, der forudsiges fra enkeltvisninger. Rammen indsætter også lette cross-attention-lag i sin arkitektur, der giver mulighed for, at forskellige visninger kan kommunikere med hinanden under forudsigelse.

Fra et empirisk synspunkt er det værd at bemærke, at Splatter Billede-rammen kan producere 360-graders rekonstruktion af objektet, selvom den kun ser én side af objektet. Rammen tildeler herefter forskellige Gaussians i en 2D-nabolag til forskellige dele af 3D-objektet for at kode den genererede 360-graders information i 2D-billedet. Yderligere sætter rammen opaciteten af flere Gaussians til nul, hvilket deaktiverer dem, så de kan fjernes under efterbehandling.

For at sammenfatte er Splatter Billede-rammen

  1. En ny tilgang til at generere enkelt-vis 3D-objektrekonstruktioner ved at overføre Gaussian Splatting-tilgangen.
  2. Udvider metoden til multi-vis 3D-objektrekonstruktion.
  3. Opnår state-of-the-art 3D-objektrekonstruktionspræstation på standardbenchmark med exceptionel hastighed og kvalitet.

Splatter Billede : Metodik og Arkitektur

Gaussian Splatting

Som nævnt tidligere er Gaussian Splatting den primære metode, der implementeres af Splatter Billede-rammen til at generere enkelt-vis 3D-objektrekonstruktioner. I simple vendinger er Gaussian Splatting en rasteriseringsmetode til rekonstruktion af 3D-billeder og realtid-rendering af billeder med flere visninger. 3D-rummet i billedet kaldes Gaussians, og maskinelæringsmetoder implementeres til at lære parametrene for hver Gaussian. Gaussian Splatting kræver ikke træning under rendering, hvilket faciliterer hurtigere renderingsgange. Følgende billede summerer arkitekturen for 3D-Gaussian Splatting.

3D-Gaussian Splatting bruger først sættet af inputbilleder til at generere en punktsky. Gaussian Splatting bruger herefter inputbillederne til at estimere de eksterne parametre for kameraet, som vinkel og position, ved at matche pixel mellem billederne, og disse parametre bruges herefter til at beregne punktskyen. Ved hjælp af forskellige maskinelæringsmetoder optimerer Gaussian Splatting derefter fire parametre for hver Gaussian, nemlig: Position (hvor er det placeret), Kovarians (udstrækningen af dets strækning eller skala i en 3×3-matrix), Farve (hvilken er RGB-farveskema) og Alpha (måling af gennemsigtighed). Optimeringsprocessen renderingsbilledet for hver kameraposition og bruger det til at bestemme parametre, der er tættere på det originale billede. Som resultat er den resulterende 3D-Gaussian Splatting-udgang et billede, kaldet Splatter Billede, der ligner det originale billede mest ved kamerapositionen, hvorfra det blev fanget.

Yderligere giver opacitetsfunktionen og farvefunktionen i Gaussian Splatting en strålingsfelt med visningsretningen af 3D-punktet. Rammen renderingsstrålingsfeltet derefter på et billede ved at integrere farverne, der observeres langs strålen, der passerer gennem pixlen. Gaussian Splatting repræsenterer disse funktioner som en kombination af farvede Gaussians, hvor Gaussian-gennemsnit eller center samt Gaussian-kovarians hjælper med at bestemme dets form og størrelse. Hver Gaussian har også en opacitets- og en visningsafhængig farveegenskab, der sammen definerer strålingsfeltet.

Splatter Billede

Renderer-komponenten mapper sættet af 3D-Gaussians til et billede. For at udføre enkelt-vis 3D-rekonstruktion søger rammen herefter en invers funktion for 3D-Gaussians, der rekonstruerer blandingen af 3D-Gaussians fra et billede. Den væsentlige inklusion her er at foreslå en effektiv, men enkel design for den inverse funktion. Specifikt for et inputbillede forudsiger rammen en Gaussian for hver enkelt pixel ved hjælp af et billede-til-billede neuralt netværksarkitektur til at producere et billede, Splatter Billede, som output. Netværket forudsiger også formen, opaciteten og farven.

Nu kan det måske spekuleres, hvordan Splatter Billede-rammen kan rekonstruerer 3D-repræsentationen af et objekt, selvom den kun har adgang til én af dets visninger? I realtid lærer Splatter Billede-rammen at bruge nogle af de tilgængelige Gaussians til at rekonstruerer visningen og bruger de resterende Gaussians til automatisk at rekonstruerer usete dele af billedet. For at maksimere sin effektivitet kan rammen automatisk slukke for nogen Gaussians ved at forudsige, om opaciteten er nul. Hvis opaciteten er nul, slukkes Gaussians, og rammen renderings ikke disse punkter, men de fjernes i stedet under efterbehandling.

Billede-Niveau-Tab

En stor fordel ved at udnytte hastigheden og effektiviteten, der tilbydes af Splatter Gaussian-metoden, er, at det faciliterer rammen til at renderings alle billeder ved hver iteration, selv for batch med relativt større batch-størrelse. Yderligere indebærer det, at rammen ikke kun kan bruge dekomponerlige tab, men den kan også bruge billede-niveau-tab, der ikke dekomponerer i tab per pixel.

Skala-Normalisering

Det er en udfordring at estimere størrelsen af et objekt ved at se på en enkelt visning, og det er en udfordring at løse denne tvetydighed, når det trænes med et tab. Den samme problematik observeres ikke i syntetiske datasæt, da alle objekter renderes med identiske kamera-intrinsik og objekterne er på en fast afstand fra kameraet, hvilket hjælper med at løse tvetydigheden. Men i datasæt med virkelige billeder er tvetydigheden ret tydelig, og Splatter Billede-rammen anvender flere forbehandlingsmetoder til at fastlægge skalaen for alle objekter.

Visningsafhængig Farve

For at repræsentere visningsafhængige farver bruger Splatter Billede-rammen sfærisk harmoni til at generalisere farverne ud over den lambertianske farvemodel. For en given Gaussian definerer modellen koefficienter, der forudsiges af netværket og sfærisk harmoni. Visningsretningen ændrer en visningsretning i kamera-kilden til dens tilsvarende visningsretning i referencerammen. Modellen finder herefter de tilsvarende koefficienter til at finde den transformerende farvefunktion. Modellen kan gøre dette, fordi sfærisk harmoni er lukket under rotation, sammen med hver anden orden.

Neuralt Netværksarkitektur

En stor del af arkitekturen for predictor-mappingen af inputbilledet til kombinationen af Gaussian er identisk med processen, der bruges i SongUNet-rammen. Den sidste lag i arkitekturen erstattes af et 1×1 konvolutionslag med farvemodellen, der bestemmer bredden af outputkanalerne. Givet inputbilledet producerer netværket en outputkanal-tensor som output, og for hver pixel-kanal-koder parametrene, der derefter transformeres til offset, opacitet, rotation, dybde og farve. Rammen bruger herefter ikke-lineære funktioner til at aktivere parametrene og opnå Gaussian-parametrene.

For at rekonstruerer 3D-repræsentationer med multi-visninger anvender Splatter Billede-rammen det samme netværk til hver inputvisning og bruger herefter visningsretningen til at kombinere de enkelte rekonstruktioner. Yderligere til at faciliterer effektiv koordination og udveksling af information mellem visningerne i netværket gør Splatter Billede-rammen to ændringer i netværket. Først betingeder rammen modellen med dens respektive kameraposition og passer vektorer ved at kodificere hver indgang ved hjælp af en sinusoid positionsembædning, der resulterer i flere dimensioner. Anden tilføjer rammen cross-attention-lag til at faciliterer kommunikation mellem funktionerne af forskellige visninger.

Splatter Billede : Eksperimenter og Resultater

Splatter Billede-rammen måler kvaliteten af sine rekonstruktioner ved at evaluere Novel View Synthesis-kvaliteten, da rammen bruger kildevisningen og renderings 3D-formen til mål, der ikke er sete visninger til at udføre rekonstruktioner. Rammen evaluerer sin præstation ved at måle SSIM eller Structural Similarity, Peak Signal to Noise Ratio eller PSNR og Perceptual Quality eller LPIPS-scores.

Enkelt-Vis 3D-Rekonstruktionspræstation

Følgende tabel demonstrerer præstationen af Splatter Billede-modellen i enkelt-vis 3D-rekonstruktionsopgaven på ShapeNet-benchmark.

Som det kan observeres, overgår Splatter Billede-rammen alle deterministiske rekonstruktionsmetoder på tværs af LPIPS- og SSIM-scores. Scoresne angiver, at Splatter Billede-modellen genererer billeder med skarpere rekonstruktioner. Yderligere overgår Splatter Billede-modellen også alle deterministiske baseline i forhold til PSNR-scoren, hvilket angiver, at de genererede rekonstruktioner også er mere præcise. Yderligere, ud over at overgå alle deterministiske metoder, kræver Splatter Billede-rammen kun relative kamerapositioner til at forbedre sin effektivitet i både trænings- og testfaser.

Følgende billede demonstrerer den kvalitative dygtighed af Splatter Billede-rammen, og som det kan ses, genererer modellen rekonstruktioner med tynde og interessante geometrier og fanger detaljerne af konditioneringsvisningerne.

Følgende billede viser, at rekonstruktionerne, der genereres af Splatter Billede-rammen, ikke kun er skarpere, men også har bedre nøjagtighed end tidligere modeller, især under usædvanlige betingelser med tynde strukturer og begrænset synlighed.

Multi-Vis 3D-Rekonstruktion

For at evaluere sin multi-vis 3D-rekonstruktionskapacitet trænes Splatter Billede-rammen på SpaneNet-SRN Cars-datasættet til to-visningsforudsigelser. Eksisterende metoder bruger absolut kamerapositionsbetingelse til multi-vis 3D-rekonstruktionsopgaver, hvilket betyder, at modellen lærer at afhænge primært af objekts kanoniske orientering i objektet. Selvom det gør arbejdet, begrænser det anvendeligheden af modellerne, da den absolutte kameraposition ofte er ukendt for et nyt billede af et objekt.

Endelige Tanker

I denne artikel har vi talt om Splatter Billede, en metode, der sigter mod at opnå ultra-hurtig enkelt-vis 3D-form og 3D-udseende konstruktion af objekter. I dens kerne bruger Splatter Billede-rammen Gaussian Splatting-metoden til at analysere 3D-repræsentationer, hvilket udnytter hastigheden og kvaliteten, den tilbyder. Splatter Billede-rammen processerer billeder ved hjælp af en standard 2D-CNN-arkitektur til at forudsige et pseudo-billede, der indeholder en farvet Gaussian per pixel. Ved at bruge Gaussian Splatting-metoden kan Splatter Billede-rammen kombinere hurtig rendering med hurtig inferens, hvilket resulterer i hurtig træning og hurtigere evaluering på både virkelige og syntetiske benchmark.

En ingeniør af profession, en forfatter af hjerte. Kunal er en teknisk forfatter med en dyb kærlighed og forståelse af AI og ML, dedikeret til at forenkle komplekse koncepter inden for disse felter gennem sin engagerende og informative dokumentation.