Artificiell intelligens
Splatter Bild: Ultra-Snabb Enkelvy 3D-Rekonstruktion

Enkelvy 3D-objektrekonstruktion med convolutionella nätverk har visat på anmärkningsvärda förmågor. Enkelvy 3D-rekonstruktionsmodeller genererar 3D-modellen av vilket objekt som helst med hjälp av en enda bild som referens, vilket gör det till ett av de hetaste forskningsområdena inom datorseende.

Till exempel, låt oss överväga motorcykeln i bilden ovan. Att generera dess 3D-struktur kräver en komplex pipeline som först kombinerar ledtrådar från lågnivåbilder med högnivåsemantisk information och kunskap om den strukturella anordningen av delar.
På grund av den komplexa processen har enkelvy 3D-rekonstruktion varit en stor utmaning inom datorseende. I ett försök att förbättra effektiviteten hos enkelvy 3D-rekonstruktion har utvecklare arbetat med Splatter Bild, en metod som syftar till att uppnå ultra-snabb enkelvy 3D-form och 3D-utseende konstruktion av objekten. I dess kärna använder Splatter Bild-ramverket Gaussisk Splatting-metoden för att analysera 3D-representationer, med fördel av den hastighet och kvalitet den erbjuder.
Nyligen har Gaussisk Splatting-metoden implementerats av många multi-vy rekonstruktionsmodeller för realtidsrendering, förbättrad skalning och snabb utbildning. Med det sagda, är Splatter Bild det första ramverket som implementerar Gaussisk Splatting-metoden för enkelvy rekonstruktionsuppgifter.
I den här artikeln kommer vi att undersöka hur Splatter Bild-ramverket använder Gaussisk Splatting för att uppnå ultra-snabb enkelvy 3D-rekonstruktion. Så låt oss komma igång.
Splatter Bild : Ett Försök till Ultra-Snabb Enkelvy 3D-Rekonstruktion
Som nämnts tidigare är Splatter Bild en ultra-snabb metod för enkelvy 3D-objektrekonstruktion baserad på Gaussisk Splatting-metoden. Splatter Bild är det första datorseende-ramverket som implementerar Gaussisk Splatting för monokulär 3D-objektgenerering, eftersom Gaussisk Splatting traditionellt har drivit multi-vy 3D-objektrekonstruktionsramverk. Men vad som skiljer Splatter Bild-ramverket från tidigare metoder är att det är en lärande-baserad metod, och rekonstruktion under testning endast kräver feed-forward utvärdering av neuronnätverket.
Splatter Bild bygger i grunden på Gaussisk Splatting renderingsegenskaper och hög bearbetningshastighet för att generera 3D-rekonstruktioner. Splatter Bild-ramverket har en enkel design: ramverket använder ett 2D-bild-till-bild-neuronnätverk för att förutsäga en 3D-Gaussisk per ingångsbildpixel och kartar ingångsbilden till en 3D-Gaussisk per pixel. De resulterande 3D-Gaussiska har formen av en bild, känd som Splatter Bild, och de Gaussiska ger också 360 graders representation av bilden. Processen visas i följande bild.

Även om processen är enkel och rak, finns det några nyckelutmaningar som Splatter Bild-ramverket står inför när det använder Gaussisk Splatting för att generera 3D-Gaussiska för enkelvy 3D-representationer. Den första stora hinder är att designa ett neuronnätverk som accepterar bilden av ett objekt som ingång och genererar en motsvarande Gaussisk blandning som representerar alla sidor av bilden som utgång. För att tackla detta, utnyttjar Splatter Bild det faktum att även om den genererade Gaussiska blandningen är en samling eller en oordnad samling av artiklar, kan den fortfarande lagras i en ordnad datastruktur. I enlighet med detta, använder ramverket en 2D-bild som en behållare för 3D-Gaussiska som ett resultat av att varje pixel i behållaren innehåller parametrarna för en Gaussisk, inklusive dess egenskaper som form, opacitet och färg.
Genom att lagra 3D-Gaussiska samlingar i en bild, kan Splatter Bild-ramverket minska rekonstruktionshinder som möts när man lär sig en bild-till-bild-neuronnätverk. Genom att använda denna metod, kan rekonstruktionsprocessen implementeras endast genom att använda effektiva 2D-operatörer istället för att förlita sig på 3D-operatörer. Dessutom, i Splatter Bild-ramverket, är 3D-representationen en blandning av 3D-Gaussiska som tillåter det att utnyttja renderinghastigheten och minneseffektivitetsfördelarna som erbjuds av Gaussisk Splatting som förbättrar effektiviteten i utbildning såväl som i inferens. Fortsättning, Splatter Bild-ramverket kan inte bara generera enkelvy 3D-representationer, men det visar också anmärkningsvärd effektivitet eftersom det kan utbildas även på en enda GPU på standard 3D-objekt benchmark. Dessutom kan Splatter Bild-ramverket utökas för att ta flera bilder som ingång. Det kan göra detta genom att registrera de enskilda Gaussiska blandningarna till en gemensam referens och sedan genom att ta kombinationen av Gaussiska blandningar som förutsagts från enskilda vyer. Ramverket injicerar också lätta cross-attention-lager i sin arkitektur som tillåter olika vyer att kommunicera med varandra under förutsägelse.
Från ett empiriskt perspektiv är det värt att notera att Splatter Bild-ramverket kan producera 360 graders rekonstruktion av objektet även om det ser bara en sida av objektet. Ramverket tilldelar då olika Gaussiska i en 2D-grannskap till olika delar av 3D-objektet för att koda den genererade 360 graders informationen i 2D-bilden. Dessutom ställer ramverket in opaciteten för flera Gaussiska till noll som inaktiverar dem, vilket tillåter dem att stängas av under efterbearbetning.
Sammanfattningsvis är Splatter Bild-ramverket
- En ny metod för att generera enkelvy 3D-objektrekonstruktioner genom att porta Gaussisk Splatting-metoden.
- Utökar metoden för multi-vy 3D-objektrekonstruktion.
- Uppnår toppmodell 3D-objektrekonstruktionsprestanda på standardbenchmark med exceptionell hastighet och kvalitet.
Splatter Bild : Metod och Arkitektur
Gaussisk Splatting
Som nämnts tidigare är Gaussisk Splatting den primära metoden som implementeras av Splatter Bild-ramverket för att generera enkelvy 3D-objektrekonstruktioner. I enkla termer är Gaussisk Splatting en rasteriseringsmetod för att rekonstruera 3D-bilder och realtidsrendering, och rendering av bilder med flera vyer. 3D-utrymmet i bilden kallas Gaussiska, och maskinlärningstekniker implementeras för att lära sig parametrarna för varje Gaussisk. Gaussisk Splatting kräver inte utbildning under rendering, vilket möjliggör snabbare renderingtider. Följande bild sammanfattar arkitekturen för 3D-Gaussisk Splatting.

3D-Gaussisk Splatting använder först uppsättningen av ingångsbilder för att generera en punktmoln. Gaussisk Splatting använder sedan ingångsbilderna för att uppskatta de externa parametrarna för kameran, som vinkel och position, genom att matcha pixlarna mellan bilderna, och dessa parametrar används sedan för att beräkna punktmolnet. Med hjälp av olika maskinlärningsmetoder optimerar Gaussisk Splatting sedan fyra parametrar för varje Gaussisk, nämligen: Position (var är den belägen), Kovarians (utsträckningen av dess sträckning eller skalning i 3×3-matris), Färg (vilken är RGB-färgschemat), och Alfa (mätning av transparensen). Optimeringsprocessen renderar bilden för varje kameraposition och använder den för att bestämma parametrarna närmare originalet. Som resultat är den resulterande 3D-Gaussiska Splatting-utgången en bild, kallad Splatter Bild, som liknar originalet mest vid kamerapositionen från vilken den togs.

Dessutom ger opacitetsfunktionen och färgfunktionen i Gaussisk Splatting en strålningsfält med vyriktningen för 3D-punkten. Ramverket renderar sedan strålningsfältet till en bild genom att integrera färgerna som observeras längs strålen som passerar genom pixeln. Gaussisk Splatting representerar dessa funktioner som en kombination av färgade Gaussiska, där Gaussiska medelvärdet eller centrum, tillsammans med Gaussiska kovariansen, hjälper till att bestämma dess form och storlek. Varje Gaussisk har också en opacitetsegenskap och en vy-baserad färgsegenskap som tillsammans definierar strålningsfältet.
Splatter Bild
Renderingskomponenten kartar uppsättningen av 3D-Gaussiska till en bild. För att utföra enkelvy 3D-rekonstruktion, söker ramverket sedan en inversfunktion för 3D-Gaussiska som rekonstruerar blandningen av 3D-Gaussiska från en bild. Den viktiga delen här är att föreslå en effektiv men enkel design för den inversa funktionen. Specifikt, för en ingångsbild, förutsäger ramverket en Gaussisk för varje enskild pixel med hjälp av en bild-till-bild-neuronnätverksarkitektur för att producera en bild, Splatter Bild. Nätverket förutsäger också formen, opaciteten och färgen.
Nu kan det spekuleras om hur Splatter Bild-ramverket kan rekonstruera 3D-representationen av ett objekt, även om det endast har tillgång till en vy? I realtid lär sig Splatter Bild-ramverket att använda några av de tillgängliga Gaussiska för att rekonstruera vyn och använder de återstående Gaussiska för att automatiskt rekonstruera osynliga delar av bilden. För att maximera sin effektivitet kan ramverket automatiskt stänga av några Gaussiska genom att förutsäga om opaciteten är noll. Om opaciteten är noll, stängs Gaussiska av och ramverket renderar inte dessa punkter, och de är istället borttagna under efterbearbetning.
Bildnivå Förlust
En stor fördel med att utnyttja hastigheten och effektiviteten som erbjuds av Gaussisk Splatting-metoden är att det möjliggör ramverket att rendera alla bilder vid varje iteration, även för batchar med relativt större batchstorlek. Dessutom innebär det att ramverket inte bara kan använda dekomponerbara förluster, utan också bildnivåförluster som inte dekomponerar till förluster per pixel.
Skalnormalisering
Det är en utmaning att uppskatta storleken på ett objekt genom att titta på en enda vy, och det är en utmaning att lösa denna tvetydighet när det utbildas med en förlust. Samma problem observeras inte i syntetiska datamängder, eftersom alla objekt renderas med identiska kameraintrinsik och objekten är på ett fast avstånd från kameran, vilket slutligen hjälper till att lösa tvetydigheten. Men i datamängder med riktiga bilder är tvetydigheten ganska tydlig, och Splatter Bild-ramverket använder flera förbearbetningsmetoder för att approximativt fixa storleken på alla objekt.
Vy-baserad Färg
För att representera vy-baserade färger använder Splatter Bild-ramverket sfäriska harmoniker för att generalisera färgerna bortom Lambertisk färgmodell. För varje specifik Gaussisk definierar modellen koefficienter som förutsägs av nätverket och sfäriska harmonikerna. Vyförändringen transformerar en vyriktning i kamerakällan till dess motsvarande vyriktning i referensramen. Modellen hittar sedan de motsvarande koefficienterna för att hitta den transformerade färgfunktionen. Modellen kan göra detta eftersom sfäriska harmoniker är slutna under rotation, tillsammans med varje annan ordning.
Neuronnätverksarkitektur
Större delen av arkitekturen för förutsägelsen som kartar ingångsbilden till Gaussiska-blandningen är identisk med processen som används i SongUNet-ramverket. Den sista lagern i arkitekturen ersätts av en 1×1 konvolutionslager med färgmodellen som bestämmer utgångskanalernas bredd. Givet ingångsbilden, producerar nätverket en utgångskanal-tensor som utgång, och för varje pixelkanal, kodar parametrarna som sedan omvandlas till offset, opacitet, rotation, djup och färg. Ramverket använder sedan icke-linjära funktioner för att aktivera parametrarna och erhålla Gaussiska parametrarna.
För att rekonstruera 3D-representationer med multi-vy, använder Splatter Bild-ramverket samma nätverk till varje ingångsvy och använder sedan vy-ansatsen för att kombinera de enskilda rekonstruktionerna. Dessutom, för att möjliggöra effektiv samordning och utbyte av information mellan vyerna i nätverket, gör Splatter Bild-ramverket två ändringar i nätverket. Först, villkorar ramverket modellen med dess respektive kameraposition och skickar vektorer genom att koda varje post med hjälp av en sinusoid positioninbäddning, vilket resulterar i flera dimensioner. För det andra, lägger ramverket till cross-attention-lager för att möjliggöra kommunikation mellan funktionerna för olika vyer.
Splatter Bild : Experiment och Resultat
Splatter Bild-ramverket mäter kvaliteten på sina rekonstruktioner genom att utvärdera Novel View Synthesis-kvalitet, eftersom ramverket använder källvyn och renderar 3D-formen till målvyer för att utföra rekonstruktioner. Ramverket utvärderar sin prestanda genom att mäta SSIM eller Strukturell Likhet, Peak Signal till Brusförhållande eller PSNR och Perceptuell Kvalitet eller LPIPS-poäng.
Enkelvy 3D-Rekonstruktionsprestanda
Följande tabell visar prestandan för Splatter Bild-modellen i enkelvy 3D-rekonstruktionsuppgiften på ShapeNet-benchmark.

Som det kan observeras, överträffar Splatter Bild-ramverket alla deterministiska rekonstruktionsmetoder över LPIPS- och SSIM-poäng. Poängen indikerar att Splatter Bild-modellen genererar bilder med skarpare rekonstruktioner. Dessutom överträffar Splatter Bild-modellen alla deterministiska baslinje i termer av PSNR-poäng, vilket indikerar att de genererade rekonstruktionerna också är mer exakta. Dessutom, utöver att överträffa alla deterministiska metoder, kräver Splatter Bild-ramverket endast relativa kamerapositioner för att förbättra sin effektivitet i både utbildnings- och testfasen.
Följande bild visar den kvalitativa dugligheten hos Splatter Bild-ramverket, och som det kan ses, genererar modellen rekonstruktioner med tunna och intressanta geometrier och fångar detaljerna i villkorsvyerna.

Följande bild visar att rekonstruktionerna som genereras av Splatter Bild-ramverket inte bara är skarpare utan också har bättre noggrannhet än tidigare modeller, särskilt i ovanliga förhållanden med tunna strukturer och begränsad synlighet.

Multi-vy 3D-Rekonstruktion
För att utvärdera sin multi-vy 3D-rekonstruktionsförmåga, tränas Splatter Bild-ramverket på SpaneNet-SRN Cars-dataset för tvåvyförutsägelse. Existerande metoder använder absolut kamerapositionsvillkor för multi-vy 3D-rekonstruktionsuppgifter, vilket betyder att modellen lär sig att förlita sig främst på objektets kanoniska orientering i objektet. Även om det fungerar, begränsar det tillämpbarheten av modellerna, eftersom den absoluta kamerapositionen ofta är okänd för en ny bild av ett objekt.

Slutliga Tankar
I den här artikeln har vi talat om Splatter Bild, en metod som syftar till att uppnå ultra-snabb enkelvy 3D-form och 3D-utseende konstruktion av objekten. I dess kärna använder Splatter Bild-ramverket Gaussisk Splatting-metoden för att analysera 3D-representationer, med fördel av den hastighet och kvalitet den erbjuder. Splatter Bild-ramverket bearbetar bilder med hjälp av en standard 2D-CNN-arkitektur för att förutsäga en pseudo-bild som innehåller en färgad Gaussisk per pixel. Genom att använda Gaussisk Splatting-metoden kan Splatter Bild-ramverket kombinera snabb rendering med snabb inferens, vilket resulterar i snabb utbildning och snabbare utvärdering på riktiga och syntetiska benchmark.












