Connect with us

Umělá inteligence

Splatter Image: Ultra-Rychlá Jednoznačná 3D Rekonstrukce

mm
Splatter Image: Ultra-Fast Single-View 3D Reconstruction

Jednoznačná 3D rekonstrukce objektů s konvolučními sítěmi prokázala pozoruhodné schopnosti. Modely jednoznačné 3D rekonstrukce generují 3D model libovolného objektu pomocí jediného obrazu jako referenci, což z nich dělá jednu z nejžhavějších témat výzkumu v počítačovém vidění.

Například u motocyklu na výše uvedeném obrázku je nutné k vytvoření jeho 3D struktury použít složitý proces, který nejprve kombinuje nápovědy z nízkoúrovňových obrazů s vysokou úrovní sémantických informací a znalostí o strukturním uspořádání částí.

Vzhledem k složitosti procesu byla jednoznačná 3D rekonstrukce velkou výzvou v počítačovém vidění. V pokusu o zvýšení efektivity jednoznačné 3D rekonstrukce pracovali vývojáři na Splatter Image, metodě, která má za cíl dosáhnout ultra-rychlé jednoznačné 3D tvarové a 3D vzhledové konstrukce objektů. V jádru frameworku Splatter Image používá metodu Gaussian Splatting k analýze 3D reprezentací, využívající tak její rychlosti a kvality.

Nedávno byla metoda Gaussian Splatting implementována mnoha modely víceznačné rekonstrukce pro reálné vykreslování, lepší škálovatelnost a rychlé školení. S tím, co bylo řečeno, je Splatter Image prvním frameworkem, který implementuje metodu Gaussian Splatting pro jednoznačné rekonstrukční úkoly.

V tomto článku budeme zkoumat, jak framework Splatter Image využívá Gaussian Splatting k dosažení ultra-rychlé jednoznačné 3D rekonstrukce. Takže pojďme začít.

Splatter Image : Pokus o Ultra-Rychlou Jednoznačnou 3D Rekonstrukci

Jak bylo zmíněno dříve, Splatter Image je ultra-rychlý přístup pro jednoznačnou 3D rekonstrukci objektů založený na metodě Gaussian Splatting. Splatter Image je prvním frameworkem počítačového vidění, který implementuje Gaussian Splatting pro monokulární 3D generování objektů, protože tradičně Gaussian Splatting pohání víceznačné 3D objekty rekonstrukční frameworky. Nicméně, co odlišuje framework Splatter Image od předchozích metod, je to, že je to učící se přístup, a rekonstrukce během testování vyžaduje pouze feed-forward evaluaci neuronové sítě.

Splatter Image se fundamentálně opírá o vykreslovací kvality Gaussian Splatting a vysokou rychlost zpracování k generování 3D rekonstrukcí. Framework Splatter Image má přímý design: framework používá 2D obraz-obilíkovou neuronovou síť k předpovědi 3D Gaussova rozložení pro každý vstupní pixel obrazu a mapuje vstupní obraz na jedno 3D Gaussovo rozložení pro pixel. Výsledná 3D Gaussova rozložení mají podobu obrazu, nazývaného Splatter Image, a tato Gaussova rozložení také poskytují 360stupňovou reprezentaci obrazu. Proces je demonstrován na následujícím obrázku.

Ačkoli je proces jednoduchý a přímý, existují některé klíčové výzvy, kterým framework Splatter Image čelí při použití Gaussian Splatting k generování 3D Gaussových rozložení pro jednoznačné 3D reprezentace. První hlavní překážka spočívá v návrhu neuronové sítě, která přijímá obraz objektu jako vstup a generuje Gaussovo rozložení reprezentující všechny strany obrazu jako výstup. K překonání této překážky framework Splatter Image využívá skutečnosti, že i když je generované Gaussovo rozložení množinou nebo neuspořádanou sbírkou položek, může být stále uloženo v uspořádané datové struktuře. V souladu s tím framework používá 2D obraz jako kontejner pro 3D Gaussova rozložení, v důsledku čehož každý pixel v kontejneru obsahuje parametry jednoho Gaussova rozložení, včetně jeho vlastností, jako je tvar, průhlednost a barva.

Ukládáním 3D Gaussových rozložení do obrazu je framework Splatter Image schopen snížit rekonstrukční překážky, kterým čelí při učení obraz-obrazilíkové neuronové sítě. Použitím tohoto přístupu lze rekonstrukční proces implementovat pouze pomocí efektivních 2D operátorů místo spoléhání se na 3D operátory. Kromě toho framework Splatter Image využívá 3D reprezentaci jako směs 3D Gaussových rozložení, což mu umožňuje využít výhod vykreslovací rychlosti a paměťové efektivity nabízené Gaussian Splatting, což zvyšuje efektivitu při školení i při inferenci. Pokračujeme, framework Splatter Image nejen generuje jednoznačné 3D reprezentace, ale také prokazuje pozoruhodnou efektivitu, protože jej lze školit i na jediném GPU na standardních 3D objektech benchmarků. Kromě toho lze framework Splatter Image rozšířit tak, aby přijímal několik obrazů jako vstup. Toho je schopen dosáhnout registrováním jednotlivých Gaussových rozložení do společné referenční soustavy a poté kombinací Gaussových rozložení předpovězených z jednotlivých pohledů. Framework také vkládá lehké vrstvy vzájemné pozornosti do své architektury, což umožňuje různým pohledům komunikovat navzájem během předpovědi.

Z empirického hlediska je třeba poznamenat, že framework Splatter Image může produkovat 360stupňovou rekonstrukci objektu, i když vidí pouze jednu jeho stranu. Framework poté přiděluje různá Gaussova rozložení v 2D sousedství k různým částem 3D objektu, aby zakódoval generovanou 360stupňovou informaci v 2D obrazu. Kromě toho framework nastavuje průhlednost několika Gaussových rozložení na nulu, což je deaktivuje, a umožňuje je odstranit během post-processingu.

Shrnutí, framework Splatter Image je

  1. Nový přístup k generování jednoznačných 3D objekčních rekonstrukcí přenosem metody Gaussian Splatting.
  2. Rozšiřuje metodu pro víceznačnou 3D objekční rekonstrukci.
  3. Dosahuje špičkového výkonu 3D objekční rekonstrukce na standardních benchmarkách s výjimečnou rychlostí a kvalitou.

Splatter Image : Metodika a Architektura

Gaussian Splatting

Jak bylo zmíněno dříve, Gaussian Splatting je primární metoda implementovaná frameworkem Splatter Image k generování jednoznačných 3D objekčních rekonstrukcí. V jednoduchých termínech je Gaussian Splatting metodou rasterizace pro rekonstrukci 3D obrazů a reálné vykreslování obrazů s více body pohledu. 3D prostor v obraze je označován jako Gaussova rozložení, a strojové učení techniky jsou implementovány k naučení parametrů každého Gaussova rozložení. Gaussian Splatting nevyžaduje školení během vykreslování, což usnadňuje rychlejší vykreslovací časy. Následující obraz shrnuje architekturu 3D Gaussova rozložení.

3D Gaussovo rozložení nejprve používá množinu vstupních obrazů k generování bodového mračna. Gaussian Splatting poté používá vstupní obrazy k odhadu vnějších parametrů kamery, jako je naklonění a poloha, shodou pixelů mezi obrazy, a tyto parametry jsou poté použity k výpočtu bodového mračna. Použitím různých strojových učení metod Gaussian Splatting poté optimalizuje čtyři parametry pro každé Gaussovo rozložení, jmenovitě: Polohu (kde se nachází), Kovarianci (rozsah jeho protažení nebo měřítka v 3×3 matici), Barvu (jaký je RGB barevný schéma) a Alfa (měřící průhlednost). Optimalizační proces vykresluje obraz pro každou kamerovou polohu a používá jej k určení parametrů blížších k původnímu obrazu. V důsledku toho je výsledné 3D Gaussovo rozložení výstupem, nazývaným Splatter Image, který se podobá původnímu obrazu nejvíce z kamery, ze které byl pořízen.

Kromě toho funkce průhlednosti a funkce barvy v Gaussian Splatting poskytují radiance pole s pohledovou směsí 3D bodu. Framework poté vykresluje radiance pole na obraz integrováním barev pozorovaných podél paprsku, který prochází pixelem. Gaussian Splatting reprezentuje tyto funkce jako kombinaci barevných Gaussových rozložení, kde Gaussovo rozložení střední hodnoty nebo centra spolu s Gaussovým rozložením pomáhá určit jeho tvar a velikost. Každé Gaussovo rozložení také má vlastnost průhlednosti a pohledově závislou barvou, která společně definuje radiance pole.

Splatter Image

Komponent renderer mapuje množinu 3D Gaussových rozložení na obraz. K provedení jednoznačné 3D rekonstrukce framework poté hledá inverzní funkci pro 3D Gaussova rozložení, která rekonstruuje směs 3D Gaussových rozložení z obrazu. Klíčovým zahrnutím zde je navrhnout efektivní, ale jednoduchý design pro inverzní funkci. Konkrétně, pro vstupní obraz, framework předpovídá Gaussovo rozložení pro každý pixel pomocí obraz-obrazilíkové neuronové sítě architektury k výstupu obrazu, Splatter Image. Síť také předpovídá tvar, průhlednost a barvu.

Nyní lze spekulovat, jak framework Splatter Image rekonstruuje 3D reprezentaci objektu, i když má přístup pouze k jedné jeho straně? V reálném čase framework Splatter Image učí se používat některé dostupné Gaussova rozložení k rekonstrukci pohledu a používá zbývající Gaussova rozložení k automatické rekonstrukci neviditelných částí obrazu. K maximalizaci své efektivity framework může automaticky vypnout jakékoli Gaussova rozložení předpověděním, zda je průhlednost nula. Pokud je průhlednost nula, Gaussova rozložení jsou vypnuta a framework je nevykresluje, a jsou místo toho odstraněna během post-processingu.

Obrazová Úroveň Ztráty

Velkou výhodou využití rychlosti a efektivity nabízené metodou Gaussian Splatting je, že usnadňuje frameworku vykreslit všechny obrazy v každém iteraci, dokonce i pro dávkové zpracování s relativně větší velikostí dávkování. Kromě toho to znamená, že framework není pouze schopen použít dekomponovatelné ztráty, ale může také použít obrazové úrovně ztrát, které se ne rozkládají na ztráty na pixel.

Normalizace Měřítka

Je obtížné odhadnout velikost objektu pohledem na jeden obraz, a je to obtížný úkol vyřešit tuto ambiguitu, když je trénován se ztrátou. Stejný problém není pozorován v syntetických datech, protože všechny objekty jsou vykresleny se stejnými kamerovými intrikami a objekty jsou ve fixní vzdálenosti od kamery, což nakonec pomáhá řešit ambiguitu. Nicméně v datech s reálnými obrazy je ambiguita bastante zřejmá, a framework Splatter Image používá několik předzpracovacích metod k aproximativnímu nastavení měřítka všech objektů.

Pohledově Závislá Barva

K reprezentaci pohledově závislých barev framework Splatter Image používá sférické harmoniky ke generalizaci barev za rámec Lambertovského barevného modelu. Pro každé konkrétní Gaussovo rozložení model definuje koeficienty, které jsou předpovězeny sítí a sférickými harmonikami. Pohledová změna transformuje pohledovou směr v kamerovém zdroji na odpovídající pohledovou směr v rámci referenční soustavy. Model poté najde odpovídající koeficienty k nalezení transformované barvy funkce. Model je schopen tak učinit, protože při rotaci jsou sférické harmoniky uzavřené, spolu s každou další řádovou.

Neuronová Síťová Architektura

Většina architektury prediktoru mapujícího vstupní obraz na kombinaci Gaussových rozložení je identická s procesem použitým v frameworku SongUNet. Poslední vrstva v architektuře je nahrazena 1×1 konvoluční vrstvou s barevným modelem, který určuje šířku výstupních kanálů. Daný vstupní obraz, síť produkuje výstupní kanálový tensor jako výstup, a pro každý pixelový kanál kóduje parametry, které jsou poté transformovány na offset, průhlednost, rotaci, hloubku a barvu. Framework poté používá ne-lineární funkce k aktivaci parametrů a získání Gaussových parametrů.

Pro rekonstrukci 3D reprezentací s více pohledy framework Splatter Image aplikuje stejnou síť na každý vstupní pohled a poté používá pohledový přístup ke kombinaci jednotlivých rekonstrukcí. Kromě toho, aby usnadnil efektivní koordinaci a výměnu informací mezi pohledy v síti, framework Splatter Image provedl dvě modifikace v síti. První, framework podmíněně modeluje s jeho příslušnou kamerovou polohou a předává vektory kódováním každého vstupu pomocí sinusoidálního positionálního vložení, což vede k více dimenzím. Druhý, framework přidává vrstvy vzájemné pozornosti, aby usnadnil komunikaci mezi funkcemi různých pohledů.

Splatter Image : Experimenty a Výsledky

Framework Splatter Image měří kvalitu svých rekonstrukcí vyhodnocením kvality syntézy nových pohledů, protože framework používá zdrojový pohled a vykresluje 3D tvar pro cílové neviditelné pohledy k provedení rekonstrukcí. Framework vyhodnocuje svůj výkon měřením SSIM nebo Strukturní Podobnosti, Peak Signál-Šum Poměru nebo PSNR a Percepční Kvality nebo LPIPS skóre.

Jednoznačná 3D Rekonstrukční Výkon

Následující tabulka demonstruje výkon modelu Splatter Image v jednoznačné 3D rekonstrukční úkolu na ShapeNet benchmarku.

Jak lze vidět, framework Splatter Image překonává všechny deterministické rekonstrukční metody napříč LPIPS a SSIM skóre. Skóre indikují, že model Splatter Image generuje obrazy s ostřejšími rekonstrukcemi. Kromě toho model Splatter Image také překonává všechny deterministické baseline v PSNR skóre, což indikuje, že generované rekonstrukce jsou také přesnější. Kromě překonání všech deterministických metod framework Splatter Image vyžaduje pouze relativní kamerové polohy ke zvýšení své efektivity během školení i testování fází.

Následující obraz demonstruje kvalitativní sílu frameworku Splatter Image, a jak lze vidět, model generuje rekonstrukce s tenkými a zajímavými geometriemi a zachycuje detaily kondicionovaných pohledů.

Následující obraz ukazuje, že rekonstrukce generované frameworkem Splatter Image nejsou pouze ostřejší, ale také mají lepší přesnost než předchozí modely, zejména v neobvyklých podmínkách s tenkými strukturami a omezenou viditelností.

Víceznačná 3D Rekonstrukce

K vyhodnocení své víceznačné 3D rekonstrukční schopnosti framework Splatter Image byl trénován na SpaneNet-SRN Cars datasetu pro dvou-pohledové předpovědi. Existující metody používají absolutní kamerovou polohu kondicionování pro víceznačné 3D rekonstrukční úkoly, což znamená, že model se učí spoléhat se primárně na objektovou kanonickou orientaci v objektu. Ačkoli to dělá práci, omezuje to aplikovatelnost modelů, protože absolutní kamerová poloha je často neznámá pro nový obraz objektu.

Konečné Myšlenky

V tomto článku jsme hovořili o Splatter Image, metodě, která má za cíl dosáhnout ultra-rychlé jednoznačné 3D tvarové a 3D vzhledové konstrukce objektů. V jádru frameworku Splatter Image používá metodu Gaussian Splatting k analýze 3D reprezentací, využívající tak její rychlosti a kvality. Framework Splatter Image zpracovává obrazy pomocí standardní 2D CNN architektury k předpovědi pseudo-obrazu, který obsahuje jedno barevné Gaussovo rozložení pro každý pixel. Použitím metody Gaussian Splatting framework Splatter Image je schopen kombinovat rychlé vykreslování s rychlým inferencí, což vede k rychlému školení a rychlejšímu vyhodnocení na reálných a syntetických benchmarcích.

Inženýr z povolání, spisovatel ze srdce. Kunal je technický spisovatel s hlubokou láskou a porozuměním pro AI a ML, který se věnuje zjednodušování složitých konceptů v těchto oblastech prostřednictvím svých přitažlivých a informačních dokumentací.