Tekoäly
Splatter Image: Ultra-Fast Single-View 3D Reconstruction

Yksinäköisen 3D-objektin rekonstruktio konvoluutioverkoilla on osoittanut merkittäviä kykyjä. Yksinäköiset 3D-rekonstruktio-mallit generoivat minkä tahansa objektin 3D-mallin yhdestä kuvasta, mikä tekee siitä yhden kuumin tutkimusaiheita tietokoneen näön alalla.

Esimerkiksi, tarkastellaan yllä olevaa moottoripyöräkuvaa. Sen 3D-rakenteen generointi vaatii monimutkaisen putken, joka yhdistää ensin matalan tason kuvien vihjeet korkean tason semanttiseen tietoon ja tietoon osien rakenteellisesta järjestelystä.
Monimutkaisen prosessin vuoksi yksinäköinen 3D-rekonstruktio on ollut suuri haaste tietokoneen näön alalla. Pyrkimyksenä parantaa yksinäköisen 3D-rekonstruktion tehokkuutta, kehittäjät ovat työskennelleet Splatter Image -menetelmällä, joka pyrkii saavuttamaan ultra-nopean yksinäköisen 3D-muodon ja 3D-ulkönäön rakentamisen objekteille. Sen ytimessä Splatter Image -kehyksessä käytetään Gaussian Splatting -menetelmää 3D-esitysten analysointiin, hyödyntäen sen tarjoamaa nopeutta ja laatua.
Viime aikoina Gaussian Splatting -menetelmää on toteutettu useissa moninäkökulmaisissa rekonstruktio-malleissa reaaliaikaisen renderöinnin, parannetun skaalautuvuuden ja nopean koulutuksen vuoksi. Sanottuna, Splatter Image on ensimmäinen kehys, joka toteuttaa Gaussian Splatting -menetelmän yksinäköisille rekonstruktio-tehtäville.
Tässä artikkelissa tutkimme, miten Splatter Image -kehyksessä käytetään Gaussian Splattingia saavuttaaksesi ultra-nopea yksinäköinen 3D-rekonstruktio. Niin aloitetaan.
Splatter Image: Yritys Ultra-Fast Single-View 3D Reconstruction
Kuten mainittiin aiemmin, Splatter Image on ultra-nopea lähestymistapa yksinäköisen 3D-objektin rekonstruktioon perustuen Gaussian Splatting -menetelmään. Splatter Image on ensimmäinen tietokoneen näön kehys, joka toteuttaa Gaussian Splattingin monokulaarisen 3D-objektin generointiin, koska perinteisesti Gaussian Splatting on voimannut moninäkökulmaisia 3D-objektin rekonstruktio-kehyksiä. Kuitenkin, se, mikä erottaa Splatter Image -kehyksen aiemmista menetelmistä, on se, että se on oppimiseen perustuva lähestymistapa, ja rekonstruktio testauksessa vaatii vain eteenpäin suuntautuneen arvioinnin neuroverkosta.
Splatter Image perustuu olennaisesti Gaussian Splattingin renderöinti-ominaisuuksiin ja korkeaan prosessointinopeuteen generoidakseen 3D-rekonstruktioita. Splatter Image -kehyksessä on suoraviivainen suunnittelu: kehys käyttää 2D-kuva-kuva-neuroverkkoa ennustamaan 3D-Gauss-muotoa kunkin syötekuvapikselin kohdalla ja kartoittaa syötekuvan yhteen 3D-Gauss-muotoon pikseliä kohden. Tuloksena olevat 3D-Gauss-muodot ovat muodoltaan kuin kuva, jota kutsutaan Splatter Imageksi, ja Gauss-muodot tarjoavat myös 360 asteen esityksen kuvasta. Prosessi on esitetty seuraavassa kuvassa.

Vaikka prosessi on yksinkertainen ja suoraviivainen, on Splatter Image -kehyksessä joitakin avainhaasteita, kun käytetään Gaussian Splattingia generoimaan 3D-Gauss-muotoja yksinäköisille 3D-esityksille. Ensimmäinen suuri este on suunnitella neuroverkko, joka hyväksyy objektin kuvan syötteenä ja generoi vastaavan Gaussian-seoksen, joka edustaa kaikkia kuvan puolia tulosteenä. Ratkaisemaan tämän, Splatter Image hyödyntää sitä, että vaikka generoitu Gaussian-seos on joukko tai järjestyksessä oleva kokoelma, se voidaan silti tallentaa järjestyksessä olevaan tietorakenteeseen. Vastaavasti, kehys käyttää 2D-kuvaa 3D-Gauss-muotojen säiliönä, jolloin kunkin säiliön pikseli sisältää yhden Gaussian-parametrin, kuten muodon, peittävyyden ja värin.
Tallentamalla 3D-Gaussian-joukkoja kuvaan, Splatter Image -kehyksessä voidaan vähentää rekonstruktio-esteitä, kun opitaan kuva-kuva-neuroverkkoa. Käyttämällä tätä lähestymistapaa, rekonstruktio-prosessi voidaan toteuttaa vain käyttämällä tehokkaita 2D-operaattoreita sen sijaan, että riippuisi 3D-operaattoreista. Lisäksi Splatter Image -kehyksessä 3D-esitys on 3D-Gaussian-seos, joka mahdollistaa hyödyntämään Gaussian Splattingin tarjoamat renderöintinopeuden ja muistin tehokkuuden edut, jotka parantavat tehokkuutta sekä koulutuksessa että päättelyssä. Jatkamalla, Splatter Image -kehyksessä ei vain generoida yksinäköisiä 3D-esityksiä, vaan se osoittaa myös merkittävää tehokkuutta, koska se voidaan kouluttaa jopa yhdellä GPU:lla standardi-3D-objektin benchmark-eilla. Lisäksi Splatter Image -kehyksessä voidaan laajentaa useiden kuvien syötteenä. Se voidaan saavuttaa rekisteröimällä yksittäiset Gaussian-seokset yhteiseen viiteen ja ottamalla sitten Gaussian-seosten yhdistelmän, joka ennustetaan yksittäisistä näkymistä. Kehys sisältää myös kevyet ristiriito-kerrokset arkkitehtuuriinsa, jotka sallivat eri näkymien viestintän päättely-prosessin aikana.
Empiirisestä näkökulmasta on huomionarvoista, että Splatter Image -kehyksessä voidaan tuottaa 360 asteen rekonstruktio objektista, vaikka se näkee vain yhden puolen objektista. Kehys sijoittaa eri Gauss-muotoja 2D-naapuruuteen eri osiin 3D-objektista koodataksesi generoitu 360 asteen tiedon 2D-kuvaan. Lisäksi kehys asettaa useiden Gauss-muotojen peittävyyden nollaksi, mikä deaktivoi ne, jolloin ne voidaan poistaa jälkikäsittelyssä.
Yhteenvetona, Splatter Image -kehyksessä on
- Uusi lähestymistapa yksinäköisen 3D-objektin rekonstruktioon siirtämällä Gaussian Splatting -lähestymistapaa.
- Laajentaa menetelmää moninäkökulmaiseen 3D-objektin rekonstruktioon.
- Saavuttaa huipputason 3D-objektin rekonstruktio-suorituskyvyn standardi-benchmark-eilla poikkeuksellisen nopeuden ja laadun vuoksi.
Splatter Image: Menetelmä ja Arkkitehtuuri
Gaussian Splatting
Kuten mainittiin aiemmin, Gaussian Splatting on ensisijainen menetelmä, jota Splatter Image -kehyksessä käytetään yksinäköisen 3D-objektin rekonstruktioon. Yksinkertaisesti sanottuna, Gaussian Splatting on rasterointimenetelmä 3D-kuvien rekonstruktioon ja reaaliaikaisen renderöinnin, ja renderöintiin monista näkökulmista. 3D-tila kuvassa viittaa Gauss-muotoihin, ja koneoppimismenetelmiä käytetään oppimaan kunkin Gaussian parametreja. Gaussian Splatting ei vaadi koulutusta renderöintivaiheessa, mikä mahdollistaa nopeammat renderöintiajat. Seuraava kuva yhteensoittaa 3D-Gaussian Splattingin arkkitehtuurin.

3D-Gaussian Splatting käyttää ensin syötekuvia generoimaan piste-pilven. Gaussian Splatting käyttää sitten syötekuvia arvioimaan kameran ulkoisia parametreja, kuten kallistusta ja sijaintia, vastaamalla kuvien pikseleitä, ja nämä parametri arvioidaan sitten laskemaan piste-pilveä. Käyttämällä eri koneoppimismenetelmiä, Gaussian Splatting optimoi neljä parametria kunkin Gaussian kohdalla: Sijainti (missä se sijaitsee), Kovarianssi (sen venymisen tai skaalautumisen laajuus 3×3-matriisissa), Väri (mitä on RGB-väri), ja Alfa (mitataan läpinäkyvyyttä). Optimointiprosessi renderöi kuvan kunkin kameran sijainnista ja käyttää sitä määrittämään parametreja, jotka ovat lähempänä alkuperäistä kuvaa. Tuloksena oleva 3D-Gaussian Splatting -tuloste on kuva, jota kutsutaan Splatter Imageksi, joka muistuttaa alkuperäistä kuvaa eniten kameran sijainnista, josta se otettiin.

Lisäksi Gaussian Splattingin peittävyysfunktio ja väri-funktio antavat säteilykentän näkökulmasta 3D-pisteeseen. Kehys renderöi sitten säteilykentän kuvaksi integroimalla värejä, jotka havaitaan säteellä, joka kulkee pikselin läpi. Gaussian Splatting edustaa nämä funktiot värillisten Gauss-muotojen yhdistelmänä, jossa Gaussian keskiarvo tai keskus sekä Gaussian kovarianssi auttavat määrittämään sen muodon ja koon. Kunkin Gaussianilla on myös peittävyys-ominaisuus ja näkökulman mukainen väri-ominaisuus, jotka yhdessä määrittävät säteilykentän.
Splatter Image
Renderöintikomponentti kartoittaa joukon 3D-Gauss-muotoja kuvaan. Suorittaakseen yksinäköisen 3D-rekonstruktioita, kehys etsii käänteisfunktion 3D-Gauss-muotoille, joka rekonstruoii Gaussian-seoksen kuvasta. Avainasia on ehdottaa tehokasta ja yksinkertaista suunnittelua käänteisfunktiolle. Nimenomaan, kunkin syötekuvan kohdalla, kehys ennustaa Gaussianin kunkin pikselin kohdalla käyttämällä kuva-kuva-neuroverkkoa tulostamaan kuvan, Splatter Image. Verkko ennustaa myös muodon, peittävyyden ja värin.
Nyt voi olla spekuloitu, miten Splatter Image -kehyksessä voidaan rekonstruktio 3D-esitystä objektista, vaikka se pääsee käyttämään vain yhtä sen näkymästä? Reaaliajassa Splatter Image -kehyksessä opitaan käyttämään joitakin saatavilla olevia Gauss-muotoja rekonstruktio-näkymään, ja käyttämään loput Gauss-muodot automaattisesti rekonstruoimaan näkymättömiä osia kuvasta. Maksimoidakseen tehokkuutensa, kehys voi automaattisesti sammuttaa Gaussian, ennustamalla, onko peittävyys nolla. Jos peittävyys on nolla, Gauss-muodot sammutetaan, eikä kehys renderöi näitä pisteitä, vaan ne poistetaan jälkikäsittelyssä.
Kuva-tasoittainen Menetelmä
Yksi merkittävistä etuoista, joita Gaussian Splatting -menetelmän nopeudesta ja tehokkuudesta voidaan hyödyntää, on se, että se mahdollistaa kehykselle renderöidä kaikki kuvat kunkin iteraation aikana, jopa suuremmille erille. Lisäksi se tarkoittaa, että kehys pystyy käyttämään hajoitettavia menetelmiä, ja se voi myös käyttää kuva-tasoittaisia menetelmiä, jotka eivät hajoa pikseleittäin.
Mittakaavan Normaali
On haastavaa arvioida objektin kokoa yhdestä näkymästä, ja se on haastava tehtävä ratkaista epävarmuus, kun se koulutetaan menetelmällä. Sama ongelma ei havaita syntetisissä tietoaineistoissa, koska kaikki objektit renderöidään samalla kameran sisäisillä ominaisuuksilla, ja objektit ovat kiinteän etäisyyden päässä kamerasta, mikä lopulta auttaa ratkaisemaan epävarmuuden. Kuitenkin tietoaineistoissa, jotka koostuvat todellisista kuvista, epävarmuus on melko ilmeinen, ja Splatter Image -kehyksessä käytetään useita esikäsittelymenetelmiä määrittämään objektien mittakaavaa.
Näkökulman mukainen Väri
Esittääkseen näkökulman mukaisia värejä, Splatter Image -kehyksessä käytetään sfäärin harmonisia yleistämään värejä Lambertin värimallista. Kunkin Gaussian kohdalla malli määrittää kertoimia, jotka ennustetaan verkosta ja sfäärin harmonisista. Näkökulman muutos muuttaa kameran lähteestä tulevan näkökulman viitekehykseen. Malli löytää vastaavat kertoimet löytääksesi muunnetun väri-funktion. Malli pystyy tekemään sen, koska sfäärin harmoniset ovat suljettuja jokaisen muiden järjestyksen kanssa.
Neuroverkko-arkkitehtuuri
Suurin osa predictorin arkkitehtuurista, joka kartoittaa syöte-kuvan Gaussian-seokseen, on identtinen prosessiin, jota käytetään SongUNet-kehyksessä. Viimeinen kerros arkkitehtuurissa korvataan 1×1 convolutional-kerroksella, jonka värimalli määrittää tulostuskanavien leveyden. Annetaan syötekuvaa, verkko tuottaa tulostuskanava-tenoria tuloksena, ja kunkin pikselikanavan kohdalla koodataan parametreja, jotka muunnetaan siirtymään, peittävyyteen, rotaatioon, syvyyteen ja väriin. Kehys käyttää epälineaarisia funktioita aktivoimaan parametreja ja saada Gaussian-parametreja.
Rekonstruoitaakseen 3D-esityksiä moninäkökulmasta, Splatter Image -kehyksessä sovelletaan samaa verkkoa kunkin syöte-näkymään, ja sitten käytetään näkökulmaa yhdistämään yksittäiset rekonstruktioita. Lisäksi, mahdollistaakseen tehokkaan koordinoinnin ja tiedonvaihdon näkymien välillä verkossa, Splatter Image -kehyksessä tehdään kaksi muutosta verkossa. Ensinnäkin, kehys ehdottaa mallia sen kameran asennolla, ja siirtää vektoreita koodaamalla kunkin kirjaimen sinusoidaalisella sijainti-upotuksesta useisiin ulottuvuuksiin. Toiseksi, kehys lisää ristiriito-kerrokset mahdollistaakseen viestinnän eri näkymien ominaisuuksien välillä.
Splatter Image: Kokeet ja Tulokset
Splatter Image -kehyksessä mitataan rekonstruktioiden laatua arvioimalla Uuden näkymän synteesin laatua, koska kehys käyttää lähde-näkymää ja renderöi 3D-muodon kohdistamattomiin näkymiin rekonstruktioita varten. Kehys arvioi suorituskykyään mitatakseen SSIM (Rakenteellinen samankaltaisuus), PSNR (Huippu-signaali-melun suhde) ja LPIPS (Havaittu laatu) -pisteitä.
Yksinäköisen 3D-Rekonstruktio Suorituskyky
Seuraava taulukko osoittaa Splatter Image -mallin suorituskyvyn yksinäköisessä 3D-rekonstruktio-tehtävässä ShapeNet-benchmarkilla.

Kuten voidaan havaita, Splatter Image -kehyksessä ylittää kaikki deterministiset rekonstruktio-menetelmät LPIPS- ja SSIM-pisteissä. Pisteet osoittavat, että Splatter Image -malli generoi kuvia, joissa on terävämpiä rekonstruktioita. Lisäksi Splatter Image -malli ylittää myös kaikki deterministiset vertailumallit PSNR-pisteissä, mikä osoittaa, että generoidut rekonstruktioit ovat myös tarkin. Lisäksi ylittäessään kaikki deterministiset menetelmät, Splatter Image -kehyksessä vaaditaan vain suhteellisia kameran asentoja parantamaan tehokkuutta sekä koulutus- että testausvaiheissa.
Seuraava kuva osoittaa Splatter Image -kehyksen laadukkaan suorituskyvyn, ja kuten voidaan nähdä, malli generoi rekonstruktioita, joissa on ohuet ja mielenkiintoiset geometriat, ja se havaitsee yksityiskohtia ehdotus-näkymistä.

Seuraava kuva osoittaa, että Splatter Image -kehyksen rekonstruktio on ei vain terävämpi, vaan myös tarkin kuin aiemmat mallit, erityisesti epätyypillisissä olosuhteissa, joissa on ohuet rakenteet ja rajoitettu näkyvyys.

Moninäkökulmainen 3D-Rekonstruktio
Arvioimaan moninäkökulmaista 3D-rekonstruktio-kykyään, Splatter Image -kehyksessä koulutetaan SpaneNet-SRN Cars -tietoaineistolla kahden näkymän ennustamiseksi. Olemassa olevat menetelmät käyttävät absoluuttista kameran asennon ehdotusta moninäkökulmaisissa 3D-rekonstruktio-tehtävissä, mikä tarkoittaa, että malli oppii riippumaan ennen kaikkea objektin kanonisesta suunnasta objektissa. Vaikka se tekee työn, se rajoittaa mallien soveltamista, koska absoluuttinen kameran asento on usein tuntematon uudelle objektin kuvalla.

Lopputajat
Tässä artikkelissa olemme puhuneet Splatter Image -menetelmästä, joka pyrkii saavuttamaan ultra-nopean yksinäköisen 3D-muodon ja 3D-ulkönäön rakentamisen objekteille. Sen ytimessä Splatter Image -kehyksessä käytetään Gaussian Splatting -menetelmää analysoimaan 3D-esityksiä, hyödyntäen sen tarjoamaa nopeutta ja laatua. Splatter Image -kehyksessä prosessoidaan kuvia käyttämällä valmiita 2D-CNN-arkkitehtuureja ennustamaan pseudo-kuvaa, joka sisältää yhden värillisen Gaussianin kunkin pikselin kohdalla. Käyttämällä Gaussian Splatting -menetelmää, Splatter Image -kehyksessä voidaan yhdistää nopea renderöinti nopeaan päättelyyn, mikä johtaa nopeaan koulutukseen ja nopeampaan arviointiin sekä todellisilla että synthetisillä benchmark-eilla.












