Andersonin kulma
Kuvaeditointi Gaussian Splattingin avulla

Uusi yhteistyö tutkijoiden välillä Puolassa ja Iso-Britanniassa ehdottaa mahdollisuutta käyttää Gaussian Splattingia kuvien editoimiseen, jossa valittu osa kuvasta tulkitaan tilapäisesti 3D-avaruuteen, jolloin käyttäjä voi muokata ja manipuloida 3D-kuvausta, ja sitten soveltaa muutokset.

Kissan pään suunnan muuttamiseksi asiaankuuluva osa siirretään 3D-avaruuteen Gaussian Splattingin avulla, ja sitten manipuloidaan käyttäjän toimesta. Muutos sovelletaan sitten. Prosessi on vastaava kuin useat modaaliset tekniikat Adobe-ohjelmistossa, jotka lukitsevat käyttöliittymän, kunnes nykyinen monimutkainen prosessi on valmis. Lähde: https://github.com/waczjoan/MiraGe/
Koska Gaussian Splat -elementti on tilapäisesti edustettuina kolmioiden verkkona, ja hetkellisesti siirtyy “CGI-tilaan”, fysiikkamoottori, joka on integroitu prosessiin, voi tulkita luonnollista liikettä, joko muuttaa esineen staattista tilaa tai tuottaa animaation.

Uuden MiraGe-järjestelmän fysiikkamoottori voi suorittaa luonnollisia tulkintoja fysiikasta, joko animaatioita varten tai kuvan staattisia muutoksia.
Prosessiin ei osallistu generatiivista tekoälyä, mikä tarkoittaa, että mitään Latent Diffusion Models (LDM) ei ole mukana, toisin kuin Adoben Firefly-järjestelmä, joka on koulutettu Adoben Stock (entinen Fotolia) -aineistolla.
Järjestelmä – jota kutsutaan MiraGe – tulkkaa valinnat 3D-avaruuteen ja arvioi geometriaa luomalla peilikuva valinnasta ja approksimoiden 3D-koordinaatteja, jotka voidaan kehittää Splatiksi, joka sitten tulkkaa kuvan verkkoon.
Paina toistamaan. Lisää esimerkkejä elementeistä, jotka on joko muokattu käyttäjän toimesta MiraGe-järjestelmällä tai altistettu fysiikkaan perustuvalle muodonmuutokselle.
Artikkelin kirjoittajat vertasivat MiraGe-järjestelmää aiempiin lähestymistapoihin ja totesivat, että se saavuttaa huipputason suorituskyvyn kohde-tehtävässä.
Käyttäjät zBrush-mallinnusjärjestelmästä tuntevat tämän prosessin, koska zBrush sallii käyttäjän periaatteessa ‘tasata’ 3D-mallin ja lisätä 2D-yksityiskohtia, säilyttäen samalla perusverkon, ja tulkkaa uudet yksityiskohdat siihen – “jäädytys”, joka on vastakkainen MiraGe-menetelmälle, joka toimii enemmän kuin Firefly tai muut Photoshop-tyyliset modaaliset manipulaatiot, kuten vääntäminen tai karkeat 3D-tulkinnat.

Parametrized Gaussian Splats mahdollistavat MiraGelle korkealaatuiset rekonstruktioita valittujen alueiden 2D-kuvasta ja soveltavat pehmeän kehon fysiikkaa tilapäisesti 3D-valitulle.
Artikkelin kirjoittajat toteavat:
‘[Me] esittelemme mallin, joka koodaa 2D-kuvat simuloimalla ihmisen tulkintaa. Nimenomaan, mallimme tulkkaa 2D-kuvan niin kuin ihminen katselisi valokuvaa tai paperinarkkia, ja kohtelee sitä litteänä esineenä 3D-avaruudessa.
‘Tämä lähestymistapa mahdollistaa intuitiivisen ja joustavan kuvan editoimisen, joka sieppaa inhimillisen havainnon nuansseja ja mahdollistaa monimutkaiset muunnokset.’
Uusi artikkeli on nimeltään MiraGe: Editable 2D Images using Gaussian Splatting, ja se on neljän kirjoittajan yhteistyö Jagiellonian yliopistosta Krakovassa ja Cambridgen yliopistosta. Koko koodi järjestelmästä on julkaistu GitHubissa.
Tutkijat lähestyivät haastetta seuraavasti.
Menetelmä
MiraGe-menetelmä hyödyntää Gaussian Mesh Splatting (GaMeS) -parametrisointia, joka on tekniikka, jonka kehittivät ryhmä, johon kuuluvat kaksi uuden artikkelin kirjoittajaa. GaMeS mahdollistaa Gaussian Splatien tulkinnan perinteisinä CGI-verkkoina, ja niiden altistamisen standardille joukolle vääntämisen ja muokkaamisen tekniikoille, joita CGI-yhteisö on kehittänyt viimeisten vuosikymmenien aikana.
MiraGe tulkkaa “litteitä” Gauss-muotoja 2D-avaruudessa, ja käyttää GaMeS:ää “vetämään” sisältöä GSplat-käyttöön 3D-avaruuteen tilapäisesti.

Jokainen litteä Gaussian on edustettu kolmena pisteellä kolmioiden pilvessä, jota kutsutaan ‘kolmiopuronaksi’, joka avaa tulkinnan manipuloinnin. Lähde: https://arxiv.org/pdf/2410.01521
Näemme kuvan alhaalla olevassa vasemmassa reunassa, että MiraGe luo “peilikuva” osasta kuvasta, jota tullaan tulkkaamaan.
Artikkelin kirjoittajat toteavat:
‘[Me] käytämme uudenlaista lähestymistapaa, jossa käytetään kahta vastakkaisesti sijoitettua kameraa Y-akselin suhteen, symmetrisesti sijoitettuna alkuperän ympärillä ja suunnattuna toisiinsa. Ensimmäinen kamera on tehtävänään jälleenrakentaa alkuperäinen kuva, kun taas toinen mallintaa peilikuva. Valokuva on siten käsitetty läpinäkyvänä piirustuspaperinä, joka on upotettu 3D-avaruuden kontekstiin. Peilikuva voidaan edustaa tehokkaasti kääntämällä kuva vaakasuoraan. Tämä peili-kamerajärjestely parantaa luotettavasti generoituja heijastuksia, tarjoamalla luotettavan ratkaisun visuaalisten elementtien tarkkaan tallentamiseksi.’
‘Tämä peili-kamerajärjestely parantaa luotettavasti generoituja heijastuksia, tarjoamalla luotettavan ratkaisun visuaalisten elementtien tarkkaan tallentamiseksi.’
Artikkelin kirjoittajat toteavat, että MiraGe voi käyttää ulkoisia fysiikkamoottoreita, kuten Blenderissä tai Taichi_Elementsissa olevia.
Data ja testit
Kuvanlaadun arvioinnissa MiraGelle tehtyjen testien aikana käytettiin Signaali-kohina-suhde (SNR) ja MS-SIM -mittareita.
Käytetyt aineistot olivat Kodak Lossless True Color Image Suite ja DIV2K validointi -joukko. Nämä aineistot soveltuivat vertailuun aiempaan työhön, Gaussian Imageen. Muut kilpailevat kehykset, joita kokeiltiin, olivat SIREN, WIRE, NVIDIA:n Instant Neural Graphics Primitives (I-NGP) ja NeuRBF.
Kokeet suoritettiin NVIDIA GEFORCE RTX 4070 -laptopilla ja NVIDIA RTX 2080:lla.

MiraGe tarjoaa huipputason tulokset valittujen aiempien kehysten suhteen, kuten uuden artikkelin tuloksissa näkyy.
Näistä tuloksista artikkelin kirjoittajat toteavat:
‘Näemme, että meidän ehdotuksemme ylittää aiemmat ratkaisut molemmilla aineistoilla. Laatu, joka mitataan molemmilla mittareilla, näyttää merkittävää parannusta verrattuna kaikkiin aiempiin lähestymistapoihin.’
Johtopäätös
MiraGen soveltama 2D-Gaussian Splatting on selvästi vasta alkuvaiheessa oleva ja epävarma askel, joka voi osoittautua hyvin mielenkiintoiseksi vaihtoehdoksi diffuusiomallien käytölle kuvien muokkaamiseen (esim. Firefly ja muut API-pohjaiset diffuusiomenetelmät ja avoimen lähdekoodin arkkitehtuuri kuten Stable Diffusion ja Flux).
Vaikka on olemassa monia diffuusiomalleja, jotka voivat tehdä pieniä muutoksia kuvissa, LDM:t ovat rajoittuneita semanttisen ja usein “liian mielikuvituksellisen” lähestymistapansa vuoksi tekstipohjaisiin pyynnöksiin muutoksista.
Siksi kyky tilapäisesti vetää osa kuvasta 3D-avaruuteen, manipuloida sitä ja korvata se takaisin kuvaan, käyttäen ainoastaan alkuperäistä kuvaa viittauksena, näyttää tehtävältä, johon Gaussian Splatting voi olla hyvin sovelias tulevaisuudessa.
* On jonkin verran sekaannusta artikkelissa, koska se mainitsee ‘Amorphous-Mirage’ -menetelmän tehokkaimmaksi ja kyvykkäimmäksi, vaikka se taipuu tuottamaan ei-toivottuja Gauss-muotoja (virheitä), kun taas ‘Graphite-Mirage’ on joustavampi. Näyttää siltä, että Amorphous-Mirage saavuttaa parhaimman yksityiskohtaisuuden, ja Graphite-Mirage parhaimman joustavuuden. Koska molemmat menetelmät esitetään artikkelissa, niiden moninaisten vahvuuden ja heikkouden kanssa, kirjoittajien suosituksia, jos sellaisia on, ei näytä olevan selvää tällä hetkellä.
Julkaistu ensimmäisen kerran torstaina, 3. lokakuuta 2024












