Tekoäly
Kuvan muokkaus Gaussian Splattingilla

Uusi yhteistyö Puolan ja Iso-Britannian tutkijoiden välillä ehdottaa käyttöä Gaussin splatting muokata kuvia tulkitsemalla valitun osan kuvasta tilapäisesti 3D-avaruuteen, jolloin käyttäjä voi muokata ja manipuloida kuvan 3D-esitystä ja soveltaa sitten muunnos.

Kissan pään suunnan muuttamiseksi asianmukainen osa siirretään 3D-avaruuteen Gaussian Splatting -toiminnon avulla, jonka jälkeen käyttäjä käsittelee sitä. Tämän jälkeen muutos otetaan käyttöön. Prosessi on analoginen Adobe-ohjelmiston eri modaalisten tekniikoiden kanssa, jotka lukitsevat käyttöliittymän, kunnes nykyinen monimutkainen prosessi on valmis. Lähde: https://github.com/waczjoan/MiraGe/
Koska Gaussian Splat -elementtiä edustaa tilapäisesti kolmioiden verkko ja se siirtyy hetkellisesti "CGI-tilaan", prosessiin integroitu fysiikkamoottori voi tulkita luonnollista liikettä joko muuttaakseen kohteen staattista tilaa tai tuottaakseen animaation. .

Uuteen MiraGe-järjestelmään sisällytetty fysiikkamoottori voi suorittaa luonnollisia tulkintoja fyysisestä liikkeestä joko animaatioita tai kuvan staattisia muutoksia varten.
Prosessiin ei liity generatiivista tekoälyä, mikä tarkoittaa, että ei Piilevä diffuusiomallit (LDM) ovat mukana, toisin kuin Adoben Firefly järjestelmä, joka on koulutettu Adobe Stockilla (entinen Fotolia).
Järjestelmä - ns Kangastus – tulkitsee valinnat 3D-avaruuteen ja päättelee geometrian luomalla a peilikuva valinnasta ja likimääräiset 3D-koordinaatit, jotka voidaan sisällyttää Splatiin, joka sitten tulkitsee kuvan meshiksi.
Klikkaa pelataksesi. Lisää esimerkkejä elementeistä, joita MiraGe-järjestelmän käyttäjä on joko muuttanut manuaalisesti tai jotka ovat alttiita fysikaaliselle muodonmuutokselle.
Kirjoittajat vertasivat MiraGe-järjestelmää aiempaan lähestymistapaan ja havaitsivat, että se saavuttaa huippuluokan suorituskyvyn kohdetehtävässä.
zBrush-mallinnusjärjestelmän käyttäjät tuntevat tämän prosessin, koska zBrush antaa käyttäjälle mahdollisuuden "litistää" 3D-mallin ja lisää 2D-yksityiskohtia säilyttäen samalla pohjana olevan verkon ja tulkitsemalla uuden yksityiskohdan siihen – 'jäädytyksen', joka on vastakohta MiraGe-menetelmälle, joka toimii enemmän kuin Firefly tai muut Photoshop-tyyliset modaalimanipulaatiot, kuten vääntyminen tai karkea. 3D tulkinnat.

Parametrisoitujen Gaussin merkkien avulla MiraGe voi luoda korkealaatuisia rekonstruktioita 2D-kuvan valituista alueista ja soveltaa pehmeän kehon fysiikkaa väliaikaiseen 3D-valinnassa.
Paperissa todetaan:
"[Me] esittelemme mallin, joka koodaa 2D-kuvia simuloimalla ihmisen tulkintaa. Tarkemmin sanottuna mallimme havaitsee 2D-kuvan niin kuin ihminen katsoisi valokuvaa tai paperiarkkia ja käsittelee sitä tasaisena esineenä 3D-tilassa.
"Tämä lähestymistapa mahdollistaa intuitiivisen ja joustavan kuvankäsittelyn ja vangitsee ihmisen havainnon vivahteet ja mahdollistaa monimutkaiset muunnokset."
- uusi paperi on otsikko MiraGe: Muokattavat 2D-kuvat Gaussian Splatting -tekniikalla, ja se tulee neljältä kirjailijalta Krakovan Jagiellonian yliopistosta ja Cambridgen yliopistosta. Järjestelmän täydellinen koodi on ollut julkaistu GitHubissa.
Katsotaanpa, kuinka tutkijat tarttuivat haasteeseen.
Menetelmä
MiraGe-lähestymistapaa käytetään Gaussin Mesh Splatting (GaMeS) parametrisointi, tekniikka, jonka on kehittänyt ryhmä, johon kuuluu kaksi uuden artikkelin kirjoittajaa. GaMeS mahdollistaa Gaussian Splatsin tulkinnan perinteisiksi CGI-verkoiksi, ja niihin voidaan soveltaa CGI-yhteisön useiden viime vuosikymmenten aikana kehittämiä vakiomuotoisia vääntymis- ja muokkaustekniikoita.
MiraGe tulkitsee "litteät" Gaussilaiset 2D-tilassa ja käyttää GaMeS:ää sisällön "vetämiseen" GSplat-yhteensopivaan 3D-avaruuteen väliaikaisesti.

Jokainen litteä Gaussin kuvake esitetään kolmena pisteenä kolmiopilvessä, jota kutsutaan "kolmiokeitoksi", mikä avaa päätellyn kuvan manipulaatiolle. Lähde: https://arxiv.org/pdf/2410.01521
Näemme yllä olevan kuvan vasemmassa alakulmassa, että MiraGe luo "peilikuvan" tulkittavasta kuvan osasta.
Kirjoittajat toteavat:
"[Me] käytämme uutta lähestymistapaa käyttämällä kahta vastakkaista kameraa, jotka on sijoitettu Y-akselia pitkin, symmetrisesti kohdistettuna origon ympärille ja suunnattu toisiaan kohti. Ensimmäisen kameran tehtävänä on rekonstruoida alkuperäinen kuva, kun taas toisen mallintaa peiliheijastus.
"Valokuva on näin ollen käsitteellinen läpikuultava kuultopaperiarkki, joka on upotettu 3D-tilakontekstiin. Heijastus voidaan esittää tehokkaasti kääntämällä [kuvaa] vaakasuunnassa. Tämä peilikamera-asennus parantaa luotujen heijastusten tarkkuutta ja tarjoaa vankan ratkaisun visuaalisten elementtien tarkkaan kaappaamiseen.
Paperi toteaa, että kun tämä poiminta on saavutettu, tyypillisesti haastavia perspektiivisäätöjä voidaan käyttää suoran muokkauksen kautta 3D:ssä. Alla olevassa esimerkissä on valikoima naisen kuvaa, joka kattaa vain hänen käsivartensa. Tässä tapauksessa käyttäjä on kallistanut kättä alaspäin uskottavalla tavalla, mikä olisi haastava tehtävä vain työntämällä pikseleitä ympäriinsä.

Esimerkki MiraGe-editointitekniikasta.
Tämän yrittäminen Photoshopin Firefly-generatiivisten työkalujen avulla tarkoittaisi yleensä sitä, että käsi korvataan syntetisoidulla, diffuusio-kuvitellulla kädellä, mikä rikkoo muokkauksen aitouden. Jopa tehokkaammat järjestelmät, kuten ControlNet apujärjestelmä stabiilia diffuusiota ja muita piileviä diffuusiomalleja varten, kuten Flux, kamppailevat tällaisen muokkauksen saavuttamiseksi kuvasta kuvaksi -prosessissa.
Tätä erityistä pyrkimystä ovat dominoineet menetelmät, jotka käyttävät implisiittisiä hermorepresentaatioita (INR), kuten esim. SIREENI ja WIRE. Ero implisiittisen ja eksplisiittisen esitystavan välillä on se, että mallin koordinaatit eivät ole suoraan osoitettavissa INR:issä, jotka käyttävät jatkuva toiminto.
Sitä vastoin Gaussian Splatting tarjoaa selkeän ja osoitettavan X/Y/Z:n Suorakulmaiset koordinaatit, vaikka se käyttää Gaussin ellipsiä sen sijaan vokseleihin tai muut menetelmät sisällön kuvaamiseksi 3D-tilassa.
Kirjoittajat huomauttavat, että ajatus GSplatin käytöstä 2D-tilassa on näkyvin esitelty vuoden 2024 Kiinan akateemisessa yhteistyössä. Gaussin kuva, joka tarjosi 2D-version Gaussian Splattingista, mikä mahdollistaa 1000 fps:n päättelyn kuvanopeudet. Tässä mallissa ei kuitenkaan ole kuvankäsittelyyn liittyvää toteutusta.
Kun GaMeS-parametrisointi erottaa valitun alueen Gauss-/mesh-esitykseen, kuva rekonstruoidaan käyttämällä Material Points Method (MPM) -tekniikkaa, joka on kuvattu ensin 2018 CSAIL-paperi.
MiraGessa muutosprosessin aikana Gaussian Splat on olemassa ohjaavana välityspalvelimena vastaavalle verkkoversiolle. 3DMM CGI mallit olemme usein käytetty implisiittisten hermotoistotekniikoiden, kuten Neural Radiance Fields (NeRF) -kenttien, orkestrointimenetelminä.
Prosessissa kaksiulotteisia esineitä mallinnetaan 3D-avaruudessa, eivätkä ne kuvan osat, joihin ei vaikuteta, ole loppukäyttäjälle näkyvissä, joten manipulaatioiden kontekstuaalinen vaikutus ei tule näkyviin ennen kuin prosessi on saatu päätökseen.
MiraGe voidaan integroida suosittuun avoimen lähdekoodin 3D-ohjelmaan tehosekoitin, joka on nyt usein käytetty tekoälyä sisältävissä työnkulkuissa, ensisijaisesti kuvasta kuvaksi -tarkoituksiin.

MiraGen työnkulku Blenderissä, joka sisältää 2D-kuvassa esitetyn hahmon käsivarren liikkeen.
Kirjoittajat tarjoavat kaksi versiota muodonmuutoslähestymistavasta, joka perustuu Gaussin splattingiin - Amorfinen ja grafiitti.
Amorfinen lähestymistapa hyödyntää suoraan GaMeS-menetelmää ja mahdollistaa erotetun 2D-valinnan liikkumisen vapaasti 3D-avaruudessa, kun taas grafiittilähestymistapa rajoittaa Gaussialaiset 2D-avaruuteen alustuksen ja koulutuksen aikana.
Tutkijat havaitsivat, että vaikka amorfinen lähestymistapa saattoi käsitellä monimutkaisia muotoja paremmin kuin grafiitti, "repeämät" tai repeämät esineet olivat selvempiä, kun muodonmuutoksen reuna on kohdakkain kuvan vahingoittumattoman osan kanssa*.
Siksi he kehittivät edellä mainitun "peilikuvajärjestelmän":
"[Me] käytämme uutta lähestymistapaa käyttämällä kahta vastakkaista kameraa, jotka on sijoitettu Y-akselia pitkin, symmetrisesti kohdistettuna origon ympärille ja suunnattu toisiaan kohti.
”Ensimmäisen kameran tehtävänä on rekonstruoida alkuperäinen kuva, kun taas toinen mallintaa peiliheijastusta. Valokuva on siten käsitteellinen läpikuultava kuultopaperiarkki, joka on upotettu 3D-tilakontekstiin. Heijastus voidaan esittää tehokkaasti kääntämällä [kuvaa] vaakasuunnassa.
"Tämä peilikamera-asetus parantaa luotujen heijastusten tarkkuutta ja tarjoaa vankan ratkaisun visuaalisten elementtien tarkkaan kaappaamiseen."
Lehti toteaa, että MiraGe voi käyttää ulkoisia fysiikkamoottoreita, kuten sellaisia saatavilla BlenderissäTai Taichi_Elements.
Tiedot ja testit
Kuvanlaadun arviointeja varten MiraGelle suoritetuissa testeissä Signaali-kohinasuhde (SNR) ja MS-SIM mittareita käytettiin.
Käytetyt tietojoukot olivat Kodak Lossless True Color Image Suite, ja DIV2K validointi sarja. Näiden aineistojen resoluutiot sopivat vertailuun lähimpään aikaisempaan työhön Gaussian Imagen kanssa. Muut kokeillut kilpailevat puitteet olivat SIREN, WIRE, NVIDIA Pikahermografiikan primitiivit (I-NGP) ja NeuRBF.
Kokeet suoritettiin NVIDIA GEFORCE RTX 4070 -kannettavalla ja NVIDIA RTX 2080 -tietokoneella.

MiraGe tarjoaa huippuluokan tuloksia verrattuna valittuihin aikaisempiin kehyksiin uudessa paperissa esitettyjen tulosten mukaan.
Näistä tuloksista kirjoittajat toteavat:
"Näemme, että ehdotuksemme on parempi kuin aiemmat ratkaisut molemmissa tietojoukoissa. Molemmilla mittareilla mitattu laatu osoittaa merkittävästi parannusta kaikkiin aikaisempiin lähestymistapoihin verrattuna.
Yhteenveto
MiraGen 2D Gaussian Splatting -sovitus on selkeästi syntymässä oleva ja alustava tutkimus siihen, mikä voi osoittautua erittäin mielenkiintoiseksi vaihtoehdoksi diffuusiomallien oikkuille ja oikkuille kuvan muokkaamiseen (eli Fireflyn ja muiden API-pohjaisten diffuusiomenetelmien kautta). ja avoimen lähdekoodin arkkitehtuurien, kuten Stable Diffusion and Flux) kautta).
Vaikka on olemassa monia diffuusiomalleja, jotka voivat tehdä pieniä muutoksia kuviin, LDM:itä rajoittaa niiden semanttinen ja usein "liian mielikuvituksellinen" lähestymistapa tekstipohjaiseen käyttäjän muokkauspyyntöön.
Siksi kyky vetää osa kuvasta tilapäisesti 3D-avaruuteen, manipuloida sitä ja korvata se takaisin kuvaan käyttämällä vain lähdekuvaa viitteenä näyttää tehtävältä, johon Gaussian Splatting saattaa sopia hyvin tulevaisuudessa.
* Paperissa on jonkin verran hämmennystä, koska siinä mainitaan "Amorfinen mirage" tehokkaimpana ja tehokkaimpana menetelmänä huolimatta sen taipumuksesta tuottaa ei-toivottuja Gaussia (artefaktteja), samalla kun väitetään, että "Graphite-Mirage" on joustavampi. Näyttää siltä, että Amorphous-Mirage saa parhaat yksityiskohdat ja Graphite-Mirage parhaan joustavuuden. Koska artikkelissa esitetään molemmat menetelmät erilaisine vahvuuksineen ja heikkouksineen, tekijöiden mahdolliset mieltymykset eivät näytä tällä hetkellä selvältä.
Julkaistu ensimmäisen kerran torstaina 3