Umělá inteligence
Editace obrázků pomocí Gaussian Splatting

Nová spolupráce mezi výzkumníky v Polsku a ve Spojeném království navrhuje možnost využití Gaussian Splatting pro editaci obrázků, tím, že dočasně interpretuje vybranou část obrázku do 3D prostoru, umožňuje uživateli upravit a manipulovat 3D reprezentací obrázku a poté aplikuje transformaci.

Pro změnu orientace hlavy kočky je relevantní sekce přesunuta do 3D prostoru pomocí Gaussian Splatting a poté manipulována uživatelem. Úprava je poté aplikována. Proces je analogický k různým modalitním technikám v softwaru Adobe, které uzamknou rozhraní, dokud není dokončen aktuální složitý proces. Source: https://github.com/waczjoan/MiraGe/
Pоскольку Gaussian Splat element je dočasně reprezentován mřížkou trojúhelníků a přechází do ‘CGI stavu’, fyzický engine integrovaný do procesu může interpretovat přirozené pohyby, buď pro změnu statického stavu objektu, nebo pro vytvoření animace.

Fyzický engine integrovaný do nového systému MiraGe může provádět přirozené interpretace fyzických pohybů, buď pro animace nebo statické úpravy obrázku.
Neexistuje žádný generativní AI zapojený do procesu, což znamená, že nejsou zapojeny žádné Latent Diffusion Models (LDMs), na rozdíl od systému Firefly společnosti Adobe, který je trénován na Adobe Stock (dříve Fotolia).
Systém – nazvaný MiraGe – interpretuje výběry do 3D prostoru a odhaduje geometrii vytvořením zrcadlového obrazu výběru a aproximací 3D souřadnic, které lze vtělit do Splat, který poté interpretuje obrázek do mřížky.
Klikněte pro přehrávání. Další příklady prvků, které byly buď upraveny ručně uživatelem systému MiraGe, nebo podrobeny fyzikálně založené deformaci.
Autoři srovnali systém MiraGe s předchozími přístupy a zjistili, že dosahuje špičkového výkonu v cílovém úkolu.
Uživatelé systému zBrush budou seznámeni s tímto procesem, protože zBrush umožňuje uživateli vlastně ‘zjemnit’ 3D model a přidat 2D detail, zatímco zachovává základní mřížku a interpretuje nový detail do ní – ‘zmrazení’, které je opačným přístupem k metodě MiraGe, která funguje více jako Firefly nebo jiné modalitní manipulace ve stylu Photoshopu, jako je ohýbání nebo hrubé 3D interpretace.

Parametrizované Gaussian Splaty umožňují MiraGe vytvářet vysoce kvalitní rekonstrukce vybraných oblastí 2D obrázku a aplikovat soft-body fyziku na dočasně 3D výběr.
Článek uvádí:
‘[My] představujeme model, který kóduje 2D obrázky simulací lidské interpretace. Konkrétně, náš model vnímá 2D obrázek jako by lidská bytost vnímala fotografii nebo list papíru, zachází s ním jako s plochým objektem v 3D prostoru.
‘Tento přístup umožňuje intuitivní a flexibilní editaci obrázků, zachycuje nuance lidského vnímání a umožňuje složitou transformaci.’
Nový článek je nazvaný MiraGe: Editovatelné 2D obrázky pomocí Gaussian Splatting a pochází od čtyř autorů z Jagellonské univerzity v Krakově a Univerzity v Cambridge. Úplný kód pro systém byl vydán na GitHub.
Podívejme se, jak výzkumníci řešili výzvu.
Metoda
Přístup MiraGe využívá Gaussian Mesh Splatting (GaMeS) parametrizaci, techniku vyvinutou skupinou, která zahrnuje dva z autorů nového článku. GaMeS umožňuje Gaussian Splatům být interpretovány jako tradiční CGI mřížky a stát se předmětem standardního rozsahu technik ohýbání a modifikace, které komunita CGI vyvinula za posledních několik desetiletí.
MiraGe interpretuje ‘ploché’ Gaussovy funkce v 2D prostoru a používá GaMeS k ‘přesunutí’ obsahu do GSplat-enabled 3D prostoru, dočasně.

Každý plochý Gaussov je reprezentován třemi body v mraku trojúhelníků, nazývaném ‘triangle soup’, který otevírá inferovaný obrázek pro manipulaci. Source: https://arxiv.org/pdf/2410.01521
Můžeme vidět v dolním levém rohu obrázku výše, že MiraGe vytváří ‘zrcadlový’ obraz sekce obrázku, který má být interpretován.
Autoři uvádějí:
‘[My] využíváme novou metodu, která využívá dvě proti sobě umístěné kamery umístěné podél osy Y, symetricky vyrovnané kolem počátku a směrované k sobě. První kamera je povinna rekonstruovat původní obrázek, zatímco druhá modeluje zrcadlové odraz.
‘Fotografie je tak konceptualizována jako průsvitný list papíru, vložený do 3D prostorového kontextu. Odraz lze účinně reprezentovat horizontálním otočením [obrázku]. Tato konfigurace zrcadlových kamer zvyšuje věrnost generovaných odrazů, poskytujíc robustní řešení pro přesné zachycení vizuálních prvků.’
Článek uvádí, že jednou tato extrakce byla provedena, úpravy perspektivy, které by obvykle byly náročné, se stávají dostupnými prostřednictvím přímé editace v 3D. V příkladu níže vidíme výběr obrázku ženy, který zahrnuje pouze její ruku. V tomto případě uživatel naklonil ruku dolů přirozeným způsobem, což by bylo náročné úkolem pouze pomocí posouvání pixelů.

Příklad techniky editace MiraGe.
Pokoušet se o toto pomocí generativních nástrojů Firefly v Photoshopu by obvykle znamenalo, že ruka bude nahrazena syntetizovanou, imaginární rukou, porušující autenticitu úpravy. I více schopné systémy, jako je ControlNet pomocný systém pro Stable Diffusion a další Latent Diffusion Models, jako Flux, mají potíže s dosažením tohoto druhu úpravy v image-to-image pipeline.
Tento konkrétní úkol byl doménou metod, které využívají Implicitní neuronové reprezentace (INRs), jako je SIREN a WIRE. Rozdíl mezi implicitní a explicitní reprezentační metodou spočívá v tom, že souřadnice modelu nejsou přímo adresovatelné v INRs, které používají kontinuální funkci.
Na rozdíl od toho nabízí Gaussian Splatting explicitní a adresovatelné X/Y/Z kartézské souřadnice, i když používá Gaussovy elipsy místo voxelů nebo jiných metod pro znázornění obsahu v 3D prostoru.
Nápad použití GSplat v 2D prostoru byl nejvíce prezentován, podle autorů, v čínské akademické spolupráci GaussianImage z roku 2024, která nabídla 2D verzi Gaussian Splatting, umožňující inferenční rychlosti 1000fps. Nicméně, tento model nemá žádné implementace související s editací obrázků.
Po parametrizaci GaMeS extrahuje vybranou oblast do Gaussovy/mřížkové reprezentace, obrázek je rekonstruován pomocí techniky Material Points Method (MPM), poprvé popsáné v článku CSAIL z roku 2018.
V MiraGe, během procesu úpravy, Gaussov Splat existuje jako proxy pro ekvivalentní mřížkovou verzi, podobně jako 3DMM CGI modely jsou často používány jako orchestrace metody pro implicitní neuronové renderovací techniky, jako je Neural Radiance Fields (NeRF).
Během procesu jsou dvourozměrné objekty modelovány v 3D prostoru a části obrázku, které nejsou ovlivňovány, nejsou viditelné pro konečného uživatele, takže kontextový efekt úprav není zjevný, dokud není proces dokončen.
MiraGe lze integrovat do populárního open source 3D programu Blender, který je nyní často používán v AI-inclusive pracovních postupech, primárně pro image-to-image účely.

Pracovní postup pro MiraGe v Blenderu, zahrnující pohyb paže postavy zobrazené v 2D obrázku.
Autoři nabízejí dvě verze deformací založených na Gaussian Splatting – Amorphous a Graphite.
Přístup Amorphous přímo využívá metodu GaMeS a umožňuje extrahované 2D výběru pohybovat se volně v 3D prostoru, zatímco přístup Graphite omezí Gaussovy funkce na 2D prostor během inicializace a tréninku.
Výzkumníci zjistili, že ačkoli přístup Amorphous může lépe zvládat složitější tvary než Graphite, ‘trhliny’ nebo rift artefakty jsou více zjevné, kde hrana deformace odpovídá neovlivněné části obrázku*.
Proto vyvinuli výše zmíněný ‘zrcadlový’ systém:
‘[My] využíváme novou metodu, která využívá dvě proti sobě umístěné kamery umístěné podél osy Y, symetricky vyrovnané kolem počátku a směrované k sobě.
‘První kamera je povinna rekonstruovat původní obrázek, zatímco druhá modeluje zrcadlové odraz. Obrázek je tak konceptualizován jako průsvitný list papíru, vložený do 3D prostorového kontextu. Odraz lze účinně reprezentovat horizontálním otočením [obrázku].
‘Tato konfigurace zrcadlových kamer zvyšuje věrnost generovaných odrazů, poskytujíc robustní řešení pro přesné zachycení vizuálních prvků.’
Článek uvádí, že MiraGe může použít externí fyzické motory, jako jsou ty dostupné v Blenderu, nebo v Taichi_Elements.
Data a testy
Pro hodnocení kvality obrázků v testech provedených pro MiraGe byly použity metriky Signal-to-Noise Ratio (SNR) a MS-SIM.
Použité datové sady byly Kodak Lossless True Color Image Suite a DIV2K validační sada. Rozlišení těchto datových sad se hodilo pro srovnání s nejbližšími předchozími pracemi, Gaussian Image. Další soupeřící rámce, které byly testovány, byly SIREN, WIRE, NVIDIA’s Instant Neural Graphics Primitives (I-NGP) a NeuRBF.
Experimenty proběhly na NVIDIA GEFORCE RTX 4070 laptopu a na NVIDIA RTX 2080.

MiraGe nabízí špičkové výsledky proti vybraným předchozím rámcům, podle výsledků uvedených v novém článku.
Z těchto výsledků autoři uvádějí:
‘Vidíme, že naše řešení překonává předchozí řešení na obou datech. Kvalita měřená oběma metrikami ukazuje významné zlepšení ve srovnání se všemi předchozími přístupy.’
Závěr
Adaptace 2D Gaussian Splatting v MiraGe je jasně novou a předběžnou snahou o to, co se může ukázat jako velmi zajímavá alternativa k vágním a náladovým možnostem použití difuzních modelů pro provedení úprav na obrázku (tj. prostřednictvím Firefly a dalších API-založených difuzních metod a prostřednictvím open source architektur, jako je Stable Diffusion a Flux).
Ačkoli existuje mnoho difuzních modelů, které mohou provést malé úpravy obrázků, LDMs jsou omezeny svým sémantickým a často ‘přeimaginovaným’ přístupem k textovému požadavku uživatele na úpravu.
Proto schopnost dočasně vytáhnout část obrázku do 3D prostoru, upravit ji a vrátit zpět do obrázku, zatímco se používá pouze původní obrázek jako referenční bod, se zdá být úkolem, pro který může být Gaussian Splatting vhodný v budoucnu.
* Existuje jistá záměna v článku, protože uvádí ‘Amorphous-Mirage’ jako nejúčinnější a nejschopnější metodu, navzdory její tendenci produkovat nežádoucí Gaussovy funkce (artefakty), zatímco argumentuje, že ‘Graphite-Mirage’ je flexibilnější. Zdá se, že Amorphous-Mirage získává nejlepší detail, a Graphite-Mirage nejlepší flexibilitu. Protože obě metody jsou prezentovány v článku s jejich různými silnými a slabými stránkami, preference autorů, pokud nějaká existuje, není zjevná v tomto okamžiku.
Poprvé zveřejněno ve čtvrtek, 3. října 2024












