Umělá inteligence
Úpravy obrázků pomocí Gaussova rozstřikování

Nová spolupráce mezi výzkumnými pracovníky v Polsku a Spojeném království nabízí možnost využití Gaussovské stříkání k úpravě obrázků, dočasnou interpretací vybrané části obrázku do 3D prostoru, což umožňuje uživateli upravovat a manipulovat s 3D reprezentací obrázku a poté aplikovat transformaci.

Pro změnu orientace kočičí hlavy se příslušná část přesune do 3D prostoru pomocí Gaussova Splattingu a poté s ní uživatel manipuluje. Modifikace se poté aplikuje. Tento proces je analogický s různými modálními technikami v softwaru Adobe, které uzamknou rozhraní, dokud není dokončen aktuální složitý proces. Zdroj: https://github.com/waczjoan/MiraGe/
Protože je element Gaussovy ikony dočasně reprezentován sítí trojúhelníků a na okamžik přejde do „stavu CGI“, fyzikální engine integrovaný do procesu dokáže interpretovat přirozený pohyb, a to buď za účelem změny statického stavu objektu, nebo za účelem vytvoření animace.

Fyzikální engine začleněný do nového systému MiraGe může provádět přirozené interpretace fyzického pohybu, ať už pro animace nebo statické změny obrázku.
Do procesu není zapojena žádná generativní AI, což znamená, že ne Modely latentní difúze (LDM) jsou zapojeny, na rozdíl od Adobe Systém Firefly, která je školena na Adobe Stock (dříve Fotolia).
Systém – tzv MiraGe – interpretuje výběry do 3D prostoru a odvozuje geometrii vytvořením a zrcadlový obraz výběru a aproximaci 3D souřadnic, které lze vtělit do Splat, který pak interpretuje obraz do sítě.
Klepnutím přehrajte. Další příklady prvků, které byly buď ručně změněny uživatelem systému MiraGe, nebo byly podrobeny fyzikální deformaci.
Autoři porovnali systém MiraGe s dřívějšími přístupy a zjistili, že v cílové úloze dosahuje špičkového výkonu.
Uživatelé modelovacího systému zBrush budou s tímto procesem obeznámeni, protože zBrush uživateli v podstatě umožňuje „zploštit“ 3D model a přidat 2D detaily, přičemž zachovat podkladovou síť a interpretovat do ní nové detaily – „zmrazení“, které je opakem metody MiraGe, jež funguje spíše jako Firefly nebo jiné modální manipulace ve stylu Photoshopu, jako je deformace nebo hrubé 3D interpretace.

Parametrizované Gaussian Splats umožňují MiraGe vytvářet vysoce kvalitní rekonstrukce vybraných oblastí 2D obrazu a aplikovat fyziku měkkých těles na dočasně 3D výběr.
Článek uvádí:
„[Představujeme] model, který kóduje 2D obrazy simulací lidské interpretace. Konkrétně náš model vnímá 2D obraz tak, jako by si člověk prohlížel fotografii nebo list papíru a zacházel s ním jako s plochým objektem v 3D prostoru.
„Tento přístup umožňuje intuitivní a flexibilní úpravu obrazu, zachycuje nuance lidského vnímání a zároveň umožňuje komplexní transformace.“
Jedno nový papír je s názvem MiraGe: Upravitelné 2D obrázky pomocí Gaussova rozstřikování, a pochází od čtyř autorů z Jagellonské univerzity v Krakově a University of Cambridge. Úplný kód systému byl vydané na GitHubu.
Pojďme se podívat, jak se vědci s touto výzvou vypořádali.
Metoda
Přístup MiraGe využívá Gaussovské rozstřikování sítě (GaMeS) parametrizace, technika vyvinutá skupinou, která zahrnuje dva z autorů nového článku. GaMeS umožňuje, aby byly Gaussian Splats interpretovány jako tradiční sítě CGI a aby se staly předmětem standardní řady technik deformace a úprav, které komunita CGI vyvinula během posledních několika desetiletí.
MiraGe interpretuje „ploché“ Gaussovy funkce ve 2D prostoru a pomocí GaMeS dočasně „přenáší“ obsah do 3D prostoru s podporou GSplat.

Každá plochá Gaussova funkce je reprezentována jako tři body v oblaku trojúhelníků, nazývaném „trojúhelníková polévka“, což otevírá odvozený obraz pro manipulaci. Zdroj: https://arxiv.org/pdf/2410.01521
V levém dolním rohu obrázku výše vidíme, že MiraGe vytváří „zrcadlový“ obraz interpretované části obrazu.
Autoři uvádějí:
„Používáme nový přístup využívající dvě protilehlé kamery umístěné podél osy Y, symetricky zarovnané kolem počátku a nasměrované jedna k druhé. První kamera má za úkol rekonstruovat původní obraz, zatímco druhá modeluje zrcadlový odraz.
„Fotografie je tedy konceptualizována jako průsvitný pauzovací papír, vložený do 3D prostorového kontextu. Odraz lze efektivně reprezentovat horizontálním převrácením [obrazu]. Toto uspořádání zrcadlové kamery zvyšuje věrnost generovaných odrazů a poskytuje robustní řešení pro přesné zachycení vizuálních prvků.“
Článek poznamenává, že jakmile bylo dosaženo této extrakce, perspektivní úpravy, které by byly obvykle náročné, se stanou dostupnými prostřednictvím přímé úpravy ve 3D. V níže uvedeném příkladu vidíme výběr obrazu ženy, který zahrnuje pouze její paži. V tomto případě uživatel naklonil ruku věrohodným způsobem dolů, což by byl náročný úkol, kdyby jen posouval pixely.

Příklad editační techniky MiraGe.
Pokus o to pomocí generativních nástrojů Firefly ve Photoshopu by obvykle znamenal, že by ruka byla nahrazena syntetizovanou, difúzně představovanou rukou, což by narušilo autentičnost úpravy. Dokonce i schopnější systémy, jako je např ControlNet pomocný systém pro stabilní difúzi a další modely latentní difúze, jako je Flux, se snaží dosáhnout tohoto druhu úprav v potrubí mezi obrázky.
Této konkrétní snaze dominovaly metody využívající implicitní neurální reprezentace (INR), jako např SIRÉNA si WIRE. Rozdíl mezi metodou implicitní a explicitní reprezentace spočívá v tom, že souřadnice modelu nejsou přímo adresovatelné v INR, které používají kontinuální funkce.
Naproti tomu Gaussian Splatting nabízí explicitní a adresovatelné X/Y/Z Kartézské souřadnice, i když používá spíše Gaussovy elipsy než voxely nebo jiné metody zobrazování obsahu ve 3D prostoru.
Myšlenka použití GSplat ve 2D prostoru byla nejvýrazněji prezentována, poznamenávají autoři, v čínské akademické spolupráci v roce 2024 Gaussův obrázek, který nabízel 2D verzi Gaussian Splatting, umožňující odvodit snímkovou frekvenci 1000 snímků za sekundu. Tento model však nemá žádnou implementaci související s úpravou obrázků.
Poté, co parametrizace GaMeS extrahuje vybranou oblast do gaussovské/síťové reprezentace, je obraz rekonstruován pomocí techniky materiálových bodů (MPM), která byla poprvé popsána v 2018 papír CSAIL.
V MiraGe, během procesu změny, Gaussian Splat existuje jako vůdčí proxy pro ekvivalentní mesh verzi, stejně jako 3DMM CGI modely jsou často používané jako orchestrační metody pro implicitní techniky neurálního vykreslování, jako jsou Neural Radiance Fields (NeRF).
V tomto procesu jsou dvourozměrné objekty modelovány ve 3D prostoru a části obrazu, které nejsou ovlivněny, nejsou viditelné pro koncového uživatele, takže kontextový efekt manipulací není zřejmý, dokud není proces dokončen.
MiraGe lze integrovat do oblíbeného open source 3D programu Mixér, což je nyní často používané v pracovních postupech zahrnujících umělou inteligenci, primárně pro účely přepínání mezi obrázky.

Pracovní postup pro MiraGe v Blenderu, zahrnující pohyb paže postavy zobrazené na 2D obrázku.
Autoři nabízejí dvě verze deformačního přístupu založeného na Gaussově splattingu – Amorfní si Grafit.
Amorfní přístup přímo využívá metodu GaMeS a umožňuje, aby se extrahovaný 2D výběr volně pohyboval ve 3D prostoru, zatímco grafitový přístup omezuje Gaussiany na 2D prostor během inicializace a tréninku.
Výzkumníci zjistili, že ačkoliv amorfní přístup zvládá složité tvary lépe než grafit, „slzy“ nebo trhliny byly zřetelnější, když se okraj deformace zarovná s nepostiženou částí obrazu*.
Proto vyvinuli výše zmíněný systém „zrcadlového obrazu“:
„Používáme nový přístup využívající dvě protilehlé kamery umístěné podél osy Y, symetricky zarovnané kolem počátku a nasměrované jedna k druhé.
„První kamera má za úkol rekonstruovat původní obraz, zatímco druhá modeluje zrcadlový odraz. Fotografie je tak konceptualizována jako průsvitný list pauzovacího papíru, zasazený do 3D prostorového kontextu. Odraz lze efektivně znázornit horizontálním převrácením [obrazu].
„Toto uspořádání zrcadlové kamery zvyšuje věrnost generovaných odrazů a poskytuje robustní řešení pro přesné zachycení vizuálních prvků.“
Dokument uvádí, že MiraGe může používat externí fyzikální motory, jako jsou tyto k dispozici v Blenderu, Nebo v Taichi_Elements.
Data a testy
Pro hodnocení kvality obrazu v testech prováděných pro MiraGe, Odstup signálu od šumu (SNR) a MS-SIM byly použity metriky.
Použité datové sady byly Kodak Lossless True Color Image SuiteA DIV2K validace sada. Rozlišení těchto datových sad odpovídalo srovnání s nejbližší předchozí prací, Gaussian Image. Dalšími testovanými konkurenčními frameworky byly SIREN, WIRE a NVIDIA. Okamžité neurální grafické primitivy (I-NGP) a NeuRBF.
Experimenty probíhaly na notebooku NVIDIA GEFORCE RTX 4070 a na NVIDIA RTX 2080.

MiraGe nabízí nejmodernější výsledky ve srovnání s vybranými předchozími rámci, podle výsledků uvedených v novém článku.
Z těchto výsledků autoři uvádějí:
„Vidíme, že náš návrh překonává předchozí řešení u obou datových sad. Kvalita měřená oběma metrikami vykazuje významné zlepšení ve srovnání se všemi předchozími přístupy.“
Proč investovat do čističky vzduchu?
Adaptace 2D Gaussova Splattingu společností MiraGe je jednoznačně začínajícím a nerozhodným krokem k tomu, co se může ukázat jako velmi zajímavá alternativa k vrtochům a rozmarům používání difuzních modelů k provádění úprav obrazu (tj. prostřednictvím Firefly a dalších difuzních metod založených na API a prostřednictvím open source architektur, jako jsou Stable Diffusion a Flux).
Ačkoli existuje mnoho difúzních modelů, které mohou ovlivnit drobné změny v obrázcích, LDM jsou omezeny svým sémantickým a často „příliš imaginativním“ přístupem k textovému uživatelskému požadavku na úpravu.
Schopnost dočasně vytáhnout část obrázku do 3D prostoru, manipulovat s ním a vrátit jej zpět do obrázku, přičemž jako referenci použijeme pouze zdrojový obrázek, se tedy zdá být úkolem, pro který by se Gaussian Splatting mohl v budoucnu dobře hodit.
* V článku je určitý zmatek v tom, že se jako nejefektivnější a nejúčinnější metoda uvádí metoda „Amorphous-Mirage“, a to i přes její tendenci produkovat nežádoucí Gaussovy efekty (artefakty), zatímco metoda „Graphite-Mirage“ je flexibilnější. Zdá se, že metoda Amorphous-Mirage dosahuje nejlepších detailů a metoda Graphite-Mirage má největší flexibilitu. Vzhledem k tomu, že v článku jsou prezentovány obě metody s jejich různými silnými a slabými stránkami, preference autorů, pokud vůbec nějaká, se v tuto chvíli nezdá být jasná.
Poprvé publikováno ve čtvrtek 3. října 2024