Sztuczna inteligencja

Edycja obrazu za pomocą Gaussian Splatting

Published October 3, 2024

Updated April 27, 2026

Martin Anderson

A montage of images from the various sources available in support of the paper 'MiraGe: Editable 2D Images using Gaussian Splatting' (https://arxiv.org/abs/2410.01521)

Nowa współpraca między badaczami z Polski i Wielkiej Brytanii proponuje perspektywę wykorzystania Gaussian Splatting do edycji obrazów, poprzez tymczasowe interpretowanie wybranego fragmentu obrazu w przestrzeni 3D, umożliwiając użytkownikowi modyfikację i manipulację 3D reprezentacją obrazu, a następnie aplikowanie transformacji.

Aby zmienić orientację głowy kota, odpowiedni fragment jest przenoszony do przestrzeni 3D za pomocą Gaussian Splatting, a następnie manipulowany przez użytkownika. Modyfikacja jest następnie aplikowana. Proces jest analogiczny do różnych technik modalnych w oprogramowaniu Adobe, które blokują interfejs do momentu zakończenia bieżącej złożonej operacji. Źródło: https://github.com/waczjoan/MiraGe/

Ponieważ element Gaussian Splat jest tymczasowo reprezentowany przez siatkę trójkątów, a chwilowo wchodzi w ‘stan CGI’, silnik fizyczny zintegrowany z procesem może interpretować naturalny ruch, albo w celu zmiany stanu statycznego obiektu, albo w celu wygenerowania animacji.

Silnik fizyczny zintegrowany z nowym systemem MiraGe może wykonywać naturalne interpretacje ruchu fizycznego, albo w celu animacji, albo w celu modyfikacji statycznych obrazu.

Nie ma udziału generatywnego AI w procesie, co oznacza, że nie ma Latent Diffusion Models (LDMs) zaangażowanych, w przeciwieństwie do systemu Firefly Adobe, który jest szkolony na Adobe Stock (dawniej Fotolia).

System – nazwany MiraGe – interpretuje wybory w przestrzeni 3D i wnioskuje geometrię, tworząc odbicie lustrzane wyboru, a następnie przybliżając współrzędne 3D, które mogą być uwewnętrznione w Splat, który następnie interpretuje obraz w siatkę.

Kliknij, aby odtworzyć. Dalsze przykłady elementów, które zostały albo zmienione ręcznie przez użytkownika systemu MiraGe, albo poddane deformacji opartej na fizyce.

Autorzy porównali system MiraGe z poprzednimi podejściami i stwierdzili, że osiąga on najlepsze wyniki w zadaniu docelowym.

Użytkownicy systemu modelowania zBrush będą znali ten proces, ponieważ zBrush pozwala użytkownikowi na praktycznie ‘spłaszczyć’ model 3D i dodać detale 2D, zachowując przy tym podstawową siatkę, a następnie interpretując nowe detale w niej – ‘zamrożenie’, które jest przeciwieństwem metody MiraGe, która działa bardziej jak Firefly lub inne techniki modalne w Photoshopie, takie jak zginanie lub grube interpretacje 3D.

Parametryzowane Gaussian Splaty pozwalają MiraGe na tworzenie wysokiej jakości rekonstrukcji wybranych obszarów obrazu 2D i aplikowanie fizyki ciał miękkich do tymczasowo 3D wyboru.

Artykuł stwierdza:

‘[My] wprowadzamy model, który koduje obrazy 2D, symulując ludzką interpretację. Konkretnie, nasz model postrzega obraz 2D jak człowiek patrzy na fotografię lub arkusz papieru, traktując go jako płaski obiekt w przestrzeni 3D.

‘To podejście pozwala na intuicyjną i elastyczną edycję obrazu, ujmując nuansów ludzkiej percepcji, jednocześnie umożliwiając złożone transformacje.’

Nowy artykuł nowy artykuł nosi tytuł MiraGe: Edytowalne obrazy 2D z wykorzystaniem Gaussian Splatting, i pochodzi od czterech autorów z Uniwersytetu Jagiellońskiego w Krakowie i Uniwersytetu w Cambridge. Pełny kod systemu został opublikowany na GitHub.

Zobaczmy, jak badacze podejęli się tego wyzwania.

Metoda

Podejście MiraGe wykorzystuje Gaussian Mesh Splatting (GaMeS) parametryzację, technikę opracowaną przez grupę, w której skład wchodzą dwaj autorzy nowego artykułu. GaMeS pozwala Gaussian Splatom być interpretowanym jako tradycyjne siatki CGI, i staje się podatny na standardowy zakres technik zginania i modyfikacji, które społeczność CGI rozwinęła przez ostatnie kilka dekad.

MiraGe interpretuje ‘płaskie’ Gaussowskie w przestrzeni 2D, i wykorzystuje GaMeS do ‘ściągnięcia’ zawartości do przestrzeni 3D z włączonym GSplat.

Każdy płaski Gaussowski jest reprezentowany jako trzy punkty w chmurze trójkątów, zwanych ‘zupą trójkątów’, otwierając tym samym wnioskowany obraz do manipulacji. Źródło: https://arxiv.org/pdf/2410.01521

Możemy zobaczyć w lewym dolnym rogu powyższego obrazu, że MiraGe tworzy ‘odbicie lustrzane’ sekcji obrazu do interpretacji.

Autorzy stwierdzają:

‘[My] zastosowaliśmy nowe podejście, wykorzystując dwie przeciwstawne kamery umieszczone wzdłuż osi Y, symetrycznie wyrównane wokół pochodzenia i skierowane ku sobie. Pierwsza kamera jest zadaniem odtworzenia oryginalnego obrazu, podczas gdy druga modeluje odbicie lustrzane.

‘Fotografia jest więc postrzegana jako przezroczysty arkusz papieru, osadzony w kontekście przestrzennym 3D. Odbicie może być skutecznie reprezentowane przez poziome odwrócenie [obrazu].

‘To ustawienie kamery lustrzanej poprawia wierność wygenerowanych odbić, zapewniając solidne rozwiązanie do dokładnego uchwycenia elementów wizualnych.’

Artykuł zauważa, że po osiągnięciu tego wydobycia, dostosowania perspektywy, które zwykle są trudne, stają się dostępne za pomocą bezpośredniej edycji w 3D. W poniższym przykładzie widzimy wybór obrazu kobiety, który obejmuje tylko jej rękę. W tym przypadku użytkownik nachylił rękę w dół w prawdopodobny sposób, co byłoby trudnym zadaniem, gdyby tylko pchać piksele.

Przykład techniki edycji MiraGe.

Próba wykonania tego przy użyciu generatywnych narzędzi Firefly w Photoshopie zwykle oznaczałoby, że ręka zostałaby zastąpiona przez syntetyzowaną, wyobrażoną rękę, łamiąc autentyczność edycji. Nawet bardziej zaawansowane systemy, takie jak ControlNet pomocniczy system dla Stable Diffusion i innych modeli Latent Diffusion, takie jak Flux, mają trudności z osiągnięciem tego rodzaju edycji w potoku obrazu do obrazu.

To szczególne przedsięwzięcie było dominowane przez metody wykorzystujące Implicit Neural Representations (INRs), takie jak SIREN i WIRE. Różnica między reprezentacją impliczną a explicytą polega na tym, że współrzędne modelu nie są bezpośrednio adresowalne w INRs, które wykorzystują funkcję ciągłą.

W przeciwieństwie do tego, Gaussian Splatting oferuje explicytne i adresowalne współrzędne X/Y/Z współrzędne kartezjańskie, nawet jeśli wykorzystuje elipsy Gaussowskie zamiast wokseli lub innych metod przedstawiania zawartości w przestrzeni 3D.

Pomysł wykorzystania GSplat w przestrzeni 2D został najbardziej wyraźnie przedstawiony, jak zauważają autorzy, w chińskiej współpracy akademickiej z 2024 roku GaussianImage, która oferowała 2D wersję Gaussian Splatting, umożliwiającą inferencyjne stawki klatek na poziomie 1000fps. Jednak ten model nie ma implementacji związanej z edycją obrazu.

Po parametryzacji GaMeS wydobycie wybranego obszaru do reprezentacji Gaussian/mesh, obraz jest odtwarzany za pomocą techniki Material Points Method (MPM) po raz pierwszy opisanej w artykule CSAIL z 2018 roku.

W MiraGe, podczas procesu modyfikacji, Gaussian Splat istnieje jako proxy dla równoważnej wersji siatki, podobnie jak 3DMM CGI modele są często używane jako metody orkiestracji dla technik renderowania neuronowego, takich jak Neural Radiance Fields (NeRF).

W procesie, dwuwymiarowe obiekty są modelowane w przestrzeni 3D, a części obrazu, które nie są wpływane, nie są widoczne dla użytkownika końcowego, tak aby efekt kontekstowy modyfikacji nie był widoczny, dopóki proces nie zostanie zakończony.

MiraGe może być zintegrowany z popularnym, otwartym programem 3D Blender, który jest teraz często używany w przepływach pracy AI, głównie do celów obrazu do obrazu.

Przepływ pracy dla MiraGe w Blenderze, obejmujący ruch ramienia postaci przedstawionej na obrazie 2D.

Autorzy oferują dwie wersje podejścia deformacji opartego na Gaussian Splatting – Amorphous i Graphite.

Podejście Amorphous wykorzystuje bezpośrednio metodę GaMeS, i pozwala na wyodrębniony wybór 2D, aby swobodnie poruszać się w przestrzeni 3D, podczas gdy podejście Graphite ogranicza Gaussowskie do przestrzeni 2D podczas inicjacji i szkolenia.

Badacze stwierdzili, że chociaż podejście Amorphous może lepiej radzić sobie z złożonymi kształtami niż Graphite, ‘rozdarci’ lub artefakty były bardziej widoczne, gdzie krawędź deformacji wyrównuje się z niezakłóconą częścią obrazu*.

Dlatego też opracowali wspomniany powyżej system ‘odbicia lustrzanego’:

‘[My] zastosowaliśmy nowe podejście, wykorzystując dwie przeciwstawne kamery umieszczone wzdłuż osi Y, symetrycznie wyrównane wokół pochodzenia i skierowane ku sobie.

‘Pierwsza kamera jest zadaniem odtworzenia oryginalnego obrazu, podczas gdy druga modeluje odbicie lustrzane.

‘Fotografia jest więc postrzegana jako przezroczysty arkusz papieru, osadzony w kontekście przestrzennym 3D. Odbicie może być skutecznie reprezentowane przez poziome odwrócenie [obrazu].

‘To ustawienie kamery lustrzanej poprawia wierność wygenerowanych odbić, zapewniając solidne rozwiązanie do dokładnego uchwycenia elementów wizualnych.’

Artykuł zauważa, że MiraGe może korzystać z zewnętrznych silników fizycznych, takich jak te dostępne w Blenderze, lub w Taichi_Elements.

Dane i testy

Do oceny jakości obrazu w testach przeprowadzonych dla MiraGe, wykorzystano Stosunek sygnału do szumu (SNR) i MS-SIM metryki.

Zestawy danych wykorzystane to Kodak Lossless True Color Image Suite, i DIV2K walidacyjny zestaw. Rozdzielczości tych zestawów danych odpowiadały porównaniu z najbliższą pracą poprzednią, Gaussian Image. Inne rywalizujące ramy, które zostały przetestowane, to SIREN, WIRE, NVIDIA’s Instant Neural Graphics Primitives (I-NGP), i NeuRBF.

Eksperymenty odbywały się na laptopie NVIDIA GEFORCE RTX 4070 i na NVIDIA RTX 2080.

MiraGe oferuje najlepsze wyniki w porównaniu z wybranymi poprzednimi ramami, zgodnie z wynikami przedstawionymi w nowym artykule.

Z tych wyników, autorzy stwierdzają:

‘Widzimy, że nasza propozycja przewyższa poprzednie rozwiązania w obu zestawach danych. Jakość mierzona obiema metrykami pokazuje znaczną poprawę w porównaniu z wszystkimi poprzednimi podejściami.’

Podsumowanie

Adaptacja 2D Gaussian Splatting w MiraGe jest wyraźnie nowym i niepewnym wkroczeniem w to, co może okazać się bardzo interesującą alternatywą dla kaprysów i przypadkowości korzystania z modeli dyfuzyjnych do modyfikacji obrazu (tj. za pomocą Firefly i innych API-opartych metod dyfuzyjnych, oraz za pomocą otwartych architektur, takich jak Stable Diffusion i Flux).

Chociaż istnieje wiele modeli dyfuzyjnych, które mogą wprowadzać niewielkie zmiany w obrazach, LDM są ograniczone przez ich semantyczne i często ‘nadmiernie wyobrażone’ podejście do żądania użytkownika dotyczącego modyfikacji.

Dlatego też możliwość tymczasowego wydobycia części obrazu do przestrzeni 3D, manipulowania nim i ponownego umieszczenia go w obrazie, przy użyciu tylko źródłowego obrazu jako odniesienia, wydaje się zadaniem, do którego Gaussian Splatting może być dobrze przystosowany w przyszłości.

* Istnieje pewne zamieszanie w artykule, w którym cytowany jest ‘Amorphous-Mirage’ jako najbardziej skuteczny i zdolny sposób, pomimo jego tendencji do powodowania niepożądanych Gaussowskich (artefaktów), podczas gdy argumentuje, że ‘Graphite-Mirage’ jest bardziej elastyczny. Wydaje się, że Amorphous-Mirage uzyskuje najlepszy detal, a Graphite-Mirage najlepszą elastyczność. Ponieważ obie metody są przedstawione w artykule, z ich różnymi zaletami i wadami, preferencja autorów, jeśli taka istnieje, nie wydaje się być jasna w tym momencie.

Pierwotnie opublikowany w czwartek, 3 października 2024