Connect with us

Bildbearbeitung mit Gaussian Splatting

Künstliche Intelligenz

Bildbearbeitung mit Gaussian Splatting

mm
A montage of images from the various sources available in support of the paper 'MiraGe: Editable 2D Images using Gaussian Splatting' (https://arxiv.org/abs/2410.01521)

Eine neue Zusammenarbeit zwischen Forschern in Polen und dem Vereinigten Königreich schlägt die Möglichkeit vor, Gaussian Splatting zur Bildbearbeitung zu verwenden, indem ein ausgewählter Teil des Bildes vorübergehend in den 3D-Raum interpretiert wird, sodass der Benutzer die 3D-Darstellung des Bildes modifizieren und manipulieren kann, und dann die Transformation anwendet.

Um die Orientierung des Kopfes der Katze zu ändern, wird der relevante Bereich in den 3D-Raum über Gaussian Splatting verschoben und dann vom Benutzer manipuliert. Die Modifizierung wird dann angewendet. Der Prozess ist analog zu verschiedenen Modaltechniken in Adobe-Software, die die Oberfläche sperren, bis ein komplexer Prozess abgeschlossen ist. Quelle: https://github.com/waczjoan/MiraGe/

Um die Orientierung des Kopfes der Katze zu ändern, wird der relevante Bereich in den 3D-Raum über Gaussian Splatting verschoben und dann vom Benutzer manipuliert. Die Modifizierung wird dann angewendet. Der Prozess ist analog zu verschiedenen Modaltechniken in Adobe-Software, die die Oberfläche sperren, bis ein komplexer Prozess abgeschlossen ist. Quelle: https://github.com/waczjoan/MiraGe/

Da das Gaussian-Splat-Element vorübergehend durch ein Netz von Dreiecken dargestellt wird und vorübergehend in einen “CGI-Zustand” eintritt, kann ein in den Prozess integrierter Physik-Engine natürliche Bewegungen interpretieren, entweder um den statischen Zustand eines Objekts zu ändern oder um eine Animation zu erstellen.

Ein in das neue MiraGe-System integrierter Physik-Engine kann natürliche Interpretationen von physikalischen Bewegungen durchführen, entweder für Animationen oder statische Änderungen an einem Bild.

Ein in das neue MiraGe-System integrierter Physik-Engine kann natürliche Interpretationen von physikalischen Bewegungen durchführen, entweder für Animationen oder statische Änderungen an einem Bild.

Es ist kein generatives AI am Prozess beteiligt, was bedeutet, dass keine Latent-Diffusions-Modelle (LDMs) beteiligt sind, im Gegensatz zu Adobes Firefly-System, das auf Adobe Stock (früher Fotolia) trainiert wurde.

Das System – genannt MiraGe – interpretiert Auswahlmöglichkeiten in den 3D-Raum und schließt die Geometrie ab, indem es ein Spiegelbild der Auswahl erstellt und 3D-Koordinaten approximiert, die in einem Splat verkörpert werden können, der dann das Bild in ein Netz interpretiert.

Bitte klicken, um abzuspielen. Weitere Beispiele für Elemente, die entweder manuell von einem Benutzer des MiraGe-Systems geändert oder einer physikbasierten Deformation unterzogen wurden.

Die Autoren verglichen das MiraGe-System mit früheren Ansätzen und fanden heraus, dass es eine Spitzenleistung in der Zielgabe erzielt.

Benutzer des zBrush-Modellierungssystems werden mit diesem Prozess vertraut sein, da zBrush es dem Benutzer ermöglicht, im Wesentlichen ‘eine 3D-Modellierung zu flachen’ und 2D-Details hinzuzufügen, während die zugrunde liegende Netzstruktur erhalten bleibt und die neuen Details in diese interpretiert werden – ein ‘Einfrieren’, das dem MiraGe-Verfahren entgegengesetzt ist, das eher wie Firefly oder andere Photoshop-Style-Modalmanipulationen funktioniert, wie z. B. Verformungen oder grobe 3D-Interpretationen.

Parametrierte Gaussian-Splats ermöglichen es MiraGe, hochwertige Rekonstruktionen von ausgewählten Bereichen eines 2D-Bildes zu erstellen und weiche Körperphysik auf die vorübergehend 3D-Auswahl anzuwenden.

Parametrierte Gaussian-Splats ermöglichen es MiraGe, hochwertige Rekonstruktionen von ausgewählten Bereichen eines 2D-Bildes zu erstellen und weiche Körperphysik auf die vorübergehend 3D-Auswahl anzuwenden.

Das Papier besagt:

‘[Wir] stellen ein Modell vor, das 2D-Bilder durch Simulation der menschlichen Interpretation codiert. Insbesondere codiert unser Modell ein 2D-Bild wie ein Mensch ein Foto oder ein Blatt Papier betrachten würde, es als flaches Objekt in einem 3D-Raum behandelnd.

‘Dieser Ansatz ermöglicht eine intuitive und flexible Bildbearbeitung, indem er die Nuancen der menschlichen Wahrnehmung erfassen und komplexe Transformationen ermöglichen kann.’

Das neue Papier trägt den Titel MiraGe: Editierbare 2D-Bilder mit Gaussian Splatting und stammt von vier Autoren aus der Jagiellonen-Universität in Krakau und der University of Cambridge. Der vollständige Code für das System wurde auf GitHub veröffentlicht.

Lassen Sie uns einen Blick darauf werfen, wie die Forscher die Herausforderung angegangen sind.

Methode

Der MiraGe-Ansatz nutzt die Gaussian-Mesh-Splatting (GaMeS)-Parametrisierung, eine Technik, die von einer Gruppe entwickelt wurde, die zwei der Autoren des neuen Papiers umfasst. GaMeS ermöglicht es, Gaussian-Splats als traditionelle CGI-Netze zu interpretieren und sie den Standardbereich von Verformungs- und Modifizierungstechniken zu unterwerfen, die die CGI-Gemeinschaft über die letzten Jahrzehnte entwickelt hat.

MiraGe interpretiert ‘flache’ Gausssche Funktionen in einem 2D-Raum und verwendet GaMeS, um ‘Inhalte’ in GSplat-aktivierten 3D-Raum zu ‘ziehen’, vorübergehend.

Jedes flache Gausssche Funktion wird als drei Punkte in einer Wolke von Dreiecken dargestellt, genannt 'Dreiecksuppe', wodurch das inferierte Bild für die Manipulation geöffnet wird. Quelle: https://arxiv.org/pdf/2410.01521

Jedes flache Gausssche Funktion wird als drei Punkte in einer Wolke von Dreiecken dargestellt, genannt ‘Dreiecksuppe’, wodurch das inferierte Bild für die Manipulation geöffnet wird. Quelle: https://arxiv.org/pdf/2410.01521

Wir können im unteren linken Eck des Bildes oben sehen, dass MiraGe ein ‘Spiegelbild’ des zu interpretierenden Bildbereichs erstellt.

Die Autoren stellen fest:

‘[Wir] verwenden einen neuen Ansatz, der zwei gegenüberliegende Kameras verwendet, die entlang der Y-Achse symmetrisch um den Ursprung ausgerichtet und aufeinander gerichtet sind. Die erste Kamera ist für die Rekonstruktion des ursprünglichen Bildes verantwortlich, während die zweite die Spiegelung modelliert.

‘Das Foto wird somit als transparentes Zeichenpapier konzeptualisiert, das in den 3D-Raum eingebettet ist. Die Spiegelung kann effektiv durch horizontales Umkehren des [Bildes] dargestellt werden.

‘Diese Spiegel-Kamera-Konfiguration verbessert die Treue der generierten Spiegelungen und bietet eine robuste Lösung für die genaue Erfassung visueller Elemente.’

Das Papier weist darauf hin, dass MiraGe externe Physik-Engines wie die in Blender verfügbaren oder in Taichi_Elements verwenden kann.

Daten und Tests

Für die Bildqualitätsbewertungen in den für MiraGe durchgeführten Tests wurden die Signal-Rausch-Verhältnis (SNR) und MS-SIM-Metriken verwendet.

Die verwendeten Datensätze waren die Kodak Lossless True Color Image Suite und die DIV2K-Validierungs-Menge. Die Auflösungen dieser Datensätze eigneten sich für einen Vergleich mit dem nächsten vorherigen Werk, Gaussian Image. Die anderen rivalisierenden Frameworks, die getestet wurden, waren SIREN, WIRE, NVIDIAs Instant Neural Graphics Primitives (I-NGP) und NeuRBF.

Die Experimente fanden auf einem NVIDIA GEFORCE RTX 4070-Laptop und auf einem NVIDIA RTX 2080 statt.

MiraGe bietet Spitzenleistungen gegenüber den ausgewählten vorherigen Frameworks, gemäß den Ergebnissen, die im neuen Papier vorgestellt werden.

MiraGe bietet Spitzenleistungen gegenüber den ausgewählten vorherigen Frameworks, gemäß den Ergebnissen, die im neuen Papier vorgestellt werden.

Von diesen Ergebnissen stellen die Autoren fest:

‘Wir sehen, dass unsere Proposition alle vorherigen Lösungen auf beiden Datensätzen übertrifft. Die Qualität, die durch beide Metriken gemessen wird, zeigt eine signifikante Verbesserung im Vergleich zu allen vorherigen Ansätzen.’

Schlussfolgerung

MiraGes Anpassung von 2D-Gaussian-Splatting ist offensichtlich ein nascentes und vorläufiges Vorgehen in das, was sich als sehr interessante Alternative zu den Unbeständigkeiten und Launen der Verwendung von Diffusionsmodellen zur Durchführung von Änderungen an einem Bild (d. h. über Firefly und andere API-basierte Diffusionsmethoden sowie über Open-Source-Architekturen wie Stable Diffusion und Flux) erweisen könnte.

Obwohl es viele Diffusionsmodelle gibt, die kleine Änderungen an Bildern vornehmen können, sind LDMs durch ihren semantischen und oft ‘über-imaginativen’ Ansatz für eine textbasierte Benutzeranfrage für eine Änderung begrenzt.

Daher scheint die Fähigkeit, einen Teil eines Bildes vorübergehend in den 3D-Raum zu ziehen, zu manipulieren und zurück in das Bild zu ersetzen, während nur das Quellbild als Referenz verwendet wird, eine Aufgabe zu sein, für die Gaussian Splatting in Zukunft gut geeignet sein könnte.

 

* Es gibt einige Verwirrung im Papier, da es ‘Amorphous-Mirage’ als die effektivste und leistungsfähigste Methode zitiert, trotz ihrer Neigung, unerwünschte Gausssche Funktionen (Artefakte) zu produzieren, während es argumentiert, dass ‘Graphite-Mirage’ flexibler ist. Es scheint, dass Amorphous-Mirage die beste Detailgenauigkeit und Graphite-Mirage die beste Flexibilität erhält. Da beide Methoden im Papier vorgestellt werden, mit ihren unterschiedlichen Stärken und Schwächen, ist die Präferenz der Autoren, wenn vorhanden, nicht klar.

 

Erstveröffentlicht am Donnerstag, 3. Oktober 2024

Autor über maschinelles Lernen, Domänen-Spezialist in der menschlichen Bildsynthese. Ehemaliger Leiter der Forschungsinhalte bei Metaphysic.ai.