Andersons Blickwinkel

Bildbearbeitung mit Gaussian Splatting

mm
A montage of images from the various sources available in support of the paper 'MiraGe: Editable 2D Images using Gaussian Splatting' (https://arxiv.org/abs/2410.01521)

Eine neue Zusammenarbeit zwischen Forschern in Polen und dem Vereinigten Königreich schlägt die Möglichkeit vor, Gaussian Splatting zur Bildbearbeitung zu verwenden, indem ein ausgewählter Teil des Bildes vorübergehend in den 3D-Raum interpretiert wird, sodass der Benutzer die 3D-Darstellung des Bildes modifizieren und manipulieren kann, und dann die Transformation anwendet.

Um die Ausrichtung des Kopfes der Katze zu ändern, wird der relevante Abschnitt in den 3D-Raum über Gaussian Splatting bewegt und dann vom Benutzer manipuliert. Die Modifikation wird dann angewendet. Der Prozess ist analog zu verschiedenen Modus-Techniken in Adobe-Software, die die Oberfläche sperren, bis ein komplexer Prozess abgeschlossen ist. Quelle: https://github.com/waczjoan/MiraGe/

Um die Ausrichtung des Kopfes der Katze zu ändern, wird der relevante Abschnitt in den 3D-Raum über Gaussian Splatting bewegt und dann vom Benutzer manipuliert. Die Modifikation wird dann angewendet. Der Prozess ist analog zu verschiedenen Modus-Techniken in Adobe-Software, die die Oberfläche sperren, bis ein komplexer Prozess abgeschlossen ist. Quelle: https://github.com/waczjoan/MiraGe/

Da das Gaussian-Splat-Element vorübergehend durch ein Netz von Dreiecken dargestellt wird und vorübergehend in einen “CGI-Zustand” wechselt, kann ein in den Prozess integrierter Physik-Engine natürliche Bewegungen interpretieren, entweder um den statischen Zustand eines Objekts zu ändern oder um eine Animation zu erstellen.

Ein in das neue MiraGe-System integrierter Physik-Engine kann natürliche Interpretationen von physikalischen Bewegungen durchführen, entweder für Animationen oder statische Änderungen an einem Bild.

Ein in das neue MiraGe-System integrierter Physik-Engine kann natürliche Interpretationen von physikalischen Bewegungen durchführen, entweder für Animationen oder statische Änderungen an einem Bild.

Es ist kein generatives AI im Prozess beteiligt, was bedeutet, dass keine Latent-Diffusions-Modelle (LDMs) beteiligt sind, im Gegensatz zu Adobes Firefly-System, das auf Adobe Stock (früher Fotolia) trainiert wurde.

Das System – genannt MiraGe – interpretiert Auswahlmöglichkeiten im 3D-Raum und schließt Geometrie durch die Erstellung eines Spiegelbilds der Auswahl und durch die Approximierung von 3D-Koordinaten, die in einem Splat verkörpert werden können, was dann das Bild in ein Netz interpretiert.

Bitte klicken, um abzuspielen. Weitere Beispiele für Elemente, die entweder manuell von einem Benutzer des MiraGe-Systems geändert oder einer physikbasierten Deformation unterzogen wurden.

Die Autoren verglichen das MiraGe-System mit früheren Ansätzen und fanden heraus, dass es eine Spitzenleistung in der ZielAufgabe erzielt.

Benutzer des zBrush-Modellierungssystems werden mit diesem Prozess vertraut sein, da zBrush es dem Benutzer ermöglicht, im Wesentlichen ‘flachen’ 3D-Modell und 2D-Details hinzufügen, während die zugrunde liegende Netzstruktur erhalten bleibt und die neuen Details in diese interpretiert werden – ein ‘Einfrieren’, das das Gegenteil der MiraGe-Methode ist, die eher wie Firefly oder andere Photoshop-Style-Modus-Manipulationen funktioniert, wie Verformen oder grobe 3D-Interpretationen.

Parametrierte Gaussian-Splats ermöglichen es MiraGe, hochwertige Rekonstruktionen von ausgewählten Bereichen eines 2D-Bildes zu erstellen und weiche Körperphysik auf die vorübergehend 3D-Auswahl anzuwenden.

Parametrierte Gaussian-Splats ermöglichen es MiraGe, hochwertige Rekonstruktionen von ausgewählten Bereichen eines 2D-Bildes zu erstellen und weiche Körperphysik auf die vorübergehend 3D-Auswahl anzuwenden.

Die Veröffentlichung besagt:

‘[Wir] stellen ein Modell vor, das 2D-Bilder durch die Simulation menschlicher Interpretation codiert. Insbesondere codiert unser Modell ein 2D-Bild als ein Mensch, der ein Foto oder ein Blatt Papier betrachtet, es als flaches Objekt in einem 3D-Raum behandelt.

‘Dieser Ansatz ermöglicht eine intuitive und flexible Bildbearbeitung, die die Nuancen menschlicher Wahrnehmung erfasst, während komplexe Transformationen ermöglicht werden.’

Die neue Veröffentlichung trägt den Titel MiraGe: Editierbare 2D-Bilder mit Gaussian Splatting und stammt von vier Autoren der Jagiellonen-Universität in Krakau und der Universität Cambridge. Der vollständige Code für das System wurde auf GitHub veröffentlicht.

Lassen Sie uns einen Blick darauf werfen, wie die Forscher die Herausforderung angegangen sind.

Methode

Der MiraGe-Ansatz nutzt die Gaussian-Mesh-Splatting (GaMeS)-Parametrisierung, eine Technik, die von einer Gruppe entwickelt wurde, die zwei der Autoren der neuen Veröffentlichung umfasst. GaMeS ermöglicht es, Gaussian-Splats als traditionelle CGI-Netze zu interpretieren und sie den Standard-Verformungs- und Modifizierungstechniken zu unterwerfen, die die CGI-Gemeinschaft über die letzten Jahrzehnte entwickelt hat.

MiraGe interpretiert ‘flache’ Gauß’sche Funktionen in einem 2D-Raum und verwendet GaMeS, um den Inhalt in einen GSplat-aktivierten 3D-Raum zu ‘ziehen’, vorübergehend.

Jedes flache Gauß'sche Element wird durch drei Punkte in einer Wolke von Dreiecken dargestellt, die als 'Dreieck-Suppe' bezeichnet werden, und öffnet das inferierte Bild für die Manipulation. Quelle: https://arxiv.org/pdf/2410.01521

Jedes flache Gauß’sche Element wird durch drei Punkte in einer Wolke von Dreiecken dargestellt, die als ‘Dreieck-Suppe’ bezeichnet werden, und öffnet das inferierte Bild für die Manipulation. Quelle: https://arxiv.org/pdf/2410.01521

Wir können in der unteren linken Ecke des Bildes oben sehen, dass MiraGe ein ‘Spiegelbild’ des Abschnitts eines Bildes erstellt, das interpretiert werden soll.

Die Autoren stellen fest:

‘[Wir] verwenden einen neuen Ansatz, der zwei gegenüberliegende Kameras verwendet, die entlang der Y-Achse positioniert sind, symmetrisch um den Ursprung ausgerichtet und aufeinander gerichtet. Die erste Kamera ist mit der Rekonstruktion des Originalbildes betraut, während die zweite die Spiegelung modelliert.

‘Das Foto wird somit als durchsichtiges Zeichenpapier konzipiert, das in den 3D-Raum eingebettet ist. Die Spiegelung kann effektiv durch horizontales Umkehren des [Bildes] dargestellt werden. Diese Spiegel-Kamera-Einrichtung verbessert die Treue der generierten Spiegelungen und bietet eine robuste Lösung für die genaue Erfassung visueller Elemente.’

Die Veröffentlichung weist darauf hin, dass nachdem diese Extraktion erreicht wurde, Perspektiv-Anpassungen, die normalerweise schwierig wären, durch direkte Bearbeitung im 3D-Raum zugänglich werden. Im folgenden Beispiel sehen wir eine Auswahl eines Bildes einer Frau, die nur ihren Arm umfasst. In diesem Fall hat der Benutzer die Hand nach unten geneigt, was eine schwierige Aufgabe wäre, wenn man nur Pixel verschieben würde.

Ein Beispiel für die MiraGe-Bearbeitungstechnik

Ein Beispiel für die MiraGe-Bearbeitungstechnik.

Wenn man dies mit den generativen Tools von Firefly in Photoshop versucht, würde die Hand normalerweise durch eine synthetisierte, diffusions-imaginierte Hand ersetzt, was die Authentizität der Bearbeitung beeinträchtigen würde. Selbst leistungsfähigere Systeme wie das ControlNet-System für Stable Diffusion und andere Latent-Diffusions-Modelle wie Flux haben Schwierigkeiten, diese Art von Bearbeitung in einer Bild-zu-Bild-Pipeline zu erreichen.

Diese spezifische Verfolgung wurde von Methoden dominiert, die implizite neuronale Darstellungen (INRs) verwenden, wie SIREN und WIRE. Der Unterschied zwischen einer impliziten und einer expliziten Darstellungsmethode besteht darin, dass die Koordinaten des Modells in INRs nicht direkt adressierbar sind, die eine kontinuierliche Funktion verwenden.

Im Gegensatz dazu bietet Gaussian Splatting explizite und adressierbare X/Y/Z kartesische Koordinaten, obwohl es Gauß’sche Ellipsen anstelle von Voxel oder anderen Methoden zur Darstellung von Inhalten in einem 3D-Raum verwendet.

Die Idee, GSplat in einem 2D-Raum zu verwenden, wurde am prominentesten in der chinesischen akademischen Zusammenarbeit GaussianImage vorgestellt, die eine 2D-Version von Gaussian Splatting anbot, die eine Inferenzrate von 1000 Bildern pro Sekunde ermöglichte. Allerdings hat dieses Modell keine Implementierung im Zusammenhang mit der Bildbearbeitung.

Nachdem die GaMeS-Parametrisierung den ausgewählten Bereich in eine Gauß’sche/mesh-Darstellung extrahiert hat, wird das Bild mithilfe der Material-Punkte-Methode (MPM)-Technik rekonstruiert, die erstmals in einem 2018 CSAIL-Papier beschrieben wurde.

In MiraGe existiert der Gauß’sche Splat während des Prozesses der Änderung als Leit-Proxy für eine äquivalente Mesh-Version, ähnlich wie 3DMM-CGI-Modelle häufig als Orchestrierungsmethode für implizite neuronale Rendering-Techniken wie Neural Radiance Fields (NeRF) verwendet werden.

Im Prozess werden zweidimensionale Objekte im 3D-Raum modelliert, und die Teile des Bildes, die nicht beeinflusst werden, sind für den Endbenutzer nicht sichtbar, sodass die kontextuelle Wirkung der Manipulationen nicht offensichtlich ist, bis der Prozess abgeschlossen ist.

MiraGe kann in das beliebte Open-Source-3D-Programm Blender integriert werden, das jetzt häufig in AI-inclusive Workflows verwendet wird, hauptsächlich für Bild-zu-Bild-Zwecke.

Ein Workflow für MiraGe in Blender, der die Bewegung des Arms einer in einem 2D-Bild dargestellten Figur umfasst.

Ein Workflow für MiraGe in Blender, der die Bewegung des Arms einer in einem 2D-Bild dargestellten Figur umfasst.

Die Autoren bieten zwei Versionen eines Deformationsansatzes auf der Grundlage von Gaussian Splatting an – Amorphous und Graphite.

Der Amorphous-Ansatz verwendet direkt die GaMeS-Methode und ermöglicht es dem extrahierten 2D-Auswahl, frei im 3D-Raum zu bewegen, während der Graphite-Ansatz die Gauß’schen Funktionen während der Initialisierung und des Trainings auf den 2D-Raum beschränkt.

Die Forscher fanden heraus, dass der Amorphous-Ansatz zwar komplexe Formen besser als Graphite handhaben kann, aber ‘Risse’ oder Riss-Artefakte offensichtlicher sind, wo die Kante der Deformation mit dem unbeeinflussten Teil des Bildes übereinstimmt*.

Daher entwickelten sie das oben erwähnte ‘Spiegelbild’-System:

‘[Wir] verwenden einen neuen Ansatz, der zwei gegenüberliegende Kameras verwendet, die entlang der Y-Achse positioniert sind, symmetrisch um den Ursprung ausgerichtet und aufeinander gerichtet.

‘Die erste Kamera ist mit der Rekonstruktion des Originalbildes betraut, während die zweite die Spiegelung modelliert. Das Foto wird somit als durchsichtiges Zeichenpapier konzipiert, das in den 3D-Raum eingebettet ist. Die Spiegelung kann effektiv durch horizontales Umkehren des [Bildes] dargestellt werden.

‘Diese Spiegel-Kamera-Einrichtung verbessert die Treue der generierten Spiegelungen und bietet eine robuste Lösung für die genaue Erfassung visueller Elemente.’

Die Veröffentlichung weist darauf hin, dass MiraGe externe Physik-Engines wie die in Blender oder in Taichi_Elements verfügbar sind.

Daten und Tests

Für die Bildqualitätsbewertungen in den für MiraGe durchgeführten Tests wurden die Signal-Rausch-Verhältnis (SNR) und MS-SIM-Metriken verwendet.

Die verwendeten Datenbestände waren der Kodak Lossless True Color Image Suite und der DIV2K-Validierungsdatensatz. Die Auflösungen dieser Datenbestände eigneten sich für einen Vergleich mit der nächsten vorherigen Arbeit, Gaussian Image. Die anderen rivalisierenden Frameworks, die getestet wurden, waren SIREN, WIRE, NVIDIAs Instant Neural Graphics Primitives (I-NGP) und NeuRBF.

Die Experimente fanden auf einem NVIDIA GEFORCE RTX 4070-Laptop und auf einem NVIDIA RTX 2080 statt.

MiraGe bietet Spitzenleistungen gegenüber den ausgewählten vorherigen Frameworks, laut den Ergebnissen in der neuen Veröffentlichung.

MiraGe bietet Spitzenleistungen gegenüber den ausgewählten vorherigen Frameworks, laut den Ergebnissen in der neuen Veröffentlichung.

Von diesen Ergebnissen stellen die Autoren fest:

‘Wir sehen, dass unsere Proposition die vorherigen Lösungen auf beiden Datenbeständen übertrifft. Die Qualität, die durch beide Metriken gemessen wird, zeigt eine signifikante Verbesserung im Vergleich zu allen vorherigen Ansätzen.’

Schlussfolgerung

MiraGes Anpassung von 2D-Gaussian-Splatting ist offensichtlich ein nascentes und vorläufiges Vorgehen in das, was sich als sehr interessante Alternative zu den Launen und Whims der Verwendung von Diffusionsmodellen zur Durchführung von Änderungen an einem Bild (d. h. über Firefly und andere API-basierte Diffusionsmethoden und über Open-Source-Architekturen wie Stable Diffusion und Flux) erweisen könnte.

Obwohl es viele Diffusionsmodelle gibt, die kleine Änderungen an Bildern vornehmen können, sind LDMs durch ihren semantischen und oft ‘über-imaginativen’ Ansatz für eine textbasierte Benutzeranfrage für eine Änderung begrenzt.

Daher scheint die Fähigkeit, einen Teil eines Bildes vorübergehend in den 3D-Raum zu ziehen, zu manipulieren und zurück in das Bild zu setzen, während nur das Quellbild als Referenz verwendet wird, eine Aufgabe zu sein, für die Gaussian Splatting gut geeignet sein könnte.

 

* Es gibt einige Verwirrung in der Veröffentlichung, da sie ‘Amorphous-Mirage’ als die effektivste und leistungsfähigste Methode zitiert, trotz ihrer Neigung, unerwünschte Gauß’sche Funktionen (Artefakte) zu produzieren, während sie argumentiert, dass ‘Graphite-Mirage’ flexibler ist. Es scheint, dass Amorphous-Mirage die beste Detailgenauigkeit und Graphite-Mirage die beste Flexibilität bietet. Da beide Methoden in der Veröffentlichung vorgestellt werden, mit ihren unterschiedlichen Stärken und Schwächen, ist die Präferenz der Autoren, wenn vorhanden, nicht klar.

 

Erstveröffentlicht am Donnerstag, den 3. Oktober 2024

Autor über maschinelles Lernen, Domänen-Spezialist in der menschlichen Bildsynthese. Ehemaliger Leiter der Forschungsinhalte bei Metaphysic.ai.