Intelligence artificielle
Édition d’images avec Gaussian Splatting

Une nouvelle collaboration entre des chercheurs en Pologne et au Royaume-Uni propose la perspective d’utiliser Gaussian Splatting pour éditer des images, en interprétant temporairement une partie sélectionnée de l’image dans un espace 3D, permettant à l’utilisateur de modifier et de manipuler la représentation 3D de l’image, puis d’appliquer la transformation.

Pour changer l’orientation de la tête du chat, la section pertinente est déplacée dans l’espace 3D via Gaussian Splatting, puis manipulée par l’utilisateur. La modification est ensuite appliquée. Le processus est analogue à diverses techniques modales dans les logiciels Adobe, qui verrouillent l’interface jusqu’à ce qu’un processus complexe actuel soit terminé. Source : https://github.com/waczjoan/MiraGe/
Puisque l’élément Gaussian Splat est représenté temporairement par un maillage de triangles, et entre momentanément dans un ‘état CGI’, un moteur de physique intégré au processus peut interpréter les mouvements naturels, soit pour changer l’état statique d’un objet, soit pour produire une animation.

Un moteur de physique intégré au nouveau système MiraGe peut effectuer des interprétations naturelles des mouvements physiques, soit pour des animations ou des modifications statiques d’une image.
Il n’y a pas de modèle de génération d’IA impliqué dans le processus, ce qui signifie qu’aucun Latent Diffusion Models (LDMs) n’est impliqué, contrairement au système Firefly d’Adobe, qui est formé sur Adobe Stock (anciennement Fotolia).
Le système – appelé MiraGe – interprète les sélections dans l’espace 3D et infère la géométrie en créant une image miroir de la sélection, et en approximant les coordonnées 3D qui peuvent être incarnées dans un Splat, qui interprète ensuite l’image dans un maillage.
Cliquez pour jouer. Exemples supplémentaires d’éléments qui ont été soit modifiés manuellement par un utilisateur du système MiraGe, soit soumis à une déformation basée sur la physique.
Les auteurs ont comparé le système MiraGe aux approches antérieures, et ont constaté qu’il atteint les performances de pointe dans la tâche ciblée.
Les utilisateurs du système de modélisation zBrush seront familiers avec ce processus, puisque zBrush permet à l’utilisateur d’essentiellement ‘aplatir’ un modèle 3D et d’ajouter des détails 2D, tout en préservant le maillage sous-jacent, et en interprétant les nouveaux détails à l’intérieur – un ‘gel’ qui est l’opposé de la méthode MiraGe, qui fonctionne plus comme Firefly ou d’autres manipulations modales de type Photoshop, telles que la déformation ou les interprétations 3D grossières.

Les Splats gaussiens paramétrisés permettent à MiraGe de créer des reconstructions de haute qualité de sections sélectionnées d’une image 2D, et d’appliquer une physique de corps mou à la sélection temporairement 3D.
L’article indique :
‘[Nous] introduisons un modèle qui code des images 2D en simulant l’interprétation humaine. Plus précisément, notre modèle perçoit une image 2D comme un humain verrait une photographie ou une feuille de papier, la traitant comme un objet plat dans un espace 3D.
‘Cette approche permet une édition d’image intuitive et flexible, capturant les nuances de la perception humaine tout en permettant des transformations complexes.’
Le nouvel article est intitulé MiraGe : Édition d’images 2D à l’aide de Gaussian Splatting, et provient de quatre auteurs issus de l’Université Jagellonne de Cracovie et de l’Université de Cambridge. Le code complet du système a été publié sur GitHub.
Voyons comment les chercheurs ont abordé le défi.
Méthode
L’approche MiraGe utilise la paramétrisation Gaussian Mesh Splatting (GaMeS), une technique développée par un groupe qui comprend deux des auteurs de l’article. GaMeS permet aux Splats gaussiens d’être interprétés comme des maillages CGI traditionnels, et de devenir soumis à la gamme standard de techniques de déformation et de modification que la communauté CGI a développée au cours des dernières décennies.
MiraGe interprète des ‘Gaussiens plats’ dans un espace 2D, et utilise GaMeS pour ‘tirer’ le contenu dans un espace 3D habilité GSplat, temporairement.

Chaque gaussien plat est représenté par trois points dans un nuage de triangles, appelé ‘potage de triangles’, ouvrant l’image inférée à la manipulation. Source : https://arxiv.org/pdf/2410.01521
On peut voir dans le coin inférieur gauche de l’image ci-dessus que MiraGe crée une ‘image miroir’ de la section d’une image à interpréter.
Les auteurs indiquent :
‘[Nous] employons une approche novatrice utilisant deux caméras opposées positionnées le long de l’axe Y, symétriquement alignées autour de l’origine et dirigées l’une vers l’autre. La première caméra est chargée de reconstruire l’image originale, tandis que la seconde modèle la réflexion miroir.
‘La photographie est ainsi conceptualisée comme une feuille de papier transparente, intégrée dans le contexte spatial 3D. La réflexion peut être représentée de manière effective en faisant pivoter horizontalement l'[image]. Cette configuration de caméra miroir améliore la fidélité des réflexions générées, offrant une solution robuste pour capturer avec précision les éléments visuels.’
L’article note que, une fois cette extraction réalisée, les ajustements de perspective qui seraient généralement difficiles deviennent accessibles via une édition directe en 3D. Dans l’exemple ci-dessous, nous voyons une sélection d’une image d’une femme qui n’englobe que son bras. Dans ce cas, l’utilisateur a incliné la main vers le bas de manière plausible, ce qui serait une tâche difficile en faisant simplement glisser des pixels.

Un exemple de la technique d’édition MiraGe.
Tenter de faire cela en utilisant les outils de génération de Firefly dans Photoshop signifierait généralement que la main est remplacée par une main synthétisée, imaginée par diffusion, rompant l’authenticité de l’édition. Même les systèmes plus capables, tels que le système ControlNet auxiliaire pour Stable Diffusion et d’autres modèles de diffusion latente, tels que Flux, luttent pour réaliser ce type d’édition dans un pipeline d’image à image.
Cette poursuite particulière a été dominée par des méthodes utilisant des représentations neuronales implicites (INRs), telles que SIREN et WIRE. La différence entre une méthode de représentation implicite et explicite est que les coordonnées du modèle ne sont pas directement accessibles dans les INRs, qui utilisent une fonction continue.
En revanche, le Gaussian Splatting offre des coordonnées cartésiennes X/Y/Z explicites et accessibles, même s’il utilise des ellipses gaussiennes plutôt que des voxels ou d’autres méthodes de représentation de contenu dans un espace 3D.
L’idée d’utiliser GSplat dans un espace 2D a été présentée de manière la plus éminente, selon les auteurs, dans la collaboration universitaire chinoise de 2024 GaussianImage, qui a proposé une version 2D de Gaussian Splatting, permettant des taux d’inférence de 1000 images par seconde. Cependant, ce modèle n’a aucune implémentation liée à l’édition d’images.
Après que la paramétrisation GaMeS ait extrait la zone sélectionnée dans une représentation gaussienne/maillée, l’image est reconstruite à l’aide de la technique de points de matériaux (MPM) décrite pour la première fois dans un article CSAIL de 2018.
Dans MiraGe, pendant le processus de modification, le Gaussian Splat existe comme un proxy directeur pour une version de maillage équivalent, tout comme les modèles CGI 3DMM sont fréquemment utilisés comme des méthodes d’orchestration pour des techniques de rendu neuronal implicite telles que les champs de radiance neuronaux (NeRF).
Dans le processus, les objets bidimensionnels sont modélisés dans l’espace 3D, et les parties de l’image qui ne sont pas influencées ne sont pas visibles pour l’utilisateur final, de sorte que l’effet contextuel des manipulations ne soit pas apparent jusqu’à ce que le processus soit terminé.
MiraGe peut être intégré dans le programme 3D open source populaire Blender, qui est maintenant fréquemment utilisé dans les flux de travail inclusifs d’IA, principalement à des fins d’image à image.

Un flux de travail pour MiraGe dans Blender, impliquant le déplacement du bras d’une figure représentée dans une image 2D.
Les auteurs proposent deux versions d’une approche de déformation basée sur Gaussian Splatting – Amorphe et Graphite.
L’approche Amorphe utilise directement la méthode GaMeS, et permet à la sélection 2D extraite de se déplacer librement dans l’espace 3D, tandis que l’approche Graphite contraint les gaussiens à l’espace 2D pendant l’initialisation et la formation.
Les chercheurs ont constaté que, même si l’approche Amorphe pourrait gérer de meilleures formes complexes que Graphite, des ‘déchirures’ ou des artefacts de rift étaient plus évidents, là où le bord de la déformation s’aligne sur la partie non affectée de l’image*.
Par conséquent, ils ont développé le système d’image miroir mentionné précédemment :
‘[Nous] employons une approche novatrice utilisant deux caméras opposées positionnées le long de l’axe Y, symétriquement alignées autour de l’origine et dirigées l’une vers l’autre.
‘La première caméra est chargée de reconstruire l’image originale, tandis que la seconde modèle la réflexion miroir. L’image est ainsi conceptualisée comme une feuille de papier transparente, intégrée dans le contexte spatial 3D. La réflexion peut être représentée de manière effective en faisant pivoter horizontalement l'[image].
‘Cette configuration de caméra miroir améliore la fidélité des réflexions générées, offrant une solution robuste pour capturer avec précision les éléments visuels.’
L’article note que MiraGe peut utiliser des moteurs de physique externes tels que ceux disponibles dans Blender, ou dans Taichi_Elements.
Données et tests
Pour les évaluations de la qualité des images dans les tests effectués pour MiraGe, le rapport signal/bruit (SNR) et les métriques MS-SIM ont été utilisés.
Les jeux de données utilisés étaient le Kodak Lossless True Color Image Suite, et le DIV2K validation set. Les résolutions de ces jeux de données convenaient à une comparaison avec les travaux antérieurs les plus proches, Gaussian Image. Les autres cadres de travail rivaux testés étaient SIREN, WIRE, NVIDIA’s Instant Neural Graphics Primitives (I-NGP), et NeuRBF.
Les expériences ont eu lieu sur un ordinateur portable NVIDIA GEFORCE RTX 4070 et sur un NVIDIA RTX 2080.

MiraGe offre des résultats de pointe par rapport aux cadres de travail antérieurs choisis, selon les résultats présentés dans le nouvel article.
De ces résultats, les auteurs indiquent :
‘Nous constatons que notre proposition surpasse les solutions antérieures sur les deux jeux de données. La qualité mesurée par les deux métriques montre une amélioration significative par rapport à toutes les approches antérieures.’
Conclusion
L’adaptation de MiraGe de Gaussian Splatting 2D est clairement une tentative naissante et tentatrice pour ce qui pourrait s’avérer être une alternative très intéressante aux aléas et aux caprices de l’utilisation de modèles de diffusion pour effectuer des modifications sur une image (c’est-à-dire via Firefly et d’autres méthodes de diffusion basées sur l’API, et via des architectures open source telles que Stable Diffusion et Flux).
Bien qu’il existe de nombreux modèles de diffusion qui peuvent effectuer des modifications mineures sur les images, les LDM sont limités par leur approche sémantique et souvent ‘trop imaginative’ d’une demande de modification basée sur du texte de l’utilisateur.
Par conséquent, la capacité de tirer temporairement une partie d’une image dans l’espace 3D, de la manipuler et de la remplacer dans l’image, tout en n’utilisant que l’image source comme référence, semble être une tâche pour laquelle le Gaussian Splatting peut être bien adapté à l’avenir.
* Il y a une certaine confusion dans l’article, dans la mesure où il cite ‘Amorphe-Mirage’ comme la méthode la plus efficace et la plus capable, malgré sa tendance à produire des gaussiens indésirables (artefacts), tandis qu’il soutient que ‘Graphite-Mirage’ est plus flexible. Il semble que Amorphe-Mirage obtienne le meilleur détail, et Graphite-Mirage la meilleure flexibilité. Puisque les deux méthodes sont présentées dans l’article, avec leurs forces et faiblesses diverses, la préférence des auteurs, le cas échéant, n’apparaît pas claire à ce stade.
Publié pour la première fois jeudi 3 octobre 2024












