Inteligencia Artificial
Edición de imágenes con salpicaduras gaussianas

Una nueva colaboración entre investigadores de Polonia y el Reino Unido propone la posibilidad de utilizar Salpicadura gaussiana para editar imágenes, interpretando temporalmente una parte seleccionada de la imagen en el espacio 3D, permitiendo al usuario modificar y manipular la representación 3D de la imagen y luego aplicar la transformación.

Para cambiar la orientación de la cabeza del gato, la sección correspondiente se mueve al espacio 3D mediante la técnica Gaussiana Splatting y el usuario la manipula. A continuación, se aplica la modificación. El proceso es similar a varias técnicas modales del software de Adobe, que bloquean la interfaz hasta que se completa un proceso complejo. Fuente: https://github.com/waczjoan/MiraGe/
Dado que el elemento Gaussian Splat está representado temporalmente por una malla de triángulos y momentáneamente entra en un "estado CGI", un motor de física integrado en el proceso puede interpretar el movimiento natural, ya sea para cambiar el estado estático de un objeto o para producir una animación.

Un motor de física incorporado al nuevo sistema MiraGe puede realizar interpretaciones naturales del movimiento físico, ya sea para animaciones o alteraciones estáticas de una imagen.
No hay ninguna IA generativa involucrada en el proceso, lo que significa que no Modelos de difusión latente (LDM) están involucrados, a diferencia de Adobe Sistema de luciérnaga, que está entrenado en Adobe Stock (anteriormente Fotolia).
El sistema – llamado Espejismo – interpreta selecciones en un espacio 3D e infiere geometría creando una imagen de espejo de la selección y aproximación de coordenadas 3D que se pueden plasmar en un Splat, que luego interpreta la imagen en una malla.
Dele "click" para jugar. Más ejemplos de elementos que han sido alterados manualmente por un usuario del sistema MiraGe o sujetos a deformación basada en la física.
Los autores compararon el sistema MiraGe con métodos anteriores y descubrieron que logra un rendimiento de vanguardia en la tarea objetivo.
Los usuarios del sistema de modelado zBrush estarán familiarizados con este proceso, ya que zBrush permite al usuario esencialmente 'aplanar' un modelo 3D y agregar detalles 2D, mientras se preserva la malla subyacente e interpreta el nuevo detalle en ella: un "congelamiento" que es lo opuesto al método MiraGe, que opera más como Firefly u otras manipulaciones modales al estilo de Photoshop, como la deformación o las interpretaciones 3D crudas.

Las salpicaduras gaussianas parametrizadas permiten a MiraGe crear reconstrucciones de alta calidad de áreas seleccionadas de una imagen 2D y aplicar física de cuerpo blando a la selección temporal 3D.
El documento dice:
'Presentamos un modelo que codifica imágenes 2D simulando la interpretación humana. En concreto, nuestro modelo percibe una imagen 2D como si fuera una fotografía o una hoja de papel, tratándola como un objeto plano dentro de un espacio 3D.
'Este enfoque permite una edición de imágenes intuitiva y flexible, capturando los matices de la percepción humana y permitiendo al mismo tiempo transformaciones complejas'.
La nuevo documento se titula MiraGe: Imágenes 2D editables mediante salpicadura gaussiana, y procede de cuatro autores de la Universidad Jagellónica de Cracovia y la Universidad de Cambridge. El código completo del sistema ha sido publicado en GitHub.
Veamos cómo los investigadores abordaron el desafío.
Método
El enfoque MiraGe utiliza Salpicaduras de malla gaussiana (GaMeS) parametrización, una técnica desarrollada por un grupo que incluye a dos de los autores del nuevo artículo. GaMeS permite que los Gaussian Splats se interpreten como mallas CGI tradicionales y que queden sujetos a la gama estándar de técnicas de deformación y modificación que la comunidad CGI ha desarrollado durante las últimas décadas.
MiraGe interpreta gaussianas "planas" en un espacio 2D y utiliza GaMeS para "extraer" contenido al espacio 3D habilitado para GSplat, temporalmente.

Cada gaussiana plana se representa como tres puntos en una nube de triángulos, llamada "sopa de triángulos", lo que abre la imagen inferida a la manipulación. Fuente: https://arxiv.org/pdf/2410.01521
Podemos ver en la esquina inferior izquierda de la imagen de arriba que MiraGe crea una imagen "espejo" de la sección de una imagen que se va a interpretar.
Los autores declaran:
'Utilizamos un enfoque novedoso que utiliza dos cámaras opuestas ubicadas a lo largo del eje Y, alineadas simétricamente alrededor del origen y dirigidas una hacia la otra. La primera cámara se encarga de reconstruir la imagen original, mientras que la segunda modela el reflejo del espejo.
La fotografía se conceptualiza así como una hoja de papel de calco translúcida, integrada en el contexto espacial 3D. El reflejo se puede representar eficazmente volteando la imagen horizontalmente. Esta configuración de cámara-espejo mejora la fidelidad de los reflejos generados, ofreciendo una solución robusta para capturar con precisión los elementos visuales.
El artículo señala que una vez realizada esta extracción, los ajustes de perspectiva que normalmente serían difíciles se vuelven accesibles mediante la edición directa en 3D. En el ejemplo siguiente, vemos una selección de una imagen de una mujer que abarca solo su brazo. En este caso, el usuario ha inclinado la mano hacia abajo de una manera plausible, lo que sería una tarea difícil simplemente moviendo los píxeles.

Un ejemplo de la técnica de edición MiraGe.
Intentar hacer esto con las herramientas generativas de Firefly en Photoshop normalmente significaría que la mano sería reemplazada por una mano sintetizada e imaginada por difusión, lo que rompería la autenticidad de la edición. Incluso los sistemas más capaces, como el Red de control Sistema auxiliar para difusión estable y otros modelos de difusión latente, como Flux, lucha por lograr este tipo de edición en un proceso de imagen a imagen.
Esta búsqueda particular ha estado dominada por métodos que utilizan Representaciones Neuronales Implícitas (INR), como SIRENA ALAMBRELa diferencia entre un método de representación implícito y explícito es que las coordenadas del modelo no son directamente direccionables en los INR, que utilizan un función continua.
Por el contrario, Gaussian Splatting ofrece X/Y/Z explícitos y direccionables. Coordenadas cartesianas, aunque utiliza elipses gaussianas en lugar de vóxeles u otros métodos de representar contenido en un espacio 3D.
La idea de utilizar GSplat en un espacio 2D se presentó de manera más destacada, señalan los autores, en la colaboración académica china de 2024. Imagen gaussiana, que ofrecía una versión 2D de Gaussian Splatting, lo que permitía inferir velocidades de cuadros de 1000 fps. Sin embargo, este modelo no tiene ninguna implementación relacionada con la edición de imágenes.
Después de que la parametrización de GaMeS extrae el área seleccionada en una representación gaussiana/de malla, la imagen se reconstruye utilizando la técnica del Método de Puntos Materiales (MPM) descrita por primera vez en un Documento CSAIL 2018.
En MiraGe, durante el proceso de alteración, el Splat Gaussiano existe como un proxy guía para una versión de malla equivalente, de manera muy similar a Modelos CGI 3DMM están usado frecuentemente como métodos de orquestación para técnicas de representación neuronal implícita como los campos de radiancia neuronal (NeRF).
En el proceso, los objetos bidimensionales se modelan en el espacio 3D y las partes de la imagen que no están influenciadas no son visibles para el usuario final, de modo que el efecto contextual de las manipulaciones no es evidente hasta que finaliza el proceso.
MiraGe se puede integrar en el popular programa 3D de código abierto Batidora de vaso - Blender, que es ahora usado frecuentemente en flujos de trabajo que incluyen IA, principalmente para fines de imagen a imagen.

Un flujo de trabajo para MiraGe en Blender, que implica el movimiento del brazo de una figura representada en una imagen 2D.
Los autores ofrecen dos versiones de un enfoque de deformación basado en la salpicadura gaussiana: Amorfo Grafito.
El enfoque amorfo utiliza directamente el método GaMeS y permite que la selección 2D extraída se mueva libremente en el espacio 3D, mientras que el enfoque Graphite restringe las gaussianas al espacio 2D durante la inicialización y el entrenamiento.
Los investigadores descubrieron que, si bien el enfoque amorfo podría manejar formas complejas mejor que el grafito, los "desgarros" o artefactos de grietas eran más evidentes, donde el borde de la deformación se alinea con la parte no afectada de la imagen*.
Por ello, desarrollaron el mencionado sistema de “imagen especular”:
'[Empleamos] un enfoque novedoso que utiliza dos cámaras opuestas colocadas a lo largo del eje Y, alineadas simétricamente alrededor del origen y dirigidas una hacia la otra.
'La primera cámara tiene la tarea de reconstruir la imagen original, mientras que la segunda modela el reflejo en el espejo. La fotografía se conceptualiza así como una hoja de papel de calco translúcida, insertada en el contexto espacial 3D. El reflejo se puede representar de manera efectiva volteando la imagen horizontalmente.
'Esta configuración de cámara de espejo mejora la fidelidad de los reflejos generados, proporcionando una solución sólida para capturar con precisión elementos visuales.'
El artículo señala que MiraGe puede utilizar motores de física externos como aquellos Disponible en Blender, O en Elementos de Taichi.
Datos y Pruebas
Para las evaluaciones de calidad de imagen en pruebas realizadas para MiraGe, el Relación señal a ruido (SNR) y Tarjeta SIM MS Se utilizaron métricas.
Los conjuntos de datos utilizados fueron los siguientes: Conjunto de imágenes en color verdadero sin pérdida de Kodak, y la DIV2K validación Las resoluciones de estos conjuntos de datos permitieron una comparación con el trabajo previo más cercano, Gaussian Image. Los otros marcos de trabajo rivales probados fueron SIREN, WIRE y NVIDIA. Primitivas de gráficos neuronales instantáneos (I-NGP), y NeurBF.
Los experimentos se llevaron a cabo en una computadora portátil NVIDIA GEFORCE RTX 4070 y en una NVIDIA RTX 2080.

MiraGe ofrece resultados de última generación en comparación con los marcos anteriores elegidos, según los resultados presentados en el nuevo artículo.
De estos resultados, los autores afirman:
Observamos que nuestra propuesta supera a las soluciones anteriores en ambos conjuntos de datos. La calidad medida con ambas métricas muestra una mejora significativa en comparación con todos los enfoques anteriores.
Conclusión
La adaptación de MiraGe del 2D Gaussian Splatting es claramente una incursión naciente y tentativa en lo que puede resultar una alternativa muy interesante a los caprichos y vaivenes del uso de modelos de difusión para efectuar modificaciones en una imagen (es decir, a través de Firefly y otros métodos de difusión basados en API, y a través de arquitecturas de código abierto como Stable Diffusion y Flux).
Si bien existen muchos modelos de difusión que pueden efectuar cambios menores en las imágenes, los LDM están limitados por su enfoque semántico y a menudo "demasiado imaginativo" ante una solicitud de modificación basada en texto por parte del usuario.
Por lo tanto, la capacidad de extraer temporalmente parte de una imagen al espacio 3D, manipularla y volver a colocarla en la imagen, mientras se utiliza solo la imagen de origen como referencia, parece una tarea para la que Gaussian Splatting puede ser muy adecuada en el futuro.
* Existe cierta confusión en el artículo, ya que cita "Amorphous-Mirage" como el método más eficaz y capaz, a pesar de su tendencia a producir gaussianas no deseadas (artefactos), mientras que argumenta que "Graphite-Mirage" es más flexible. Parece que Amorphous-Mirage obtiene el mejor detalle, y Graphite-Mirage la mayor flexibilidad. Dado que ambos métodos se presentan en el artículo, con sus diversas fortalezas y debilidades, la preferencia de los autores, si la hubiera, no parece estar clara en este momento.
Publicado por primera vez el jueves 3 de octubre de 2024