Connect with us

Inteligencia artificial

Edición de imágenes con Gaussian Splatting

mm
A montage of images from the various sources available in support of the paper 'MiraGe: Editable 2D Images using Gaussian Splatting' (https://arxiv.org/abs/2410.01521)

Una nueva colaboración entre investigadores en Polonia y el Reino Unido propone la perspectiva de utilizar Gaussian Splatting para editar imágenes, interpretando temporalmente una parte seleccionada de la imagen en un espacio 3D, permitiendo al usuario modificar y manipular la representación 3D de la imagen, y luego aplicar la transformación.

Para cambiar la orientación de la cabeza del gato, la sección relevante se mueve al espacio 3D a través de Gaussian Splatting, y luego se manipula por el usuario. La modificación se aplica luego. El proceso es análogo a varias técnicas modales en software de Adobe, que bloquean la interfaz hasta que se complete un proceso complejo actual. Fuente: https://github.com/waczjoan/MiraGe/

Para cambiar la orientación de la cabeza del gato, la sección relevante se mueve al espacio 3D a través de Gaussian Splatting, y luego se manipula por el usuario. La modificación se aplica luego. El proceso es análogo a varias técnicas modales en software de Adobe, que bloquean la interfaz hasta que se complete un proceso complejo actual. Fuente: https://github.com/waczjoan/MiraGe/

Dado que el elemento Gaussian Splat se representa temporalmente como una malla de triángulos, y entra momentáneamente en un ‘estado CGI’, un motor de física integrado en el proceso puede interpretar movimientos naturales, ya sea para cambiar el estado estático de un objeto, o para producir una animación.

Un motor de física incorporado en el nuevo sistema MiraGe puede realizar interpretaciones naturales de movimientos físicos, ya sea para animaciones o alteraciones estáticas de una imagen.

Un motor de física incorporado en el nuevo sistema MiraGe puede realizar interpretaciones naturales de movimientos físicos, ya sea para animaciones o alteraciones estáticas de una imagen.

No hay inteligencia artificial generativa involucrada en el proceso, lo que significa que no hay Modelos de Difusión Latente (LDM) involucrados, a diferencia del sistema Firefly de Adobe, que se entrenó en Adobe Stock (anteriormente Fotolia).

El sistema, llamado MiraGe, interpreta selecciones en un espacio 3D e infiere la geometría creando una imagen especular de la selección, y aproximando coordenadas 3D que pueden ser incorporadas en un Splat, que luego interpreta la imagen en una malla.

Haga clic para reproducir. Ejemplos adicionales de elementos que han sido alterados manualmente por un usuario del sistema MiraGe, o sometidos a deformaciones basadas en física.

Los autores compararon el sistema MiraGe con enfoques anteriores y encontraron que logra un rendimiento de vanguardia en la tarea objetivo.

Los usuarios del sistema de modelado zBrush estarán familiarizados con este proceso, ya que zBrush permite al usuario esencialmente ‘aplacar’ un modelo 3D y agregar detalles 2D, mientras preserva la malla subyacente, e interpreta los nuevos detalles en ella – un ‘congelamiento’ que es lo opuesto al método MiraGe, que opera más como Firefly o otras manipulaciones modales de Photoshop, como la deformación o interpretaciones 3D burdas.

Los Splats Gaussianos parametrizados permiten a MiraGe crear reconstrucciones de alta calidad de áreas seleccionadas de una imagen 2D, y aplicar física de cuerpo blando a la selección 3D temporal.

Los Splats Gaussianos parametrizados permiten a MiraGe crear reconstrucciones de alta calidad de áreas seleccionadas de una imagen 2D, y aplicar física de cuerpo blando a la selección 3D temporal.

El artículo establece:

‘[Nosotros] presentamos un modelo que codifica imágenes 2D simulando la interpretación humana. En particular, nuestro modelo percibe una imagen 2D como un ser humano vería una fotografía o una hoja de papel, tratándola como un objeto plano dentro de un espacio 3D.

‘Este enfoque permite una edición de imagen intuitiva y flexible, capturando las sutilezas de la percepción humana mientras permite transformaciones complejas.’

El nuevo artículo se titula MiraGe: Imágenes 2D editables utilizando Gaussian Splatting, y proviene de cuatro autores de la Universidad Jagellónica de Cracovia y la Universidad de Cambridge. El código completo del sistema ha sido publicado en GitHub.

Veamos cómo los investigadores abordaron el desafío.

Método

El enfoque MiraGe utiliza la parametrización Gaussian Mesh Splatting (GaMeS), una técnica desarrollada por un grupo que incluye a dos de los autores del nuevo artículo. GaMeS permite que los Splats Gaussianos se interpreten como mallas CGI tradicionales, y se sometan a la gama estándar de técnicas de deformación y modificación que la comunidad CGI ha desarrollado durante las últimas décadas.

MiraGe interpreta ‘Gaussianos planos’ en un espacio 2D, y utiliza GaMeS para ‘extraer’ el contenido en un espacio 3D con Splats GS, temporalmente.

Cada Gaussiano plano se representa como tres puntos en una nube de triángulos, llamada 'sopa de triángulos', abriendo la imagen inferida a la manipulación. Fuente: https://arxiv.org/pdf/2410.01521

Cada Gaussiano plano se representa como tres puntos en una nube de triángulos, llamada ‘sopa de triángulos’, abriendo la imagen inferida a la manipulación. Fuente: https://arxiv.org/pdf/2410.01521

Podemos ver en la esquina inferior izquierda de la imagen de arriba que MiraGe crea una ‘imagen especular’ de la sección de una imagen que se va a interpretar.

Escritor sobre aprendizaje automático, especialista en síntesis de imágenes humanas. Anterior jefe de contenido de investigación en Metaphysic.ai.