Connect with us

Ángulo de Anderson

Mejorar la precisión de la edición de imágenes de IA

mm
Images from the paper ' Tight Inversion: Image-Conditioned Inversion for Real Image Editing'

Aunque el modelo de difusión latente (LDM) de Adobe Firefly es probablemente uno de los mejores disponibles actualmente, los usuarios de Photoshop que han probado sus características generativas habrán notado que no puede editar fácilmente imágenes existentes – en cambio, sustituye completamente el área seleccionada por el usuario con imágenes basadas en el texto del usuario. promedio (aunque Firefly es hábil para integrar la sección generada resultante en el contexto de la imagen).

En la versión beta actual, Photoshop puede al menos incorporar una imagen de referencia como un prompt de imagen parcial, lo que pone al producto insignia de Adobe al nivel de funcionalidad que los usuarios de Stable Diffusion han disfrutado durante más de dos años, gracias a marcos de terceros como Controlnet:

La versión beta actual de Adobe Photoshop permite el uso de imágenes de referencia al generar nuevo contenido dentro de una selección - aunque es un asunto de acierto y error en este momento.

La versión beta actual de Adobe Photoshop permite el uso de imágenes de referencia al generar nuevo contenido dentro de una selección – aunque es un asunto de acierto y error en este momento.

Esto ilustra un problema abierto en la investigación de síntesis de imágenes – la dificultad que los modelos de difusión tienen para editar imágenes existentes sin implementar una “reimaginación” a gran escala de la selección indicada por el usuario.

Aunque este relleno de difusión basado en la obediencia del usuario, obedece al prompt del usuario, completamente reinventa la materia del sujeto sin tener en cuenta la imagen original (excepto al mezclar la nueva generación con el entorno).

Aunque este relleno de difusión basado en la obediencia del usuario, obedece al prompt del usuario, completamente reinventa la materia del sujeto sin tener en cuenta la imagen original (excepto al mezclar la nueva generación con el entorno). Source: https://arxiv.org/pdf/2502.20376

Este problema ocurre porque los LDM generan imágenes a través de ruido iterativo, donde cada etapa del proceso está condicionada al prompt de texto proporcionado por el usuario. Con el contenido del prompt de texto convertido en tokens de incrustación, y con un modelo de hiperscala como Stable Diffusion o Flux que contiene cientos de miles (o millones) de incrustaciones casi coincidentes relacionadas con el prompt, el proceso tiene una distribución condicional calculada para apuntar hacia ella; y cada paso que se toma es un paso hacia esta “distribución condicional objetivo”.

Así que eso es texto a imagen – un escenario en el que el usuario “espera lo mejor”, ya que no hay forma de saber exactamente qué será la generación.

En cambio, muchos han buscado utilizar la capacidad generativa poderosa de un LDM para editar imágenes existentes – pero esto implica un equilibrio entre fidelidad y flexibilidad.

Cuando una imagen se proyecta en el espacio latente del modelo mediante métodos como la inversión DDIM, el objetivo es recuperar el original lo más cercanamente posible mientras aún permite ediciones significativas. El problema es que cuanto más precisamente se reconstruye una imagen, más el modelo se adhiere a su estructura original, lo que hace que las modificaciones importantes sean difíciles.

Al igual que muchos otros marcos de edición de imágenes basados en difusión propuestos en los últimos años, la arquitectura Renoise tiene dificultades para hacer cualquier cambio real en la apariencia de la imagen, con solo una indicación perfunctoria de un lazo apareciendo en la base de la garganta del gato.

Al igual que muchos otros marcos de edición de imágenes basados en difusión propuestos en los últimos años, la arquitectura Renoise tiene dificultades para hacer cualquier cambio real en la apariencia de la imagen, con solo una indicación perfunctoria de un lazo apareciendo en la base de la garganta del gato.

Por otro lado, si el proceso prioriza la editabilidad, el modelo afloja su agarre en el original, lo que facilita la introducción de cambios – pero a costa de la consistencia general con la imagen de origen:

Misión cumplida - pero es una transformación en lugar de un ajuste, para la mayoría de los marcos de edición de imágenes basados en IA.

Misión cumplida – pero es una transformación en lugar de un ajuste, para la mayoría de los marcos de edición de imágenes basados en IA.

Dado que es un problema que incluso los considerables recursos de Adobe están luchando para abordar, entonces podemos razonablemente considerar que el desafío es notable, y puede que no permita soluciones fáciles, si es que las hay.

Inversión ajustada

Por lo tanto, los ejemplos en un nuevo documento publicado esta semana llamaron mi atención, ya que el trabajo ofrece una mejora valiosa y notable en el estado actual del arte en este área, al demostrar ser capaz de aplicar ediciones sutiles y refinadas a imágenes proyectadas en el espacio latente de un modelo – sin que las ediciones sean insignificantes o abrumen el contenido original de la imagen de origen:

Con la Inversión ajustada aplicada a los métodos de inversión existentes, la selección de origen se considera de una manera mucho más granular, y las transformaciones se ajustan al material original en lugar de sobreescribirlo.

Con la Inversión ajustada aplicada a los métodos de inversión existentes, la selección de origen se considera de una manera mucho más granular, y las transformaciones se ajustan al material original en lugar de sobreescribirlo.

Los aficionados y practicantes de LDM pueden reconocer este tipo de resultado, ya que gran parte de ello se puede crear en un flujo de trabajo complejo utilizando sistemas externos como Controlnet e IP-Adapter.

De hecho, el nuevo método – llamado Inversión ajustada – aprovecha IP-Adapter, junto con un modelo basado en caras dedicado, para representaciones humanas.

Del documento original de 2023 de IP-Adapter, ejemplos de ediciones apropiadas al material de origen. Source: https://arxiv.org/pdf/2308.06721

Del documento original de 2023 de IP-Adapter, ejemplos de ediciones apropiadas al material de origen. Source: https://arxiv.org/pdf/2308.06721

El logro destacado de la Inversión ajustada, entonces, es haber proceduralizado técnicas complejas en una sola modalidad de complemento que se puede aplicar a sistemas existentes, incluyendo muchas de las distribuciones de LDM más populares.

Naturalmente, esto significa que la Inversión ajustada (TI), al igual que los sistemas adjuntos que aprovecha, utiliza la imagen de origen como un factor de condicionamiento para su propia versión editada, en lugar de confiar únicamente en prompts de texto precisos:

Más ejemplos de la capacidad de la Inversión ajustada para aplicar ediciones verdaderamente mezcladas al material de origen.

Más ejemplos de la capacidad de la Inversión ajustada para aplicar ediciones verdaderamente mezcladas al material de origen.

Aunque los autores conceden que su enfoque no está exento de la tensión tradicional y continua entre fidelidad y editabilidad en las técnicas de edición de imágenes basadas en difusión, informan resultados de estado del arte cuando se inyecta TI en sistemas existentes, en comparación con el rendimiento de referencia.

El nuevo trabajo se titula Inversión ajustada: inversión condicionada por imagen para edición de imágenes reales, y proviene de cinco investigadores de la Universidad de Tel Aviv y Snap Research.

Método

Inicialmente, se utiliza un modelo de lenguaje grande (LLM) para generar un conjunto de prompts de texto variados a partir de los cuales se genera una imagen. Luego, se aplica la inversión DDIM a cada imagen con tres condiciones de texto: el prompt de texto utilizado para generar la imagen; una versión abreviada del mismo; y un prompt nulo (vacío).

Con el ruido invertido devuelto por estos procesos, las imágenes se generan nuevamente con la misma condición, y sin orientación de clasificador libre (CFG).

Puntuaciones de inversión DDIM en varios métricas con ajustes de prompt variables.

Puntuaciones de inversión DDIM en varios métricas con ajustes de prompt variables.

Como podemos ver en el gráfico anterior, las puntuaciones en varias métricas mejoran con el aumento de la longitud del texto. Las métricas utilizadas fueron la Relación Señal-Ruido Pico (PSNR); la distancia L2; el Índice de Similitud Estructural (SSIM); y la Similitud de Parches de Imagen Percibida Aprendida (LPIPS).

Consciente de la imagen

En efecto, la Inversión ajustada cambia la forma en que un modelo de difusión de acogida edita imágenes reales al condicionar el proceso de inversión en la imagen en sí, en lugar de confiar únicamente en prompts de texto.

Normalmente, invertir una imagen en el espacio de ruido de un modelo de difusión requiere estimar el ruido inicial que, cuando se desenoisa, reconstruye la entrada. Los métodos estándar utilizan un prompt de texto para guiar este proceso; pero un prompt imperfecto puede llevar a errores, perdiendo detalles o alterando estructuras.

La Inversión ajustada, en cambio, utiliza IP Adapter para alimentar información visual al modelo, para que reconstruya la imagen con mayor precisión, convirtiendo las imágenes de origen en tokens de condicionamiento, y proyectándolos en la tubería de inversión.

Estos parámetros son editables: aumentar la influencia de la imagen de origen hace que la reconstrucción sea casi perfecta, mientras que reducirla permite cambios más creativos. Esto hace que la Inversión ajustada sea útil tanto para modificaciones sutiles, como cambiar el color de una camisa, como para ediciones más significativas, como intercambiar objetos – sin los efectos secundarios comunes de otros métodos de inversión, como la pérdida de detalles finos o aberraciones inesperadas en el contenido de fondo.

Los autores afirman:

‘Observamos que la Inversión ajustada se puede integrar fácilmente con métodos de inversión anteriores (por ejemplo, Edit Friendly DDPM, ReNoise) [cambiando el núcleo de difusión nativo por el modelo alterado de IP Adapter], [y] la Inversión ajustada mejora consistentemente estos métodos en términos de reconstrucción y editabilidad.’

Datos y pruebas

Los investigadores evaluaron TI en su capacidad para reconstruir y editar imágenes del mundo real. Todos los experimentos utilizaron Stable Diffusion XL con un programador DDIM como se describe en el documento original de Stable Diffusion; y todas las pruebas utilizaron 50 pasos de desenoising con una escala de orientación predeterminada de 7,5.

Para el condicionamiento de la imagen, se utilizó IP-Adapter-plus sdxl vit-h. Para las pruebas de pocos pasos, los investigadores utilizaron SDXL-Turbo con un programador Euler, y también realizaron experimentos con FLUX.1-dev, condicionando el modelo en este último caso en PuLID-Flux, utilizando RF-Inversión a 28 pasos.

PulID se utilizó únicamente en casos que presentaban caras humanas, ya que este es el dominio que PulID fue entrenado para abordar – y aunque es digno de mención que se utilice un subsistema especializado para este tipo de prompt, nuestro interés desmedido en generar caras humanas sugiere que confiar únicamente en los pesos más amplios de un modelo de base como Stable Diffusion puede no ser adecuado para las normas que exigimos para esta tarea en particular.

Las pruebas de reconstrucción se realizaron para la evaluación cualitativa y cuantitativa. En la imagen a continuación, vemos ejemplos cualitativos para la inversión DDIM:

Resultados cualitativos para la inversión DDIM. Cada fila muestra una imagen muy detallada junto con sus versiones reconstruidas, con cada paso que utiliza condiciones progresivamente más precisas durante la inversión y el desenoising. A medida que la condicionamiento se vuelve más preciso, la calidad de la reconstrucción mejora. La columna de la derecha demuestra los mejores resultados, donde la imagen original en sí se utiliza como la condición, logrando la mayor fidelidad. CFG no se utilizó en ninguna etapa. Por favor, consulte el documento de origen para una mejor resolución y detalle.

Resultados cualitativos para la inversión DDIM. Cada fila muestra una imagen muy detallada junto con sus versiones reconstruidas, con cada paso que utiliza condiciones progresivamente más precisas durante la inversión y el desenoising. A medida que la condicionamiento se vuelve más preciso, la calidad de la reconstrucción mejora. La columna de la derecha demuestra los mejores resultados, donde la imagen original en sí se utiliza como la condición, logrando la mayor fidelidad. CFG no se utilizó en ninguna etapa. Por favor, consulte el documento de origen para una mejor resolución y detalle.

El documento establece:

‘Estos ejemplos resaltan que condicionar el proceso de inversión en una imagen mejora significativamente la reconstrucción en regiones muy detalladas.

‘Cabe destacar que, en el tercer ejemplo de [la imagen a continuación], nuestro método reconstruye con éxito el tatuaje en la espalda del boxeador de la derecha. Además, la postura de la pierna del boxeador se conserva con mayor precisión, y el tatuaje en la pierna se vuelve visible.’

Más resultados cualitativos para la inversión DDIM. Las condiciones descriptivas mejoran la inversión DDIM, con el condicionamiento de la imagen superando al texto, especialmente en imágenes complejas.

Más resultados cualitativos para la inversión DDIM. Las condiciones descriptivas mejoran la inversión DDIM, con el condicionamiento de la imagen superando al texto, especialmente en imágenes complejas.

Los autores también probaron la Inversión ajustada como un módulo de complemento para sistemas existentes, enfrentando las versiones modificadas a su rendimiento de referencia.

Los tres sistemas probados fueron la inversión DDIM y RF-Inversión; y también ReNoise, que comparte algunos autores con el documento bajo discusión aquí. Dado que los resultados de DDIM no tienen dificultades para obtener una reconstrucción del 100%, los investigadores se centraron únicamente en la editabilidad.

(Las imágenes de resultados cualitativos están formateadas de una manera que es difícil de reproducir aquí, así que nos referimos al lector al PDF de origen para una mejor cobertura y resolución, a pesar de que algunas selecciones se presentan a continuación)

Izquierda, resultados cualitativos de reconstrucción para la Inversión ajustada con SDXL. Derecha, reconstrucción con Flux. El diseño de estos resultados en el trabajo publicado hace que sea difícil de reproducir aquí, así que por favor consulte el PDF de origen para una impresión verdadera de las diferencias obtenidas.

Izquierda, resultados cualitativos de reconstrucción para la Inversión ajustada con SDXL. Derecha, reconstrucción con Flux. El diseño de estos resultados en el trabajo publicado hace que sea difícil de reproducir aquí, así que por favor consulte el PDF de origen para una impresión verdadera de las diferencias obtenidas.

Aquí, los autores comentan:

‘Como se ilustra, integrar la Inversión ajustada con métodos existentes mejora consistentemente la reconstrucción. Por [ejemplo,] nuestro método reconstruye con precisión la barandilla en el ejemplo más a la izquierda y el hombre con la camisa azul en el ejemplo más a la derecha [en la figura 5 del documento].’

Los autores también probaron el sistema cuantitativamente. En línea con trabajos anteriores, utilizaron el conjunto de validación de MS-COCO, y observan que los resultados (ilustrados a continuación) mejoran la reconstrucción en todas las métricas para todos los métodos.

Comparación de las métricas para el rendimiento de los sistemas con y sin Inversión ajustada.

Comparación de las métricas para el rendimiento de los sistemas con y sin Inversión ajustada.

A continuación, los autores probaron la capacidad del sistema para editar fotos, enfrentándolo a versiones de referencia de enfoques anteriores prompt2prompt; Edit Friendly DDPM; LED-ITS++; y RF-Inversión.

Se presentan a continuación algunas selecciones de los resultados cualitativos del documento para SDXL y Flux (y nos referimos al lector al PDF de origen para más ejemplos).

Selecciones de los resultados cualitativos extensos (bastante confusos) dispersos por el documento. Nos referimos al lector al PDF de origen para una mejor resolución y claridad significativa.

Selecciones de los resultados cualitativos extensos (bastante confusos) dispersos por el documento. Nos referimos al lector al PDF de origen para una mejor resolución y claridad significativa.

Los autores sostienen que la Inversión ajustada mejora consistentemente las técnicas de inversión existentes al lograr un mejor equilibrio entre reconstrucción y editabilidad. Los métodos estándar como la inversión DDIM y ReNoise pueden recuperar una imagen bien, el documento establece que a menudo luchan por preservar los detalles finos cuando se aplican ediciones.

Por el contrario, la Inversión ajustada aprovecha el condicionamiento de la imagen para anclar la salida del modelo más cerca del original, evitando distorsiones no deseadas. Los autores sostienen que incluso cuando los enfoques competitivos producen reconstrucciones que parecen precisas, la introducción de ediciones a menudo conduce a artefactos o inconsistencias estructurales, y que la Inversión ajustada mitiga estos problemas.

Finalmente, se obtuvieron resultados cuantitativos al evaluar la Inversión ajustada contra la referencia MagicBrush, utilizando la inversión DDIM y LEDITS++, medida con CLIP Sim.

Comparaciones cuantitativas de la Inversión ajustada contra la referencia MagicBrush.

Comparaciones cuantitativas de la Inversión ajustada contra la referencia MagicBrush.

Los autores concluyen:

‘En ambos gráficos, el compromiso entre la preservación de la imagen y la adherencia a la edición de destino es claramente [observado]. La Inversión ajustada proporciona un mejor control sobre este compromiso y preserva mejor la imagen de entrada mientras aún se alinea con el prompt de edición [prompt]. ‘

‘Tenga en cuenta que una similitud de CLIP de más de 0,3 entre una imagen y un prompt de texto indica una alineación plausible entre la imagen y el prompt.’

Conclusión

Aunque no representa un ‘avance’ en uno de los desafíos más espinosos en la síntesis de imágenes basada en LDM, la Inversión ajustada consolida una serie de enfoques auxiliares laboriosos en un método unificado de edición de imágenes basada en IA.

Aunque la tensión entre editabilidad y fidelidad no ha desaparecido con este método, se reduce notablemente, según los resultados presentados. Considerando que el desafío central que este trabajo aborda puede resultar en última instancia intractable si se aborda por sí solo (en lugar de buscar más allá de las arquitecturas basadas en LDM en sistemas futuros), la Inversión ajustada representa una mejora incremental bienvenida en el estado del arte.

 

Publicado por primera vez el viernes 28 de febrero de 2025

Escritor sobre aprendizaje automático, especialista en síntesis de imágenes humanas. Anterior jefe de contenido de investigación en Metaphysic.ai.