Contáctenos

Mejorar la precisión de la edición de imágenes con IA

El ángulo de Anderson

Mejorar la precisión de la edición de imágenes con IA

mm
Imágenes del artículo 'Inversión estricta: inversión condicionada por imágenes para edición de imágenes reales'

Aunque Adobe Luciérnaga El modelo de difusión latente (LDM) es posiblemente uno de los mejores disponibles actualmente, los usuarios de Photoshop que han probado sus funciones generativas habrán notado que no es capaz de editar imágenes existentes – en cambio, lo hizo por completo sustitutos el área seleccionada por el usuario con imágenes basadas en la solicitud de texto del usuario (aunque Firefly es experto en integrar la sección generada resultante en el contexto de la imagen).

En la versión beta actual, Photoshop puede al menos incorporar una imagen de referencia como un mensaje de imagen parcial, que pone al producto estrella de Adobe al nivel de funcionalidad que Difusión estable Los usuarios han disfrutado durante más de dos años, gracias a marcos de terceros como red de control:

La versión beta actual de Adobe Photoshop permite el uso de imágenes de referencia al generar contenido nuevo dentro de una selección, aunque por el momento es una cuestión de éxito o fracaso.

La versión beta actual de Adobe Photoshop permite el uso de imágenes de referencia al generar contenido nuevo dentro de una selección, aunque por el momento es una cuestión de suerte.

Esto ilustra un problema abierto en la investigación de síntesis de imágenes: la dificultad que tienen los modelos de difusión para editar imágenes existentes sin implementar una "reimaginación" a gran escala de la selección indicada por el usuario.

Aunque esta técnica de pintura basada en la difusión obedece a las indicaciones del usuario, reinventa por completo el tema original sin tener en cuenta la imagen original (excepto al mezclar la nueva generación con el entorno). Fuente: https://arxiv.org/pdf/2502.20376

Aunque esta pintura basada en la difusión obedece a las indicaciones del usuario, reinventa por completo el tema original sin tener en cuenta la imagen original (excepto al mezclar la nueva generación con el entorno). Fuente: https://arxiv.org/pdf/2502.20376

Este problema se produce porque los LDM generan imágenes a través de eliminación de ruido iterativa, donde cada etapa del proceso está condicionada al texto de solicitud proporcionado por el usuario. Con el contenido del texto de solicitud convertido en incrustación de tokens, y con un modelo de hiperescala como Stable Diffusion o Flux que contiene cientos de miles (o millones) de incrustaciones casi coincidentes relacionadas con el mensaje, el proceso tiene un valor calculado distribución condicional aspirar a ello; y cada paso dado es un paso hacia ese “objetivo de distribución condicional”.

Así que esto es texto a imagen: un escenario en el que el usuario "espera lo mejor", ya que no hay forma de saber exactamente cómo será la generación.

En cambio, muchos han buscado utilizar la poderosa capacidad generativa de un LDM para editar imágenes existentes, pero esto implica un acto de equilibrio entre fidelidad y flexibilidad.

Cuando se proyecta una imagen en el espacio latente del modelo mediante métodos como Inversión DDIMEl objetivo es recuperar el original lo más fielmente posible, pero permitiendo al mismo tiempo ediciones significativas. El problema es que cuanto más precisa sea la reconstrucción de una imagen, más fiel será el modelo a su mas originales estructura, lo que dificulta realizar modificaciones importantes.

Al igual que muchos otros marcos de edición de imágenes basados ​​en la difusión propuestos en los últimos años, la arquitectura Renoise tiene dificultades para realizar cualquier cambio real en la apariencia de la imagen, con solo una indicación superficial de una corbata de moño que aparece en la base de la garganta del gato.

Al igual que muchos otros marcos de edición de imágenes basados ​​en la difusión propuestos en los últimos años, la arquitectura Renoise tiene dificultades para realizar cualquier cambio real en la apariencia de la imagen, con solo una indicación superficial de una pajarita que aparece en la base de la garganta del gato.

Por otro lado, si el proceso prioriza la editabilidad, el modelo pierde su vínculo con el original, lo que facilita la introducción de cambios, pero a costa de la coherencia general con la imagen de origen:

Misión cumplida, pero es una transformación más que un ajuste para la mayoría de los marcos de edición de imágenes basados ​​en IA.

Misión cumplida, pero es una transformación más que un ajuste para la mayoría de los marcos de edición de imágenes basados ​​en IA.

Dado que se trata de un problema que incluso los considerables recursos de Adobe tienen dificultades para resolver, podemos considerar razonablemente que el desafío es notable y que, si es que hay alguna, es posible que no permita soluciones fáciles.

Inversión apretada

Por eso, los ejemplos de un nuevo artículo publicado esta semana me llamaron la atención, ya que el trabajo ofrece una mejora valiosa y notable respecto del estado actual de la técnica en esta área, al demostrar que es posible aplicar ediciones sutiles y refinadas a imágenes proyectadas en el espacio latente de un modelo, sin que las ediciones sean insignificantes o abrumen el contenido original de la imagen de origen:

Al aplicar Tight Inversion a los métodos de inversión existentes, la selección de la fuente se considera de una manera mucho más granular y las transformaciones se ajustan al material original en lugar de sobrescribirlo.

Al aplicar Tight Inversion a los métodos de inversión existentes, la selección de la fuente se considera de una manera mucho más granular y las transformaciones se ajustan al material original en lugar de sobrescribirlo.

Los aficionados y profesionales de LDM pueden reconocer este tipo de resultado, ya que gran parte de él se puede crear en un flujo de trabajo complejo utilizando sistemas externos como Controlnet y Adaptador IP.

De hecho, el nuevo método, denominado Inversión apretada – de hecho aprovecha el adaptador IP, junto con un modelo dedicado basado en rostros, para representaciones humanas.

Ejemplos de cómo elaborar ediciones adecuadas al material original, del artículo original de IP-Adapter de 2023. Fuente: https://arxiv.org/pdf/2308.06721

Del documento original de IP-Adapter de 2023, ejemplos de cómo realizar ediciones adecuadas al material original. Fuente: https://arxiv.org/pdf/2308.06721

El logro más destacado de Tight Inversion es, entonces, haber procedimentalizado técnicas complejas en una única modalidad de complemento que puede aplicarse a sistemas existentes, incluidas muchas de las distribuciones LDM más populares.

Naturalmente, esto significa que Tight Inversion (TI), al igual que los sistemas adjuntos que aprovecha, utiliza la imagen de origen como un factor condicionante para su propia versión editada, en lugar de confiar únicamente en indicaciones de texto precisas:

Más ejemplos de la capacidad de Tight Inversion para aplicar ediciones verdaderamente fusionadas al material original.

Más ejemplos de la capacidad de Tight Inversion para aplicar ediciones verdaderamente fusionadas al material original.

Aunque los autores admiten que su enfoque no está libre de la tensión tradicional y constante entre fidelidad y editabilidad en las técnicas de edición de imágenes basadas en la difusión, informan resultados de última generación al inyectar TI en sistemas existentes, en comparación con el rendimiento de referencia.

El nuevo trabajo se titula Inversión ajustada: inversión condicionada por la imagen para la edición de imágenes reales, y proviene de cinco investigadores de la Universidad de Tel Aviv y Snap Research.

Método

Inicialmente se utiliza un modelo de lenguaje grande (LLM) para generar un conjunto de indicaciones de texto variadas a partir de las cuales se genera una imagen. Luego se aplica la inversión DDIM antes mencionada a cada imagen. con tres condiciones de texto: el texto indicado para generar la imagen; una versión abreviada del mismo; y un mensaje nulo (vacío).

Con el ruido invertido devuelto por estos procesos, las imágenes se regeneran nuevamente con la misma condición y sin orientación sin clasificador (CGF).

La inversión de DDIM puntúa en varias métricas con distintas configuraciones de indicaciones.

La inversión de DDIM puntúa en varias métricas con distintas configuraciones de indicaciones.

Como podemos ver en el gráfico anterior, las puntuaciones en varias métricas mejoran con el aumento de la longitud del texto. Las métricas utilizadas fueron Relación señal-ruido máxima (PSNR); L2 distancia; Índice de similitud estructural (SSIM); y Similitud de parches de imágenes perceptuales aprendidas (IPS).

Consciente de la imagen

La inversión efectiva cambia la forma en que un modelo de difusión host edita imágenes reales al condicionar el proceso de inversión a la imagen en sí en lugar de depender solo del texto.

Normalmente, invertir una imagen en el espacio de ruido de un modelo de difusión requiere estimar el ruido inicial que, cuando se elimina el ruido, reconstruye la entrada. Los métodos estándar utilizan un mensaje de texto para guiar este proceso; pero un mensaje imperfecto puede provocar errores, perder detalles o alterar estructuras.

En cambio, Tight Inversion utiliza IP Adapter para introducir información visual en el modelo, de modo que reconstruya la imagen con mayor precisión, convirtiendo las imágenes de origen en tokens de acondicionamiento y proyectándolos en el proceso de inversión.

Estos parámetros son editables: aumentar la influencia de la imagen de origen hace que la reconstrucción sea casi perfecta, mientras que reducirla permite cambios más creativos. Esto hace que la inversión ajustada sea útil tanto para modificaciones sutiles, como cambiar el color de una camisa, como para ediciones más significativas, como intercambiar objetos, sin los efectos secundarios comunes de otros métodos de inversión, como la pérdida de detalles finos o aberraciones inesperadas en el contenido de fondo.

Los autores declaran:

'Observamos que Tight Inversion se puede integrar fácilmente con métodos de inversión anteriores (por ejemplo, Edit Friendly DDPM, ReNoise) al [cambiar el núcleo de difusión nativo para el modelo alterado del adaptador IP], [y] Tight Inversion mejora consistentemente dichos métodos en términos de reconstrucción y editabilidad.'

Datos y Pruebas

Los investigadores evaluaron la capacidad de TI para reconstruir y editar imágenes de fuentes del mundo real. Todos los experimentos utilizados Difusión estable XL con un programador DDIM como se describe en el Documento original sobre difusión estable; y todas las pruebas utilizaron 50 pasos de eliminación de ruido en una escala de guía predeterminada de 7.5.

Para el acondicionamiento de imágenes, Adaptador IP plus sdxl vit-h Para las pruebas de pocos pasos, los investigadores utilizaron SDXL-Turbo con un programador de Euler, y también realizó experimentos con FLUX.1-dev, condicionando el modelo en el último caso a Flujo PuLID, utilizando Inversión de RF a 28 pasos.

PulID se utilizó únicamente en casos que incluían rostros humanos, ya que este es el dominio para el cual fue entrenado PulID y, si bien es notable que se utilice un subsistema especializado para este posible tipo de mensaje, nuestro interés desmesurado en generar rostros humanos sugiere que confiar únicamente en los pesos más amplios de un modelo base como Stable Diffusion puede no ser adecuado a los estándares que exigimos para esta tarea en particular.

Se realizaron pruebas de reconstrucción para la evaluación cualitativa y cuantitativa. En la imagen a continuación, vemos ejemplos cualitativos de inversión DDIM:

Resultados cualitativos de la inversión DDIM. Cada fila muestra una imagen muy detallada junto con sus versiones reconstruidas, y en cada paso se utilizan condiciones progresivamente más precisas durante la inversión y la eliminación de ruido. A medida que el condicionamiento se vuelve más preciso, la calidad de la reconstrucción mejora. La columna más a la derecha muestra los mejores resultados, en los que se utiliza la propia imagen original como condición, lo que permite lograr la mayor fidelidad. No se utilizó CFG en ninguna etapa. Consulte el documento fuente para obtener una mejor resolución y detalles.

Resultados cualitativos de la inversión DDIM. Cada fila muestra una imagen muy detallada junto con sus versiones reconstruidas, y en cada paso se utilizan condiciones progresivamente más precisas durante la inversión y la eliminación de ruido. A medida que el condicionamiento se vuelve más preciso, la calidad de la reconstrucción mejora. La columna más a la derecha muestra los mejores resultados, en los que se utiliza la propia imagen original como condición, lo que permite lograr la mayor fidelidad. No se utilizó CFG en ninguna etapa. Consulte el documento fuente para obtener una mejor resolución y detalles.

El documento dice:

'Estos ejemplos resaltan que condicionar el proceso de inversión en una imagen mejora significativamente la reconstrucción en regiones altamente detalladas.

Cabe destacar que, en el tercer ejemplo de [la imagen de abajo], nuestro método reconstruye con éxito el tatuaje en la espalda del boxeador derecho. Además, la postura de la pierna del boxeador se conserva con mayor precisión y el tatuaje se hace visible.

Resultados cualitativos adicionales para la inversión DDIM. Las condiciones descriptivas mejoran la inversión DDIM, y el condicionamiento de imágenes supera al texto, especialmente en imágenes complejas.

Resultados cualitativos adicionales para la inversión DDIM. Las condiciones descriptivas mejoran la inversión DDIM, y el condicionamiento de imágenes supera al texto, especialmente en imágenes complejas.

Los autores también probaron Tight Inversion como un módulo complementario para sistemas existentes, comparando las versiones modificadas con su rendimiento base.

Los tres sistemas probados fueron los mencionados DDIM Inversion y RF-Inversion; y también Re-ruido, que comparte cierta autoría con el artículo que se analiza aquí. Dado que los resultados de DDIM no tienen dificultad para obtener una reconstrucción del 100 %, los investigadores se centraron únicamente en la capacidad de edición.

(Las imágenes de los resultados cualitativos están formateadas de tal manera que son difíciles de reproducir aquí, por lo que remitimos al lector al PDF de origen para una cobertura más completa y una mejor resolución, a pesar de que a continuación se presentan algunas selecciones)

A la izquierda, resultados de reconstrucción cualitativa para inversión ajustada con SDXL. A la derecha, reconstrucción con Flux. La disposición de estos resultados en el trabajo publicado dificulta su reproducción aquí, por lo que se recomienda consultar el PDF de origen para obtener una impresión real de las diferencias obtenidas.

A la izquierda, resultados de reconstrucción cualitativa para inversión ajustada con SDXL. A la derecha, reconstrucción con Flux. La disposición de estos resultados en el trabajo publicado dificulta su reproducción aquí, por lo que se recomienda consultar el PDF de origen para obtener una impresión real de las diferencias obtenidas.

Aquí los autores comentan:

Como se ilustra, la integración de la Inversión Ajustada con los métodos existentes mejora la reconstrucción de forma consistente. Por ejemplo, nuestro método reconstruye con precisión el pasamanos en el ejemplo más a la izquierda y al hombre con la camisa azul en el ejemplo más a la derecha [en la figura 5 del artículo].

Los autores también probaron el sistema cuantitativamente. Siguiendo trabajos anteriores, utilizaron el conjunto de validación of MS-COCO, y observe que los resultados (ilustrados a continuación) mejoraron la reconstrucción en todas las métricas para todos los métodos.

Comparación de las métricas de rendimiento de los sistemas con y sin inversión ajustada.

Comparación de las métricas de rendimiento de los sistemas con y sin inversión ajustada.

A continuación, los autores probaron la capacidad del sistema para edición Fotografías, comparándolas con versiones básicas de enfoques anteriores. aviso2aviso; Editar DDPM amigable; LED-ITS++; y RF-Inversión.

A continuación se muestra una selección de los resultados cualitativos del artículo para SDXL y Flux (y remitimos al lector al diseño bastante comprimido del artículo original para obtener más ejemplos).

Selecciones de los resultados cualitativos dispersos (de manera bastante confusa) a lo largo del artículo. Remitimos al lector al PDF de origen para una mejor resolución y claridad significativa.

Selecciones de los resultados cualitativos dispersos (de manera bastante confusa) a lo largo del artículo. Remitimos al lector al PDF de origen para una mejor resolución y claridad significativa.

Los autores sostienen que la inversión ajustada supera sistemáticamente a las técnicas de inversión existentes al lograr un mejor equilibrio entre reconstrucción y capacidad de edición. Los métodos estándar, como la inversión DDIM y ReNoise, pueden recuperar bien una imagen, pero el artículo afirma que a menudo tienen dificultades para preservar los detalles finos cuando se aplican ediciones.

Por el contrario, la inversión estricta aprovecha el condicionamiento de la imagen para fijar la salida del modelo más fielmente al original, lo que evita distorsiones no deseadas. Los autores sostienen que incluso cuando los enfoques en competencia producen reconstrucciones que Aparecer Es preciso señalar que la introducción de modificaciones a menudo genera artefactos o inconsistencias estructurales, y Tight Inversion mitiga estos problemas.

Finalmente, se obtuvieron resultados cuantitativos al evaluar la inversión ajustada frente a la Pincel mágico Punto de referencia, utilizando inversión DDIM y LEDITS++, medido con Simulación CLIP.

Comparaciones cuantitativas de Tight Inversion frente al benchmark MagicBrush.

Comparaciones cuantitativas de Tight Inversion frente al benchmark MagicBrush.

Los autores concluyen:

'En ambos gráficos se observa claramente el equilibrio entre la conservación de la imagen y la adherencia a la edición de destino. La inversión estricta proporciona un mejor control de este equilibrio y preserva mejor la imagen de entrada mientras se alinea con la edición [indicación].

'Tenga en cuenta que una similitud CLIP de más de 0.3 entre una imagen y un mensaje de texto indica una alineación plausible entre la imagen y el mensaje.'

Conclusión

Si bien no representa un “gran avance” en uno de los desafíos más espinosos en la síntesis de imágenes basada en LDM, Tight Inversion consolida una serie de enfoques auxiliares engorrosos en un método unificado de edición de imágenes basada en IA.

Aunque la tensión entre la capacidad de edición y la fidelidad no desaparece con este método, se reduce notablemente, según los resultados presentados. Teniendo en cuenta que el desafío central que aborda este trabajo puede resultar en última instancia insoluble si se lo aborda en sus propios términos (en lugar de mirar más allá de las arquitecturas basadas en LDM en sistemas futuros), Tight Inversion representa una mejora incremental bienvenida en el estado del arte.

 

Primera publicación: viernes 28 de febrero de 2025

Escritor sobre aprendizaje automático, especialista en síntesis de imágenes humanas. Exdirector de contenido de investigación en Metaphysic.ai.
sitio personal: martinanderson.ai
Contacto: [email protected]
Gorjeo: @manders_ai