Inteligencia artificial

HD-Painter: Pintura de Imágenes de Alta Resolución con Difusión de Texto

Publicado el 13 de febrero de 2024

Actualizado el 22 de mayo de 2026

Por

Kunal Kejriwal

HD-Painter : High Resolution Text-Guided Image Inpainting with Diffusion Models

Los modelos de difusión han revolucionado sin duda la industria de la IA y el ML, con aplicaciones en tiempo real que se han convertido en una parte integral de nuestra vida diaria. Después de que los modelos de texto a imagen mostraron sus capacidades impresionantes, las técnicas de manipulación de imágenes basadas en difusión, como la generación controlada, la síntesis de imágenes personalizadas y especializadas, la edición de imágenes a nivel de objeto, las variaciones condicionadas por prompt y la edición, surgieron como temas de investigación candentes debido a sus aplicaciones en la industria de la visión por computadora.

Sin embargo, a pesar de sus capacidades impresionantes y resultados excepcionales, los marcos de texto a imagen, particularmente los marcos de inpainting de texto a imagen, todavía tienen áreas potenciales para el desarrollo. Estos incluyen la capacidad de comprender escenas globales, especialmente cuando se desenrumban las imágenes en pasos de difusión de alta difusión. Para abordar este problema, los investigadores introdujeron HD-Painter, un marco completamente libre de entrenamiento que sigue las instrucciones del prompt con precisión y se escala a la inpainting de imágenes de alta resolución de manera coherente. El marco de HD-Painter emplea una capa de Atención Introvertida Consciente del Prompt (PAIntA), que aprovecha la información del prompt para mejorar las puntuaciones de autoatención, lo que resulta en una mejor generación de alineación de texto.

Para mejorar aún más la coherencia del prompt, el modelo HD-Painter introduce un enfoque de Orientación de Puntuación de Atención de Repesaje (RASG). Este enfoque integra una estrategia de muestreo post-hoc en la forma general del componente DDIM de manera transparente, lo que evita los desplazamientos latentes fuera de distribución. Además, el marco de HD-Painter cuenta con una técnica de super-resolución especializada personalizada para la inpainting, lo que le permite extenderse a escalas más grandes y completar las regiones que faltan en la imagen con resoluciones de hasta 2K.

HD-Painter: Pintura de Imágenes con Texto

Los modelos de difusión de texto a imagen han sido sin duda un tema importante en la industria de la IA y el ML en los últimos meses, con modelos que demuestran capacidades impresionantes en tiempo real en diversas aplicaciones prácticas. Los modelos de generación de imágenes de texto a imagen preentrenados, como DALL-E, Imagen y Difusión Estable, han demostrado su idoneidad para la completación de imágenes al fusionar regiones desconocidas desenruidas (generadas) con regiones conocidas difundidas durante el proceso de difusión inversa. A pesar de producir resultados visuales atractivos y armonizados, los modelos existentes luchan por comprender la escena global, particularmente bajo el proceso de desenrumbado de alta difusión. Al modificar los modelos de difusión de texto a imagen preentrenados para incorporar información contextual adicional, se pueden ajustar para la completación de imágenes guiada por texto.

Además, dentro de los modelos de difusión, la inpainting de imágenes guiada por texto y la completión de imágenes guiada por texto son áreas de interés importantes para los investigadores. Este interés se debe al hecho de que los modelos de inpainting guiados por texto pueden generar contenido en regiones específicas de una imagen de entrada basada en prompts textuales, lo que conduce a posibles aplicaciones como retocar regiones específicas de la imagen, modificar atributos de sujetos como colores o ropa, y agregar o reemplazar objetos. En resumen, los modelos de difusión de texto a imagen han logrado un éxito sin precedentes debido a sus capacidades de generación realistas y visualmente atractivas.

Sin embargo, la mayoría de los marcos existentes demuestran una negligencia del prompt en dos escenarios. El primero es la Dominancia del Fondo cuando el modelo completa la región desconocida ignorando el prompt en el fondo, mientras que el segundo escenario es la Dominancia del Objeto Cercano cuando el modelo propaga los objetos de la región conocida a la región desconocida utilizando la probabilidad de contexto visual en lugar del prompt de entrada. Es posible que ambos problemas sean el resultado de la incapacidad de la difusión de inpainting vanilla para interpretar el prompt textual con precisión o mezclarlo con la información contextual obtenida de la región conocida.

Para abordar estos obstáculos, el marco de HD-Painter introduce la capa de Atención Introvertida Consciente del Prompt (PAIntA), que utiliza la información del prompt para mejorar las puntuaciones de autoatención, lo que resulta en una mejor generación de alineación de texto. PAIntA utiliza el condicionamiento textual dado para mejorar la atención propia con el objetivo de reducir el impacto de la información no relevante para el prompt de la región de la imagen, al mismo tiempo que aumenta la contribución de los píxeles conocidos alineados con el prompt. Para mejorar aún más la alineación del texto de los resultados generados, el marco de HD-Painter implementa un método de orientación post-hoc que aprovecha las puntuaciones de atención cruzada. Sin embargo, la implementación del mecanismo de orientación post-hoc vanilla podría causar desplazamientos fuera de la distribución como resultado del término de gradiente adicional en la ecuación de difusión. El desplazamiento fuera de la distribución resultaría en una degradación de la calidad de la salida generada. Para abordar este obstáculo, el marco de HD-Painter implementa la Orientación de Puntuación de Atención de Repesaje (RASG), un método que integra una estrategia de muestreo post-hoc en la forma general del componente DDIM de manera transparente.

Al desplegar ambos componentes RASH y PAIntA en su arquitectura, el marco de HD-Painter tiene una ventaja significativa sobre los marcos existentes, incluidos los de última generación, de inpainting y difusión de texto a imagen, ya que logra resolver el problema existente de la negligencia del prompt. Además, ambos componentes RASH y PAIntA ofrecen funcionalidad de plug and play, lo que les permite ser compatibles con los modelos de difusión de inpainting basados en difusión para abordar los desafíos mencionados anteriormente. Además, al implementar una tecnología de mezcla iterativa en el tiempo y al aprovechar las capacidades de los modelos de difusión de alta resolución, la tubería de HD-Painter puede operar de manera efectiva para inpainting de hasta 2K de resolución.

En resumen, HD-Painter tiene como objetivo hacer las siguientes contribuciones en el campo:

Tiene como objetivo resolver el problema de negligencia del prompt de los fondos y la dominancia del objeto cercano experimentados por los marcos de inpainting de imágenes guiadas por texto al implementar la capa de Atención Introvertida Consciente del Prompt (PAIntA) en su arquitectura.
Tiene como objetivo mejorar la alineación del texto de la salida al implementar la capa de Orientación de Puntuación de Atención de Repesaje (RASG) en su arquitectura, lo que permite al marco de HD-Painter realizar muestreo guiado post-hoc mientras evita desplazamientos fuera de la distribución.
Diseñar una tubería de completación de imágenes guiada por texto efectiva y libre de entrenamiento, capaz de superar a los marcos existentes de última generación, y utilizar el marco de super-resolución especializado en inpainting para realizar inpainting de imágenes guiadas por texto de hasta 2K de resolución.

HD-Painter: Método y Arquitectura

Antes de examinar la arquitectura, es vital comprender los tres conceptos fundamentales que forman la base del marco de HD-Painter: Pintura de Imágenes, Orientación Post-hoc en Marcos de Difusión y Bloques Arquitectónicos Específicos de Inpainting.

La pintura de imágenes es un enfoque que tiene como objetivo llenar las regiones que faltan dentro de una imagen mientras garantiza el atractivo visual de la imagen generada. Los marcos de aprendizaje profundo tradicionales implementaron métodos que utilizaban regiones conocidas para propagar características profundas. Sin embargo, la introducción de modelos de difusión ha resultado en la evolución de los modelos de inpainting, especialmente los marcos de inpainting de imágenes guiadas por texto. Tradicionalmente, un modelo de difusión de texto a imagen preentrenado reemplaza la región no enmascarada de la latente utilizando la versión ruidosa de la región conocida durante el proceso de muestreo. Aunque este enfoque funciona hasta cierto punto, degrada significativamente la calidad de la salida generada, ya que la red de desenrumbado solo ve la versión ruidosa de la región conocida. Para abordar este obstáculo, algunos enfoques apuntaron a ajustar el modelo de texto a imagen preentrenado para lograr la inpainting de imágenes guiada por texto.

Avanzando, los modelos de aprendizaje profundo tradicionales implementaron capas de diseño especiales para la inpainting eficiente, con algunos marcos capaces de extraer información de manera efectiva y producir imágenes visualmente atractivas al introducir capas de convolución especiales para tratar con las regiones conocidas de la imagen. Algunos marcos incluso agregaron una capa de atención contextual en su arquitectura para reducir los requisitos computacionales pesados de la autoatención de todos a todos para la inpainting de alta calidad.

Finalmente, los métodos de orientación post-hoc son métodos de muestreo de difusión inversa que guían la predicción de latente del siguiente paso hacia un objetivo de minimización de función específica. Los métodos de orientación post-hoc son de gran ayuda cuando se trata de generar contenido visual, especialmente en presencia de restricciones adicionales. Sin embargo, los métodos de orientación post-hoc tienen una desventaja importante: pueden resultar en degradaciones de la calidad de la imagen, ya que tienden a desplazar el proceso de generación de latente mediante un término de gradiente.

Al examinar la arquitectura de HD-Painter, el marco primero formula el problema de completación de imágenes guiada por texto y luego introduce dos modelos de difusión: la Difusión Estable y la Difusión Estable. El modelo de HD-Painter luego introduce las capas de PAIntA y RASG, y finalmente llegamos a la técnica de super-resolución específica de inpainting.

Difusión Estable y Difusión de Inpainting

La Difusión Estable es un modelo de difusión que opera dentro del espacio latente de un autoencoder. Para la síntesis de texto a imagen, el marco de Difusión Estable implementa un prompt textual para guiar el proceso. La función de guía tiene una estructura similar a la arquitectura de UNet, y las capas de atención cruzada la condicionan en los prompts textuales. Además, el modelo de Difusión Estable puede realizar la inpainting de imágenes con algunas modificaciones y ajustes. Para lograrlo, las características de la imagen enmascarada generada por el codificador se concatenan con la máscara binaria reducida a los latentes. El tensor resultante se introduce entonces en la arquitectura de UNet para obtener el ruido estimado.

La figura anterior muestra una visión general del marco de HD-Painter, que consta de dos etapas. En la primera etapa, el marco de HD-Painter implementa la pintura de imágenes guiada por texto, mientras que en la segunda etapa, el modelo realiza la super-resolución específica de la salida. Para llenar las regiones que faltan y mantener la coherencia con el prompt de entrada, el modelo toma un modelo de difusión de inpainting preentrenado, reemplaza las capas de autoatención con capas de PAIntA y implementa el mecanismo de RASG para realizar un proceso de difusión inversa. El modelo decodifica entonces el latente estimado final, lo que resulta en una imagen inpintada. HD-Painter luego implementa el modelo de Difusión Estable para inpintar la imagen de tamaño original y realiza el proceso de difusión inversa del marco de Difusión Estable condicionado en la imagen de entrada de baja resolución. El modelo mezcla las predicciones desenruidas con la codificación de la imagen original en cada paso de la región conocida y deriva el siguiente latente. Finalmente, el modelo decodifica el latente y realiza una mezcla de Poisson para evitar artefactos de borde.

Atención Introvertida Consciente del Prompt o PAIntA

Los modelos de inpainting existentes, como la Difusión Estable, tienden a confiar más en el contexto visual alrededor del área de inpainting y ignorar los prompts de entrada del usuario. En base a la experiencia del usuario, este problema se puede categorizar en dos clases: la dominancia del objeto cercano y la dominancia del fondo. El problema de la dominancia del contexto visual sobre los prompts de entrada puede ser el resultado de la naturaleza espacial y libre de prompt de las capas de autoatención. Para abordar este problema, el marco de HD-Painter introduce la Atención Introvertida Consciente del Prompt (PAIntA), que utiliza matrices de atención cruzada y una máscara de inpainting para controlar la salida de las capas de autoatención en la región desconocida.

El componente de Atención Introvertida Consciente del Prompt primero aplica capas de proyección para obtener la clave, los valores y las consultas, junto con la matriz de similitud. El modelo ajusta entonces la puntuación de atención de los píxeles conocidos para mitigar la influencia fuerte de la región conocida sobre la región desconocida y define una nueva matriz de similitud al aprovechar el prompt textual.

Orientación de Puntuación de Atención de Repesaje o RASG

El marco de HD-Painter adopta un enfoque de muestreo guiado post-hoc para mejorar aún más la alineación de la generación con los prompts textuales. Junto con una función de objetivo, el enfoque de muestreo guiado post-hoc apunta a aprovechar las propiedades de segmentación de vocabulario abierto de las capas de atención cruzada. Sin embargo, este enfoque de orientación post-hoc vanilla tiene el potencial de desplazar el dominio de latente de difusión, lo que puede degradar la calidad de la imagen generada. Para abordar este obstáculo, el modelo de HD-Painter implementa la Orientación de Puntuación de Atención de Repesaje (RASG), un método que introduce un mecanismo de reponderación de gradiente, lo que resulta en la preservación del dominio de latente.

HD-Painter: Experimentos y Resultados

Para analizar su rendimiento, el marco de HD-Painter se compara con los modelos de última generación, incluidos la Difusión Estable, GLIDE y BLD o Difusión Latente Mezclada, en 10.000 muestras aleatorias donde el prompt se selecciona como la etiqueta de la instancia de máscara seleccionada.

Como se puede observar, el marco de HD-Painter supera a los marcos existentes en tres métricas diferentes con una ventaja significativa, especialmente la mejora de 1,5 puntos en la métrica CLIP y la diferencia en la puntuación de precisión generada de aproximadamente el 10% con respecto a los métodos de última generación.

Avanzando, la siguiente figura muestra una comparación cualitativa del marco de HD-Painter con otros marcos de inpainting. Como se puede observar, los modelos de referencia básicos reconstruyen las regiones que faltan en la imagen como una continuación de los objetos de la región conocida, ignorando los prompts, o generan un fondo. Por otro lado, el marco de HD-Painter puede generar los objetos objetivo con éxito gracias a la implementación de los componentes PAIntA y RASG en su arquitectura.

Pensamientos Finales

En este artículo, hemos hablado sobre HD-Painter, un enfoque de inpainting de imágenes de alta resolución guiado por texto y libre de entrenamiento que aborda los desafíos experimentados por los marcos de inpainting existentes, incluida la negligencia del prompt y la dominancia del objeto cercano y del fondo. El marco de HD-Painter implementa una capa de Atención Introvertida Consciente del Prompt (PAIntA) que utiliza la información del prompt para mejorar las puntuaciones de autoatención, lo que resulta en una mejor generación de alineación de texto.

Para mejorar aún más la coherencia del prompt, el modelo de HD-Painter introduce un enfoque de Orientación de Puntuación de Atención de Repesaje (RASG) que integra una estrategia de muestreo post-hoc en la forma general del componente DDIM de manera transparente para prevenir desplazamientos fuera de la distribución de latente. Además, el marco de HD-Painter introduce una técnica de super-resolución especializada personalizada para la inpainting, lo que permite al marco de HD-Painter completar las regiones que faltan en la imagen con resoluciones de hasta 2K.