Inteligencia Artificial
HD-Painter: pintura de imágenes guiadas por texto de alta resolución con modelos de difusión

Modelos de difusión Sin duda, han revolucionado la industria de la IA y el ML, y sus aplicaciones en tiempo real se han convertido en una parte integral de nuestra vida cotidiana. Después de que los modelos de texto a imagen demostraron sus notables capacidades, las técnicas de manipulación de imágenes basadas en difusión, como la generación controlable, la sÃntesis de imágenes especializada y personalizada, la edición de imágenes a nivel de objeto, las variaciones condicionadas y la edición, surgieron como temas de investigación candentes debido a a sus aplicaciones en la industria de la visión por ordenador.
Sin embargo, a pesar de sus impresionantes capacidades y resultados excepcionales, los marcos de texto a imagen, particularmente los marcos de pintura de texto a imagen, todavÃa tienen áreas potenciales de desarrollo. Estos incluyen la capacidad de comprender escenas globales, especialmente cuando se elimina el ruido de la imagen en pasos de tiempo de alta difusión. Para abordar este problema, los investigadores introdujeron HD-Painter, un marco completamente libre de capacitación que sigue con precisión las instrucciones y escala a imágenes de alta resolución al pintar de manera coherente. El marco HD-Painter emplea una capa Prompt Aware Introverted Attention (PAIntA), que aprovecha la información rápida para mejorar las puntuaciones de autoatención, lo que resulta en una mejor generación de alineación del texto.
Para mejorar aún más la coherencia del mensaje, el modelo HD-Painter introduce un enfoque de GuÃa de puntuación de atención de reponderación (RASG). Este enfoque integra perfectamente una estrategia de muestreo post-hoc en la forma general del componente DDIM, evitando cambios latentes fuera de la distribución. Además, el marco HD-Painter presenta una técnica especializada de superresolución personalizada para pintar, lo que le permite extenderse a escalas más grandes y completar regiones faltantes en la imagen con resoluciones de hasta 2K.
HD-Painter: pintura de imágenes guiada por texto
De hecho, los modelos de difusión de texto a imagen han sido un tema importante en la industria de la IA y el aprendizaje automático en los últimos meses, y los modelos demuestran capacidades impresionantes en tiempo real en diversas aplicaciones prácticas. Los modelos de generación de texto a imagen previamente entrenados como DALL-E, Imagen y Stable Diffusion han demostrado su idoneidad para completar imágenes fusionando regiones desconocidas sin ruido (generadas) con regiones conocidas difusas durante el proceso de difusión hacia atrás. A pesar de producir resultados visualmente atractivos y bien armonizados, los modelos existentes luchan por comprender la escena global, particularmente bajo el proceso de eliminación de ruido en pasos de tiempo de alta difusión. Al modificar los modelos de difusión de texto a imagen previamente entrenados para incorporar información de contexto adicional, se pueden ajustar para completar imágenes guiadas por texto.
Además, dentro de los modelos de difusión, la pintura guiada por texto y la finalización de imágenes guiada por texto son áreas importantes de interés para los investigadores. Este interés está impulsado por el hecho de que los modelos de pintura guiados por texto pueden generar contenido en regiones especÃficas de una imagen de entrada basándose en indicaciones textuales, lo que lleva a aplicaciones potenciales como retocar regiones especÃficas de la imagen, modificar atributos del sujeto como colores o ropa, y agregar o reemplazando objetos. En resumen, los modelos de difusión de texto a imagen han logrado recientemente un éxito sin precedentes, debido a sus capacidades de generación excepcionalmente realistas y visualmente atractivas.
Sin embargo, la mayorÃa de los marcos existentes demuestran un rápido abandono en dos escenarios. El primero es Dominio de fondo cuando el modelo completa la región desconocida ignorando el mensaje en segundo plano, mientras que el segundo escenario es dominancia de objetos cercanos cuando el modelo propaga los objetos de la región conocida a la región desconocida utilizando la probabilidad de contexto visual en lugar del mensaje de entrada. Es posible que ambos problemas sean el resultado de la capacidad de la difusión de vanilla inpainting para interpretar el mensaje textual con precisión o mezclarlo con la información contextual obtenida de la región conocida.
Para abordar estos obstáculos, el marco HD-Painter presenta la capa Prompt Aware Introverted Attention o PAIntA, que utiliza información rápida para mejorar las puntuaciones de autoatención que, en última instancia, resulta en una mejor generación de alineación del texto. PAIntA utiliza el condicionamiento textual dado para mejorar la atención propia puntuación con el objetivo de reducir el impacto de la información relevante no solicitada de la región de la imagen y al mismo tiempo aumentar la contribución de los pÃxeles conocidos alineados con la solicitud. Para mejorar aún más la alineación del texto de los resultados generados, el marco HD-Painter implementa un método de guÃa post-hoc que aprovecha las puntuaciones de atención cruzada. Sin embargo, la implementación del mecanismo de guÃa post-hoc básico podrÃa causar cambios fuera de la distribución como resultado del término de gradiente adicional en la ecuación de difusión. El cambio fuera de la distribución resultará en última instancia en una degradación de la calidad de la producción generada. Para abordar este obstáculo, el marco HD-Painter implementa una GuÃa de puntuación de atención de reponderación o RASG, un método que integra perfectamente una estrategia de muestreo post-hoc en la forma general del componente DDIM. Permite que el marco genere resultados de pintura visualmente plausibles guiando la muestra hacia las latentes alineadas rápidamente y conteniéndolas en su dominio entrenado.
Al implementar los componentes RASH y PAIntA en su arquitectura, el marco HD-Painter tiene una ventaja significativa sobre los modelos existentes, incluidos los de última generación, el inpainting y la difusión de texto a imagen, porque logra resolver el problema existente de negligencia rápida. Además, tanto el componente RASH como el PAIntA ofrecen funcionalidad plug and play, lo que les permite ser compatibles con modelos de pintura con base de difusión para afrontar los desafÃos mencionados anteriormente. Además, al implementar una tecnologÃa de mezcla iterativa en el tiempo y aprovechar las capacidades de modelos de difusión de alta resolución, el proceso HD-Painter puede funcionar eficazmente con una resolución de hasta 2K en la pintura.
En resumen, HD-Painter pretende realizar las siguientes contribuciones en el campo:
- Su objetivo es resolver el problema de la rápida negligencia del fondo y el dominio de los objetos cercanos que experimentan los marcos de pintura de imágenes guiadas por texto mediante la implementación de la capa Prompt Aware Introverted Attention o PAIntA en su arquitectura.
- Su objetivo es mejorar la alineación del texto de la salida mediante la implementación de la GuÃa de puntuación de atención de reponderación o capa RASG en su arquitectura que permite que el marco HD-Painter realice un muestreo guiado post-hoc y al mismo tiempo evite distribuciones fuera de turno.
- Diseñar un canal de finalización de imágenes guiado por texto sin capacitación eficaz capaz de superar los marcos de última generación existentes y utilizar el marco de superresolución especializado en pintura simple pero eficaz para realizar pintura de imágenes guiada por texto con una resolución de hasta 2K.
HD-Painter: método y arquitectura
Antes de echar un vistazo a la arquitectura, es vital comprender los tres conceptos fundamentales que forman la base del marco HD-Painter: Imagen en pintura, orientación post-hoc en marcos de difusión, Pintura de bloques arquitectónicos especÃficos.
Image Inpainting es un enfoque que tiene como objetivo llenar las regiones faltantes dentro de una imagen y al mismo tiempo garantizar el atractivo visual de la imagen generada. Los marcos tradicionales de aprendizaje profundo implementaron métodos que utilizaban regiones conocidas para propagar caracterÃsticas profundas. Sin embargo, la introducción de modelos de difusión ha dado lugar a la evolución de los modelos de pintura, especialmente los marcos de pintura de imágenes guiados por texto. Tradicionalmente, un modelo de difusión de texto a imagen previamente entrenado reemplaza la región desenmascarada de la región latente utilizando la versión con ruido de la región conocida durante el proceso de muestreo. Aunque este enfoque funciona hasta cierto punto, degrada significativamente la calidad de la salida generada, ya que la red de eliminación de ruido solo ve la versión con ruido de la región conocida. Para abordar este obstáculo, algunos enfoques apuntaron a ajustar el modelo de texto a imagen previamente entrenado para lograr la pintura de imágenes guiada por texto. Al implementar este enfoque, el marco puede generar una máscara aleatoria mediante concatenación, ya que el modelo puede condicionar el marco de eliminación de ruido en la región desenmascarada.
Avanzando, los modelos tradicionales de aprendizaje profundo implementaron capas de diseño especiales para una pintura eficiente y algunos marcos pudieron extraer información de manera efectiva y producir imágenes visualmente atractivas mediante la introducción de capas de convolución especiales para tratar las regiones conocidas de la imagen. Algunos marcos incluso agregaron una capa de atención contextual en su arquitectura para reducir los pesados ​​requisitos computacionales no deseados de la autoatención de todos para lograr una pintura interna de alta calidad.
Finalmente, los métodos de guÃa post-hoc son métodos de muestreo de difusión hacia atrás que guÃan la predicción latente del siguiente paso hacia un objetivo de minimización de función particular. Los métodos de orientación post hoc son de gran ayuda a la hora de generar contenido visual, especialmente en presencia de limitaciones adicionales. Sin embargo, los métodos de guÃa post-hoc tienen un gran inconveniente: se sabe que producen degradaciones en la calidad de la imagen, ya que tienden a cambiar el proceso de generación latente en un término de gradiente.
En cuanto a la arquitectura de HD-Painter, el marco primero formula el problema de finalización de imágenes guiadas por texto y luego introduce dos modelos de difusión, a saber, Stable Inpainting y Difusión estable. Luego, el modelo HD-Painter introduce los bloques PAIntA y RASG, y finalmente llegamos a la técnica de súper resolución especÃfica de inpainting.
Difusión estable y pintura interna estable
La difusión estable es un modelo de difusión que opera dentro del espacio latente de un codificador automático. Para la sÃntesis de texto a imagen, el marco Stable Diffusion implementa un mensaje textual para guiar el proceso. La función de guÃa tiene una estructura similar a la arquitectura UNet, y las capas de atención cruzada la condicionan a las indicaciones textuales. Además, el modelo de Difusión Estable puede realizar imágenes en pintura con algunas modificaciones y ajustes. Para lograrlo, las caracterÃsticas de la imagen enmascarada generada por el codificador se concatenan con la máscara binaria reducida a las latentes. Luego, el tensor resultante se ingresa en la arquitectura UNet para obtener el ruido estimado. Luego, el marco inicializa los filtros convolucionales recién agregados con ceros, mientras que el resto de UNet se inicializa utilizando puntos de control previamente entrenados del modelo de Difusión Estable.
La figura anterior muestra la descripción general del marco HD-Painter que consta de dos etapas. En la primera etapa, el marco HD-Painter implementa la pintura de imágenes guiada por texto, mientras que en la segunda etapa, el modelo pinta una superresolución especÃfica de la salida. Para completar las regiones de la misión y mantener la coherencia con el mensaje de entrada, el modelo toma un modelo de difusión de pintura previamente entrenado, reemplaza las capas de autoatención con capas PAIntA e implementa el mecanismo RASG para realizar un proceso de difusión hacia atrás. Luego, el modelo decodifica la estimación latente final, lo que da como resultado una imagen pintada. Luego, HD-Painter implementa el modelo de difusión súper estable para pintar la imagen en tamaño original e implementa el proceso de difusión hacia atrás del marco de Difusión Estable condicionado a la imagen de entrada de baja resolución. El modelo combina las predicciones sin ruido con la codificación de la imagen original después de cada paso en la región conocida y deriva la siguiente latente. Finalmente, el modelo decodifica lo latente e implementa la combinación de Poisson para evitar artefactos de borde.
Atención introvertida inmediata y consciente o PAIntA
Los modelos de pintura existentes como Stable Inpainting tienden a depender más del contexto visual alrededor del área de pintura e ignoran las indicaciones de entrada del usuario. Según la experiencia del usuario, este problema se puede clasificar en dos clases: dominio de objetos cercanos y dominio de fondo. La cuestión del dominio del contexto visual sobre las indicaciones de entrada podrÃa ser el resultado de la naturaleza únicamente espacial y libre de indicaciones de las capas de autoatención. Para abordar este problema, el marco HD-Painter presenta Prompt Aware Introverted Attention o PAIntA que utiliza matrices de atención cruzada y una máscara de pintura para controlar la salida de las capas de autoatención en la región desconocida.
El componente Prompt Aware Introverted Attention primero aplica capas de proyección para obtener la clave, los valores y las consultas junto con la matriz de similitud. Luego, el modelo ajusta la puntuación de atención de los pÃxeles conocidos para mitigar la fuerte influencia de la región conocida sobre la región desconocida y define una nueva matriz de similitud aprovechando el mensaje textual.
GuÃa de puntuación de atención de reponderación o RASG
El marco HD-Painter adopta un método de guÃa de muestreo post-hoc para mejorar aún más la alineación de la generación con las indicaciones textuales. Junto con una función objetivo, el enfoque de guÃa de muestreo post-hoc tiene como objetivo aprovechar las propiedades de segmentación de vocabulario abierto de las capas de atención cruzada. Sin embargo, este enfoque de orientación post-hoc básica tiene el potencial de cambiar el dominio de difusión latente que podrÃa degradar la calidad de la imagen generada. Para abordar este problema, el modelo HD-Painter implementa la GuÃa de puntuación de atención de reponderación o mecanismo RASG que introduce un mecanismo de reponderación de gradiente que da como resultado la preservación del dominio latente.
HD-Painter: experimentos y resultados
Para analizar su rendimiento, el marco HD-Painter se compara con los modelos actuales de última generación, incluidos Stable Inpainting, GLIDE y BLD o Blended Latent Diffusion, en más de 10000 muestras aleatorias donde el mensaje se selecciona como etiqueta de la máscara de instancia seleccionada.
Como se puede observar, el marco HD-Painter supera a los marcos existentes en tres métricas diferentes por un margen significativo, especialmente la mejora de 1.5 puntos en la métrica CLIP y la diferencia en la puntuación de precisión generada de aproximadamente el 10 % con respecto a otros métodos de última generación. .
A continuación, la siguiente figura demuestra la comparación cualitativa del marco HD-Painter con otros marcos de pintura. Como se puede observar, otros modelos de referencia reconstruyen las regiones faltantes en la imagen como una continuación de los objetos de la región conocida sin tener en cuenta las indicaciones o generan un fondo. Por otro lado, el marco HD-Painter es capaz de generar los objetos de destino con éxito debido a la implementación de los componentes PAIntA y RASG en su arquitectura.
Conclusión
En este artÃculo, hemos hablado de HD-Painter, un enfoque de capacitación en pintura de alta resolución guiado por texto gratuito que aborda los desafÃos experimentados por los marcos de pintura existentes, incluida la negligencia rápida y el dominio de objetos cercanos y de fondo. El marco HD-Painter implementa una capa Prompt Aware Introverted Attention o PAIntA, que utiliza información rápida para mejorar las puntuaciones de autoatención que, en última instancia, da como resultado una mejor generación de alineación del texto.
Para mejorar aún más la coherencia del mensaje, el modelo HD-Painter introduce una guÃa de puntuación de atención de reponderación o enfoque RASG que integra una estrategia de muestreo post-hoc en la forma general del componente DDIM sin problemas para evitar cambios latentes fuera de la distribución. Además, el marco HD-Painter introduce una técnica especializada de superresolución personalizada para pintar que da como resultado una extensión a escalas más grandes y permite que el marco HD-Painter complete las regiones faltantes en la imagen con una resolución de hasta 2K.