Inteligencia artificial
Guía de Atención Propia: Mejorando la Calidad de las Muestras de los Modelos de Difusión

Los modelos de difusión de ruido son marcos generativos de inteligencia artificial que sintetizan imágenes a partir del ruido a través de un proceso de desenoise iterativo. Se celebran por sus capacidades excepcionales de generación de imágenes y diversidad, en gran medida atribuidas a métodos de orientación condicionales, como la orientación del clasificador y la orientación libre de clasificador. Estos modelos han sido notablemente exitosos en la creación de imágenes diversas y de alta calidad. Estudios recientes han demostrado que las técnicas de orientación, como los títulos y las etiquetas de clase, desempeñan un papel crucial en la mejora de la calidad de las imágenes que generan estos modelos.
Sin embargo, los modelos de difusión y los métodos de orientación enfrentan limitaciones en ciertas condiciones externas. El método de Orientación Libre de Clasificador (CFG), que utiliza la caída de etiquetas, agrega complejidad al proceso de entrenamiento, mientras que el método de Orientación del Clasificador (CG) requiere un entrenamiento adicional de clasificadores. Ambos métodos están algo limitados por su dependencia de condiciones externas, lo que limita su potencial y los confina a configuraciones condicionales.
Para abordar estas limitaciones, los desarrolladores han formulado un enfoque más general para la orientación de la difusión, conocido como Guía de Atención Propia (SAG). Este método aprovecha la información de las muestras intermedias de los modelos de difusión para generar imágenes. Exploraremos la SAG en este artículo, discutiendo su funcionamiento, metodología y resultados en comparación con los marcos y tuberías actuales.
Guía de Atención Propia: Mejorando la Calidad de las Muestras de los Modelos de Difusión
Los modelos de difusión de ruido (DDM) han ganado popularidad por su capacidad para crear imágenes a partir del ruido a través de un proceso de desenoise iterativo. La síntesis de imágenes de estos modelos se debe en gran medida a los métodos de orientación de la difusión empleados. A pesar de sus fortalezas, los modelos de difusión y los métodos basados en la orientación enfrentan desafíos como la complejidad agregada y los costos computacionales aumentados.
Para superar las limitaciones actuales, los desarrolladores han introducido el método de Guía de Atención Propia, una formulación más general de la orientación de la difusión que no depende de la información externa de la orientación de la difusión, lo que facilita un enfoque condicional y flexible para guiar los marcos de difusión. El enfoque elegido por la Guía de Atención Propia ayuda a mejorar la aplicabilidad de los métodos tradicionales de orientación de la difusión a casos con o sin requisitos externos.
La Guía de Atención Propia se basa en el principio simple de la formulación generalizada, y la suposición de que la información interna contenida en las muestras intermedias puede servir como orientación también. Sobre la base de este principio, el método SAG introduce primero la Orientación de Desenfoque, una solución simple y directa para mejorar la calidad de las muestras. La orientación de desenfoque tiene como objetivo explotar las propiedades benignas del desenfoque gaussiano para eliminar los detalles a escala fina de manera natural, guiando las muestras intermedias con la información eliminada como resultado del desenfoque gaussiano.
Con la suposición de que la atención propia es esencial para capturar la información saliente en su núcleo, el método de Guía de Atención Propia utiliza los mapas de atención propia de los modelos de difusión para desenfocar adversariamente las regiones que contienen información saliente, y en el proceso, guía a los modelos de difusión con la información residual requerida. El método luego aprovecha los mapas de atención durante el proceso inverso de los modelos de difusión, para mejorar la calidad de las imágenes y utiliza la autocondición para reducir los artefactos sin requerir entrenamiento adicional o información externa.

En resumen, el método de Guía de Atención Propia
- Es un enfoque novedoso que utiliza los mapas de atención propia de los marcos de difusión para mejorar la calidad de las imágenes de las muestras generadas sin requerir entrenamiento adicional o condiciones externas.
- El método SAG intenta generalizar los métodos de orientación condicionales en un método condicional que puede integrarse con cualquier modelo de difusión sin requerir recursos adicionales o condiciones externas, lo que mejora la aplicabilidad de los marcos de orientación.
- El método SAG también intenta demostrar sus capacidades ortogonales a los métodos y marcos condicionales existentes, lo que facilita una mejora en el rendimiento al permitir una integración flexible con otros métodos y modelos.
Continuando, el método de Guía de Atención Propia aprende de los hallazgos de los marcos relacionados, incluyendo los Modelos de Difusión de Ruido, la Orientación de Muestreo, los Métodos de Atención Propia en Inteligencia Artificial Generativa y las Representaciones Internas de los Modelos de Difusión. Sin embargo, en su núcleo, el método de Guía de Atención Propia implementa los conocimientos de los Modelos Probabilísticos de Difusión de Ruido (DDPM), la Orientación del Clasificador, la Orientación Libre de Clasificador y la Atención Propia en los marcos de difusión.
Guía de Atención Propia: Preliminares, Metodología y Arquitectura
Modelo Probabilístico de Difusión de Ruido o DDPM
El DDPM o Modelo Probabilístico de Difusión de Ruido es un modelo que utiliza un proceso de desenoise iterativo para recuperar una imagen a partir del ruido blanco. Tradicionalmente, un modelo DDPM recibe una imagen de entrada y un calendario de varianza en un momento para obtener la imagen utilizando un proceso directo conocido como el proceso markoviano.
Orientación del Clasificador y Orientación Libre de Clasificador con Implementación de GAN
Las Redes Generativas Adversarias (GAN) poseen una diversidad única para la fidelidad, y para llevar esta capacidad de los marcos GAN a los modelos de difusión, el marco de Guía de Atención Propia propone utilizar un método de orientación del clasificador que utiliza un clasificador adicional. Por el contrario, un método de orientación libre de clasificador también puede implementarse sin el uso de un clasificador adicional para lograr los mismos resultados. Aunque el método entrega los resultados deseados, todavía no es viable computacionalmente ya que requiere etiquetas adicionales y confina el marco a modelos de difusión condicionales que requieren condiciones adicionales como texto o clase, junto con detalles de entrenamiento adicionales que agregan complejidad al modelo.
Generalización de la Orientación de la Difusión
Aunque los métodos de Orientación del Clasificador y Orientación Libre de Clasificador entregan los resultados deseados y ayudan en la generación condicional en los modelos de difusión, dependen de entradas adicionales. Para cualquier momento de tiempo dado, la entrada para un modelo de difusión comprende una condición generalizada y una muestra perturbada sin la condición generalizada. Además, la condición generalizada abarca información interna dentro de la muestra perturbada o una condición externa, o ambas. La orientación resultante se formula con la utilización de un regresor imaginario con la suposición de que puede predecir la condición generalizada.
Mejorando la Calidad de la Imagen utilizando Mapas de Atención Propia
La Orientación de Difusión Generalizada implica que es factible proporcionar orientación al proceso inverso de los modelos de difusión extrayendo información saliente en la condición generalizada contenida en la muestra perturbada. Sobre la base de esto, el método de Guía de Atención Propia captura la información saliente para los procesos inversos de manera efectiva, limitando los riesgos que surgen como resultado de problemas fuera del conjunto de entrenamiento en los modelos de difusión preentrenados.
Orientación de Desenfoque
La orientación de desenfoque en la Guía de Atención Propia se basa en el desenfoque gaussiano, un método de filtrado lineal en el que la señal de entrada se convoluciona con un filtro gaussiano para generar una salida. Con un aumento en la desviación estándar, el desenfoque gaussiano reduce los detalles a escala fina dentro de las señales de entrada, y resulta en señales de entrada localmente indistinguibles al suavizarlas hacia la constante.
Sobre la base de este conocimiento, el marco de Guía de Atención Propia introduce la Orientación de Desenfoque, una técnica que intencionalmente excluye la información de las reconstrucciones intermedias durante el proceso de difusión, y en su lugar, utiliza esta información para guiar sus predicciones hacia el aumento de la relevancia de las imágenes con la información de entrada. La orientación de desenfoque esencialmente causa que la predicción original se desvíe más de la predicción de entrada desenfocada. Además, la propiedad benigna en el desenfoque gaussiano evita que las señales de salida se desvíen significativamente de la señal de entrada original con una desviación moderada.
En la tubería de Guía de Atención Propia, la señal de entrada se desenfoca primero utilizando un filtro gaussiano, y luego se difunde con ruido adicional para producir la señal de salida. Al hacer esto, la tubería SAG mitiga el efecto lateral de la desenfoque resultante que reduce el ruido gaussiano, y hace que la orientación dependa del contenido en lugar de depender del ruido aleatorio.

Estos resultados pueden ser el resultado de la ambigüedad estructural introducida en el marco por el desenfoque global que hace que sea difícil para la tubería SAG alinear las predicciones de la entrada original con la entrada degradada, lo que resulta en salidas ruidosas.
Mecanismo de Atención Propia
Como se mencionó anteriormente, los modelos de difusión suelen tener un componente de atención propia incorporado, y es uno de los componentes más esenciales en un marco de modelo de difusión. El mecanismo de Atención Propia se implementa en el núcleo de los modelos de difusión, y permite que el modelo preste atención a las partes salientes de la entrada durante el proceso generativo.

El método propuesto de Guía de Atención Propia se basa en el mismo principio, y aprovecha las capacidades de los mapas de atención propia en los modelos de difusión. En general, el método de Guía de Atención Propia desenfoca las parches autoatendidos en la señal de entrada o, en palabras simples, oculta la información de los parches que es atendida por los modelos de difusión.
Guía de Atención Propia: Experimentos y Resultados
Para evaluar su rendimiento, la tubería de Guía de Atención Propia se muestrea utilizando 8 GPU Nvidia GeForce RTX 3090, y se construye sobre los marcos preentrenados IDDPM, ADM y Difusión Estable.
Generación Incondicional con Guía de Atención Propia
Para medir la efectividad de la tubería SAG en los modelos incondicionales y demostrar la propiedad condicional no poseída por la Orientación del Clasificador y la Orientación Libre de Clasificador, la tubería SAG se ejecuta en frameworks preentrenados incondicionalmente sobre 50.000 muestras.

Como se puede observar, la implementación de la tubería SAG mejora las métricas FID, sFID e IS de la entrada incondicional, mientras reduce el valor de recuerdo al mismo tiempo. Además, las mejoras cualitativas como resultado de la implementación de la tubería SAG son evidentes en las siguientes imágenes, donde las imágenes de arriba son resultados de los marcos ADM y Difusión Estable, mientras que las imágenes de abajo son resultados de los marcos ADM y Difusión Estable con la tubería SAG.


Generación Condicional con SAG
La integración de la tubería SAG en los marcos existentes entrega resultados excepcionales en la generación incondicional, y la tubería SAG es capaz de agnosticidad condicional que permite implementar la tubería SAG para la generación condicional también.
Difusión Estable con Guía de Atención Propia
Aunque el marco original de Difusión Estable genera imágenes de alta calidad, integrar el marco de Difusión Estable con la tubería de Guía de Atención Propia puede mejorar los resultados drásticamente. Para evaluar su efecto, los desarrolladores utilizan prompts vacíos para Difusión Estable con semilla aleatoria para cada par de imágenes, y utilizan evaluación humana sobre 500 pares de imágenes con y sin Guía de Atención Propia.

Además, la implementación de SAG puede mejorar las capacidades del marco de Difusión Estable, ya que fusionar la Orientación Libre de Clasificador con la Guía de Atención Propia puede ampliar el rango de los modelos de Difusión Estable a la síntesis de imagen a texto. Además, las imágenes generadas por el modelo de Difusión Estable con Guía de Atención Propia son de mayor calidad con menos artefactos gracias al efecto de autocondición de la tubería SAG.

Limitaciones Actuales
Aunque la implementación de la tubería de Guía de Atención Propia puede mejorar sustancialmente la calidad de las imágenes generadas, tiene algunas limitaciones.
Una de las limitaciones principales es la ortogonalidad con la Orientación del Clasificador y la Orientación Libre de Clasificador. Como se puede observar en la siguiente imagen, la implementación de SAG mejora la puntuación FID y la puntuación de predicción, lo que significa que la tubería SAG contiene un componente ortogonal que puede usarse con los métodos de orientación tradicionales simultáneamente.

Sin embargo, todavía requiere que los modelos de difusión se entrenen de una manera específica que agrega complejidad, así como costos computacionales.
Además, la implementación de la Guía de Atención Propia no aumenta el consumo de memoria o tiempo, lo que indica que el sobrecoste resultante de las operaciones como enmascaramiento y desenfoque en SAG es negligible. Sin embargo, todavía agrega a los costos computacionales, ya que incluye un paso adicional en comparación con los enfoques sin orientación.

Pensamientos Finales
En este artículo, hemos hablado sobre la Guía de Atención Propia, una formulación novedosa y general de los métodos de orientación que aprovecha la información interna disponible dentro de los modelos de difusión para generar imágenes de alta calidad. La Guía de Atención Propia se basa en el principio simple de la formulación generalizada, y la suposición de que la información interna contenida dentro de las muestras intermedias puede servir como orientación también. La tubería de Guía de Atención Propia es un enfoque condicional y libre de entrenamiento que puede implementarse en varios modelos de difusión, y utiliza la autocondición para reducir los artefactos en las imágenes generadas y mejorar la calidad general.












