Connect with us

Inteligencia artificial

Guía de autoatención: Mejorando la calidad de las muestras de los modelos de difusión

mm
Self-Attention Guidance : Improving Sample Quality of Diffusion Models

Los modelos de difusión de desenoising son marcos de inteligencia artificial generativa que sintetizan imágenes a partir del ruido a través de un proceso de desenoising iterativo. Se les celebra por sus capacidades excepcionales de generación de imágenes y diversidad, en gran medida atribuidas a métodos de guía condicionales de texto o clase, incluyendo la guía de clasificador y la guía de clasificador libre. Estos modelos han tenido un éxito notable en la creación de imágenes diversas y de alta calidad. Estudios recientes han demostrado que las técnicas de guía como los títulos y las etiquetas de clase desempeñan un papel crucial en la mejora de la calidad de las imágenes que generan estos modelos.

Sin embargo, los modelos de difusión y los métodos de guía enfrentan limitaciones en ciertas condiciones externas. El método de Guía de Clasificador Libre (CFG), que utiliza la caída de etiquetas, agrega complejidad al proceso de entrenamiento, mientras que el método de Guía de Clasificador (CG) requiere un entrenamiento adicional de clasificador. Ambos métodos están algo limitados por su dependencia de condiciones externas difíciles de obtener, lo que limita su potencial y los confina a configuraciones condicionales.

Para abordar estas limitaciones, los desarrolladores han formulado un enfoque más general para la guía de difusión, conocido como Guía de Autoatención (SAG). Este método aprovecha la información de las muestras intermedias de los modelos de difusión para generar imágenes. Exploraremos SAG en este artículo, discutiendo su funcionamiento, metodología y resultados en comparación con los marcos y tuberías actuales de estado del arte.

Guía de Autoatención: Mejorando la calidad de las muestras de los modelos de difusión

Los Modelos de Difusión de Desenoising (DDM) han ganado popularidad por su capacidad para crear imágenes a partir del ruido a través de un proceso de desenoising iterativo. La síntesis de imágenes de estos modelos se debe en gran medida a los métodos de guía de difusión empleados. A pesar de sus fortalezas, los modelos de difusión y los métodos basados en guía enfrentan desafíos como la complejidad agregada y los costos computacionales aumentados.

Para superar las limitaciones actuales, los desarrolladores han introducido el método de Guía de Autoatención, una formulación más general de la guía de difusión que no depende de la información externa de la guía de difusión, lo que facilita un enfoque flexible y libre de condiciones para guiar marcos de difusión. El enfoque elegido por la Guía de Autoatención finalmente ayuda a mejorar la aplicabilidad de los métodos de guía de difusión tradicionales a casos con o sin requisitos externos.

La Guía de Autoatención se basa en el principio simple de formulación generalizada, y en la suposición de que la información interna contenida en las muestras intermedias puede servir como guía también. Sobre la base de este principio, el método SAG introduce primero la Guía de Desenfoque, una solución simple y directa para mejorar la calidad de las muestras. La guía de desenfoque tiene como objetivo explotar las propiedades benignas del desenfoque gaussiano para eliminar los detalles a escala fina de manera natural, guiando las muestras intermedias mediante la información eliminada como resultado del desenfoque gaussiano. Aunque el método de guía de desenfoque mejora la calidad de las muestras con una escala de guía moderada, no logra replicar los resultados en una escala de guía grande, ya que a menudo introduce ambigüedad estructural en regiones enteras. Como resultado, el método de guía de desenfoque encuentra dificultades para alinear la predicción de la entrada original con la predicción de la entrada degradada. Para mejorar la estabilidad y la eficacia del método de guía de desenfoque en una escala de guía más grande, la Guía de Autoatención intenta explotar el mecanismo de autoatención de los modelos de difusión, ya que los modelos de difusión modernos ya contienen un mecanismo de autoatención dentro de su arquitectura.

Con la suposición de que la autoatención es esencial para capturar la información saliente en su núcleo, el método de Guía de Autoatención utiliza mapas de autoatención de los modelos de difusión para desenfocar adversariamente las regiones que contienen información saliente, y en el proceso, guía a los modelos de difusión con la información residual requerida. El método luego aprovecha los mapas de atención durante el proceso inverso de los modelos de difusión, para mejorar la calidad de las imágenes y utiliza la autocondición para reducir los artefactos sin requerir entrenamiento adicional o información externa.

En resumen, el método de Guía de Autoatención

  1. Es un enfoque novedoso que utiliza mapas de autoatención internos de los marcos de difusión para mejorar la calidad de las imágenes de las muestras generadas sin requerir entrenamiento adicional o depender de condiciones externas.
  2. El método SAG intenta generalizar los métodos de guía condicionales en un método libre de condiciones que se puede integrar con cualquier modelo de difusión sin requerir recursos adicionales o condiciones externas, lo que mejora la aplicabilidad de los marcos de guía basados en difusión.
  3. El método SAG también intenta demostrar sus capacidades ortogonales a los métodos y marcos condicionales existentes, lo que facilita una mejora en el rendimiento al permitir una integración flexible con otros métodos y modelos.

Avanzando, el método de Guía de Autoatención aprende de los hallazgos de los marcos relacionados, incluyendo los Modelos de Difusión de Desenoising, la Guía de Muestreo, los Métodos de Autoatención de la Inteligencia Artificial Generativa y las Representaciones Internas de los Modelos de Difusión. Sin embargo, en su núcleo, el método de Guía de Autoatención implementa los conocimientos de los modelos DDPM o Modelos de Difusión de Desenoising Probabilísticos, la Guía de Clasificador, la Guía de Clasificador Libre y la Autoatención en los marcos de difusión. Hablaremos sobre ellos en profundidad en la sección siguiente.

Guía de Autoatención: Preliminares, Metodología y Arquitectura

Modelo de Difusión de Desenoising Probabilístico o DDPM

DDPM o Modelo de Difusión de Desenoizing Probabilístico es un modelo que utiliza un proceso de desenoising iterativo para recuperar una imagen a partir del ruido blanco. Tradicionalmente, un modelo DDPM recibe una imagen de entrada y un calendario de varianza en un momento para obtener la imagen utilizando un proceso directo conocido como el proceso markoviano.

Guía de Clasificador y Guía de Clasificador Libre con Implementación de GAN

GAN o Redes Adversarias Generativas poseen un intercambio único de diversidad por fidelidad, y para llevar esta capacidad de los marcos GAN a los modelos de difusión, el marco de Guía de Autoatención propone utilizar un método de guía de clasificador que utiliza un clasificador adicional. Por el contrario, un método de guía de clasificador libre también se puede implementar sin el uso de un clasificador adicional para lograr los mismos resultados. Aunque el método entrega los resultados deseados, no es viable computacionalmente ya que requiere etiquetas adicionales, y también confina el marco a modelos de difusión condicionales que requieren condiciones adicionales como un texto o una clase, junto con detalles de entrenamiento adicionales que agregan complejidad al modelo.

Generalización de la Guía de Difusión

Aunque los métodos de Guía de Clasificador y Guía de Clasificador Libre entregan los resultados deseados y ayudan en la generación condicional en los modelos de difusión, dependen de entradas adicionales. Para cualquier momento dado, la entrada para un modelo de difusión comprende una condición generalizada y una muestra perturbada sin la condición generalizada. Además, la condición generalizada abarca información interna dentro de la muestra perturbada o una condición externa, o ambas. La guía resultante se formula con la utilización de un regresor imaginario con la suposición de que puede predecir la condición generalizada.

Mejorando la Calidad de las Imágenes utilizando Mapas de Autoatención

La Guía de Difusión Generalizada implica que es factible proporcionar guía al proceso inverso de los modelos de difusión extrayendo información saliente en la condición generalizada contenida en la muestra perturbada. Basándose en lo mismo, el método de Guía de Autoatención captura la información saliente para los procesos inversos de manera efectiva, limitando los riesgos que surgen como resultado de problemas de distribución fuera de los modelos de difusión preentrenados.

Guía de Desenfoque

La guía de desenfoque en la Guía de Autoatención se basa en el desenfoque gaussiano, un método de filtrado lineal en el que la señal de entrada se convoluciona con un filtro gaussiano para generar una salida. Con un aumento en la desviación estándar, el desenfoque gaussiano reduce los detalles a escala fina dentro de las señales de entrada, y resulta en señales de entrada localmente indistinguibles al suavizarlas hacia la constante. Además, los experimentos han indicado un desequilibrio de información entre la señal de entrada y la señal de salida del desenfoque gaussiano, donde la señal de salida contiene más información a escala fina.

Sobre la base de este conocimiento, el marco de Guía de Autoatención introduce la Guía de Desenfoque, una técnica que intencionalmente excluye la información de las reconstrucciones intermedias durante el proceso de difusión, y en su lugar, utiliza esta información para guiar sus predicciones hacia el aumento de la relevancia de las imágenes con la información de entrada. La guía de desenfoque esencialmente causa que la predicción original se desvíe más de la predicción de la entrada desenfocada. Además, la propiedad benigna en el desenfoque gaussiano evita que las señales de salida se desvíen significativamente de la señal original con una desviación moderada. En palabras simples, el desenfoque ocurre en las imágenes de manera natural, lo que hace que el desenfoque gaussiano sea un método más adecuado para aplicarse a los modelos de difusión preentrenados.

En el flujo de trabajo de la Guía de Autoatención, la señal de entrada se desenfoca primero utilizando un filtro gaussiano, y luego se difunde con ruido adicional para producir la señal de salida. Al hacer esto, el flujo de trabajo de la Guía de Autoatención mitiga el efecto lateral del desenfoque resultante que reduce el ruido gaussiano, y hace que la guía dependa del contenido en lugar de depender del ruido aleatorio. Aunque la guía de desenfoque entrega resultados satisfactorios en los marcos con una escala de guía moderada, no logra replicar los resultados en los modelos existentes con una escala de guía grande, ya que se vuelve propenso a producir resultados ruidosos, como se demuestra en la siguiente imagen.

Estos resultados pueden ser el resultado de la ambigüedad estructural introducida en el marco por el desenfoque global, lo que hace que sea difícil para el flujo de trabajo de la Guía de Autoatención alinear las predicciones de la entrada original con la entrada degradada, lo que resulta en salidas ruidosas.

Mecanismo de Autoatención

Como se mencionó anteriormente, los modelos de difusión suelen tener un componente de autoatención incorporado, y es uno de los componentes más esenciales en un marco de modelo de difusión. El mecanismo de autoatención se implementa en el núcleo de los modelos de difusión, y permite que el modelo preste atención a las partes salientes de la entrada durante el proceso generativo, como se demuestra en la siguiente imagen con máscaras de frecuencia alta en la fila superior, y máscaras de autoatención en la fila inferior de las imágenes generadas finalmente.

El método de Guía de Autoatención propuesto se basa en el mismo principio, y aprovecha las capacidades de los mapas de autoatención en los modelos de difusión. En general, el método de Guía de Autoatención desenfoca las partes atendidas por el modelo de difusión en la señal de entrada, o en palabras simples, oculta la información de las partes a las que el modelo de difusión presta atención. Además, las señales de salida en la Guía de Autoatención contienen regiones intactas de las señales de entrada, lo que significa que no resulta en ambigüedad estructural de las entradas, y resuelve el problema del desenfoque global. El flujo de trabajo luego obtiene los mapas de autoatención agregados realizando una operación de promedio de agrupación global (GAP) para agregar los mapas de autoatención a la dimensión, y muestreando el vecino más cercano para coincidir con la resolución de la señal de entrada.

Guía de Autoatención: Experimentos y Resultados

Para evaluar su rendimiento, el flujo de trabajo de la Guía de Autoatención se muestrea utilizando 8 GPU Nvidia GeForce RTX 3090, y se construye sobre los marcos preentrenados IDDPM, ADM y Difusión Estable.

Generación Incondicional con Guía de Autoatención

Para medir la efectividad del flujo de trabajo de la Guía de Autoatención en los modelos incondicionales y demostrar la propiedad libre de condiciones que no poseen la Guía de Clasificador y la Guía de Clasificador Libre, el flujo de trabajo de la Guía de Autoatención se ejecuta en los marcos preentrenados incondicionalmente en 50 mil muestras.

Como se puede observar, la implementación del flujo de trabajo de la Guía de Autoatención mejora las métricas FID, sFID e IS de la entrada incondicional, mientras reduce el valor de recuerdo al mismo tiempo. Además, las mejoras cualitativas como resultado de la implementación del flujo de trabajo de la Guía de Autoatención son evidentes en las siguientes imágenes, donde las imágenes de la parte superior son resultados de los marcos ADM y Difusión Estable, mientras que las imágenes de la parte inferior son resultados de los marcos ADM y Difusión Estable con el flujo de trabajo de la Guía de Autoatención.

Generación Condicional con SAG

La integración del flujo de trabajo de la Guía de Autoatención en los marcos existentes entrega resultados excepcionales en la generación incondicional, y el flujo de trabajo de la Guía de Autoatención es capaz de agnosticidad de condiciones que permite la implementación del flujo de trabajo de la Guía de Autoatención para la generación condicional también.

Difusión Estable con Guía de Autoatención

Aunque el marco original de Difusión Estable genera imágenes de alta calidad, integrar el marco de Difusión Estable con el flujo de trabajo de la Guía de Autoatención puede mejorar los resultados drásticamente. Para evaluar su efecto, los desarrolladores utilizan prompts vacíos para Difusión Estable con una semilla aleatoria para cada par de imágenes, y utilizan una evaluación humana en 500 pares de imágenes con y sin Guía de Autoatención. Los resultados se demuestran en la siguiente imagen.

Además, la implementación de la Guía de Autoatención puede mejorar las capacidades del marco de Difusión Estable, ya que fusionar la Guía de Clasificador Libre con la Guía de Autoatención puede ampliar el rango de los modelos de Difusión Estable a la síntesis de imagen a texto. Además, las imágenes generadas del modelo de Difusión Estable con la Guía de Autoatención son de mayor calidad con menos artefactos, gracias al efecto de autocondición del flujo de trabajo de la Guía de Autoatención, como se demuestra en la siguiente imagen.

Limitaciones Actuales

Aunque la implementación del flujo de trabajo de la Guía de Autoatención puede mejorar sustancialmente la calidad de las imágenes generadas, tiene algunas limitaciones.

Una de las limitaciones principales es la ortogonalidad con la Guía de Clasificador y la Guía de Clasificador Libre. Como se puede observar en la siguiente imagen, la implementación de la Guía de Autoatención mejora la puntuación FID y la puntuación de predicción, lo que significa que el flujo de trabajo de la Guía de Autoatención contiene un componente ortogonal que se puede utilizar con los métodos de guía tradicionales simultáneamente.

Sin embargo, todavía requiere que los modelos de difusión se entrenen de una manera específica, lo que agrega complejidad y costos computacionales.

Además, la implementación de la Guía de Autoatención no aumenta el consumo de memoria o tiempo, lo que indica que el sobrecoste resultante de las operaciones como enmascaramiento y desenfoque en la Guía de Autoatención es negligible. Sin embargo, todavía agrega a los costos computacionales, ya que incluye un paso adicional en comparación con los enfoques sin guía.

Pensamientos Finales

En este artículo, hemos hablado sobre la Guía de Autoatención, una formulación novedosa y general de método de guía que utiliza la información interna disponible dentro de los modelos de difusión para generar imágenes de alta calidad. La Guía de Autoatención se basa en el principio simple de formulación generalizada, y en la suposición de que la información interna contenida en las muestras intermedias puede servir como guía también. El flujo de trabajo de la Guía de Autoatención es un enfoque libre de condiciones y de entrenamiento que se puede implementar en varios modelos de difusión, y utiliza la autocondición para reducir los artefactos en las imágenes generadas, y mejora la calidad general.

Un ingeniero por profesión, un escritor por corazón. Kunal es un escritor técnico con un profundo amor y comprensión de la IA y el ML, dedicado a simplificar conceptos complejos en estos campos a través de su documentación atractiva e informativa.