talón Guía de autoatención: mejora de la calidad de las muestras de los modelos de difusión - Unite.AI
Contáctanos

Inteligencia artificial

Orientación de autoatención: mejora de la calidad de las muestras de los modelos de difusión

mm
Actualizado on
Guía de autoatención: mejora de la calidad de las muestras de los modelos de difusión

Los modelos de difusión de eliminación de ruido son marcos de IA generativos que sintetizan imágenes a partir de ruido a través de un proceso iterativo de eliminación de ruido. Son famosos por su diversidad y capacidades excepcionales de generación de imágenes, atribuidas en gran medida a métodos de guía condicionales de texto o clase, incluida la guía de clasificador y la guía sin clasificador. Estos modelos han tenido un éxito notable en la creación de imágenes diversas y de alta calidad. Estudios recientes han demostrado que las técnicas de orientación, como los títulos de clase y las etiquetas, desempeñan un papel crucial a la hora de mejorar la calidad de las imágenes que generan estos modelos.

Sin embargo, los modelos de difusión y los métodos de orientación enfrentan limitaciones bajo ciertas condiciones externas. El método Classifier-Free Guidance (CFG), que utiliza la eliminación de etiquetas, agrega complejidad al proceso de capacitación, mientras que el método Classifier Guidance (CG) requiere capacitación adicional del clasificador. Ambos métodos están algo limitados por su dependencia de condiciones externas ganadas con tanto esfuerzo, lo que limita su potencial y los confina a contextos condicionales.

Para abordar estas limitaciones, los desarrolladores han formulado un enfoque más general para la guía de difusión, conocido como Guía de autoatención (SAG). Este método aprovecha la información de muestras intermedias de modelos de difusión para generar imágenes. Exploraremos SAG en este artículo, analizando su funcionamiento, metodología y resultados en comparación con los marcos y procesos de última generación actuales.

Guía de autoatención: mejora de la calidad de las muestras de los modelos de difusión

Los modelos de difusión de eliminación de ruido (DDM) han ganado popularidad por su capacidad para crear imágenes a partir de ruido mediante un proceso de eliminación de ruido iterativo. La destreza de síntesis de imágenes de estos modelos se debe en gran medida a los métodos de guía de difusión empleados. A pesar de sus puntos fuertes, los modelos de difusión y los métodos basados ​​en orientación enfrentan desafíos como mayor complejidad y mayores costos computacionales.

Para superar las limitaciones actuales, los desarrolladores han introducido el método de guía de autoatención, una formulación más general de guía de difusión que no depende de la información externa de la guía de difusión, lo que facilita un enfoque flexible y libre de condiciones para guiar. marcos de difusión. El enfoque adoptado por la Guía de autoatención ayuda en última instancia a mejorar la aplicabilidad de los métodos tradicionales de guía de difusión a casos con o sin requisitos externos. 

La orientación de autoatención se basa en el principio simple de formulación generalizada y en la suposición de que la información interna contenida en muestras intermedias también puede servir como orientación. Sobre la base de este principio, el método SAG presenta por primera vez Blur Guidance, una solución simple y directa para mejorar la calidad de la muestra. La guía de desenfoque tiene como objetivo explotar las propiedades benignas del desenfoque gaussiano para eliminar detalles de escala fina de forma natural guiando muestras intermedias utilizando la información eliminada como resultado del desenfoque gaussiano. Aunque el método de orientación Blur mejora la calidad de la muestra con una escala de orientación moderada, no logra replicar los resultados en una escala de orientación grande, ya que a menudo introduce ambigüedad estructural en regiones enteras. Como resultado, al método de guía Blur le resulta difícil alinear la entrada original con la predicción de la entrada degradada. Para mejorar la estabilidad y eficacia del método de guía Blur a una escala de guía más amplia, la Guía de autoatención intenta explotar el mecanismo de autoatención de los modelos de difusión, ya que los modelos de difusión modernos ya contienen un mecanismo de autoatención dentro de su arquitectura. 

Partiendo del supuesto de que la autoatención es esencial para capturar información destacada en su núcleo, el método de Guía de Autoatención utiliza mapas de autoatención de los modelos de difusión para desdibujar adversamente las regiones que contienen información destacada y, en el proceso, guía la información destacada. modelos de difusión con la información residual requerida. Luego, el método aprovecha los mapas de atención durante el proceso inverso de los modelos de difusión para aumentar la calidad de las imágenes y utiliza el autocondicionamiento para reducir los artefactos sin requerir capacitación adicional o información externa. 

En resumen, el método de Guía de Autoatención

  1. Es un enfoque novedoso que utiliza mapas internos de autoatención de marcos de difusión para mejorar la calidad de la imagen de muestra generada sin requerir capacitación adicional ni depender de condiciones externas. 
  2. El método SAG intenta generalizar los métodos de guía condicional a un método libre de condiciones que pueda integrarse con cualquier modelo de difusión sin requerir recursos adicionales o condiciones externas, mejorando así la aplicabilidad de los marcos basados ​​en guía. 
  3. El método SAG también intenta demostrar sus capacidades ortogonales a los métodos y marcos condicionales existentes, facilitando así un aumento en el rendimiento al facilitar la integración flexible con otros métodos y modelos. 

En el futuro, el método de orientación de autoatención aprende de los hallazgos de marcos relacionados, incluidos los modelos de difusión de eliminación de ruido, la guía de muestreo, los métodos de autoatención de IA generativa y las representaciones internas de los modelos de difusión. Sin embargo, en esencia, el método de orientación de autoatención implementa los aprendizajes de DDPM o modelos probabilísticos de difusión de eliminación de ruido, orientación de clasificadores, orientación sin clasificadores y marcos de autoatención en difusión. Hablaremos de ellos en profundidad en la próxima sección. 

Guía de autoatención: preliminares, metodología y arquitectura

Modelo probabilístico de difusión de eliminación de ruido o DDPM

DDPM o Modelo probabilístico de difusión de eliminación de ruido es un modelo que utiliza un proceso iterativo de eliminación de ruido para recuperar una imagen del ruido blanco. Tradicionalmente, un modelo DDPM recibe una imagen de entrada y un programa de varianza en un paso de tiempo para obtener la imagen mediante un proceso directo conocido como proceso Markoviano. 

Clasificador y orientación sin clasificador con implementación de GAN

Las GAN o Generative Adversarial Networks poseen una diversidad comercial única para la fidelidad y, para llevar esta capacidad de los marcos GAN a los modelos de difusión, el marco de Guía de autoatención propone utilizar un método de guía de clasificador que utiliza un clasificador adicional. Por el contrario, también se puede implementar un método de guía sin clasificador sin el uso de un clasificador adicional para lograr los mismos resultados. Aunque el método ofrece los resultados deseados, todavía no es computacionalmente viable ya que requiere etiquetas adicionales y también limita el marco a modelos de difusión condicional que requieren condiciones adicionales como un texto o una clase junto con detalles de entrenamiento adicionales que aumentan la complejidad de el modelo. 

Generalización de la orientación sobre difusión

Aunque los métodos Clasificador y Guía sin clasificador brindan los resultados deseados y ayudan con la generación condicional en modelos de difusión, dependen de entradas adicionales. Para cualquier paso de tiempo dado, la entrada para un modelo de difusión comprende una condición generalizada y una muestra perturbada sin la condición generalizada. Además, la condición generalizada abarca información interna dentro de la muestra perturbada o una condición externa, o incluso ambas. La guía resultante se formula con la utilización de un regresor imaginario con el supuesto de que puede predecir la condición generalizada. 

Mejorar la calidad de la imagen mediante mapas de autoatención

La Guía de Difusión Generalizada implica que es factible proporcionar orientación para el proceso inverso de los modelos de difusión extrayendo información destacada en la condición generalizada contenida en la muestra perturbada. Partiendo de lo mismo, el método de Guía de Autoatención captura la información más destacada para los procesos inversos de manera efectiva y al mismo tiempo limita los riesgos que surgen como resultado de problemas de fuera de distribución en modelos de difusión previamente entrenados. 

Guía de desenfoque

La guía de desenfoque en Self-Attention Guidance se basa en el desenfoque gaussiano, un método de filtrado lineal en el que la señal de entrada convoluciona con un filtro gaussiano para generar una salida. Con un aumento en la desviación estándar, el desenfoque gaussiano reduce los detalles de escala fina dentro de las señales de entrada y da como resultado señales de entrada localmente indistinguibles al suavizarlas hacia la constante. Además, los experimentos han indicado un desequilibrio de información entre la señal de entrada y la señal de salida de desenfoque gaussiano donde la señal de salida contiene información de escala más fina. 

Sobre la base de este aprendizaje, el marco de Guía de atención personal introduce la guía Desenfoque, una técnica que excluye intencionalmente la información de las reconstrucciones intermedias durante el proceso de difusión y, en cambio, utiliza esta información para guiar sus predicciones hacia el aumento de la relevancia de las imágenes para el información de entrada. La guía desenfocada esencialmente hace que la predicción original se desvíe más de la predicción de entrada borrosa. Además, la propiedad benigna del desenfoque gaussiano evita que las señales de salida se desvíen significativamente de la señal original con una desviación moderada. En palabras simples, el desenfoque ocurre naturalmente en las imágenes, lo que hace que el desenfoque gaussiano sea un método más adecuado para aplicar a modelos de difusión previamente entrenados. 

En el proceso de Guía de autoatención, la señal de entrada primero se difumina utilizando un filtro gaussiano y luego se difunde con ruido adicional para producir la señal de salida. Al hacer esto, el canal SAG mitiga el efecto secundario del desenfoque resultante que reduce el ruido gaussiano y hace que la guía dependa del contenido en lugar de depender del ruido aleatorio. Aunque la guía de desenfoque ofrece resultados satisfactorios en marcos con una escala de guía moderada, no logra replicar los resultados en modelos existentes con una escala de guía grande, ya que tiende a producir resultados ruidosos, como se demuestra en la siguiente imagen. 

Estos resultados podrían ser el resultado de la ambigüedad estructural introducida en el marco por el desenfoque global que dificulta que el canal SAG alinee las predicciones de la entrada original con la entrada degradada, lo que genera salidas ruidosas. 

Mecanismo de autoatención

Como se mencionó anteriormente, los modelos de difusión generalmente tienen un componente de autoatención incorporado y es uno de los componentes más esenciales en el marco de un modelo de difusión. El mecanismo de autoatención se implementa en el núcleo de los modelos de difusión y permite que el modelo preste atención a las partes más destacadas de la entrada durante el proceso generativo, como se demuestra en la siguiente imagen con máscaras de alta frecuencia en la fila superior. y máscaras de autoatención en la fila inferior de las imágenes finalmente generadas. 

El método de orientación de autoatención propuesto se basa en el mismo principio y aprovecha las capacidades de los mapas de autoatención en modelos de difusión. En general, el método de Guía de Autoatención difumina los parches autoatendidos en la señal de entrada o, en palabras simples, oculta la información de los parches atendidos por los modelos de difusión. Además, las señales de salida en Self-Attention Guidance contienen regiones intactas de las señales de entrada, lo que significa que no produce ambigüedad estructural de las entradas y resuelve el problema del desenfoque global. Luego, la canalización obtiene los mapas de autoatención agregados realizando GAP o Global Average Pooling para agregar mapas de autoatención a la dimensión y realizando un muestreo ascendente del vecino más cercano para que coincida con la resolución de la señal de entrada. 

Guía de autoatención: experimentos y resultados

Para evaluar su rendimiento, se realiza una muestra del proceso de orientación de autoatención utilizando 8 GPU Nvidia GeForce RTX 3090 y se basa en IDDPM, ADM y Marcos de difusión estables

Generación incondicional con guía de autoatención

Para medir la efectividad de la canalización SAG en modelos incondicionales y demostrar la propiedad libre de condiciones que no poseen la guía del clasificador y el enfoque de guía libre del clasificador, la canalización SAG se ejecuta en marcos incondicionalmente entrenados previamente en 50 mil muestras. 

Como se puede observar, la implementación del canal SAG mejora las métricas FID, sFID e IS de entrada incondicional y al mismo tiempo reduce el valor de recuperación. Además, las mejoras cualitativas como resultado de la implementación del proceso SAG son evidentes en las siguientes imágenes, donde las imágenes en la parte superior son resultados de los marcos ADM y Stable Diffusion, mientras que las imágenes en la parte inferior son resultados de los marcos ADM y Stable Diffusion con el Tubería SAG. 

Generación condicional con SAG

La integración del ducto SAG en los marcos existentes ofrece resultados excepcionales en generación incondicional, y el ducto SAG es capaz de ser independiente de las condiciones, lo que permite que el ducto SAG también se implemente para generación condicional. 

Difusión estable con guía de autoatención

Aunque el marco de Difusión Estable original genera imágenes de alta calidad, integrar el marco de Difusión Estable con el proceso de Guía de Autoatención puede mejorar drásticamente los resultados. Para evaluar su efecto, los desarrolladores utilizan indicaciones vacías para Difusión estable con una semilla aleatoria para cada par de imágenes y utilizan la evaluación humana en 500 pares de imágenes con y sin guía de autoatención. Los resultados se demuestran en la siguiente imagen.  

Además, la implementación de SAG puede mejorar las capacidades del marco de difusión estable, ya que fusionar la guía sin clasificador con la guía de atención propia puede ampliar la gama de modelos de difusión estable a la síntesis de texto a imagen. Además, las imágenes generadas a partir del modelo de Difusión Estable con Guía de Autoatención son de mayor calidad con menos artefactos gracias al efecto de autocondicionamiento de la canalización SAG, como se demuestra en la siguiente imagen. 

Limitaciones actuales

Aunque la implementación del proceso de Guía de autoatención puede mejorar sustancialmente la calidad de las imágenes generadas, tiene algunas limitaciones. 

Una de las principales limitaciones es la ortogonalidad con Classifier-Guidance y Classifier-Free Guidance. Como se puede observar en la siguiente imagen, la implementación de SAG mejora la puntuación FID y la puntuación de predicción, lo que significa que la tubería SAG contiene un componente ortogonal que se puede utilizar con métodos de guía tradicionales simultáneamente. 

Sin embargo, todavía requiere entrenar los modelos de difusión de una manera específica que aumenta la complejidad y los costos computacionales. 

Además, la implementación de la Guía de autoatención no aumenta el consumo de memoria ni de tiempo, una indicación de que la sobrecarga resultante de operaciones como enmascaramiento y desenfoque en SAG es insignificante. Sin embargo, todavía aumenta los costos computacionales, ya que incluye un paso adicional en comparación con los enfoques sin orientación. 

Consideraciones Finales:

En este artículo, hemos hablado sobre la Guía de autoatención, una formulación novedosa y general de método de guía que hace uso de la información interna disponible dentro de los modelos de difusión para generar imágenes de alta calidad. La orientación de autoatención se basa en el principio simple de formulación generalizada y en la suposición de que la información interna contenida en muestras intermedias también puede servir como orientación. El canal Self-Attention Guidance es un enfoque sin condiciones ni capacitación que se puede implementar en varios modelos de difusión y utiliza el autocondicionamiento para reducir los artefactos en las imágenes generadas y aumentar la calidad general. 

"Ingeniero de profesión, escritor de corazón". Kunal es un escritor técnico con un profundo amor y comprensión de AI y ML, dedicado a simplificar conceptos complejos en estos campos a través de su atractiva e informativa documentación.