talón Controles deslizantes conceptuales: control preciso en modelos de difusión con adaptadores LoRA - Unite.AI
Contáctanos

Inteligencia artificial

Controles deslizantes conceptuales: control preciso en modelos de difusión con adaptadores LoRA

mm
Actualizado on

Gracias a sus capacidades, la conversión de texto a imagen modelos de difusión se han vuelto inmensamente populares en la comunidad artística. Sin embargo, los modelos actuales, incluidos los marcos de última generación, a menudo tienen dificultades para mantener el control sobre los conceptos y atributos visuales de las imágenes generadas, lo que genera resultados insatisfactorios. La mayoría de los modelos se basan únicamente en indicaciones de texto, lo que plantea desafíos a la hora de modular atributos continuos como la intensidad del clima, la nitidez de las sombras, las expresiones faciales o la edad de una persona con precisión. Esto dificulta que los usuarios finales ajusten las imágenes para satisfacer sus necesidades específicas. Además, aunque estos marcos generativos producen imágenes realistas y de alta calidad, son propensos a sufrir distorsiones como caras deformadas o dedos faltantes.

Para superar estas limitaciones, los desarrolladores han propuesto el uso de controles deslizantes de conceptos interpretables. Estos controles deslizantes prometen un mayor control para los usuarios finales sobre los atributos visuales, mejorando la generación y edición de imágenes dentro de los modelos de difusión. Los controles deslizantes de conceptos en los modelos de difusión funcionan identificando la dirección de un parámetro correspondiente a un concepto individual y minimizando la interferencia con otros atributos. El marco crea estos controles deslizantes utilizando imágenes de muestra o un conjunto de indicaciones, estableciendo así direcciones para conceptos tanto textuales como visuales.

En definitiva, el uso de Concept Sliders en texto a imagen modelos de difusión puede dar como resultado la generación de imágenes con un grado mínimo de interferencia y un mayor control sobre el resultado final, al mismo tiempo que aumenta el realismo percibido sin alterar el contenido de las imágenes y, por lo tanto, genera imágenes realistas. En este artículo, analizaremos con mayor profundidad el concepto de uso de Concept Sliders en marcos de texto a imagen y analizaremos cómo su uso puede dar como resultado imágenes generadas por IA de calidad superior. 

Una introducción a los controles deslizantes conceptuales

Como se mencionó anteriormente, los marcos actuales de difusión de texto a imagen a menudo tienen dificultades para controlar los conceptos y atributos visuales en las imágenes generadas, lo que conduce a resultados insatisfactorios. Además, a muchos de estos modelos les resulta difícil modular atributos continuos, lo que contribuye aún más a resultados insatisfactorios. Concept Sliders puede ayudar a mitigar estos problemas, brindando a los creadores de contenido y a los usuarios finales un mayor control sobre el proceso de generación de imágenes y abordando los desafíos que enfrentan los marcos actuales.

La mayoría de los modelos actuales de difusión de texto a imagen se basan en la modificación directa de mensajes de texto para controlar los atributos de la imagen. Si bien este enfoque permite la generación de imágenes, no es óptimo ya que cambiar el mensaje puede alterar drásticamente la estructura de la imagen. Otro enfoque utilizado por estos marcos involucra técnicas post-hoc, que invierten el proceso de difusión y modifican las atenciones cruzadas para editar conceptos visuales. Sin embargo, las técnicas post-hoc tienen limitaciones, ya que solo admiten un número limitado de ediciones simultáneas y requieren pases de interferencia individuales para cada nuevo concepto. Además, pueden introducir un enredo conceptual si no se diseñan con cuidado.

Por el contrario, Concept Sliders ofrece una solución más eficiente para la generación de imágenes. Estos adaptadores livianos y fáciles de usar se pueden aplicar a modelos previamente entrenados, mejorando el control y la precisión sobre los conceptos deseados en una sola pasada de interferencia con un enredo mínimo. Los controles deslizantes de conceptos también permiten la edición de conceptos visuales que no están cubiertos por descripciones textuales, una característica que los distingue de los métodos de edición basados ​​en mensajes de texto. Si bien los métodos de personalización basados ​​en imágenes pueden agregar tokens de manera efectiva para conceptos basados ​​en imágenes, son difíciles de implementar para editar imágenes. Los controles deslizantes de conceptos, por otro lado, permiten a los usuarios finales proporcionar una pequeña cantidad de imágenes emparejadas que definen un concepto deseado. Luego, los controles deslizantes generalizan este concepto y lo aplican automáticamente a otras imágenes, con el objetivo de mejorar el realismo y corregir distorsiones, como en las manos.

Concept Sliders se esfuerza por aprender y abordar problemas comunes a cuatro conceptos de marco de difusión e IA generativa: edición de imágenes, métodos basados ​​en orientación, edición de modelos y direcciones semánticas.

Edición de imagen

Los marcos de IA actuales se centran en el uso de una entrada condicional para guiar la estructura de la imagen o manipulan las atenciones cruzadas de la imagen de origen con su mensaje de destino para permitir la edición de una sola imagen en marcos de difusión de texto a imagen. Como resultado, estos enfoques se pueden implementar solo en imágenes individuales y también requieren una optimización de base latente para cada imagen como resultado de la evolución de la estructura geométrica a lo largo del tiempo entre indicaciones. 

Métodos basados ​​en orientación

El uso de métodos basados ​​en orientación sin clasificadores ha indicado su capacidad para mejorar la calidad de las imágenes generadas y mejorar la alineación texto-imagen. Al incorporar términos de guía durante la interferencia, el método mejora la composicionalidad limitada heredada por los marcos de difusión y pueden usarse para guiar a través de conceptos inseguros en los marcos de difusión. 

Edición de modelos

El uso de Concept Sliders también puede verse como una técnica de edición de modelos que emplea un adaptador de bajo rango para generar un único atributo semántico que deja espacio para un control continuo que se alinea con el atributo. Luego se utilizan métodos de personalización basados ​​en ajustes para personalizar el marco y agregar nuevos conceptos. Además, la técnica de Difusión personalizada propone una forma de ajustar las capas de atención cruzada para incorporar nuevos conceptos visuales en modelos de difusión previamente entrenados. Por el contrario, la técnica de Difusión Textual propone optimizar un vector de incrustación para activar las capacidades del modelo e introducir conceptos textuales en el marco. 

Dirección semántica en GAN

La manipulación de atributos semánticos es uno de los atributos clave de las redes generativas adversarias y se encuentra que las trayectorias espaciales latentes están alineadas de manera autosupervisada. En los marcos de difusión, estas trayectorias espaciales latentes existen en las capas intermedias de la arquitectura U-Net, y la dirección principal de los espacios latentes en los marcos de difusión captura la semántica global. Concept Sliders entrena subespacios de bajo rango correspondientes a atributos especiales directamente y obtiene direcciones de edición precisas y localizadas mediante el uso de pares de texto o imágenes para optimizar las direcciones globales. 

Controles deslizantes conceptuales: arquitectura y funcionamiento

Modelos de difusión y adaptadores LoRA o de rango bajo

Los modelos de difusión son esencialmente una subclase de marcos de IA generativa que operan según el principio de sintetizar datos invirtiendo un proceso de difusión. El proceso de difusión directa inicialmente agrega ruido a los datos, de ahí la transición de un estado organizado a un estado de ruido gaussiano completo. El objetivo principal de los modelos de difusión es revertir el proceso de difusión eliminando gradualmente el ruido de la imagen y muestreando un ruido gaussiano aleatorio para generar una imagen. En aplicaciones del mundo real, el objetivo principal de los marcos de difusión es predecir el ruido real cuando el ruido gaussiano completo se alimenta como entrada con entradas adicionales como acondicionamiento y paso de tiempo. 

La técnica LoRA o Low Rank Adapters descompone las actualizaciones de peso durante el ajuste fino para permitir una adaptación eficiente de grandes marcos previamente entrenados en tareas posteriores. La técnica LoRA descompone las actualizaciones de peso para una capa de modelo previamente entrenada con respecto a las dimensiones de entrada y salida, y limita la actualización a un subespacio de baja dimensión. 

Controles deslizantes conceptuales

El objetivo principal de Concept Sliders es servir como un enfoque para ajustar los adaptadores LoRA en un marco de difusión para facilitar un mayor grado de control sobre las imágenes orientadas a conceptos, y lo mismo se demuestra en la siguiente imagen. 

Cuando están condicionados a conceptos objetivo, los controles deslizantes de conceptos aprenden direcciones de parámetros de bajo rango para aumentar o disminuir la expresión de atributos específicos. Para un modelo y su concepto objetivo, el objetivo principal de Concept Sliders es obtener un modelo mejorado que modifique la probabilidad de mejorar y suprimir atributos de una imagen cuando está condicionado al concepto objetivo para aumentar la probabilidad de mejorar atributos y disminuir la probabilidad. de suprimir atributos. Utilizando la reparametrización y la fórmula de Tweedie, el marco introduce un proceso de ruido que varía en el tiempo y expresa cada puntuación como una predicción de eliminación de ruido. Además, el objetivo de desenredo afina los módulos en Concept Sliders mientras mantiene constantes los pesos previamente entrenados, y el factor de escala introducido durante la formulación LoRA se modifica durante la interferencia. El factor de escala también facilita el ajuste de los puntos fuertes de la edición y fortalece las ediciones sin volver a entrenar el marco, como se muestra en la siguiente imagen. 

Los métodos de edición utilizados anteriormente por los marcos facilitaron ediciones más sólidas al volver a entrenar el marco con una mayor orientación. Sin embargo, escalar el factor de escala durante la interferencia produce los mismos resultados de edición sin aumentar el costo ni el tiempo de reentrenamiento. 

Aprender conceptos visuales

Los controles deslizantes de conceptos están diseñados para controlar conceptos visuales que las indicaciones de texto no pueden definir bien, y estos controles deslizantes aprovechan pequeños conjuntos de datos que se emparejan antes o después para entrenar estos conceptos. El contraste entre los pares de imágenes permite que los controles deslizantes aprendan los conceptos visuales. Además, el proceso de formación de Concept Sliders optimiza el componente LoRA implementado tanto en dirección hacia adelante como hacia atrás. Como resultado, el componente LoRA se alinea con la dirección que provoca los efectos visuales en ambas direcciones. 

Controles deslizantes de concepto: resultados de implementación

Para analizar la ganancia en rendimiento, los desarrolladores han evaluado el uso de Concept Sliders principalmente en el Difusión estable XL, un marco de alta resolución de 1024 píxeles con experimentos adicionales realizados en el marco Stable Diffusion v1.4 con los modelos entrenados durante 500 épocas cada uno. 

Controles deslizantes de concepto textual

Para evaluar el rendimiento de los controles deslizantes de conceptos textuales, se valida en un conjunto de 30 conceptos basados ​​en texto y el método se compara con dos líneas de base que utilizan un mensaje de texto estándar durante un número fijo de pasos de tiempo y luego comienza la composición por agregando indicaciones para dirigir la imagen. Como se puede ver en la siguiente figura, el uso de Concept Sliders da como resultado una puntuación CLIP constantemente más alta y una reducción constante en la puntuación LPIPS en comparación con el marco original sin Concept Sliders. 

Como se puede ver en la imagen de arriba, el uso de Concept Sliders facilita la edición precisa de los atributos deseados durante el proceso de generación de la imagen manteniendo la estructura general de la imagen. 

Controles deslizantes de concepto visual

Los modelos de difusión de texto a imagen que utilizan únicamente indicaciones de texto a menudo tienen dificultades para mantener un mayor grado de control sobre atributos visuales como el vello facial o la forma de los ojos. Para garantizar un mejor control sobre los atributos granulares, Concept Sliders aprovecha la guía de texto opcional combinada con conjuntos de datos de imágenes. Como se puede ver en la figura siguiente, los controles deslizantes conceptuales crean controles deslizantes individuales para el "tamaño de los ojos" y la "forma de las cejas" que capturan las transformaciones deseadas utilizando los pares de imágenes. 

Los resultados se pueden refinar aún más proporcionando textos específicos para que la dirección se centre en esa región facial y cree controles deslizantes con control gradual sobre el atributo objetivo. 

Componer controles deslizantes

Una de las principales ventajas de usar Concept Sliders es su capacidad de composición, que permite a los usuarios combinar varios controles deslizantes para obtener una mayor cantidad de control en lugar de centrarse en un solo concepto a la vez, lo que puede deberse a las direcciones de los controles deslizantes de bajo rango utilizadas en Concept Sliders. . Además, dado que los Concept Sliders son adaptadores LoRA livianos, son fáciles de compartir y también se pueden superponer fácilmente modelos de difusión. Los usuarios también pueden ajustar varias perillas simultáneamente para dirigir generaciones complejas descargando interesantes conjuntos de controles deslizantes. 

La siguiente imagen demuestra las capacidades de composición de los controles deslizantes de conceptos, y se componen varios controles deslizantes progresivamente en cada fila de izquierda a derecha, lo que permite atravesar espacios de conceptos de alta dimensión con un mayor grado de control sobre los conceptos. 

Mejora de la calidad de la imagen

Aunque los marcos de difusión de texto a imagen de última generación y los modelos generativos a gran escala como Difusión estable XL Los modelos son capaces de generar imágenes realistas y de alta calidad, a menudo sufren distorsiones de imagen como objetos borrosos o envueltos, aunque los parámetros de estos marcos de última generación están equipados con la capacidad latente de generar resultados de alta calidad con menos generaciones. El uso de Concept Sliders puede generar imágenes con menos distorsiones al desbloquear las verdaderas capacidades de estos modelos al identificar direcciones de parámetros de bajo rango. 

Manos arreglando

Generar imágenes con manos de apariencia realista siempre ha sido un obstáculo para los sistemas de difusión, y el uso de Concept Sliders tiene el control directo de la tendencia a distorsionar las manos. La siguiente imagen demuestra el efecto del uso de los controles deslizantes conceptuales "arreglar manos" que permiten que el marco genere imágenes con manos de apariencia más realista. 

Reparación de controles deslizantes

El uso de Concept Sliders no sólo puede generar manos con un aspecto más realista, sino que también ha demostrado su potencial para mejorar el realismo general de las imágenes generadas por el marco. Concept Sliders también identifica la dirección de un parámetro único de bajo rango que permite el cambio en las imágenes debido a problemas de distorsión comunes, y los resultados se demuestran en la siguiente imagen. 

Consideraciones Finales:

En este artículo, hemos hablado de Concept Sliders, un nuevo paradigma simple pero escalable que permite un control interpretable sobre la salida generada en modelos de difusión. El uso de Concept Sliders tiene como objetivo resolver los problemas que enfrentan los marcos actuales de difusión de texto a imagen, que encuentran difícil mantener el control requerido sobre los conceptos y atributos visuales incluidos en la imagen generada, lo que a menudo conduce a resultados insatisfactorios. Además, a la mayoría de los modelos de difusión de texto a imagen les resulta difícil modular atributos continuos en una imagen, lo que en última instancia a menudo conduce a resultados insatisfactorios. El uso de Concept Sliders podría permitir que los marcos de difusión de texto a imagen mitiguen estos problemas y otorguen a los creadores de contenido y usuarios finales un mayor grado de control sobre el proceso de generación de imágenes y resuelvan los problemas que enfrentan los marcos actuales. 

"Ingeniero de profesión, escritor de corazón". Kunal es un escritor técnico con un profundo amor y comprensión de AI y ML, dedicado a simplificar conceptos complejos en estos campos a través de su atractiva e informativa documentación.