talón Instant-Style: Preservación del estilo en la generación de texto a imagen - Unite.AI
Contáctanos

Inteligencia artificial

Estilo instantáneo: preservación del estilo en la generación de texto a imagen

mm

Publicado

 on

En los últimos años, los modelos de difusión basados ​​en ajustes han demostrado un progreso notable en una amplia gama de tareas de personalización y personalización de imágenes. Sin embargo, a pesar de su potencial, los modelos actuales de difusión basados ​​en ajustes continúan enfrentando una serie de desafíos complejos a la hora de producir y generar imágenes con estilo consistente, y podría haber tres razones detrás de lo mismo. En primer lugar, el concepto de estilo aún permanece indefinido e indeterminado, y comprende una combinación de elementos que incluyen atmósfera, estructura, diseño, material, color y mucho más. Los métodos basados ​​en la segunda inversión son propensos a la degradación del estilo, lo que resulta en una pérdida frecuente de detalles finos. Finalmente, los enfoques basados ​​en adaptadores requieren ajustes frecuentes del peso de cada imagen de referencia para mantener un equilibrio entre la controlabilidad del texto y la intensidad del estilo. 

Además, el objetivo principal de la mayoría de los enfoques de transferencia de estilo o generación de imágenes de estilo es utilizar la imagen de referencia y aplicar su estilo específico de un subconjunto o imagen de referencia determinado a una imagen de contenido de destino. Sin embargo, es la gran cantidad de atributos del estilo lo que dificulta a los investigadores el trabajo de recopilar conjuntos de datos estilizados, representar el estilo correctamente y evaluar el éxito de la transferencia. Anteriormente, los modelos y marcos que se ocupan del proceso de difusión basado en el ajuste fino, ajustan el conjunto de datos de imágenes que comparten un estilo común, un proceso que requiere mucho tiempo y tiene una generalización limitada en tareas del mundo real, ya que es difícil. para reunir un subconjunto de imágenes que comparten el mismo estilo o casi idéntico. 

En este artículo, hablaremos sobre InstantStyle, un marco diseñado con el objetivo de abordar los problemas que enfrentan los actuales modelos de difusión basados ​​en ajustes para la generación y personalización de imágenes. Hablaremos de las dos estrategias clave implementadas por el marco InstantStyle: 

  1. Un enfoque simple pero eficaz para desacoplar el estilo y el contenido de las imágenes de referencia dentro del espacio de características, predicho bajo el supuesto de que las características dentro del mismo espacio de características se pueden sumar o restar entre sí. 
  2. Prevenir fugas de estilo inyectando las características de la imagen de referencia exclusivamente en los bloques de estilos específicos y evitando deliberadamente la necesidad de utilizar pesos engorrosos para realizar ajustes finos, que a menudo caracterizan diseños con más parámetros. 

Este artículo tiene como objetivo cubrir el marco InstantStyle en profundidad y exploramos el mecanismo, la metodología, la arquitectura del marco junto con su comparación con los marcos de última generación. También hablaremos sobre cómo el marco InstantStyle demuestra resultados de estilización visual notables y logra un equilibrio óptimo entre la controlabilidad de los elementos textuales y la intensidad del estilo. Entonces empecemos. 

InstantStyle: Preservación de estilo en la generación de texto a imagen

Los marcos de IA generativos de texto a imagen basados ​​en difusión han obtenido un éxito notable y notable en una amplia gama de tareas de personalización y personalización, particularmente en tareas consistentes de generación de imágenes que incluyen personalización de objetos, preservación de imágenes y transferencia de estilo. Sin embargo, a pesar del reciente éxito y el aumento en el rendimiento, la transferencia de estilo sigue siendo una tarea desafiante para los investigadores debido a la naturaleza indeterminada e indefinida del estilo, que a menudo incluye una variedad de elementos que incluyen atmósfera, estructura, diseño, material, color y mucho más. Dicho esto, el objetivo principal de la generación de imágenes estilizadas o la transferencia de estilos es aplicar el estilo específico de una imagen de referencia determinada o de un subconjunto de imágenes de referencia. a la imagen del contenido de destino. Sin embargo, la gran cantidad de atributos de estilo dificulta la tarea de los investigadores de recopilar conjuntos de datos estilizados, representar el estilo correctamente y evaluar el éxito de la transferencia. Anteriormente, los modelos y marcos que se ocupan del proceso de difusión basado en el ajuste fino, ajustan el conjunto de datos de imágenes que comparten un estilo común, un proceso que requiere mucho tiempo y tiene una generalización limitada en tareas del mundo real, ya que es difícil. para reunir un subconjunto de imágenes que comparten el mismo estilo o casi idéntico. 

Ante los desafíos que enfrenta el enfoque actual, los investigadores se han interesado en desarrollar enfoques de ajuste para la transferencia de estilo o generación de imágenes estilizadas, y estos marcos se pueden dividir en dos grupos diferentes: 

  • Enfoques sin adaptadores: Los enfoques y marcos sin adaptadores aprovechan el poder de la autoatención dentro del proceso de difusión y, al implementar una operación de atención compartida, estos modelos son capaces de extraer características esenciales, incluidas claves y valores, de imágenes de un estilo de referencia determinado directamente. 
  • Enfoques basados ​​en adaptadores: Por otro lado, los enfoques y marcos basados ​​en adaptadores incorporan un modelo liviano diseñado para extraer representaciones de imágenes detalladas de las imágenes de estilo de referencia. Luego, el marco integra hábilmente estas representaciones en el proceso de difusión utilizando mecanismos de atención cruzada. El objetivo principal del proceso de integración es guiar el proceso de generación y garantizar que la imagen resultante esté alineada con los matices estilísticos deseados de la imagen de referencia. 

Sin embargo, a pesar de las promesas, los métodos sin ajustes a menudo enfrentan algunos desafíos. En primer lugar, el enfoque sin adaptadores requiere un intercambio de claves y valores dentro de las capas de autoatención, y captura previamente las matrices de claves y valores derivadas de las imágenes de estilo de referencia. Cuando se implementa en imágenes naturales, el enfoque sin adaptadores exige la inversión de la imagen al ruido latente utilizando técnicas como DDIM o inversión de modelos implícitos de difusión de eliminación de ruido. Sin embargo, el uso de DDIM u otros enfoques de inversión puede provocar la pérdida de detalles finos como el color y la textura, disminuyendo así la información de estilo en las imágenes generadas. Además, el paso adicional introducido por estos enfoques es un proceso que requiere mucho tiempo y puede plantear inconvenientes importantes en las aplicaciones prácticas. Por otro lado, el principal desafío para los métodos basados ​​en adaptadores radica en lograr el equilibrio adecuado entre la fuga de contexto y la intensidad del estilo. La fuga de contenido se produce cuando un aumento en la intensidad del estilo da como resultado la aparición de elementos sin estilo de la imagen de referencia en la salida generada, siendo el principal punto de dificultad separar los estilos del contenido dentro de la imagen de referencia de manera efectiva. Para abordar este problema, algunos marcos construyen conjuntos de datos emparejados que representan el mismo objeto en diferentes estilos, lo que facilita la extracción de la representación del contenido y los estilos desenredados. Sin embargo, gracias a la representación inherentemente indeterminada del estilo, la tarea de crear conjuntos de datos emparejados a gran escala es limitada en términos de la diversidad de estilos que puede capturar, y también es un proceso que requiere muchos recursos. 

Para abordar estas limitaciones, se presenta el marco InstantStyle, que es un mecanismo novedoso sin ajustes basado en métodos existentes basados ​​en adaptadores con la capacidad de integrarse perfectamente con otros métodos de inyección basados ​​en la atención y lograr el desacoplamiento de contenido y estilo de manera efectiva. Además, el marco InstantStyle presenta no una, sino dos formas efectivas de completar el desacoplamiento de estilo y contenido, logrando una mejor migración de estilo sin tener la necesidad de introducir métodos adicionales para lograr el desacoplamiento o crear conjuntos de datos emparejados. 

Además, los marcos anteriores basados ​​en adaptadores se han utilizado ampliamente en los métodos basados ​​en CLIP como extractores de características de imágenes, algunos marcos han explorado la posibilidad de implementar el desacoplamiento de características dentro del espacio de características y, en comparación con la indeterminación del estilo, es más fácil describir el contenido con texto. Dado que las imágenes y los textos comparten un espacio de características en los métodos basados ​​en CLIP, una simple operación de resta de las características del texto contextual y las características de la imagen puede reducir significativamente la fuga de contenido. Además, en la mayoría de modelos de difusión, hay una capa particular en su arquitectura que inyecta información de estilo y logra el desacoplamiento de contenido y estilo inyectando características de imagen solo en bloques de estilo específicos. Al implementar estas dos estrategias simples, el marco InstantStyle puede resolver los problemas de fuga de contenido que enfrentan la mayoría de los marcos existentes manteniendo la solidez del estilo. 

En resumen, el marco InstantStyle emplea dos mecanismos simples, directos pero efectivos para lograr una separación efectiva del contenido y el estilo de las imágenes de referencia. El marco Instant-Style es un enfoque independiente del modelo y sin ajustes que demuestra un rendimiento notable en tareas de transferencia de estilo con un enorme potencial para tareas posteriores. 

Instant-Style: Metodología y Arquitectura

Como lo demuestran enfoques anteriores, existe un equilibrio en la inyección de condiciones de estilo en modelos de difusión sin sintonización. Si la intensidad de la condición de la imagen es demasiado alta, podría producirse una fuga de contenido, mientras que si la intensidad de la condición de la imagen cae demasiado, es posible que el estilo no parezca lo suficientemente obvio. Una razón importante detrás de esta observación es que en una imagen, el estilo y el contenido están interconectados y, debido a los atributos de estilo inherentes e indeterminados, es difícil desacoplar el estilo y la intención. Como resultado, a menudo se ajustan meticulosamente los pesos de cada imagen de referencia en un intento de equilibrar la controlabilidad del texto y la fuerza del estilo. Además, para una imagen de referencia de entrada determinada y su correspondiente descripción de texto en los métodos basados ​​en inversión, se adoptan enfoques de inversión como DDIM sobre la imagen para obtener la trayectoria de difusión invertida, un proceso que aproxima la ecuación de inversión para transformar una imagen en una imagen latente. representación del ruido. Partiendo de lo mismo y partiendo de la trayectoria de difusión invertida junto con un nuevo conjunto de indicaciones, estos métodos generan contenido nuevo cuyo estilo se alinea con la entrada. Sin embargo, como se muestra en la siguiente figura, el enfoque de inversión DDIM para imágenes reales suele ser inestable ya que se basa en suposiciones de linealización local, lo que da como resultado la propagación de errores y conduce a la pérdida de contenido y a una reconstrucción incorrecta de la imagen. 

En cuanto a la metodología, en lugar de emplear estrategias complejas para separar el contenido y el estilo de las imágenes, el marco Instant-Style adopta el enfoque más simple para lograr un rendimiento similar. Cuando se compara con los atributos de estilo indeterminados, el contenido se puede representar mediante texto natural, lo que permite que el marco Instant-Style utilice el codificador de texto de CLIP para extraer las características del texto del contenido como representaciones de contexto. Simultáneamente, el marco Instant-Style implementa un codificador de imágenes CLIP para extraer las características de la imagen de referencia. Aprovechando la caracterización de las características globales de CLIP y restando posteriormente las características del texto del contenido de las características de la imagen, el marco Instant-Style puede desacoplar el estilo y el contenido explícitamente. Aunque es una estrategia simple, ayuda a que el marco Instant-Style sea bastante efectivo para mantener la filtración de contenido al mínimo. 

Además, cada capa dentro de una red profunda es responsable de capturar información semántica diferente, y la observación clave de modelos anteriores es que existen dos capas de atención que son responsables de manejar el estilo. Específicamente, son las capas blocks.0.attentions.1 y down blocks.2.attentions.1 las responsables de capturar estilos como el color, el material, la atmósfera, y la capa de diseño espacial captura la estructura y la composición respectivamente. El marco Instant-Style utiliza estas capas implícitamente para extraer información de estilo y evita la filtración de contenido sin perder la fuerza del estilo. La estrategia es simple pero efectiva ya que el modelo ha ubicado bloques de estilo que pueden inyectar características de la imagen en estos bloques para lograr una transferencia de estilo perfecta. Además, dado que el modelo reduce en gran medida la cantidad de parámetros del adaptador, se mejora la capacidad de control de texto del marco y el mecanismo también es aplicable a otros modelos de inyección de características basadas en la atención para edición y otras tareas. 

Estilo instantáneo: experimentos y resultados

El marco Instant-Style se implementa en el marco Stable Diffusion XL y utiliza el adaptador IR previamente entrenado comúnmente adoptado como ejemplo para validar su metodología y silencia todos los bloques excepto los bloques de estilo para las características de la imagen. El modelo Instant-Style también entrena el adaptador IR en 4 millones de conjuntos de datos emparejados de texto e imágenes a gran escala desde cero y, en lugar de entrenar todos los bloques, actualiza solo los bloques de estilo. 

Para llevar a cabo sus capacidades de generalización y solidez, el marco Instant-Style lleva a cabo numerosos experimentos de transferencia de estilo con varios estilos en diferentes contenidos, y los resultados se pueden observar en las siguientes imágenes. Dada una única imagen de referencia de estilo junto con diferentes indicaciones, el marco Instant-Style ofrece un estilo consistente y de alta calidad. generación de imágenes

Además, dado que el modelo inyecta información de imagen solo en los bloques de estilo, puede mitigar significativamente el problema de la fuga de contenido y, por lo tanto, no necesita realizar ajustes de peso. 

Avanzando, el marco Instant-Style también adopta la arquitectura ControlNet para lograr estilización basada en imágenes con control espacial, y los resultados se demuestran en la siguiente imagen. 

En comparación con métodos de última generación anteriores, incluidos StyleAlign, B-LoRA, Swapping Self Attention e IP-Adapter, el marco Instant-Style demuestra los mejores efectos visuales. 

Consideraciones Finales:

En este artículo, hemos hablado de Instant-Style, un marco general que emplea dos estrategias simples pero efectivas para lograr una separación efectiva del contenido y el estilo de las imágenes de referencia. El marco InstantStyle está diseñado con el objetivo de abordar los problemas que enfrentan los actuales modelos de difusión basados ​​en ajustes para la generación y personalización de imágenes. El marco Instant-Style implementa dos estrategias vitales: un enfoque simple pero efectivo para desacoplar el estilo y el contenido de las imágenes de referencia dentro del espacio de características, predicho bajo el supuesto de que las características dentro del mismo espacio de características se pueden sumar o restar entre sí. En segundo lugar, evitar fugas de estilo inyectando las características de la imagen de referencia exclusivamente en los bloques de estilos específicos y evitando deliberadamente la necesidad de utilizar pesos engorrosos para realizar ajustes finos, que a menudo caracterizan diseños con más parámetros. 

"Ingeniero de profesión, escritor de corazón". Kunal es un escritor técnico con un profundo amor y comprensión de AI y ML, dedicado a simplificar conceptos complejos en estos campos a través de su atractiva e informativa documentación.