talón Guía de edición de imágenes basada en instrucciones a través de modelos de lenguaje multimodal de gran tamaño - Unite.AI
Contáctanos

Inteligencia artificial

Guía de edición de imágenes basada en instrucciones mediante modelos de lenguaje multimodal de gran tamaño

mm

Publicado

 on

GUIAR LA EDICIÓN DE IMÁGENES BASADA EN INSTRUCCIONES MEDIANTE MODELOS MULTIMODALES EN LENGUAJE GRANDE

Las herramientas de diseño visual y los modelos de lenguaje de visión tienen aplicaciones generalizadas en la industria multimedia. A pesar de los importantes avances de los últimos años, todavía es necesario un conocimiento sólido de estas herramientas para su funcionamiento. Para mejorar la accesibilidad y el control, la industria multimedia está adoptando cada vez más técnicas de edición de imágenes guiadas por texto o basadas en instrucciones. Estas técnicas utilizan comandos de lenguaje natural en lugar de máscaras regionales tradicionales o descripciones elaboradas, lo que permite una manipulación de imágenes más flexible y controlada. Sin embargo, los métodos basados ​​en instrucciones a menudo proporcionan instrucciones breves que pueden resultar difíciles de capturar y ejecutar por completo para los modelos existentes. Además, los modelos de difusión, conocidos por su capacidad para crear imágenes realistas, tienen una gran demanda en el sector de la edición de imágenes.

Por otro lado, Modelos de lenguajes grandes multimodales (MLLM) han demostrado un rendimiento impresionante en tareas que implican generación de respuestas visuales y comprensión intermodal. MLLM Guided Image Editing (MGIE) es un estudio inspirado en los MLLM que evalúa sus capacidades y analiza cómo soportan la edición a través de texto o instrucciones guiadas. Este enfoque implica aprender a proporcionar orientación explícita y derivar instrucciones expresivas. El modelo de edición MGIE comprende información visual y ejecuta ediciones mediante capacitación de un extremo a otro. En este artículo profundizaremos en MGIE, evaluando su impacto en la optimización global de imágenes, modificaciones al estilo de Photoshop y edición local. También discutiremos la importancia de MGIE en tareas de edición de imágenes basadas en instrucciones que dependen de instrucciones expresivas. Comencemos nuestra exploración.

Edición de imágenes guiada por MLLM o MGIE: una introducción

Los modelos multimodales de lenguaje grande y los modelos de difusión son dos de los marcos de IA y ML más utilizados actualmente debido a sus notables capacidades generativas. Por un lado, tenemos los modelos de difusión, más conocidos por producir imágenes muy realistas y visualmente atractivas, mientras que, por el otro, tenemos los modelos multimodales de lenguaje grande, reconocidos por su excepcional destreza a la hora de generar una amplia variedad de contenidos, incluidos texto, lenguaje, discurso e imágenes/vídeos. 

Los modelos de difusión intercambian los mapas intermodales latentes para realizar una manipulación visual que refleje la alteración del título del objetivo de entrada, y también pueden usar una máscara guiada para editar una región específica de la imagen. Pero la razón principal por la que los modelos de difusión se utilizan ampliamente para aplicaciones multimedia es porque en lugar de depender de descripciones elaboradas o máscaras regionales, los modelos de difusión emplean enfoques de edición basados ​​en instrucciones que permiten a los usuarios expresar cómo editar la imagen directamente mediante instrucciones o comandos de texto. . En el futuro, los modelos de lenguaje grandes no necesitan presentación, ya que han demostrado avances significativos en una variedad de tareas lingüísticas diversas, incluido el resumen de texto, la traducción automática, la generación de texto y la respuesta a preguntas. Los LLM generalmente se capacitan con una cantidad grande y diversa de datos de capacitación que los equipa con creatividad y conocimiento visual, lo que les permite realizar también varias tareas de lenguaje visual. Construir sobre LLM, MLLM o modelos de lenguaje grande multimodal puede utilizar imágenes como entradas naturales y proporcionar respuestas visualmente conscientes apropiadas. 

Dicho esto, aunque los modelos de difusión y los marcos MLLM se utilizan ampliamente para tareas de edición de imágenes, existen algunos problemas de orientación con instrucciones basadas en texto que obstaculizan el rendimiento general, lo que resulta en el desarrollo de MGIE o MLLM Guided Image Editing, una herramienta impulsada por IA. marco que consta de un modelo de difusión y un modelo MLLM como se muestra en la siguiente imagen. 

Dentro de la arquitectura MGIE, el modelo de difusión está entrenado de un extremo a otro para realizar la edición de imágenes con una imaginación latente del objetivo previsto, mientras que el marco MLLM aprende a predecir instrucciones expresivas precisas. Juntos, el modelo de difusión y el marco MLLM aprovechan la derivación visual inherente, lo que le permite abordar comandos humanos ambiguos, lo que da como resultado una edición realista de las imágenes, como se demuestra en la siguiente imagen. 

El marco MGIE se inspira en gran medida en dos enfoques existentes: Edición de imágenes basada en instrucciones y modelos de lenguaje grande de visión

La edición de imágenes basada en instrucciones puede mejorar significativamente la accesibilidad y la controlabilidad de la manipulación visual al seguir las órdenes humanas. Hay dos marcos principales utilizados para la edición de imágenes basada en instrucciones: marcos GAN y modelos de difusión. GAN o Redes Generativas Adversarias son capaces de alterar imágenes pero están limitados a dominios específicos o producen resultados poco realistas. Por otro lado, los modelos de difusión con entrenamiento a gran escala pueden controlar los mapas de atención intermodales de mapas globales para lograr la edición y transformación de imágenes. La edición basada en instrucciones funciona al recibir comandos directos como entrada, que a menudo no se limitan a máscaras regionales y descripciones elaboradas. Sin embargo, existe la probabilidad de que las instrucciones proporcionadas sean ambiguas o no lo suficientemente precisas como para seguir las instrucciones para las tareas de edición. 

Los modelos de lenguaje grande de Vision son reconocidos por sus capacidades de generación y generalización de texto en diversas tareas y, a menudo, tienen una comprensión textual sólida y pueden producir programas ejecutables o pseudocódigos. Esta capacidad de los modelos de lenguaje grandes permite a los MLLM percibir imágenes y proporcionar respuestas adecuadas utilizando la alineación de características visuales con el ajuste de instrucciones, y los modelos recientes adoptan MLLM para generar imágenes relacionadas con el chat o el texto de entrada. Sin embargo, lo que separa a MGIE de los MLLM o VLLM es el hecho de que, si bien estos últimos pueden producir imágenes distintas de las entradas desde cero, MGIE aprovecha las capacidades de los MLLM para mejorar las capacidades de edición de imágenes con instrucciones derivadas. 

MGIE: Arquitectura y Metodología

Tradicionalmente, se han utilizado modelos de lenguaje grandes para tareas generativas de procesamiento del lenguaje natural. Pero desde que los MLLM se generalizaron, los LLM tuvieron la capacidad de proporcionar respuestas razonables al percibir entradas de imágenes. Convencionalmente, un modelo de lenguaje grande multimodal se inicializa a partir de un LLM previamente entrenado y contiene un codificador visual y un adaptador para extraer las características visuales y proyectar las características visuales en la modalidad de lenguaje, respectivamente. Debido a esto, el marco MLLM es capaz de percibir entradas visuales, aunque la salida todavía se limita a texto. 

El marco MGIE propuesto tiene como objetivo resolver este problema y facilitar que un MLLM edite una imagen de entrada en una imagen de salida sobre la base de la instrucción textual proporcionada. Para lograr esto, el marco MGIE alberga un MLLM y se entrena para derivar instrucciones de texto expresivas concisas y explícitas. Además, el marco MGIE agrega tokens de imágenes especiales en su arquitectura para cerrar la brecha entre la modalidad de visión y lenguaje, y adopta el cabezal de edición para la transformación de las modalidades. Estas modalidades sirven como imaginación visual latente del modelo de lenguaje grande multimodal y guían el modelo de difusión para lograr las tareas de edición. Entonces, el marco MGIE es capaz de realizar tareas de percepción visual para una edición de imágenes razonable. 

Instrucción expresiva concisa

Tradicionalmente, los modelos de lenguaje grande multimodal pueden ofrecer respuestas relacionadas con lo visual con su percepción intermodal debido al ajuste de las instrucciones y la alineación de las características. Para editar imágenes, el marco MGIE utiliza un mensaje de texto como entrada de idioma principal con la imagen y deriva una explicación detallada para el comando de edición. Sin embargo, estas explicaciones a menudo pueden ser demasiado largas o involucrar descripciones repetitivas que dan como resultado intenciones mal interpretadas, lo que obliga a MGIE a aplicar un resumidor previamente capacitado para obtener narraciones concisas, lo que permite al MLLM generar resultados resumidos. El marco trata la guía concisa pero explícita como una instrucción expresiva y aplica la pérdida de entropía cruzada para entrenar el modelo de lenguaje grande multimodal utilizando la aplicación del docente.

El uso de una instrucción expresiva proporciona una idea más concreta en comparación con la instrucción de texto, ya que cierra la brecha para una edición razonable de imágenes, mejorando aún más la eficiencia del marco. Además, el marco MGIE durante el período de inferencia deriva instrucciones expresivas concisas en lugar de producir narraciones largas y depender de resúmenes externos. Debido a esto, el marco MGIE puede captar la imaginación visual de las intenciones de edición, pero aún está limitado a la modalidad del lenguaje. Para superar este obstáculo, el modelo MGIE agrega una cierta cantidad de tokens visuales después de la instrucción expresiva con incrustaciones de palabras entrenables que permiten al MLLM generarlos usando su LM o cabezal de modelo de lenguaje. 

Edición de imágenes con imaginación latente

En el siguiente paso, el marco MGIE adopta el cabezal de edición para transformar las instrucciones de la imagen en una guía visual real. El encabezado de edición es un modelo de secuencia a secuencia que ayuda a mapear los tokens visuales secuenciales del MLLM al significado latente semánticamente como guía de edición. Para ser más específico, la transformación sobre las incrustaciones de palabras se puede interpretar como una representación general en la modalidad visual y utiliza un componente de imaginación visual consciente de la instancia para las intenciones de edición. Además, para guiar la edición de imágenes con imaginación visual, el marco MGIE incorpora un modelo de difusión latente en su arquitectura que incluye un codificador automático variacional y aborda la difusión de eliminación de ruido en el espacio latente. El objetivo principal del modelo de difusión latente es generar el objetivo latente a partir de la preservación de la entrada latente y seguir la guía de edición. El proceso de difusión añade ruido al objetivo latente en intervalos de tiempo regulares y el nivel de ruido aumenta con cada paso de tiempo. 

Aprendizaje de MGIE

La siguiente figura resume el algoritmo del proceso de aprendizaje del marco MGIE propuesto. 

Como se puede observar, el MLLM aprende a derivar instrucciones expresivas concisas utilizando la pérdida de instrucción. Utilizando la imaginación latente de las instrucciones de la imagen de entrada, el marco transforma la modalidad del cabezal de edición, guía el modelo de difusión latente para sintetizar la imagen resultante y aplica la pérdida de edición para el entrenamiento de difusión. Finalmente, el marco congela la mayoría de los pesos, lo que da como resultado un entrenamiento de extremo a extremo con parámetros eficientes. 

MGIE: Resultados y Evaluación

El marco MGIE utiliza el conjunto de datos IPr2Pr como datos primarios de preentrenamiento y contiene más de 1 millón de datos filtrados por CLIP con instrucciones extraídas del modelo GPT-3 y un modelo de solicitud a solicitud para sintetizar las imágenes. Además, el marco MGIE trata el marco InsPix2Pix construido sobre el codificador de texto CLIP con un modelo de difusión como base para tareas de edición de imágenes basadas en instrucciones. Además, el modelo MGIE también tiene en cuenta un modelo de edición de imágenes guiado por LLM adoptado para instrucciones expresivas a partir de entradas de solo instrucción pero sin percepción visual. 

Análisis cuantitativo

La siguiente figura resume los resultados de la edición en una configuración de disparo cero con los modelos entrenados solo en el conjunto de datos IPr2Pr. Para los datos GIER y EVR que implican modificaciones al estilo de Photoshop, las instrucciones expresivas pueden revelar objetivos concretos en lugar de comandos ambiguos, lo que permite que los resultados de la edición se parezcan mejor a las intenciones de la edición. 

Aunque tanto el LGIE como el MGIE están entrenados con los mismos datos que el modelo InsPix2Pix, pueden ofrecer explicaciones detalladas mediante el aprendizaje con el modelo de lenguaje grande, pero aún así el LGIE está limitado a una única modalidad. Además, el marco MGIE puede proporcionar un aumento significativo del rendimiento, ya que tiene acceso a imágenes y puede utilizar estas imágenes para derivar instrucciones explícitas. 

Para evaluar el rendimiento de las tareas de edición de imágenes basadas en instrucciones para fines específicos, los desarrolladores ajustan varios modelos en cada conjunto de datos, como se resume en la siguiente tabla. 

Como se puede observar, después de adaptar las tareas de edición estilo Photoshop para EVR y GIER, los modelos demuestran un aumento en el rendimiento. Sin embargo, vale la pena señalar que dado que el ajuste fino también hace que las instrucciones expresivas sean más específicas del dominio, el marco MGIE experimenta un aumento masivo en el rendimiento ya que también aprende orientación relacionada con el dominio, lo que permite que el modelo de difusión demuestre escenas editadas concretas del Modelo de lenguaje grande ajustado que beneficia tanto la modificación local como la optimización local. Además, dado que la guía visual está más alineada con los objetivos de edición previstos, el marco MGIE ofrece resultados superiores de manera consistente en comparación con LGIE. 

La siguiente figura demuestra la puntuación CLIP-S en las imágenes de objetivos de entrada o de verdad fundamental y la instrucción expresiva. Una puntuación CLIP más alta indica la relevancia de las instrucciones con la fuente de edición y, como se puede observar, el MGIE tiene una puntuación CLIP más alta en comparación con el modelo LGIE tanto en las imágenes de entrada como en las de salida. 

Resultados cualitativos

La siguiente imagen resume perfectamente el análisis cualitativo del marco MGIE. 

Como sabemos, el marco LGIE se limita a una única modalidad, por lo que tiene una visión basada en un único lenguaje y es propenso a derivar explicaciones incorrectas o irrelevantes para editar la imagen. Sin embargo, el marco MGIE es multimodal y, con acceso a imágenes, completa las tareas de edición y proporciona una imaginación visual explícita que se alinea muy bien con el objetivo. 

Consideraciones Finales:

En este artículo, hemos hablado de MGIE o MLLM Guided Image Editing, un estudio inspirado en MLLM que tiene como objetivo evaluar modelos de lenguaje grande multimodal y analizar cómo facilitan la edición utilizando texto o instrucciones guiadas mientras se aprende a proporcionar una guía explícita derivando instrucciones expresivas. simultáneamente. El modelo de edición MGIE captura la información visual y realiza la edición o manipulación mediante entrenamiento de extremo a extremo. En lugar de una guía breve y ambigua, el marco MGIE produce instrucciones visuales explícitas que dan como resultado una edición de imágenes razonable. 

"Ingeniero de profesión, escritor de corazón". Kunal es un escritor técnico con un profundo amor y comprensión de AI y ML, dedicado a simplificar conceptos complejos en estos campos a través de su atractiva e informativa documentación.