Inteligencia artificial
Edición de Imágenes Guiada por Instrucciones a través de Modelos de Lenguaje Grande Multimodales

Las herramientas de diseño visual y los modelos de lenguaje de visión tienen aplicaciones generalizadas en la industria multimedia. A pesar de los avances significativos en los últimos años, una comprensión sólida de estas herramientas es aún necesaria para su funcionamiento. Para mejorar la accesibilidad y el control, la industria multimedia está adoptando cada vez más técnicas de edición de imágenes basadas en texto o instrucciones. Estas técnicas utilizan comandos de lenguaje natural en lugar de máscaras regionales tradicionales o descripciones elaboradas, lo que permite una manipulación de imágenes más flexible y controlada. Sin embargo, los métodos basados en instrucciones a menudo proporcionan direcciones breves que pueden ser desafiantes para que los modelos existentes las capturen y ejecuten completamente. Además, los modelos de difusión, conocidos por su capacidad para crear imágenes realistas, están en alta demanda dentro del sector de edición de imágenes.
Además, los Modelos de Lenguaje Grande Multimodales (MLLMs) han demostrado un rendimiento impresionante en tareas que involucran la generación de respuestas visuales y la comprensión transmodal. La Edición de Imágenes Guiada por MLLM (MGIE) es un estudio inspirado en MLLMs que evalúa sus capacidades y analiza cómo apoyan la edición a través de texto o instrucciones guiadas. Este enfoque implica aprender a proporcionar instrucciones explícitas y derivar instrucciones expresivas. El modelo de edición MGIE comprende la información visual y ejecuta ediciones a través de un entrenamiento de extremo a extremo. En este artículo, profundizaremos en MGIE, evaluando su impacto en la optimización global de imágenes, modificaciones al estilo de Photoshop y edición local. También discutiremos la importancia de MGIE en tareas de edición de imágenes basadas en instrucciones que dependen de instrucciones expresivas. Comencemos nuestra exploración.
Edición de Imágenes Guiada por MLLM o MGIE: Una Introducción
Los Modelos de Lenguaje Grande Multimodales y los Modelos de Difusión son dos de los marcos de AI y ML más utilizados actualmente debido a sus capacidades generativas destacadas. Por un lado, tenemos los Modelos de Difusión, mejor conocidos por producir imágenes altamente realistas y visualmente atractivas, mientras que por otro lado, tenemos los Modelos de Lenguaje Grande Multimodales, renombrados por su habilidad excepcional para generar una amplia variedad de contenido, incluyendo texto, lenguaje, habla e imágenes/vídeos.
Los modelos de difusión intercambian los mapas transmodales latentes para realizar manipulación visual que refleja la alteración de la descripción de la imagen de entrada, y también pueden utilizar una máscara guiada para editar una región específica de la imagen. Pero la razón principal por la que los Modelos de Difusión se utilizan ampliamente para aplicaciones multimedia es que, en lugar de confiar en descripciones elaboradas o máscaras regionales, los Modelos de Difusión emplean enfoques de edición basados en instrucciones que permiten a los usuarios expresar cómo editar la imagen directamente utilizando instrucciones o comandos de texto. Continuando, los Modelos de Lenguaje Grande necesitan no introducción desde que han demostrado avances significativos en una variedad de tareas de lenguaje diverso, incluyendo resumen de texto, traducción automática, generación de texto y respuesta a preguntas. Los LLMs suelen entrenarse en una gran cantidad de datos de entrenamiento diversa que los equipa con creatividad visual y conocimiento, lo que les permite realizar varias tareas de lenguaje de visión. Basándose en LLMs, los MLLMs o Modelos de Lenguaje Grande Multimodales pueden utilizar imágenes como entradas naturales y proporcionar respuestas visualmente conscientes.
Con eso dicho, aunque los Modelos de Difusión y los marcos MLLM se utilizan ampliamente para tareas de edición de imágenes, existen algunos problemas de orientación con instrucciones basadas en texto que obstaculizan el rendimiento general, lo que resulta en el desarrollo de MGIE o Edición de Imágenes Guiada por MLLM, un marco de AI que consiste en un modelo de difusión y un modelo MLLM, como se demuestra en la siguiente imagen.
Dentro de la arquitectura MGIE, el modelo de difusión se entrena de extremo a extremo para realizar edición de imágenes con imaginación latente del objetivo previsto, mientras que el marco MLLM aprende a predecir instrucciones expresivas precisas. Juntos, el modelo de difusión y el marco MLLM aprovechan la derivación visual inherente, lo que les permite abordar comandos humanos ambiguos y resultar en edición realista de imágenes, como se demuestra en la siguiente imagen.
El marco MGIE se inspira en dos enfoques existentes: Edición de Imágenes Basada en Instrucciones y Modelos de Lenguaje Grande de Visión.
La edición de imágenes basada en instrucciones puede mejorar significativamente la accesibilidad y controlabilidad de la manipulación visual al adherirse a los comandos humanos. Hay dos marcos principales utilizados para la edición de imágenes basada en instrucciones: los marcos GAN y los Modelos de Difusión. GAN o Redes Adversarias Generativas son capaces de alterar imágenes pero están limitadas a dominios específicos o producen resultados irreales. Por otro lado, los modelos de difusión con entrenamiento a gran escala pueden controlar los mapas de atención transmodal para lograr edición y transformación de imágenes. La edición basada en instrucciones funciona recibiendo comandos directos como entrada, a menudo no limitados a máscaras regionales y descripciones elaboradas. Sin embargo, existe la probabilidad de que las instrucciones proporcionadas sean ambiguas o no sean lo suficientemente precisas para seguir instrucciones para tareas de edición.
Los Modelos de Lenguaje Grande de Visión son renombrados por sus capacidades generativas de texto y generalización en varias tareas, y a menudo tienen una comprensión textual robusta, y pueden producir programas ejecutables o pseudocódigo. Esta capacidad de los modelos de lenguaje grande permite a los MLLMs percibir imágenes y proporcionar respuestas adecuadas utilizando la alineación de características visuales con la afinación de instrucciones, con modelos recientes que adoptan MLLMs para generar imágenes relacionadas con el chat o el texto de entrada. Sin embargo, lo que separa a MGIE de MLLMs o VLLMs es el hecho de que, mientras que estos últimos pueden producir imágenes distintas de las entradas desde cero, MGIE aprovecha las capacidades de los MLLMs para mejorar las capacidades de edición de imágenes con instrucciones derivadas.
MGIE: Arquitectura y Metodología
Tradicionalmente, los modelos de lenguaje grande se han utilizado para tareas generativas de procesamiento de lenguaje natural. Pero desde que los MLLMs se volvieron mainstream, los LLMs fueron dotados con la capacidad de proporcionar respuestas razonables al percibir imágenes de entrada. Convencionalmente, un Modelo de Lenguaje Grande Multimodal se inicializa a partir de un LLM preentrenado, y contiene un codificador visual y un adaptador para extraer las características visuales y proyectar las características visuales en la modalidad del lenguaje, respectivamente. Debido a esto, el marco MLLM es capaz de percibir entradas visuales, aunque la salida aún se limita al texto.
El marco MGIE propuesto tiene como objetivo resolver este problema y permitir que un MLLM edite una imagen de entrada en una imagen de salida basada en la instrucción textual dada. Para lograr esto, el marco MGIE alberga un MLLM y se entrena para derivar instrucciones expresivas concisas y explícitas. Además, el marco MGIE agrega tokens de imagen especiales en su arquitectura para tender un puente entre la modalidad de visión y la modalidad del lenguaje, y adopta la cabeza de edición para la transformación de las modalidades. Estas modalidades sirven como la imaginación visual latente del Modelo de Lenguaje Grande Multimodal, y guían el modelo de difusión para lograr las tareas de edición. El marco MGIE es entonces capaz de realizar tareas de percepción visual para edición de imágenes razonable.
Instrucción Expresiva Concisa
Tradicionalmente, los Modelos de Lenguaje Grande Multimodales pueden ofrecer respuestas relacionadas con la visión con su percepción transmodal debido a la afinación de instrucciones y la alineación de características. Para editar imágenes, el marco MGIE utiliza una señal de texto como la entrada de lenguaje principal con la imagen, y deriva una explicación detallada para el comando de edición. Sin embargo, estas explicaciones pueden ser a menudo demasiado largas o involucrar descripciones repetitivas, lo que resulta en intenciones malinterpretadas, lo que fuerza a MGIE a aplicar un resumen preentrenado para obtener narraciones sucintas, lo que permite al MLLM generar salidas resumidas. El marco trata la orientación concisa pero explícita como una instrucción expresiva, y aplica la pérdida de entropía cruzada para entrenar el modelo de lenguaje grande multimodal utilizando la coerción del profesor.
Utilizar una instrucción expresiva proporciona una idea más concreta en comparación con la instrucción de texto, ya que conecta la brecha para la edición de imágenes razonable, mejorando aún más la eficiencia del marco. Además, el marco MGIE durante el período de inferencia deriva instrucciones expresivas concisas en lugar de producir narraciones largas y confiar en la resumen externa. Debido a esto, el marco MGIE es capaz de capturar la imaginación visual de las intenciones de edición, pero aún se limita a la modalidad del lenguaje. Para superar este obstáculo, el modelo MGIE agrega un número determinado de tokens visuales después de la instrucción expresiva con incrustaciones de palabras entrenables, lo que permite al MLLM generarlos utilizando su cabeza de modelo de lenguaje.
Edición de Imágenes con Imaginación Latente
En el siguiente paso, el marco MGIE adopta la cabeza de edición para transformar la instrucción de imagen en orientación visual real. La cabeza de edición es un modelo de secuencia a secuencia que ayuda a mapear los tokens visuales secuenciales del MLLM a la orientación de edición semántica significativa. Para ser más específicos, la transformación sobre las incrustaciones de palabras se puede interpretar como una representación general en la modalidad visual, y utiliza un componente de imaginación visual consciente de la instancia para las intenciones de edición. Además, para guiar la edición de imágenes con imaginación visual, el marco MGIE incorpora un modelo de difusión latente en su arquitectura que incluye un codificador autovariante y aborda la difusión de ruido en el espacio latente. El objetivo principal del modelo de difusión latente es generar el objetivo latente preservando la entrada latente y seguir la orientación de edición. El proceso de difusión agrega ruido al objetivo latente en intervalos de tiempo regulares y el nivel de ruido aumenta con cada paso de tiempo.
Aprendizaje de MGIE
La siguiente figura resume el algoritmo del proceso de aprendizaje del marco MGIE propuesto.
Como se puede observar, el MLLM aprende a derivar instrucciones expresivas concisas utilizando la pérdida de instrucción. Utilizando la imaginación latente de las instrucciones de imagen de entrada, el marco transforma la modalidad de la cabeza de edición y guía el modelo de difusión latente para sintetizar la imagen resultante, y aplica la pérdida de edición para el entrenamiento de difusión. Finalmente, el marco congela la mayoría de los pesos, lo que resulta en un entrenamiento de extremo a extremo eficiente en parámetros.
MGIE: Resultados y Evaluación
El marco MGIE utiliza el conjunto de datos IPr2Pr como su conjunto de datos de preentrenamiento principal, y contiene más de 1 millón de datos filtrados por CLIP con instrucciones extraídas del modelo GPT-3 y un modelo Prompt-to-Prompt para sintetizar las imágenes. Además, el marco MGIE trata el marco InsPix2Pix construido sobre el codificador de texto CLIP con un modelo de difusión como su línea de base para tareas de edición de imágenes basadas en instrucciones. Además, el modelo MGIE también tiene en cuenta un modelo de edición de imágenes guiada por LLM adoptado para instrucciones expresivas de entradas de solo instrucciones pero sin percepción visual.
Análisis Cuantitativo
La siguiente figura resume los resultados de edición en un entorno de disparo cero con los modelos entrenados solo en el conjunto de datos IPr2Pr. Para los datos GIER y EVR que involucran modificaciones al estilo de Photoshop, las instrucciones expresivas pueden revelar objetivos concretos en lugar de comandos ambiguos, lo que permite que los resultados de edición se asemejen más a las intenciones de edición.
Aunque tanto el LGIE como el MGIE se entrenan en los mismos datos que el modelo InsPix2Pix, pueden ofrecer explicaciones detalladas a través del aprendizaje con el modelo de lenguaje grande, pero el LGIE aún se limita a una sola modalidad. Además, el marco MGIE puede proporcionar un impulso significativo en el rendimiento, ya que tiene acceso a imágenes y puede utilizar estas imágenes para derivar instrucciones explícitas.
Para evaluar el rendimiento en tareas de edición de imágenes basadas en instrucciones para propósitos específicos, los desarrolladores ajustan varios modelos en cada conjunto de datos, como se resume en la siguiente tabla.
Como se puede observar, después de adaptar las tareas de edición al estilo de Photoshop para EVR y GIER, los modelos demuestran un aumento en el rendimiento. Sin embargo, es importante destacar que, dado que la afinación hace que las instrucciones expresivas sean más específicas del dominio, el marco MGIE presencia un aumento masivo en el rendimiento, ya que también aprende orientaciones relacionadas con el dominio, lo que permite al modelo de difusión demostrar escenas editadas concretas del modelo de lenguaje grande afinado, beneficiando tanto la modificación local como la optimización local. Además, dado que la orientación consciente de la visión se alinea más con los objetivos de edición previstos, el marco MGIE entrega resultados superiores consistentemente en comparación con el LGIE.
La siguiente figura demuestra la puntuación CLIP-S a través de las imágenes de entrada o de verdad y las instrucciones expresivas. Una puntuación CLIP más alta indica la relevancia de las instrucciones con la fuente de edición, y como se puede observar, el MGIE tiene una puntuación CLIP más alta en comparación con el modelo LGIE en ambas las imágenes de entrada y de salida.
Resultados Cualitativos
La siguiente imagen resume perfectamente el análisis cualitativo del marco MGIE.
Como sabemos, el marco LGIE se limita a una sola modalidad debido a lo cual tiene una perspectiva basada solo en el lenguaje y es propenso a derivar explicaciones incorrectas o irrelevantes para la edición de la imagen. Sin embargo, el marco MGIE es multimodal y, con acceso a imágenes, completa las tareas de edición y proporciona imaginación visual explícita que se alinea muy bien con el objetivo.
Pensamientos Finales
En este artículo, hemos hablado sobre MGIE o Edición de Imágenes Guiada por MLLM, un estudio inspirado en MLLMs que tiene como objetivo evaluar los Modelos de Lenguaje Grande Multimodales y analizar cómo facilitan la edición utilizando texto o instrucciones guiadas, aprendiendo a proporcionar orientación explícita y derivando instrucciones expresivas simultáneamente. El modelo de edición MGIE captura la información visual y realiza edición o manipulación utilizando un entrenamiento de extremo a extremo. En lugar de orientación ambigua y breve, el marco MGIE produce instrucciones visualmente conscientes explícitas que resultan en edición de imágenes razonable.












