Inteligencia artificial
Guía de edición de imágenes basada en instrucciones a través de modelos de lenguaje grande multimodal

Las herramientas de diseño visual y los modelos de lenguaje de visión tienen aplicaciones generalizadas en la industria multimedia. A pesar de los avances significativos en los últimos años, es necesario un entendimiento sólido de estas herramientas para su funcionamiento. Para mejorar la accesibilidad y el control, la industria multimedia está adoptando cada vez más técnicas de edición de imágenes guiadas por texto o basadas en instrucciones. Estas técnicas utilizan comandos de lenguaje natural en lugar de máscaras regionales tradicionales o descripciones elaboradas, lo que permite una manipulación de imágenes más flexible y controlada. Sin embargo, los métodos basados en instrucciones a menudo proporcionan direcciones breves que pueden ser difíciles de capturar y ejecutar por parte de los modelos existentes. Además, los modelos de difusión, conocidos por su capacidad para crear imágenes realistas, están en alta demanda en el sector de edición de imágenes.
Además, los Modelos de Lenguaje Grande Multimodal (MLLM) han demostrado un rendimiento impresionante en tareas que involucran la generación de respuestas visuales y la comprensión transmodal. La edición de imágenes guiada por MLLM (MGIE) es un estudio inspirado en MLLM que evalúa sus capacidades y analiza cómo facilitan la edición mediante texto o instrucciones guiadas. Este enfoque implica aprender a proporcionar orientación explícita y derivar instrucciones expresivas. El modelo de edición MGIE comprende la información visual y ejecuta ediciones a través de un entrenamiento de extremo a extremo. En este artículo, profundizaremos en MGIE, evaluando su impacto en la optimización global de imágenes, modificaciones al estilo de Photoshop y edición local. También discutiremos la importancia de MGIE en tareas de edición de imágenes basadas en instrucciones que dependen de instrucciones expresivas. Comencemos nuestra exploración.
MGIE: Una introducción
Los Modelos de Lenguaje Grande Multimodal y los Modelos de Difusión son dos de los marcos de IA y ML más utilizados actualmente debido a sus capacidades generativas destacadas. Por un lado, tienes los Modelos de Difusión, conocidos por producir imágenes altamente realistas y visualmente atractivas, mientras que por otro lado, tienes los Modelos de Lenguaje Grande Multimodal, renombrados por su capacidad excepcional para generar una amplia variedad de contenido, incluyendo texto, lenguaje, habla e imágenes/vídeos.
Los modelos de difusión intercambian los mapas transmodales latentes para realizar manipulación visual que refleja la alteración de la descripción de entrada, y también pueden utilizar una máscara guiada para editar una región específica de la imagen. Pero la razón principal por la que los Modelos de Difusión se utilizan ampliamente para aplicaciones multimedia es que, en lugar de confiar en descripciones elaboradas o máscaras regionales, los Modelos de Difusión emplean enfoques de edición basados en instrucciones que permiten a los usuarios expresar cómo editar la imagen directamente utilizando instrucciones o comandos de texto. Continuando, los Modelos de Lenguaje Grande no necesitan presentación, ya que han demostrado avances significativos en una variedad de tareas de lenguaje diverso, incluyendo resumen de texto, traducción automática, generación de texto y respuesta a preguntas. Los MLL se entrenan generalmente en una gran cantidad de datos de entrenamiento diversa, lo que les proporciona creatividad visual y conocimiento, permitiéndoles realizar varias tareas de lenguaje de visión. Basándose en los MLL, los MLLM o Modelos de Lenguaje Grande Multimodal pueden utilizar imágenes como entradas naturales y proporcionar respuestas visuales adecuadas.
Con eso dicho, aunque los Modelos de Difusión y los marcos MLLM se utilizan ampliamente para tareas de edición de imágenes, existen algunos problemas de orientación con instrucciones basadas en texto que obstaculizan el rendimiento general, lo que resulta en el desarrollo de MGIE o Edición de Imágenes Guiada por MLLM, un marco de IA que consiste en un modelo de difusión y un modelo MLLM, como se demuestra en la siguiente imagen.
Dentro de la arquitectura MGIE, el modelo de difusión se entrena de extremo a extremo para realizar edición de imágenes con imaginación latente del objetivo pretendido, mientras que el marco MLLM aprende a predecir instrucciones expresivas precisas. Juntos, el modelo de difusión y el marco MLLM aprovechan la derivación visual inherente, lo que les permite abordar comandos humanos ambiguos y realizar edición realista de imágenes, como se demuestra en la siguiente imagen.
El marco MGIE se inspira en dos enfoques existentes: Edición de Imágenes Basada en Instrucciones y Modelos de Lenguaje Grande de Visión.
La edición de imágenes basada en instrucciones puede mejorar significativamente la accesibilidad y controlabilidad de la manipulación visual al adherirse a los comandos humanos. Hay dos marcos principales utilizados para la edición de imágenes basada en instrucciones: marcos GAN y Modelos de Difusión. GAN o Redes Adversarias Generativas pueden alterar imágenes, pero están limitadas a dominios específicos o producen resultados poco realistas. Por otro lado, los modelos de difusión con entrenamiento a gran escala pueden controlar los mapas de atención transmodales para lograr edición y transformación de imágenes. La edición basada en instrucciones funciona recibiendo comandos directos como entrada, a menudo no limitados a máscaras regionales y descripciones elaboradas. Sin embargo, existe la probabilidad de que las instrucciones proporcionadas sean ambiguas o no sean lo suficientemente precisas para seguir instrucciones para tareas de edición.
Los Modelos de Lenguaje Grande de Visión son renombrados por sus capacidades generativas de texto y generalización en varias tareas, y a menudo tienen una comprensión textual robusta, y pueden producir programas ejecutables o pseudocódigo. Esta capacidad de los modelos de lenguaje grande permite a los MLLM percibir imágenes y proporcionar respuestas adecuadas utilizando la alineación de características visuales con ajuste de instrucciones, y los modelos recientes adoptan MLLM para generar imágenes relacionadas con el chat o el texto de entrada. Sin embargo, lo que separa a MGIE de MLLM o VLLM es el hecho de que, mientras que estos últimos pueden producir imágenes distintas de las entradas desde cero, MGIE aprovecha las capacidades de MLLM para mejorar las capacidades de edición de imágenes con instrucciones derivadas.
MGIE: Arquitectura y Metodología
Tradicionalmente, los modelos de lenguaje grande se han utilizado para tareas generativas de procesamiento de lenguaje natural. Pero desde que los MLLM se hicieron mainstream, los MLL se empoderaron con la capacidad de proporcionar respuestas razonables al percibir imágenes de entrada. Convencionalmente, un Modelo de Lenguaje Grande Multimodal se inicializa a partir de un MLL preentrenado, y contiene un codificador visual y un adaptador para extraer las características visuales y proyectar las características visuales en la modalidad del lenguaje, respectivamente. Debido a esto, el marco MLLM es capaz de percibir entradas visuales, aunque la salida aún está limitada al texto.
El marco MGIE propuesto tiene como objetivo resolver este problema y facilitar que un MLLM edite una imagen de entrada en una imagen de salida en función de la instrucción textual dada. Para lograr esto, el marco MGIE alberga un MLLM y se entrena para derivar instrucciones expresivas concisas y explícitas. Además, el marco MGIE agrega tokens de imagen especiales en su arquitectura para tender un puente entre la modalidad de visión y lenguaje, y adopta la cabeza de edición para la transformación de las modalidades. Estas modalidades sirven como la imaginación visual latente del Modelo de Lenguaje Grande Multimodal, y guían el modelo de difusión para lograr las tareas de edición. El marco MGIE es entonces capaz de realizar tareas de percepción visual para edición de imágenes razonable.
Instrucción Expresiva Concisa
Tradicionalmente, los Modelos de Lenguaje Grande Multimodal pueden ofrecer respuestas relacionadas con la visión con su percepción transmodal debido al ajuste de instrucciones y la alineación de características. Para editar imágenes, el marco MGIE utiliza una llamada de texto como la entrada de lenguaje principal con la imagen, y deriva una explicación detallada para el comando de edición. Sin embargo, estas explicaciones pueden ser a menudo demasiado largas o involucrar descripciones repetitivas, lo que resulta en intenciones malinterpretadas, lo que fuerza a MGIE a aplicar un resumidor preentrenado para obtener narraciones sucintas, lo que permite al MLLM generar salidas resumidas. El marco trata la orientación explícita y concisa como una instrucción expresiva, y aplica la pérdida de entropía cruzada para entrenar el Modelo de Lenguaje Grande Multimodal utilizando el refuerzo del profesor.
Utilizar una instrucción expresiva proporciona una idea más concreta en comparación con la instrucción de texto, ya que tiende un puente para la edición de imágenes razonable, mejorando la eficiencia del marco. Además, el marco MGIE, durante el período de inferencia, deriva instrucciones expresivas concisas en lugar de producir narraciones largas y confiar en la resumen externa. Debido a esto, el marco MGIE puede capturar la imaginación visual de las intenciones de edición, pero aún está limitado a la modalidad del lenguaje. Para superar este obstáculo, el modelo MGIE agrega un número determinado de tokens visuales después de la instrucción expresiva con incrustaciones de palabras entrenables, lo que permite al MLLM generarlos utilizando su cabeza de modelo de lenguaje.
Edición de Imágenes con Imaginación Latente
En el siguiente paso, el marco MGIE adopta la cabeza de edición para transformar la instrucción de imagen en orientación visual real. La cabeza de edición es un modelo de secuencia a secuencia que ayuda a mapear los tokens visuales secuenciales del MLLM a la guía de edición semántica significativa como su orientación de edición. Para ser más específicos, la transformación sobre las incrustaciones de palabras se puede interpretar como una representación general en la modalidad visual, y utiliza un componente de imaginación visual consciente de la instancia para las intenciones de edición. Además, para guiar la edición de imágenes con imaginación visual, el marco MGIE incrusta un modelo de difusión latente en su arquitectura que incluye un autoencoder variacional y aborda la difusión de ruido en el espacio latente. El objetivo principal del modelo de difusión latente es generar el objetivo latente preservando la entrada latente y seguir la orientación de edición. El proceso de difusión agrega ruido al objetivo latente en intervalos de tiempo regulares y el nivel de ruido aumenta con cada paso de tiempo.
Aprendizaje de MGIE
La siguiente figura resume el algoritmo del proceso de aprendizaje del marco MGIE propuesto.
Como se puede observar, el MLLM aprende a derivar instrucciones expresivas concisas utilizando la pérdida de instrucción. Utilizando la imaginación latente de la instrucción de imagen de entrada, el marco transforma la modalidad de la cabeza de edición y guía el modelo de difusión latente para sintetizar la imagen resultante, y aplica la pérdida de edición para el entrenamiento de difusión. Finalmente, el marco congela la mayoría de los pesos, lo que resulta en un entrenamiento de extremo a extremo eficiente en parámetros.
MGIE: Resultados y Evaluación
El marco MGIE utiliza el conjunto de datos IPr2Pr como su conjunto de datos de preentrenamiento principal, y contiene más de 1 millón de datos filtrados por CLIP con instrucciones extraídas del modelo GPT-3 y un modelo de Prompt-to-Prompt para sintetizar las imágenes. Además, el marco MGIE trata el marco InsPix2Pix construido sobre el codificador de texto CLIP con un modelo de difusión como su línea de base para tareas de edición de imágenes basadas en instrucciones. Además, el modelo MGIE también tiene en cuenta un modelo de edición de imágenes guiado por LLM adoptado para instrucciones expresivas desde entradas de instrucciones solas, pero sin percepción visual.
Análisis Cuantitativo
La siguiente figura resume los resultados de edición en un entorno de disparo cero, con los modelos entrenados solo en el conjunto de datos IPr2Pr. Para los datos GIER y EVR que involucran modificaciones al estilo de Photoshop, las instrucciones expresivas pueden revelar objetivos concretos en lugar de comandos ambiguos, lo que permite que los resultados de edición se asemejen más a las intenciones de edición.
Aunque tanto el LGIE como el MGIE se entrenan en los mismos datos que el modelo InsPix2Pix, pueden ofrecer explicaciones detalladas a través del aprendizaje con el modelo de lenguaje grande, pero el LGIE aún está limitado a una sola modalidad. Además, el marco MGIE puede proporcionar un aumento significativo en el rendimiento, ya que tiene acceso a imágenes y puede utilizarlas para derivar instrucciones explícitas.
Para evaluar el rendimiento en tareas de edición de imágenes basadas en instrucciones para propósitos específicos, los desarrolladores ajustan varios modelos en cada conjunto de datos, como se resume en la siguiente tabla.
Como se puede observar, después de adaptar las tareas de edición al estilo de Photoshop para EVR y GIER, los modelos demuestran un aumento en el rendimiento. Sin embargo, es importante destacar que, dado que el ajuste hace que las instrucciones expresivas sean más específicas del dominio, el marco MGIE experimenta un aumento significativo en el rendimiento, ya que también aprende orientación relacionada con el dominio, lo que permite al modelo de difusión demostrar escenas editadas concretas del modelo de lenguaje grande ajustado, beneficiando tanto la modificación local como la optimización local. Además, dado que la orientación visualmente consciente está más alineada con los objetivos de edición pretendidos, el marco MGIE entrega resultados superiores de manera consistente en comparación con el LGIE.
La siguiente figura demuestra la puntuación CLIP-S a través de las imágenes de entrada o de objetivo y la instrucción expresiva. Una puntuación CLIP más alta indica la relevancia de las instrucciones con la fuente de edición, y como se puede observar, el MGIE tiene una puntuación CLIP más alta en comparación con el modelo LGIE en ambas las imágenes de entrada y de salida.
Resultados Cualitativos
La siguiente imagen resume perfectamente el análisis cualitativo del marco MGIE.
Como sabemos, el marco LGIE está limitado a una sola modalidad debido a lo cual tiene una perspectiva basada en lenguaje única, y es propenso a derivar explicaciones incorrectas o irrelevantes para la edición de la imagen. Sin embargo, el marco MGIE es multimodal, y con acceso a imágenes, completa las tareas de edición y proporciona imaginación visual explícita que se alinea bien con el objetivo.
Pensamientos Finales
En este artículo, hemos hablado sobre MGIE o Edición de Imágenes Guiada por MLLM, un estudio inspirado en MLLM que tiene como objetivo evaluar los Modelos de Lenguaje Grande Multimodal y analizar cómo facilitan la edición utilizando texto o instrucciones guiadas mientras aprenden a proporcionar orientación explícita derivando instrucciones expresivas simultáneamente. El modelo de edición MGIE captura la información visual y realiza edición o manipulación utilizando un entrenamiento de extremo a extremo. En lugar de orientación ambigua y breve, el marco MGIE produce instrucciones visuales conscientes explícitas que resultan en edición de imágenes razonable.












