Inteligencia artificial

MiniGPT-5: Generación de visión y lenguaje intercalada a través de generative vokens

Publicado el 23 de octubre de 2023

Actualizado el 22 de mayo de 2026

Por

Kunal Kejriwal

Durante los últimos años, los modelos de lenguaje grande (LLM) han llamado la atención de los desarrolladores de IA en todo el mundo debido a los avances en el procesamiento de lenguaje natural (NLP). Estos modelos han establecido nuevos estándares en la generación de texto y comprensión. Sin embargo, a pesar del progreso en la generación de texto, producir imágenes que coincidan coherentemente con las narrativas textuales sigue siendo un desafío. Para abordar esto, los desarrolladores han introducido un enfoque innovador de generación de visión y lenguaje basado en “generative vokens”, que busca cerrar la brecha para obtener salidas de texto e imagen armonizadas.

La base del MiniGPT-5 es una estrategia de entrenamiento en dos etapas que se centra en la generación de datos multimodales sin descripciones, donde los datos de entrenamiento no requieren descripciones de imágenes comprehensivas. Además, para mejorar la integridad del modelo, el modelo incorpora un sistema de orientación libre de clasificador que mejora la eficacia de un voken para la generación de imágenes. En la fase inicial, el marco de trabajo MiniGPT-5 ha demostrado un rendimiento poderoso y una mejora sustancial sobre el modelo de referencia Divter entrenado en el conjunto de datos MMDialog, y ha demostrado constantemente su capacidad para entregar salidas multimodales comparables e incluso superiores en las evaluaciones humanas realizadas en el conjunto de datos VIST que resaltan su rendimiento y eficiencia en varios benchmarks.

MiniGPT5: Una Introducción

Con los desarrollos recientes de los marcos de trabajo LLM, y las aplicaciones basadas en estos marcos de trabajo LLM, la integración de características multimedia es un campo que ha experimentado un aumento en su popularidad, ya que también demuestra ser una avanzada vital que impulsa una amplia gama de aplicaciones, desde herramientas de creación de contenido de última generación hasta agentes de diálogo multimodal de vanguardia. Con la investigación y el desarrollo continuo, los modelos de lenguaje y visión están en el punto en que se trabaja para permitirles generar tanto texto como datos visuales de manera fluida. La capacidad de los LLM para generar datos multimodales de manera fluida ayudará a mejorar las interacciones en diferentes dominios, incluyendo el comercio electrónico, los medios y la realidad virtual.

En última instancia, el objetivo es permitir que los modelos sinteticen, reconozcan y respondan de manera coherente y lógica utilizando tanto modalidades textuales como visuales, lo que juega un papel crucial en la armonización del flujo de información y la creación de narrativas lógicas y coherentes. La necesidad de lograr una combinación de modalidades textuales y visuales se ve impulsada principalmente por la necesidad de interacciones multimodales más fluidas, integradas y interactivas en los LLM, y en última instancia, lograr la generación de lenguaje y visión alternada. Sin embargo, lograr interacciones multimodales integradas y interactivas en los LLM es una tarea complicada plagada de numerosos desafíos, incluyendo

Aunque los LLM actuales son extremadamente eficientes y capaces cuando se trata de la generación de texto y el procesamiento de pares de texto e imagen, no entregan un rendimiento satisfactorio cuando se trata de generar imágenes.
El desarrollo de estos modelos de visión y lenguaje depende en gran medida de datos enfocados en temas que hacen que sea desafiante para los modelos alinear el texto generado con sus imágenes correspondientes.
Finalmente, es necesario desarrollar estrategias más efectivas, ya que, a medida que aumentan sus capacidades, los requisitos de memoria de los LLM también aumentan, especialmente cuando se realizan tareas downstream.

El marco de trabajo MiniGPT-5, una técnica de generación de lenguaje y visión intercalada que introduce el concepto de “generative vokens” para abordar los desafíos mencionados anteriormente. El marco de trabajo MiniGPT-5 propone un nuevo enfoque para la generación de datos multimodales mediante la combinación de modelos de lenguaje grande con técnicas de difusión estable utilizando tokens visuales especiales. El método de entrenamiento en dos etapas utilizado por el marco de trabajo MiniGPT-5 destaca la importancia de una etapa fundamental libre de descripciones y la preparación del modelo para entregar un rendimiento eficiente incluso en escenarios con datos limitados.

Pero lo que separa al modelo MiniGPT-5 de los marcos de trabajo existentes es que las etapas genéricas del marco de trabajo MiniGPT-5 no consisten en anotaciones específicas de dominio. Además, para garantizar que el texto generado y sus imágenes correspondientes estén en armonía entre sí, el marco de trabajo MiniGPT-5 despliega una estrategia de pérdida dual que mejora aún más el enfoque del MiniGPT-5 para utilizar la orientación libre de clasificador y los generative vokens. El marco de trabajo MiniGPT-5 optimiza la eficiencia del entrenamiento y aborda las limitaciones de memoria gracias a su estrategia de ajuste de parámetros eficiente.

Para proporcionarle un resumen rápido, el marco de trabajo MiniGPT-5

Propone un método que utiliza codificadores multimodales que representan un método genérico y novedoso que históricamente ha demostrado ser más efectivo que los LLM tradicionales, y utiliza tokens generativos combinados con técnicas de difusión estable para generar salidas de lenguaje y visión intercaladas.
Propone una estrategia de entrenamiento en dos etapas para la generación de salida multimodal sin descripciones, y la inclusión de la orientación libre de clasificador durante el entrenamiento para refinar aún más la calidad de los datos generados.

El modelo MiniGPT-5 se inspira en gran medida en la investigación y el trabajo realizado en los campos de

Generación de imagen a texto: Para facilitar la transformación de descripciones textuales en sus representaciones visuales correspondientes, y modelos de texto a imagen.

MLLM o Modelos de lenguaje grande multimodal: Utilizando modelos de lenguaje grande preentrenados para explorar sus aplicaciones y eficacia en la generación de datos multimodales.
Generación multimodal con modelos de lenguaje grande: Para aumentar las capacidades de un LLM para integrar de manera fluida la generación de lenguaje y datos visuales.

MiniGPT-5: Método, Arquitectura y Marco de Trabajo

Para facilitar a los modelos de lenguaje grande con capacidades de generación de datos multimodales, el modelo MiniGPT-5 introduce un marco de trabajo que busca integrar modelos de texto a imagen y modelos de lenguaje grande multimodal preentrenados. El marco de trabajo MiniGPT-5 también introduce los “generative vokens”, tokens visuales especiales que permiten a los desarrolladores abordar las discrepancias que aparecen en diferentes dominios al poder entrenar directamente en imágenes sin procesar. Para mejorar aún más la calidad de los datos multimodales generados por los LLM, el marco de trabajo MiniGPT-5 introduce una estrategia de orientación libre de clasificador combinada con un método de entrenamiento avanzado en dos etapas. Veamos con detalle el marco de trabajo MiniGPT-5.

Etapa de Entrada Multimodal

Los desarrollos de los LLM en el pasado reciente han llevado a los LLM a tener capacidades de comprensión multimodal, lo que permite procesar imágenes como una entrada secuencial. El marco de trabajo MiniGPT-5 utiliza tokens generativos especiales para producir características visuales en un intento de expandir las capacidades de comprensión multimodal de los LLM a la generación de datos multimodales. Además, el marco de trabajo MiniGPT-5 utiliza técnicas de ajuste de parámetros eficientes y de vanguardia para el aprendizaje de salida multimodal con el marco de trabajo LLM.

Codificación Multimodal

El codificador visual preentrenado en el marco de trabajo MiniGPT-5 transforma cada imagen de entrada en una característica, y cada token de texto se incorpora como un vector, y las características de la entrada se generan cuando estas incorporaciones se concatenan entre sí.

Agregando Vokens en Modelos de Lenguaje Grande

Tradicionalmente, el vocabulario de los modelos de lenguaje grande consiste solo en tokens textuales, por lo que los desarrolladores que trabajan en el marco de trabajo MiniGPT-5 tuvieron que cerrar la brecha entre los generativos y los LLM tradicionales. El marco de trabajo MiniGPT-5 introduce un conjunto de tokens especiales como tokens generativos en el vocabulario del LLM. El marco de trabajo luego utiliza el estado de salida oculto del LLM para estos tokens especiales para la generación de imágenes posteriores, y la inserción de imágenes intercaladas se representa mediante la posición de los vokens.

Ajuste de Parámetros Eficiente o PEFT

El ajuste de parámetros eficiente o PEFT es un concepto crucial utilizado para entrenar a los LLM, y sin embargo, las aplicaciones del PEFT en entornos multimodales aún no se han explorado en gran medida. El marco de trabajo MiniGPT-5 utiliza el ajuste de parámetros eficiente sobre el codificador del marco de trabajo MiniGPT-4 para entrenar al modelo para que comprenda mejor las instrucciones o las indicaciones, y también para mejorar el rendimiento general del modelo en entornos de cero disparos o novedosos.

Generación de Salida Multimodal

Para alinear el modelo generativo con los tokens generativos de manera precisa, el marco de trabajo MiniGPT-5 formula un módulo de mapeo compacto para coincidir con las dimensiones y incorporar pérdidas supervisoras, incluyendo la pérdida de difusión latente y la pérdida del espacio de texto. La pérdida de difusión latente alinea las características visuales adecuadas con los tokens directamente, mientras que la pérdida del espacio de texto ayuda al modelo a aprender las posiciones correctas de los tokens. Dado que los tokens generativos en el marco de trabajo MiniGPT-5 están guiados directamente por las imágenes, el marco de trabajo MiniGPT-5 no requiere que las imágenes tengan una descripción comprehensiva, lo que resulta en un aprendizaje libre de descripciones.

Generación de Espacio de Texto

El marco de trabajo MiniGPT-5 sigue el método de modelado de lenguaje casual para generar tanto vokens como textos en el espacio de texto de manera conjunta, y durante la fase de entrenamiento, los desarrolladores agregan los vokens a la posición de las imágenes de verdad y entrenan al modelo para predecir vokens dentro de la generación de texto.

Mapeo de Características de Voken para Generación de Imágenes

Después de generar el espacio de texto, el marco de trabajo alinea el estado de salida oculto con el espacio de características condicionales del modelo de texto a imagen. El marco de trabajo también admite un módulo de mapeo de características que incluye un modelo de capas duales de MLP, una secuencia de decodificador aprendible y un modelo de transformador codificador-decodificador de cuatro capas.

Generación de Imágenes con LDM o Modelo de Difusión Latente

Para generar las imágenes necesarias en el proceso de desenoise, el marco de trabajo utiliza las características de mapeo como una entrada condicional. El marco de trabajo también emplea un LDM o modelo de difusión latente para la orientación, ya que durante la fase de entrenamiento, la imagen de verdad se convierte primero en una característica latente utilizando un VAE preentrenado, después de lo cual se obtiene la característica de ruido latente agregando algo de ruido.

El enfoque integral utilizado por el marco de trabajo MiniGPT-5 permite a los desarrolladores tener una comprensión coherente y generación de elementos visuales y textuales, utilizando tokens especializados, aprovechando las capacidades de los modelos preentrenados y utilizando técnicas de entrenamiento innovadoras.

MiniGPT-5: Entrenamiento y Resultados

Al trabajar en el marco de trabajo MiniGPT-5, los desarrolladores observaron que entrenar en un conjunto de datos de texto e imagen intercalados directamente puede resultar en imágenes de baja calidad y mala alineación, dada la importante diferencia de dominio entre el dominio de la imagen y el texto. Para mitigar este problema, los desarrolladores adoptaron dos estrategias de entrenamiento distintas,

La inclusión de técnicas de orientación libre de clasificador que mejoran la eficacia de los tokens generativos durante el proceso de difusión.
La segunda estrategia se divide en dos etapas
1. Una etapa de preentrenamiento inicial que se centra principalmente en alinear características generales.
2. Una etapa de ajuste fino que facilita el aprendizaje de características.

CFG u Orientación Libre de Clasificador

La idea de utilizar primero la CFG para la generación multimodal surgió como resultado de un intento de mejorar la coherencia y la lógica entre las imágenes y textos generados, y la CFG se introduce durante el proceso de difusión de texto a imagen. Este método observa que al entrenar en generación condicional y no condicional con dropout de condicionamiento, el modelo generativo puede lograr resultados condicionales mejorados.

Estrategia de Entrenamiento en Dos Etapas

Dada la importante diferencia de dominio observada entre la generación de texto e imagen y la generación de texto puro, el marco de trabajo MiniGPT-5 utiliza una estrategia de entrenamiento en dos etapas

Etapa de Alineación Unimodal o UAS,
Etapa de Aprendizaje Multimodal o MLS.

Inicialmente, el marco de trabajo alinea las características de generación de imágenes con las características de voken en conjuntos de datos de texto e imagen individuales, donde cada muestra de datos contiene solo un texto y solo una imagen, y el texto es generalmente la descripción de la imagen. En esta etapa, el marco de trabajo permite que el LLM genere vokens utilizando las descripciones como entradas del LLM.

Una vez que la UAS se ha ejecutado con éxito, el modelo puede generar imágenes para descripciones de texto individuales, pero lucha con la generación de lenguaje y visión intercalada, incluyendo pares de texto e imagen, y se requiere un razonamiento complicado para la generación de imágenes y texto. Para abordar este obstáculo, los desarrolladores han ajustado aún más el marco de trabajo MiniGPT-5 utilizando parámetros de PEFT por conjuntos de datos de visión y lenguaje intercalados como VIST. Durante esta etapa, el marco de trabajo construye tres tareas diferentes a partir del conjunto de datos

Generación de Texto Solo: Genera el texto relacionado dado la siguiente imagen.
Generación de Imagen Solo: Genera la imagen relacionada dado el siguiente texto.
Generación Multimodal: Genera pares de texto e imagen utilizando el contexto dado.

MiniGPT-5: Benchmarks y Resultados

Para evaluar su rendimiento en la generación multimodal de manera integral, el equipo de desarrollo del MiniGPT-5 compara su rendimiento con otros modelos de referencia prominentes, incluyendo Divter, GILL y el Modelo de Generación Unimodal Ajustado, y la comparación se muestra en la tabla a continuación.

El marco de trabajo MiniGPT-5 entiende que la salida multimodal puede ser significativa según el contexto, pero puede diferir de la realidad, lo que es la razón principal por la que el marco de trabajo MiniGPT-5 también incorpora entradas humanas para evaluar y determinar el rendimiento del modelo. En general, la eficacia del marco de trabajo MiniGPT-5 para tareas multimodales se mide desde tres perspectivas.

Continuidad del Lenguaje: evaluando si el contenido generado se alinea con el contexto proporcionado de manera fluida.
Calidad de la Imagen: evaluando o determinando la relevancia y claridad de la imagen generada.
Cohesión Multimodal: para determinar si la salida de texto e imagen combinada está en sintonía con el contexto inicial.

Evaluación Final de VIST

En la primera etapa de experimentos, el marco de trabajo MiniGPT-5 tiene como objetivo generar las imágenes correspondientes, y la tabla a continuación resume los resultados obtenidos de esta configuración.

Como se puede ver, el marco de trabajo MiniGPT-5 en las tres configuraciones puede superar al marco de trabajo SD2 ajustado, lo que destaca la eficacia del pipeline MiniGPT-5.

La figura anterior compara el rendimiento del marco de trabajo MiniGPT-5 con el marco de trabajo MiniGPT-4 ajustado en las métricas de rendimiento S-BERT, Rouge-L y Meteor. Los resultados indican que el uso de tokens generativos no afecta negativamente el rendimiento del marco de trabajo cuando se realizan tareas de comprensión multimodal. Los resultados también demuestran que el marco de trabajo MiniGPT-5 es capaz de utilizar instrucciones de entrada multimodales horizontales largas en una amplia gama de datos para generar imágenes de alta calidad y coherentes sin comprometer la capacidad del modelo original para la comprensión multimodal.

La tabla anterior compara el rendimiento de tres marcos de trabajo en 5.000 muestras para la generación multimodal desde los aspectos de cohesión multimodal, calidad de la imagen y continuidad del lenguaje. Como se puede observar, el marco de trabajo MiniGPT-5 supera a los otros dos modelos de referencia en más del 70% de los casos. Por otro lado, la tabla a continuación demuestra el rendimiento del marco de trabajo MiniGPT-5 en el conjunto de datos de validación CC3M para la generación de imágenes individuales. Debido a las limitaciones de datos, los desarrolladores encontraron una brecha para la alineación de voken cuando se utilizó con la difusión estable. A pesar de esta limitación, el marco de trabajo MiniGPT-5 supera al marco de trabajo de referencia GILL actual en todas las métricas.

Conclusión

En este artículo, hemos hablado sobre el MiniGPT-5, una técnica de generación de lenguaje y visión intercalada que introduce el concepto de “generative vokens” para aprovechar las capacidades de los LLM para generar datos multimodales al alinear el modelo de lenguaje grande con un modelo de texto a imagen preentrenado. Hemos hablado sobre los componentes esenciales y la arquitectura general del marco de trabajo MiniGPT-5, así como sobre los resultados que indican mejoras sustanciales en el rendimiento y la eficiencia en comparación con los modelos de referencia y los modelos de vanguardia actuales. El MiniGPT-5 aspira a establecer un nuevo estándar en el dominio de la generación de contenido y datos multimodales, y tiene como objetivo resolver los desafíos que enfrentan los modelos anteriores al intentar resolver el mismo problema.

Kunal Kejriwal

Un ingeniero por profesión, un escritor por corazón. Kunal es un escritor técnico con un profundo amor y comprensión de la IA y el ML, dedicado a simplificar conceptos complejos en estos campos a través de su documentación atractiva e informativa.