Inteligencia Artificial
MiniGPT-5: Generación de visión y lenguaje entrelazados mediante Vokens generativos

En los últimos años, los modelos de lenguajes grandes (LLM) han atraído la atención de los desarrolladores de inteligencia artificial de todo el mundo debido a los avances en el procesamiento del lenguaje natural (PLN). Estos modelos han establecido nuevos puntos de referencia en la generación y comprensión de textos. Sin embargo, a pesar del progreso en la generación de textos, producir imágenes que coincidan coherentemente con narrativas textuales sigue siendo un desafío. Para abordar esto, los desarrolladores han introducido una visión innovadora y un enfoque de generación de lenguaje basado en "vokens generativos", cerrando la brecha para resultados armonizados de texto e imagen.
La base detrás de MiniGPT-5 es una estrategia de entrenamiento de dos etapas que se centra en gran medida en la generación de datos multimodales sin descripción donde los datos de entrenamiento no requieren descripciones de imágenes completas. Además, para aumentar la integridad del modelo, el modelo incorpora un sistema de guía sin clasificador que mejora la eficacia de un token para la generación de imágenes. En la fase inicial, el marco MiniGPT-5 ha demostrado un rendimiento potente y una mejora sustancial con respecto al modelo Divter básico que está entrenado en el conjunto de datos MMDialog, y ha demostrado constantemente su capacidad para ofrecer resultados multimodales comparables e incluso superiores en las evaluaciones humanas realizadas. en el conjunto de datos VIST que destaca aún más su rendimiento y eficiencia en varios puntos de referencia.
MiniGPT5: Introducción
Con el Desarrollos recientes de los marcos LLM.y aplicaciones basadas en estos marcos LLM, la integración de funciones multimedia es un campo que ha experimentado un aumento en su popularidad, ya que también demuestra ser un avance vital que impulsa una amplia gama de aplicaciones a partir de herramientas de creación de contenido de última generación. a agente de diálogo multimodal de vanguardia. Gracias a la investigación y el desarrollo continuos, los modelos de lenguaje y visión se encuentran en el punto en el que se está trabajando para facilitarles la generación de datos visuales y de texto sin problemas. El capacidad de LLM para generar datos multimodales Seamlessly ayudará a mejorar las interacciones en diferentes dominios, incluido el comercio electrónico, los medios y la realidad virtual.

En última instancia, el objetivo es permitir que los modelos sinteticen, reconozcan y respondan de una manera consistente y lógica utilizando modalidades textuales y visuales, desempeñando así un papel crucial en la armonización del flujo de información y la creación de narrativas lógicas y consistentes. La necesidad de lograr una combinación de modalidades textuales y visuales se ve impulsada principalmente por la necesidad de interacciones multimodales más fluidas, integradas e interactivas en los LLM y, en última instancia, lograr la generación alterna de lenguaje y visión. Sin embargo, lograr interacciones multimodales integradas e interactivas en los LLM es una tarea complicada plagada de numerosos desafíos, entre ellos
- Aunque los LLM actuales son extremadamente eficientes y capaces cuando se trata de generación de texto y procesamiento de pares texto-imagen, no ofrecen un rendimiento satisfactorio cuando se trata de generar imágenes.
- El desarrollo de estos modelos de visión y lenguaje depende en gran medida de datos centrados en temas, lo que dificulta que los modelos alineen el texto generado con sus imágenes correspondientes.
- Finalmente, es necesario idear estrategias más efectivas, ya que a medida que aumentan sus capacidades, los requisitos de memoria de los LLM también aumentan, especialmente cuando realizan tareas posteriores.
El marco MiniGPT-5, una técnica de algoritmo de generación de visión y lenguaje entrelazado que introduce el concepto de "vokens generativos" en un intento de abordar los desafíos mencionados anteriormente. El marco MiniGPT-5 propone un nuevo enfoque para la generación de datos multimodales mediante la combinación de modelos de lenguaje grandes con técnicas de difusión estable mediante el uso de tokens visuales especiales. El método de entrenamiento de dos etapas propuesto utilizado por el marco MiniGPT-5 resalta la importancia de una etapa fundamental libre de descripciones y de preparar el modelo para ofrecer un rendimiento eficiente incluso en escenarios con datos limitados.

Pero lo que separa al modelo MiniGPT-5 de los marcos existentes actualmente es que las etapas genéricas del marco MiniGPT-5 no consisten en anotaciones específicas de dominio. Además, para garantizar que el texto generado y sus imágenes correspondientes estén en armonía entre sí, el marco MiniGPT-5 implementa una estrategia de pérdida dual que mejora aún más el enfoque de MiniGPT-5 de utilizar guía sin clasificador y vokens generativos. El marco MiniGPT-5 optimiza la eficiencia del entrenamiento y aborda las limitaciones de memoria gracias a su estrategia eficiente en parámetros para ajustar el modelo.
Para brindarle un resumen rápido, el marco MiniGPT-5
- Propone un método que utiliza codificadores multimodales que representan un método novedoso y genérico que históricamente ha demostrado ser más efectivo que los LLM tradicionales, y utiliza tokens generativos combinados con técnicas de difusión estable para generar lenguaje intercalado y resultados visuales.
- Propone una estrategia de capacitación de dos etapas para la generación de resultados multimodales sin descripción y la inclusión de orientación sin clasificador durante la capacitación para refinar aún más la calidad de los datos generados.
El modelo MiniGPT-5 está inspirado en gran medida en investigaciones y trabajos previos realizados en los campos de
- Generación de texto a imagen: Facilitar la transformación de descripciones textuales en sus respectivas representaciones visuales y modelos de texto a imagen.
- MLLM o modelos de lenguajes grandes multimodales: Uso de modelos LLM previamente entrenados para explorar sus aplicaciones y efectividad en generando datos multimodales.
- Generación multimodal con modelos de lenguaje grandes: Aumentar las capacidades de un LLM para integrar perfectamente la generación de datos visuales y de lenguaje.
MiniGPT-5: método, arquitectura y marco
Para facilitar modelos de lenguaje grande con capacidades de generación de datos multimodales, el modelo MiniGPT-5 presenta un marco que tiene como objetivo integrar modelos de generación de texto a imagen y modelos de lenguaje grande multimodal previamente entrenados. El marco MiniGPT-5 introduce además los “vokens generativos”, tokens visuales especiales que permiten a los desarrolladores abordar las discrepancias que aparecen en diferentes dominios al poder entrenar directamente en imágenes sin procesar. Para mejorar aún más la calidad de los datos multimodales generados por los LLM, el marco MiniGPT-5 introduce una estrategia sin clasificadores junto con un método de entrenamiento avanzado de dos etapas. Echemos un vistazo detallado al marco MiniGPT-5.
Etapa de entrada multimodal
Los desarrollos de los LLM en el pasado reciente han sacado a la luz las capacidades de comprensión multimodal de los LLM, lo que permite el procesamiento de imágenes como una entrada secuencial. El marco MiniGPT-5 utiliza vokens generativos especialmente diseñados para generar características visuales en un intento de expandir las capacidades de comprensión multimodal de LLM a la generación de datos multimodales. Además, el marco MiniGPT-5 utiliza técnicas de ajuste fino de vanguardia y eficiencia de parámetros para el aprendizaje de resultados multimodal con el marco LLM.
Codificación multimodal
El codificador visual previamente entrenado en el marco MiniGPT-5 transforma cada imagen de entrada en una característica, y cada token de texto se incrusta como un vector, y las características de solicitud de entrada se generan cuando estas incrustaciones se concatenan entre sí.
Agregar Vokens en modelos de lenguaje grandes
Tradicionalmente, el vocabulario del modelo de lenguaje grande consta únicamente de tokens textuales, por lo que los desarrolladores que trabajaron en el marco MiniGPT-5 tuvieron que cerrar la brecha entre los LLM generativos y tradicionales. El marco MiniGPT-5 introduce un conjunto de tokens especiales como tokens generativos en el vocabulario del LLM. Luego, el marco aprovecha el estado de salida oculto del LLM para estos vokens especiales para la generación posterior de imágenes, y la inserción de imágenes entrelazadas está representada por la posición de los vokens.
PEFT o ajuste fino eficiente de parámetros
PEFT o ajuste fino eficiente de parámetros es un concepto crucial que se utiliza para capacitar a los LLM y, sin embargo, las aplicaciones de PEFT en entornos multimodales aún están inexploradas en gran medida. El marco MiniGPT-5 utiliza el ajuste fino eficiente de parámetros sobre el codificador del marco MiniGPT-4 para entrenar el modelo para que comprenda mejor las indicaciones o instrucciones, e incluso mejorar el rendimiento general del modelo en entornos novedosos o de disparo cero. .
Generación de producción multimodal
Para alinear con precisión el modelo generativo con los tokens generativos, el marco MiniGPT-5 formula un módulo de mapeo compacto para hacer coincidir las dimensiones e incorporar pérdidas de supervisión, incluida la pérdida del modelo de difusión latente y la pérdida de espacio de texto. La pérdida de supervisión de difusión latente alinea las características visuales apropiadas con los tokens directamente, mientras que la pérdida de espacio de texto ayuda al modelo a aprender las posiciones correctas de los tokens. Debido a que los vokens generativos en el marco MiniGPT-5 son guiados directamente por las imágenes, el marco MiniGPT-5 no requiere que las imágenes tengan una descripción completa, lo que resulta en un aprendizaje sin descripción.
Generación de espacio de texto
El marco MiniGPT-5 sigue el método de modelado de lenguaje casual para generar vokens y textos en el espacio de texto de forma conjunta, y durante la fase de entrenamiento, los desarrolladores agregan los vokens a la posición de las imágenes reales del terreno y entrenan el modelo para predecir vokens. dentro de la generación de texto.
Mapeo de funciones de Voken para generación de imágenes
Después de generar el espacio de texto, el marco alinea el estado de salida oculto con el espacio de características condicional de texto del modelo de generación de texto a imagen. El marco también admite un módulo de mapeo de características que incluye un modelo MLP de doble capa, una secuencia de características de decodificador que se puede aprender y un modelo de transformador codificador-decodificador de cuatro capas.
Generación de imágenes con LDM o modelo de difusión latente
Para generar las imágenes requeridas en el proceso de eliminación de ruido, el marco utiliza las funciones de mapeo como entrada condicional. El marco también emplea un LDM o modelo de difusión latente como guía, ya que durante la fase de entrenamiento, la imagen real del terreno se convierte primero en una característica latente utilizando un VAE previamente entrenado, después de lo cual los desarrolladores obtienen la característica de ruido latente agregando algo de ruido. .
El enfoque integral implementado por el marco MiniGPT-5 permite a los desarrolladores tener una comprensión coherente y la generación de elementos visuales y textuales, utilizando tokens especializados, aprovechando las capacidades de modelos previamente entrenados y utilizando técnicas de capacitación innovadoras.
MiniGPT-5: Entrenamiento y Resultados
Al trabajar en el marco MiniGPT-5, los desarrolladores observaron que el entrenamiento en un conjunto de datos de imágenes y texto entrelazados limitado directamente puede dar como resultado imágenes con calidad disminuida y desalineación dado el cambio significativo de dominio entre los dominios de imagen y texto. Para mitigar este problema, los desarrolladores adoptaron dos estrategias de capacitación distintas,
- Abarcando la incorporación de técnicas de guiado sin clasificadores que potencien la efectividad de los tokens generativos durante el proceso de difusión.
- La segunda estrategia se divide a su vez en dos etapas.
- Una etapa inicial de preentrenamiento que se centra principalmente en alinear características generales.
- Una etapa de ajuste que facilita el aprendizaje de funciones.
Guía gratuita de CFG o Clasificador
La idea de aprovechar primero el CFG para la generación multimodal surgió como resultado de un intento de mejorar la coherencia y la lógica entre las imágenes y los textos generados, y el CFG se introduce durante el proceso de difusión de texto a imagen. Este método observa que al entrenar tanto en generación incondicional como condicional con abandono de condicionamiento, el modelo generativo puede lograr mejores resultados condicionales.
Estrategia de formación en dos etapas
Dado el importante cambio de dominio observado entre la generación de texto-imagen y la generación de texto puro, el marco MiniGPT-5 utiliza una estrategia de dos etapas para el entrenamiento.
- Etapa de alineación unimodal o UAS,
- Etapa de Aprendizaje Multimodal o MLS.
Inicialmente, el marco alinea las funciones de generación de imágenes con la función voken en conjuntos de datos de un solo par de texto-imagen donde cada muestra de datos contiene solo un texto y solo una imagen, y el texto suele ser el título de la imagen. En esta etapa, el marco permite al LLM generar vokens utilizando subtítulos como entradas del LLM.
Una vez que el UAS se ha ejecutado exitosamente, el modelo puede generar imágenes para descripciones de texto único, pero tiene problemas con el lenguaje intercalado y la generación de visión, incluidos pares de texto-imagen, y se requiere un razonamiento complicado para la generación de imágenes y texto. Para superar este obstáculo, los desarrolladores han perfeccionado aún más el marco MiniGPT-5 utilizando parámetros PEFT mediante conjuntos de datos de visión y lenguaje entrelazados como VIST. Durante esta etapa, el marco construye tres tareas diferentes a partir del conjunto de datos.
- Generación de solo texto: genera el texto relacionado dada la siguiente imagen.
- Generación de solo imagen: genera la imagen relacionada dado el siguiente texto.
- Generación multimodal: genera pares de imágenes de texto utilizando el contexto dado.
MiniGPT-5: puntos de referencia y resultados
Para evaluar de manera integral su desempeño en la generación multimodal, el equipo de desarrollo de MiniGPT-5 compara su desempeño con otros modelos de referencia destacados, incluidos Divter, GILL y el modelo de generación unimodal ajustado, y la comparación se demuestra en la siguiente tabla.

El marco MiniGPT-5 entiende que la salida multimodal puede ser significativa según el contexto, pero puede diferir de la realidad terrestre, que es la razón principal por la que el marco MiniGPT-5 también incorpora aportaciones humanas para evaluar y valorar el rendimiento del modelo. . En general, la eficacia del marco MiniGPT-5 para tareas multimodales se mide utilizando tres perspectivas.
- Continuidad del lenguaje: evaluar si el contenido generado se alinea perfectamente con el contexto proporcionado.
- Calidad de la imagen : evaluar o evaluar la relevancia y claridad de la imagen generada.
- Coherencia multimodal: para determinar si la salida de la imagen de texto combinada está sincronizada con el contexto inicial.
Evaluación del paso final de VIST
En la primera etapa de los experimentos, el marco MiniGPT-5 tiene como objetivo generar las imágenes correspondientes, y la siguiente tabla resume los resultados obtenidos de esta configuración.

Como puede verse, el marco MiniGPT-5 en las tres configuraciones puede superar al marco SD2 ajustado, lo que resalta la efectividad del proceso MiniGPT-5.

La figura anterior compara el rendimiento del marco MiniGPT-5 con el optimizado Marco MiniGPT-4 en las métricas de rendimiento S-BERT, Rouge-L y Meteor. Los resultados indican que el uso de vokens generativos no afecta negativamente el desempeño del marco cuando se realizan tareas de comprensión multimodal. Los resultados también demuestran que el marco MiniGPT-5 es capaz de utilizar indicaciones de entrada multimodales horizontales largas en una amplia gama de datos para generar imágenes coherentes y de alta calidad sin comprometer la capacidad del modelo original para la comprensión multimodal.

La tabla anterior compara el rendimiento de tres marcos en 5,000 muestras para la generación multimodal desde los aspectos de coherencia multimodal, calidad de imagen y continuidad del lenguaje. Como se puede observar, el marco MiniGPT-5 supera a los otros dos modelos básicos en más del 70% de los casos. Por otro lado, la siguiente tabla demuestra el rendimiento del marco MiniGPT-5 en el conjunto de datos de validación CC3M para la generación de imágenes individuales. Gracias a las limitaciones de datos, los desarrolladores encontraron una brecha para la alineación de voces cuando se usan con Stable Diffusion. A pesar de esta limitación, el marco MiniGPT-5 supera al actual marco de referencia GILL de última generación en todas las métricas.


Conclusión
En este artículo, hemos hablado de MiniGPT-5, una técnica de algoritmo de generación de visión y lenguaje entrelazado que introduce el concepto de "vokens generativos" en un intento de aprovechar las capacidades de los LLM para generar datos multimodales y alinear el modelo de lenguaje grande con un Modelo de generación de texto a imagen previamente entrenado. Hemos hablado sobre los componentes esenciales y la arquitectura general del marco MiniGPT-5 junto con los resultados que indican mejoras sustanciales en el rendimiento y la eficiencia en comparación con los modelos básicos y de última generación actuales. MiniGPT-5 aspira a establecer un nuevo punto de referencia en el dominio de generación de datos y contenido multimodal, y tiene como objetivo resolver los desafíos que enfrentan los modelos anteriores al intentar resolver el mismo problema.












