Inteligencia artificial

Mini-Gemini: Extrayendo el Potencial de los Modelos de Lenguaje de Visión Multi-Modalidad

Published April 26, 2024

Updated April 4, 2026

Kunal Kejriwal

Mini-Gemini: Mining the Potential of Multi-modality Vision Language Models

Los avances en los grandes modelos de lenguaje han acelerado significativamente el desarrollo de la procesamiento de lenguaje natural, o NLP. La introducción del marco de transformador resultó ser un hito, facilitando el desarrollo de una nueva ola de modelos de lenguaje, incluidos OPT y BERT, que exhiben una profunda comprensión lingüística. Además, la creación de GPT, o modelos de transformador preentrenados generativos, introdujo un nuevo paradigma con modelado autorregresivo y estableció un método robusto para la predicción y generación de lenguaje. El advenimiento de modelos de lenguaje como GPT-4, ChatGPT, Mixtral, LLaMA y otros ha impulsado aún más la evolución rápida, con cada modelo demostrando un rendimiento mejorado en tareas que involucran procesamiento de lenguaje complejo. Entre los métodos existentes, el ajuste de instrucciones ha surgido como una técnica clave para refinar la salida de los grandes modelos de lenguaje preentrenados, y la integración de estos modelos con herramientas específicas para tareas visuales ha resaltado su adaptabilidad y ha abierto puertas para futuras aplicaciones. Estas se extienden mucho más allá del procesamiento de texto tradicional de los LLM para incluir interacciones multi-modales.

Además, la convergencia de los modelos de procesamiento de lenguaje natural y visión ha dado lugar a los VLM, o Modelos de Lenguaje de Visión, que combinan modelos lingüísticos y de visión para lograr capacidades de comprensión y razonamiento trans-modales. La integración y el advenimiento de modelos visuales y lingüísticos han desempeñado un papel crucial en el avance de tareas que requieren tanto procesamiento de lenguaje como comprensión visual. El surgimiento de modelos revolucionarios como CLIP ha cerrado aún más la brecha entre tareas visuales y modelos de lenguaje, demostrando la factibilidad y practicidad de aplicaciones trans-modales. Marcos más recientes como LLaMA y BLIP aprovechan datos de instrucción personalizados para idear estrategias eficientes que demuestran las capacidades potentes del modelo. Además, combinar grandes modelos de lenguaje con salidas de imagen es el enfoque de la investigación multi-modal reciente, con métodos recientes que pueden omitir la generación directa al utilizar el enfoque de recuperación de imágenes para producir salidas de imagen y textos entrelazados.

Con eso dicho, y a pesar de los rápidos avances en los modelos de lenguaje de visión que facilitan el razonamiento y el diálogo visual básicos, todavía existe una brecha de rendimiento significativa entre modelos avanzados como GPT-4 y los modelos de lenguaje de visión. Mini-Gemini es un intento de reducir la brecha que existe entre los modelos de lenguaje de visión y los modelos más avanzados al explotar el potencial de los VLM para un mejor rendimiento desde tres aspectos: generación guiada por VLM, datos de alta calidad y tokens visuales de alta resolución. Para mejorar los tokens visuales, el marco de trabajo Mini-Gemini propone utilizar un codificador visual adicional para el refinamiento de alta resolución sin aumentar la cantidad de tokens visuales. El marco de trabajo Mini-Gemini también construye un conjunto de datos de alta calidad en un intento de promover la comprensión precisa de las imágenes y la generación basada en el razonamiento. En general, el marco de trabajo Mini-Gemini intenta explotar el potencial de los modelos de lenguaje de visión y apunta a empoderar a los marcos de trabajo existentes con capacidades de razonamiento, comprensión y generación de imágenes simultáneamente. Este artículo apunta a cubrir el marco de trabajo Mini-Gemini en profundidad, y exploramos el mecanismo, la metodología, la arquitectura del marco de trabajo junto con su comparación con los marcos de trabajo del estado del arte. Así que comencemos.

Mini-Gemini: Acelerando VLM Multi-Modalidad

A lo largo de los años, los grandes modelos de lenguaje han evolucionado, y ahora se jactan de capacidades multi-modales notables, y se están convirtiendo en una parte esencial de los actuales modelos de lenguaje de visión. Sin embargo, existe una brecha entre el rendimiento multi-modal de los grandes modelos de lenguaje y los modelos de lenguaje de visión, con investigaciones recientes que buscan formas de combinar la visión con grandes modelos de lenguaje utilizando imágenes y videos. Para las tareas visuales en sí, la resolución de la imagen es un elemento crucial para describir explícitamente el entorno circundante con alucinaciones visuales mínimas. Para cerrar la brecha, los investigadores están desarrollando modelos para mejorar la comprensión visual en los actuales modelos de lenguaje de visión, y dos de los enfoques más comunes son: aumentar la resolución y aumentar la cantidad de tokens visuales. Aunque aumentar la cantidad de tokens visuales con imágenes de mayor resolución mejora la comprensión visual, el impulso a menudo se acompaña de requisitos y costos computacionales aumentados, especialmente al procesar múltiples imágenes. Además, las capacidades de los modelos existentes, la calidad de los datos existentes y la aplicabilidad siguen siendo inadecuadas para un proceso de desarrollo acelerado, dejando a los investigadores con la pregunta, “¿cómo acelerar el desarrollo de los modelos de lenguaje de visión con costos aceptables”?

El marco de trabajo Mini-Gemini es un intento de responder a la pregunta, ya que intenta explorar el potencial de los modelos de lenguaje de visión desde tres aspectos: generación guiada por VLM o aplicaciones expandidas, datos de alta calidad y tokens visuales de alta resolución. En primer lugar, el marco de trabajo Mini-Gemini implementa una arquitectura ConvNet para generar candidatos de alta resolución de manera eficiente, mejorando los detalles visuales mientras mantiene la cantidad de tokens visuales para el gran modelo de lenguaje. El marco de trabajo Mini-Gemini combina conjuntos de datos de alta calidad disponibles públicamente en un intento de mejorar la calidad de los datos, e integra estas mejoras con modelos generativos y de gran lenguaje del estado del arte con el intento de mejorar el rendimiento de los VLM y mejorar la experiencia del usuario. La estrategia multifacética implementada por el marco de trabajo Mini-Gemini permite explorar las capacidades ocultas de los modelos de lenguaje de visión y logra avances significativos con restricciones de recursos evidentes.

En general, el marco de trabajo Mini-Gemini emplea un paradigma de cualquier cosa a cualquier cosa, ya que es capaz de manejar tanto texto como imágenes como entrada y salida. En particular, el marco de trabajo Mini-Gemini introduce una tubería eficiente para mejorar los tokens visuales para las imágenes de entrada, y cuenta con un sistema de codificador dual que comprende dos codificadores: el primer codificador es para imágenes de alta resolución, mientras que el segundo codificador es para incrustaciones visuales de baja calidad. Durante la inferencia, los codificadores funcionan en un mecanismo de atención, donde el codificador de baja resolución genera consultas visuales, mientras que el codificador de alta resolución proporciona claves y valores de referencia. Para aumentar la calidad de los datos, el marco de trabajo Mini-Gemini recopila y produce más datos en función de recursos públicos, incluidas instrucciones orientadas a tareas, datos relacionados con la generación y respuestas de alta resolución, con la cantidad y calidad aumentadas mejorando el rendimiento y las capacidades generales del modelo. Además, el marco de trabajo Mini-Gemini admite la generación concurrente de texto e imagen como resultado de la integración del modelo de lenguaje de visión con modelos generativos avanzados.

Mini-Gemini: Metodología y Arquitectura

En su núcleo, el marco de trabajo Mini-Gemini es conceptualmente simple y se compone de tres componentes.

El marco de trabajo emplea codificadores visuales duales para proporcionar incrustaciones visuales de baja resolución y candidatos de alta resolución.
El marco de trabajo propone implementar la minería de información de parches para realizar la minería a nivel de parche entre consultas visuales de baja resolución y regiones de alta resolución.
El marco de trabajo Mini-Gemini utiliza un gran modelo de lenguaje para casar texto con imágenes tanto para la generación como para la comprensión simultáneamente.

Codificadores Visuales Duales

El marco de trabajo Mini-Gemini puede procesar tanto entradas de texto como de imagen, con la opción de manejarlas individualmente o en combinación. Como se demuestra en la siguiente imagen, el marco de trabajo Mini-Gemini comienza el proceso empleando la interpolación bilineal para generar una imagen de baja resolución a partir de su imagen correspondiente de alta resolución.

Luego, el marco de trabajo procesa estas imágenes y las codifica en una incrustación visual multi-grilla en dos flujos de imagen paralelos. Más específicamente, el marco de trabajo Mini-Gemini mantiene la tubería tradicional para los flujos de baja resolución y emplea un Visual Transformer preentrenado con CLIP para codificar las incrustaciones visuales, lo que permite al modelo preservar la relación de largo alcance entre parches visuales para interacciones posteriores en grandes modelos de lenguaje. Para los flujos de alta resolución, el marco de trabajo Mini-Gemini adopta el codificador basado en CNN o Redes Neuronales Convolucionales para el procesamiento de imágenes de alta resolución adaptativo y eficiente.

Minería de Información de Parches

Con los codificadores visuales duales que generan las incrustaciones LR y las características HR, el marco de trabajo Mini-Gemini propone implementar la minería de información de parches con el objetivo de ampliar el potencial de los modelos de lenguaje de visión con tokens visuales mejorados. Para mantener la cantidad de tokens visuales para la eficiencia en los grandes modelos de lenguaje, el marco de trabajo Mini-Gemini toma las incrustaciones visuales de baja resolución como la consulta, y apunta a recuperar pistas visuales relevantes de los candidatos de características HR, con el marco de trabajo tomando el mapa de características HR como la clave y el valor.

Como se demuestra en la imagen anterior, la fórmula encapsula el proceso de refinar y sintetizar pistas visuales, lo que conduce a la generación de tokens visuales avanzados para el procesamiento posterior del gran modelo de lenguaje. El proceso garantiza que el marco de trabajo sea capaz de confinar la minería para cada consulta a su región de sub-región correspondiente en el mapa de características HR con la cuenta de características de píxeles, lo que resulta en una mayor eficiencia. Debido a este diseño, el marco de trabajo Mini-Gemini es capaz de extraer los detalles de las características HR sin aumentar la cantidad de tokens visuales y mantiene un equilibrio entre la factibilidad computacional y la riqueza de los detalles.

Generación de Texto e Imagen

El marco de trabajo Mini-Gemini concatena los tokens visuales y los tokens de texto de entrada como la entrada para los grandes modelos de lenguaje para la generación auto-regresiva. A diferencia de los modelos de lenguaje de visión tradicionales, el marco de trabajo Mini-Gemini admite tanto la generación de texto solo como la generación de texto-imagen como entrada y salida, es decir, cualquier inferencia a cualquier cosa, y es el resultado de esta comprensión y capacidad de razonamiento de imagen-texto destacada, el Mini-Gemini es capaz de generar imágenes de alta calidad. A diferencia de los trabajos recientes que se centran en la brecha de dominio entre las incrustaciones de texto de los modelos de generación y los grandes modelos de lenguaje, el marco de trabajo Mini-Gemini intenta optimizar la brecha en el dominio de las instrucciones del lenguaje al traducir las instrucciones del usuario en instrucciones de alta calidad que producen imágenes relevantes en contextos en modelos de difusión latente. Además, para una mejor comprensión del ajuste de instrucciones y la alineación trans-modal, el marco de trabajo Mini-Gemini recopila muestras de conjuntos de datos de alta calidad disponibles públicamente y utiliza el marco de trabajo GPT-4 turbo para construir aún más un conjunto de datos de seguimiento de instrucciones de 13K para respaldar la generación de imágenes.

Mini-Gemini: Experimentos y Resultados

Para evaluar su rendimiento, el marco de trabajo Mini-Gemini se instancia con el marco de trabajo ConvNext-L preentrenado para el codificador de visión HR y con un Visual Transformer preentrenado con CLIP para el codificador de visión LR. Para garantizar la eficiencia del entrenamiento, el marco de trabajo Mini-Gemini mantiene los dos codificadores visuales fijos y optimiza los proyectores de la minería de información de parches en todas las etapas y optimiza el gran modelo de lenguaje durante la etapa de ajuste de instrucciones en sí.

La siguiente tabla compara el rendimiento del marco de trabajo Mini-Gemini contra los modelos del estado del arte en diferentes configuraciones y también considera los modelos privados. Como se puede observar, el Mini-Gemini supera a los marcos de trabajo existentes en una amplia gama de LLM de manera consistente a resolución normal y demuestra un rendimiento superior cuando se configura con el Gemma-2B en la categoría de modelos eficientes. Además, cuando se emplean grandes modelos de lenguaje más grandes, la escalabilidad del marco de trabajo Mini-Gemini es evidente.

Para evaluar su rendimiento en alta resolución y tokens visuales extendidos, los experimentos se realizan con un tamaño de entrada de 672 para el codificador de visión LR y 1536 para el codificador visual. Como se mencionó anteriormente, el propósito principal del codificador visual HR es ofrecer información de candidatos de alta resolución. Como se puede observar, el marco de trabajo Mini-Gemini entrega un rendimiento superior cuando se compara con los marcos de trabajo del estado del arte.

Además, para evaluar la capacidad de comprensión visual del marco de trabajo Mini-Gemini en entornos del mundo real, los desarrolladores aplican el modelo a una variedad de tareas de razonamiento y comprensión como se demuestra en la siguiente imagen. Como se puede observar, el marco de trabajo Mini-Gemini es capaz de resolver una amplia gama de tareas complejas gracias a la implementación de la minería de información de parches y datos de alta calidad. Pero lo que es más impresionante es el hecho de que el marco de trabajo Mini-Gemini demuestra una adición aguda al detalle que se extiende más allá de la mera capacidad de reconocimiento y describe elementos intrincados de manera intrincada.

La siguiente figura proporciona una evaluación integral de las capacidades generativas del marco de trabajo Mini-Gemini.

Cuando se compara con modelos recientes como ChatIllusion y AnyGPT, el marco de trabajo Mini-Gemini demuestra capacidades de comprensión multi-modal más fuertes, lo que le permite generar subtítulos de texto a imagen que se alinean mejor con las instrucciones de entrada y resultan en respuestas de imagen a texto con una mayor similitud conceptual. Lo que es más impresionante es el hecho de que el marco de trabajo Mini-Gemini demuestra una notable destreza en la generación de contenido de alta calidad utilizando instrucciones multi-modelo humanas solo con datos de entrenamiento de texto, una capacidad que ilustra la interpretación semántica robusta y la alineación de imagen-texto del Mini-Gemini.

Pensamientos Finales

En este artículo, hemos hablado sobre Mini-Gemini, un marco de trabajo potente y optimizado para modelos de lenguaje de visión multi-modalidad. El objetivo principal del marco de trabajo Mini-Gemini es aprovechar las capacidades latentes de los modelos de lenguaje de visión utilizando datos de alta calidad, un diseño estratégico del marco de trabajo y un alcance funcional expandido. Mini-Gemini es un intento de reducir la brecha que existe entre los modelos de lenguaje de visión y los modelos más avanzados al explotar el potencial de los VLM para un mejor rendimiento desde tres aspectos: generación guiada por VLM, datos de alta calidad y tokens visuales de alta resolución. Para mejorar los tokens visuales, el marco de trabajo Mini-Gemini propone utilizar un codificador visual adicional para el refinamiento de alta resolución sin aumentar la cantidad de tokens visuales. El marco de trabajo Mini-Gemini también construye un conjunto de datos de alta calidad en un intento de promover la comprensión precisa de las imágenes y la generación basada en el razonamiento. En general, el marco de trabajo Mini-Gemini intenta explotar el potencial de los modelos de lenguaje de visión y apunta a empoderar a los marcos de trabajo existentes con capacidades de razonamiento, comprensión y generación de imágenes simultáneamente.

Kunal Kejriwal

Un ingeniero por profesión, un escritor por corazón. Kunal es un escritor técnico con un profundo amor y comprensión de la IA y el ML, dedicado a simplificar conceptos complejos en estos campos a través de su documentación atractiva e informativa.