talón Mini-Gemini: Explotando el potencial de los modelos de lenguaje de visión multimodal - Unite.AI
Contáctanos

Inteligencia artificial

Mini-Gemini: Explotando el potencial de los modelos de lenguaje de visión multimodal

mm

Publicado

 on

Mini-Gemini: Explotando el potencial de los modelos de lenguaje de visión multimodal

Los avances en grandes modelos de lenguaje han acelerado significativamente el desarrollo de procesamiento natural del lenguajeo PNL. La introducción del marco transformador resultó ser un hito, ya que facilitó el desarrollo de una nueva ola de modelos de lenguaje, incluidos OPT y BERT, que exhiben una profunda comprensión lingüística. Además, el inicio de GPT, o modelos de transformadores generativos preentrenados, introdujo un nuevo paradigma con modelado autorregresivo y estableció un método sólido para la predicción y generación de lenguaje. La llegada de modelos de lenguaje como GPT-4, ChatGPT, Mixtral, LLaMA y otros ha impulsado aún más una rápida evolución, y cada modelo demuestra un rendimiento mejorado en tareas que involucran un procesamiento de lenguaje complejo. Entre los métodos existentes, el ajuste de instrucciones se ha convertido en una técnica clave para refinar el resultado de grandes modelos de lenguaje previamente entrenados, y la integración de estos modelos con herramientas específicas para tareas visuales ha resaltado su adaptabilidad y ha abierto puertas para futuras aplicaciones. Estos se extienden mucho más allá del procesamiento tradicional basado en texto de los LLM para incluir interacciones multimodales.

Además, la convergencia del procesamiento del lenguaje natural y los modelos de visión por computadora ha dado lugar a los VLM, o modelos de lenguaje de visión, que combinan modelos lingüísticos y de visión para lograr capacidades de razonamiento y comprensión intermodal. La integración y la aparición de modelos visuales y lingüísticos han desempeñado un papel crucial en el avance de tareas que requieren tanto el procesamiento del lenguaje como la comprensión visual. La aparición de modelos revolucionarios como CLIP ha cerrado aún más la brecha entre las tareas de visión y los modelos de lenguaje, demostrando la viabilidad y practicidad de las aplicaciones multimodales. Marcos más recientes como LLaMA y BLIP aprovechan datos de instrucciones personalizados para diseñar estrategias eficientes que demuestren las potentes capacidades del modelo. Además, la combinación de grandes modelos de lenguaje con resultados de imágenes es el foco de la investigación multimodal reciente, y los métodos recientes pueden evitar la generación directa utilizando el enfoque de recuperación de imágenes para producir resultados de imágenes y textos entrelazados.

Dicho esto, y a pesar de los rápidos avances en los modelos de lenguaje visual que facilitan el razonamiento básico y el diálogo visual, todavía existe una brecha de rendimiento significativa entre los modelos avanzados como GPT-4 y los modelos de lenguaje visual. Mini-Gemini es un intento de reducir la brecha que existe entre los modelos de lenguaje de visión y los modelos más avanzados aprovechando el potencial de los VLM para lograr un mejor rendimiento desde tres aspectos: generación guiada por VLM, datos de alta calidad y tokens visuales de alta resolución. Para mejorar los tokens visuales, el marco Mini-Gemini propone utilizar un codificador visual adicional para el refinamiento de alta resolución sin aumentar el recuento de tokens visuales. El marco Mini-Gemini construye además un conjunto de datos de alta calidad en un intento de promover la comprensión precisa de imágenes y la generación basada en el razonamiento. En general, el marco Mini-Gemini intenta explotar el potencial de los modelos de lenguaje de visión y tiene como objetivo potenciar los marcos existentes con capacidades generativas, de comprensión y de razonamiento de imágenes simultáneamente. Este artículo tiene como objetivo cubrir el marco Mini-Gemini en profundidad y exploramos el mecanismo, la metodología, la arquitectura del marco junto con su comparación con los marcos más avanzados. Entonces empecemos. 

Mini-Gemini: Acelerando los VLM multimodales

A lo largo de los años, los grandes modelos de lenguaje han evolucionado y ahora cuentan con notables capacidades multimodales y se están convirtiendo en una parte esencial de los modelos de lenguaje de visión actuales. Sin embargo, existe una brecha entre el rendimiento multimodal de los modelos de lenguaje grandes y los modelos de lenguaje de visión; investigaciones recientes buscan formas de combinar la visión con modelos de lenguaje grandes utilizando imágenes y videos. Para las tareas de visión en sí, la resolución de la imagen es un elemento crucial para evitar explícitamente el entorno circundante con un mínimo de alucinaciones visuales. Para cerrar la brecha, los investigadores están desarrollando modelos para mejorar la comprensión visual en la actualidad. modelos de lenguaje de visión, y dos de los enfoques más comunes son: aumentar la resolución y aumentar la cantidad de tokens visuales. Aunque aumentar la cantidad de tokens visuales con imágenes de mayor resolución mejora la comprensión visual, el aumento suele ir acompañado de mayores requisitos computacionales y costos asociados, especialmente cuando se procesan múltiples imágenes. Además, las capacidades de los modelos existentes, la calidad de los datos existentes y la aplicabilidad siguen siendo inadecuadas para un proceso de desarrollo acelerado, lo que deja a los investigadores con la pregunta: "cómo acelerar el desarrollo de modelos de lenguaje visual con costos aceptables"?

El marco Mini-Gemini es un intento de responder a la pregunta, ya que intenta explorar el potencial de los modelos de lenguaje de visión desde tres aspectos: generación guiada por VLM o aplicaciones expandidas, datos de alta calidad y tokens visuales de alta resolución. Primero, el marco Mini-Gemini implementa una arquitectura ConvNet para generar candidatos de mayor resolución de manera eficiente, mejorando los detalles visuales y manteniendo el recuento de tokens visuales para el modelo de lenguaje grande. El marco Mini-Gemini fusiona conjuntos de datos de alta calidad disponibles públicamente en un intento de mejorar la calidad de los datos e integra estas mejoras con modelos de lenguaje grandes y generativos de última generación con un intento de mejorar el rendimiento de los VLM y mejorar la experiencia del usuario. La estrategia multifacética implementada por el marco Mini-Gemini le permite explorar capacidades ocultas de los modelos de lenguaje de visión y logra avances significativos con limitaciones evidentes de recursos. 

En general, el marco Mini-Gemini emplea un paradigma cualquiera, ya que es capaz de manejar tanto texto como imágenes como entrada y salida. En particular, el marco Mini-Gemini introduce una canalización eficiente para mejorar tokens visuales para imágenes de entrada y presenta un sistema de codificador dual que consta de codificadores gemelos: el primer codificador es para imágenes de alta resolución, mientras que el segundo codificador es para imágenes de baja resolución. Incrustación visual de calidad. Durante la inferencia, los codificadores funcionan en un mecanismo de atención, donde el codificador de baja resolución genera consultas visuales, mientras que el codificador de alta resolución proporciona claves y valores como referencia. Para aumentar la calidad de los datos, el marco Mini-Gemini recopila y produce más datos basados ​​en recursos públicos, incluidas instrucciones orientadas a tareas, datos relacionados con la generación y respuestas de alta resolución, y una mayor cantidad y una calidad mejorada mejoran el rendimiento general y capacidades del modelo. Además, el marco Mini-Gemini admite la generación simultánea de texto e imágenes como resultado de la integración del modelo de lenguaje de visión con modelos generativos avanzados. 

Mini-Gemini: Metodología y Arquitectura

En esencia, el marco Mini-Gemini es conceptualmente simple y consta de tres componentes. 

  1. El marco emplea codificadores de visión dual para proporcionar incrustaciones visuales de baja resolución y candidatos de alta resolución. 
  2. El marco propone implementar la minería de información de parches para realizar la minería a nivel de parche entre consultas visuales de baja resolución y regiones de alta resolución. 
  3. El marco Mini-Gemini utiliza un modelo de lenguaje grande para unir texto con imágenes para generación y comprensión simultáneamente. 

Codificadores de doble visión

El marco Mini-Gemini puede procesar entradas de texto e imágenes, con la opción de manejarlas individualmente o en combinación. Como se demuestra en la siguiente imagen, el marco Mini-Gemini inicia el proceso empleando interpolación bilineal para generar una imagen de baja resolución a partir de su correspondiente imagen de alta resolución. 

Luego, el marco procesa estas imágenes y las codifica en una incrustación visual de múltiples cuadrículas en dos flujos de imágenes paralelos. Más específicamente, el marco Mini-Gemini mantiene la canalización tradicional para flujos de baja resolución y emplea un Visual Transformer previamente entrenado con CLIP para codificar las incrustaciones visuales, lo que facilita que el modelo preserve la relación de largo alcance entre parches visuales para interacciones posteriores en lenguaje extenso. modelos. Para los flujos de alta resolución, el marco Mini-Gemini adopta el codificador basado en CNN o redes neuronales convolucionales para un procesamiento de imágenes de alta resolución adaptable y eficiente. 

Minería de información de parche

Con los codificadores de visión dual que generan las incorporaciones de LR y las funciones de HR, el marco Mini-Gemini propone implementar la minería de información de parches con el objetivo de ampliar el potencial de los modelos de lenguaje de visión con tokens visuales mejorados. Para mantener la cantidad de tokens visuales para la eficiencia en modelos de lenguaje grandes, el marco Mini-Gemini toma las incrustaciones visuales de baja resolución como consulta y apunta a recuperar señales visuales relevantes de las características candidatas de recursos humanos, con el marco tomando el Mapa de características de recursos humanos como clave y valor.

Como se demuestra en la imagen de arriba, la fórmula encapsula el proceso de refinamiento y síntesis de señales visuales, lo que conduce a la generación de tokens visuales avanzados para el procesamiento posterior del modelo de lenguaje grande. El proceso garantiza que el marco pueda limitar la extracción de cada consulta a su subregión correspondiente en el mapa de características de recursos humanos con el recuento de características por píxeles, lo que resulta en una mayor eficiencia. Gracias a este diseño, el marco Mini-Gemini puede extraer los detalles de las funciones de recursos humanos sin mejorar el recuento de tokens visuales y mantiene un equilibrio entre la viabilidad computacional y la riqueza de detalles. 

Generación de texto e imágenes

El marco Mini-Gemini concatena los tokens visuales y los tokens de texto de entrada como entrada a los modelos de lenguaje grandes para la generación autorregresiva. A diferencia de los modelos de lenguaje de visión tradicionales, el marco Mini-Gemini admite la generación de sólo texto y de texto-imagen como entrada y salida, es decir, cualquiera a cualquier inferencia, y es el resultado de esta excelente capacidad de razonamiento y comprensión de imagen-texto, el Mini-Gemini es capaz de generar imágenes de alta calidad. A diferencia de trabajos recientes que se centran en la brecha de dominio entre las incrustaciones de texto de los modelos de generación y los modelos de lenguaje grandes, el marco Mini-Gemini intenta optimizar la brecha en el dominio de las indicaciones del lenguaje traduciendo las instrucciones del usuario en indicaciones de alta calidad que producen imágenes relevantes para el contexto. en modelos de difusión latente. Además, para una mejor comprensión del ajuste de instrucciones y la alineación entre modalidades, el marco Mini-Gemini recopila muestras de conjuntos de datos de alta calidad disponibles públicamente y utiliza el marco turbo GPT-4 para construir aún más un conjunto de datos de seguimiento de instrucciones de 13K para respaldar la generación de imágenes. 

Mini-Géminis: experimentos y resultados

Para evaluar su rendimiento, se crea una instancia del marco Mini-Gemini con el marco ConvNext-L previamente entrenado para el codificador de visión HR y con un CLIP previamente entrenado. Transformador de visión para el codificador de visión LR. Para garantizar la eficiencia del entrenamiento, el marco Mini-Gemini mantiene fijos los dos codificadores de visión, optimiza los proyectores de extracción de información de parches en todas las etapas y optimiza el modelo de lenguaje grande durante la etapa de ajuste de instrucciones. 

La siguiente tabla compara el rendimiento del marco Mini-Gemini con modelos de última generación en diferentes entornos y también toma en consideración modelos privados. Como se puede observar, el Mini-Gemini supera consistentemente los marcos existentes en una amplia gama de LLM en resolución normal y demuestra un rendimiento superior cuando se configura con el Gemma-2B en la categoría de modelos eficientes. Además, cuando se emplean modelos de lenguaje más grandes, la escalabilidad del marco Mini-Gemini es evidente. 

Para evaluar su rendimiento en tokens visuales extendidos y de alta resolución, los experimentos se realizan con un tamaño de entrada de 672 para el codificador de visión LR y 1536 para el codificador visual. Como se mencionó anteriormente, el objetivo principal del codificador visual HR es ofrecer información del candidato de alta resolución. Como se puede observar, el marco Mini-Gemini ofrece un rendimiento superior en comparación con los marcos de última generación. 

Además, para evaluar la destreza de comprensión visual del marco Mini-Gemini en entornos del mundo real, los desarrolladores aplican el modelo a una variedad de tareas de razonamiento y comprensión, como se demuestra en la siguiente imagen. Como se puede observar, el marco Mini-Gemini es capaz de resolver una amplia gama de tareas complejas gracias a la implementación de minería de información de parches y datos de alta calidad. Pero lo que es más impresionante es el hecho de que el marco Mini-Gemini demuestra una aguda adición a los detalles que se extiende más allá del mero reconocimiento y describe elementos intrincados de manera intrincada. 

La siguiente figura proporciona una evaluación integral de las habilidades generativas del marco Mini-Gemini. 

En comparación con modelos recientes como ChatIllusion y AnyGPT, el marco Mini-Gemini demuestra capacidades de comprensión multimodal más sólidas, lo que le permite generar texto a imagen subtítulos que se alinean mejor con las instrucciones de entrada y dan como resultado respuestas de imagen a texto con mayor similitud conceptual. Lo que es más impresionante es el hecho de que el marco Mini-Gemini demuestra una notable competencia en la generación de contenido de alta calidad utilizando instrucciones humanas multimodelo solo con datos de entrenamiento de texto, una capacidad que ilustra la sólida interpretación semántica y las habilidades de alineación de imagen y texto de Mini-Gemini. 

Consideraciones Finales:

En este artículo hemos hablado de Mini-Gemini, un marco potente y optimizado para modelos de lenguaje de visión multimodal. El objetivo principal del marco Mini-Gemini es aprovechar las capacidades latentes de los modelos de lenguaje de visión utilizando datos de alta calidad, un diseño estratégico del marco y un alcance funcional ampliado. Mini-Gemini es un intento de reducir la brecha que existe entre los modelos de lenguaje de visión y los modelos más avanzados aprovechando el potencial de los VLM para lograr un mejor rendimiento desde tres aspectos: generación guiada por VLM, datos de alta calidad y tokens visuales de alta resolución. Para mejorar los tokens visuales, el marco Mini-Gemini propone utilizar un codificador visual adicional para el refinamiento de alta resolución sin aumentar el recuento de tokens visuales. El marco Mini-Gemini construye además un conjunto de datos de alta calidad en un intento de promover la comprensión precisa de imágenes y la generación basada en el razonamiento. En general, el marco Mini-Gemini intenta explotar el potencial de los modelos de lenguaje de visión y tiene como objetivo potenciar los marcos existentes con capacidades generativas, de comprensión y de razonamiento de imágenes simultáneamente.

"Ingeniero de profesión, escritor de corazón". Kunal es un escritor técnico con un profundo amor y comprensión de AI y ML, dedicado a simplificar conceptos complejos en estos campos a través de su atractiva e informativa documentación.