talón MoE-LLaVA: Mezcla de expertos para modelos de visión-lenguaje de gran tamaño - Unite.AI
Contáctanos

Inteligencia artificial

MoE-LLaVA: Mezcla de expertos para modelos de visión-lenguaje de gran tamaño

mm
Actualizado on
MoE-LLaVA: Mezcla de expertos para modelos de visión-lenguaje de gran tamaño

Los avances recientes en los modelos de lenguaje de visión amplia (LVLM) han demostrado que escalar estos marcos aumenta significativamente el rendimiento en una variedad de tareas posteriores. Los LVLM, incluidos MiniGPT, LLaMA y otros, han logrado capacidades notables al incorporar capas de proyección visual y un codificador de imágenes en su arquitectura. Al implementar estos componentes, los LVLM mejoran las capacidades de percepción visual de los modelos de lenguaje grande (LLM). El rendimiento se puede mejorar aún más aumentando el tamaño del modelo y la cantidad de parámetros, así como ampliando la escala del conjunto de datos.

Modelos como InternVL han ampliado su codificador de imágenes a más de 6 mil millones de parámetros, mientras que otros han ampliado el backend de LVLM a 13 mil millones de parámetros, logrando un rendimiento superior en una amplia gama de tareas. IDEFICS ha entrenado un LVLM con más de 80 mil millones de parámetros. Estos métodos de escalamiento han igualado o superado el rendimiento de los LLM previamente capacitados en más de 34, 70 o incluso 100 mil millones de parámetros. Sin embargo, el escalado tiene una desventaja: aumenta significativamente los costos de capacitación e inferencia. Esto se debe a que requiere que todos los parámetros estén activos para cada token en el cálculo, lo que genera altas necesidades computacionales y, en consecuencia, mayores costos.

Este artículo analiza MoE-LLaVA, una arquitectura LVLM dispersa basada en una combinación de expertos (MoE) que emplea una estrategia de capacitación eficaz, MoE-Tuning, para LVLM. MoE-Tuning aborda de manera innovadora la degradación del rendimiento en el aprendizaje disperso multimodal, lo que da como resultado un modelo con una gran cantidad de parámetros pero costos consistentes de capacitación e inferencia. La arquitectura MoE-LLaVA está diseñada para activar solo a los mejores expertos durante la implementación, manteniendo al resto inactivo.

Exploraremos el marco MoE-LLaVA, examinando su mecanismo, metodología, arquitectura y cómo se compara con los marcos líderes de generación de imágenes y videos.

MoE-LLaVA: Ampliación de modelos de lenguaje de visión amplia de forma asequible

Además de aprovechar las capas de proyección visual y los codificadores de imágenes, los modelos de lenguaje de visión grande también aumentan el tamaño del modelo al aumentar la cantidad de parámetros para mejorar el rendimiento del modelo. Algunos ejemplos notables de modelos de lenguaje de visión amplia que han seguido este enfoque para mejorar su rendimiento son MiniGPT-4, InternGPT, InternVL y otros. En aplicaciones del mundo real, escalar un modelo de lenguaje grande o un modelo de lenguaje de visión grande con datos de entrenamiento de alta calidad a menudo se convierte en una necesidad para mejorar el rendimiento del modelo. Aunque escalar el tamaño de un modelo mejora el rendimiento, también aumenta los costos computacionales de entrenar e implementar el modelo, y aumenta aún más las complicaciones y la eficiencia de implementar el modelo en dispositivos paralelos simultáneamente. Una razón importante detrás del aumento de los costos de capacitación e inferencia junto con los requisitos computacionales es que cada token en el marco exige cálculo con cada parámetro dentro del modelo conocido como modelo denso. 

Por otro lado, los escasos MoE o la combinación de modelos expertos han demostrado un escalamiento efectivo de los marcos mediante el procesamiento de datos con la ayuda de parámetros activados fijos, un enfoque que ha sido ampliamente adoptado en el campo del procesamiento del lenguaje natural. Sin embargo, usar Mixture of Expert para entrenar directamente modelos dispersos de lenguaje de visión amplia es un desafío, ya que convertir LLM en LVLM y dispersar el modelo simultáneamente da como resultado una degradación significativa del rendimiento. Para implementar una combinación de modelos para escalar LLM y LVLM, es esencial inicializar primero el LVLM para su dispersión. Para lograr esto, el marco MoE-LLaVA introduce MoE-Tuning, una estrategia de capacitación de tres fases simple pero efectiva. 

Como se muestra en la figura anterior, el proceso MoE-Tuning primero entrena un MLP o un perceptrón multicapa que adapta los tokens visuales a un modelo de lenguaje grande en la primera etapa. Luego, el marco entrena todos los parámetros del LLM para dotar previamente al modelo de lenguaje de visión amplia con capacidades generales de comprensión multimodal. Finalmente, en la tercera etapa, el marco replica FFN o Feed Forward Network como pesos de inicialización para los expertos y entrena solo la Mezcla de capas de Expertos. En general, el proceso de capacitación ayuda en la transición gradual del modelo disperso desde una inicialización LVLM a una mezcla escasa de modelos expertos. 

Una vez cubierto el proceso de capacitación, arrojemos algo de luz sobre MoE-LLaVA, una línea de base para modelos de lenguaje de visión amplia con una combinación de modelos expertos que incorpora enrutadores aprendibles y modelos MoE. En esencia, el modelo MoE-LLaVA consta de múltiples rutas dispersas, y el marco utiliza estas rutas para enviar cada token a diferentes expertos a través del enrutador que se puede aprender. Luego, los expertos activados procesan los tokens colectivamente mientras mantienen en silencio las rutas inactivas. Luego, el marco apila la mezcla de capas de codificador experto de forma iterativa para proporcionar un camino escaso hacia un LVLM más grande y potente. 

Gracias al enfoque implementado por el marco MoE-LLaVA, es capaz de superar a los modelos con un número similar de parámetros activados y superarlos por una gran diferencia en el punto de referencia de alucinaciones de objetos POPE, a pesar de tener sólo 2.2 millones de parámetros. Además, el marco MoE-LLaVA con 2.2 millones de parámetros es capaz de lograr un rendimiento comparable al marco InternVL-Chat-19B con casi 8 veces el número de parámetros activados. 

Se han implementado potentes modelos de lenguaje grande con sólidas capacidades de generalización y seguimiento de instrucciones para Modelos de lenguaje de visión grande. Los primeros LLM, como BLIP, codificaban señales visuales en una secuencia de tokens visuales, lo que les permitía adaptar la visión a los LLM con éxito utilizando múltiples capas de proyección. Al mismo tiempo, trabajos recientes se centran en mejorar el rendimiento del modelo mediante la implementación de métodos como expandir el conjunto de datos de ajuste de instrucciones, aumentar la resolución de la imagen, optimizar las estrategias de entrenamiento, alinear la entrada, mejorar los codificadores de imágenes y mucho más. Estos enfoques han ayudado a dotar a los LVLM de poderosas capacidades de comprensión visual al ampliar el conjunto de datos de ajuste de la instrucción visual y las escalas del modelo. Además, algunos LVLM también poseen capacidades de comprensión de imágenes detalladas, como comprensión de regiones y múltiples regiones, junto con capacidades de conexión a tierra de píxeles. Sin embargo, el costo computacional asociado con la ampliación de modelos y datos visuales densos suele ser significativamente alto, lo que dificulta su uso. Por otro lado, el marco MoE-LLaVA tiene como objetivo hacer que la investigación LVLM sea más asequible aprovechando las capacidades de los modelos MoE. 

MoE-LLaVA: Método y Arquitectura

En esencia, el marco MoE-LLaVA consta de una capa de proyección visual (perceptrón multicapa), un codificador de visión, bloques MoE, múltiples bloques LLM apilados y una capa de incrustación de palabras. 

Arquitectura

La siguiente tabla resume las configuraciones detalladas del marco MoE-LLaVA. 

Para una imagen RGB determinada, el codificador de visión procesa las imágenes para obtener una secuencia de tokens visuales con una capa de proyección visual que asigna la secuencia de tokens visuales a las imágenes de entrada. Las entradas de texto son procesadas por la capa de incrustación de palabras que luego las proyecta para obtener los tokens de secuencia. Al mismo tiempo, el marco MoE-LLaVA vincula el texto y los tokens visuales y los alimenta al LLM. Sin embargo, el marco solo entrena la capa de proyección visual con el modelo de lenguaje grande que consta de FFN o redes neuronales feedforward y capas de autoatención de múltiples cabezas. Finalmente, el marco aplica conexiones residuales y normalización de capas a cada bloque. 

En el futuro, el marco MoE-LLaVA replica las FFN o Feedforward Neural Networks de la segunda etapa para formar un conjunto de expertos como paso de inicialización. Al ser el enrutador una capa lineal, predice la probabilidad de que cada token se asigne a cada experto. Cada token es procesado por los mejores k expertos con la máxima probabilidad y calcula la suma ponderada en función del resultado softmax de las probabilidades. 

Ajuste MoE

MoE-Tuning es una estrategia de entrenamiento de tres fases simple pero efectiva que primero entrena un MLP o un perceptrón multicapa que adapta los tokens visuales a un modelo de lenguaje grande en la primera etapa. Luego, el marco entrena todos los parámetros del LLM para dotar previamente al modelo de lenguaje de visión amplia con capacidades generales de comprensión multimodal. Finalmente, en la tercera etapa, el marco replica FFN o Feed Forward Network como pesos de inicialización para los expertos y entrena solo la Mezcla de capas de Expertos. 

1

En la primera etapa, el objetivo principal es adaptar los tokens de imagen al modelo de lenguaje grande que permite al LLM comprender las instancias de la imagen. El marco MoE-LLaVA emplea un perceptrón multicapa para proyectar los tokens de imágenes en el dominio de entrada del modelo de lenguaje grande y trata los parches de imágenes como tokens de pseudotexto. En esta etapa, el marco MoE-LLaVA entrena al LLM para describir las imágenes y no aplica las capas MoE al LLM durante esta etapa.

2

En la segunda etapa, MoE-LLaVA intenta mejorar las capacidades y la controlabilidad del marco ajustando el modelo con datos de instrucciones multimodales. El marco MoE-LLaVA logra esto ajustando el LLM para convertirlo en un LVLM con capacidades de comprensión multimodal. El marco emplea instrucciones más complejas que incluyen tareas de reconocimiento de texto y razonamiento lógico de imágenes que requieren que el modelo posea capacidades multimodales más sólidas. Tradicionalmente, el proceso de entrenamiento para modelos densos se considera completo en este paso. Sin embargo, el marco MoE-LLaVA encontró desafíos para transformar el LLM en un LVLM simultáneamente con la dispersión del LVLM. Para contrarrestar este desafío, el marco utiliza los pesos de la etapa como inicialización para la siguiente etapa en un intento de aliviar la dificultad de aprendizaje del modelo disperso. 

3

En la tercera etapa, el modelo replica la red neuronal feedforward varias veces para inicializar a los expertos como procedimiento de inicialización. Luego, el marco introduce los tokens de texto e imagen en la mezcla de capas de expertos, después de lo cual el enrutador calcula los pesos coincidentes entre los expertos y cada token. Luego, los mejores k expertos procesan cada token y la salida agregada se calcula mediante una suma ponderada basada en los pesos del enrutador. Una vez que se activan los expertos top-k, el modelo cierra a los expertos restantes, un enfoque que dota al marco MoE-LLaVA de caminos dispersos infinitamente posibles, dotando así al modelo de una amplia gama de capacidades. 

MoE-LLaVA: Resultados y Experimentos

El marco MoE-LLaVA adopta CLIP-Large como codificador de visión con el perceptrón multicapa que consta de dos capas con una capa de activación GELU que las separa. De forma predeterminada, el marco emplea un reemplazo alternativo de las redes neuronales de avance con la mezcla de capas expertas, lo que significa que la mezcla de capas expertas comprende el 50% del número total de capas. La siguiente tabla contiene los diferentes conjuntos de datos junto con el tamaño de muestra utilizado para entrenar y evaluar el marco MoE-LLaVA. 

Respuesta a preguntas sobre imágenes de disparo cero

La siguiente figura demuestra que MoE-LLaVA es un modelo disperso con un enrutador suave basado en LVLM. El marco se evalúa en cinco puntos de referencia de respuesta a preguntas sobre imágenes y, como se puede observar, el marco MoE-LLaVA demuestra capacidades notables de comprensión de imágenes y ofrece un rendimiento comparable al marco LLaVA 5 de última generación en cinco puntos de referencia diferentes. 

Evaluación de alucinaciones de objetos

Para evaluar la alucinación de objetos, el marco MoE-LLaVA adopta el proceso de evaluación POPE, un método de consulta basado en encuestas, y los resultados se demuestran en la siguiente tabla. Como se puede observar, de todos los marcos, MoE-LLaVA ofrece los resultados más sólidos, lo que indica la capacidad del marco para generar objetos consistentes con la imagen de entrada. Además, vale la pena señalar que el marco MoE-LLaVA equilibra bien la proporción de respuestas afirmativas, lo que indica la capacidad del modelo disperso para proporcionar retroalimentación precisa para la pregunta dada. 

La siguiente imagen contiene la distribución de cargas de expertos, donde las líneas discontinuas representan una distribución bien equilibrada de tokens entre las modalidades o expertos. La primera figura ilustra la carga de trabajo de los expertos, mientras que las imágenes restantes demuestran el desempeño de los expertos en diferentes modalidades. 

Además, la siguiente figura demuestra la distribución de modalidades entre diferentes expertos. 

Consideraciones Finales:

En este artículo hemos hablado de MoE-LLaVA, una línea base para modelos de lenguaje de gran visión con una combinación de modelos expertos que incorpora enrutadores aprendibles y modelos MoE. En esencia, el modelo MoE-LLaVA consta de múltiples rutas dispersas, y el marco utiliza estas rutas para enviar cada token a diferentes expertos a través del enrutador que se puede aprender. Luego, los expertos activados procesan los tokens colectivamente mientras mantienen en silencio las rutas inactivas. Luego, el marco apila la mezcla de capas de codificador experto de forma iterativa para proporcionar un camino escaso hacia un LVLM más grande y potente. La estrategia MoE-Tuning aborda el problema común de la degradación del rendimiento en el aprendizaje de escasez multimodal de manera innovadora, construyendo en consecuencia un modelo con una cantidad significativamente grande de parámetros pero costos consistentes de capacitación e inferencia. La arquitectura del marco MoE-LLaVA se ha diseñado de manera que solo activa a los mejores expertos durante el despliegue y mantiene inactivos a los expertos restantes. 

"Ingeniero de profesión, escritor de corazón". Kunal es un escritor técnico con un profundo amor y comprensión de AI y ML, dedicado a simplificar conceptos complejos en estos campos a través de su atractiva e informativa documentación.