Connect with us

MoE-LLaVA: Mezcla de Expertos para Grandes Modelos de Visión y Lenguaje

Inteligencia artificial

MoE-LLaVA: Mezcla de Expertos para Grandes Modelos de Visión y Lenguaje

mm
MoE-LLaVA: Mixture of Experts for Large Vision-Language Models

Los avances recientes en Grandes Modelos de Visión y Lenguaje (LVLMs) han demostrado que escalar estos marcos significativamente mejora el rendimiento en una variedad de tareas downstream. Los LVLMs, incluyendo MiniGPT, LLaMA y otros, han logrado capacidades notables incorporando capas de proyección visual y un codificador de imágenes en su arquitectura. Al implementar estos componentes, los LVLMs mejoran las capacidades de percepción visual de los Grandes Modelos de Lenguaje (LLMs). El rendimiento se puede mejorar aún más aumentando el tamaño del modelo y la cantidad de parámetros, así como expandiendo la escala del conjunto de datos.

Los modelos como InternVL han expandido su codificador de imágenes a más de 6.000 millones de parámetros, mientras que otros han extendido el backend de los LVLMs a 13.000 millones de parámetros, logrando un rendimiento superior en una amplia variedad de tareas. IDEFICS ha entrenado un LVLM con más de 80.000 millones de parámetros. Estos métodos de escalado han igualado o superado el rendimiento de los LLMs preentrenados con más de 34.000, 70.000 o incluso 100.000 millones de parámetros. Sin embargo, la escalada tiene un lado negativo: aumenta significativamente los costos de entrenamiento y inferencia. Esto se debe a que requiere que todos los parámetros estén activos para cada token en el cálculo, lo que lleva a altas necesidades computacionales y, en consecuencia, a mayores costos.

Este artículo discute MoE-LLaVA, una arquitectura de modelo de visión y lenguaje grande (LVLM) basada en una mezcla de expertos (MoE) que emplea una estrategia de entrenamiento efectiva, MoE-Tuning, para LVLMs. MoE-Tuning aborda de manera innovadora la degradación del rendimiento en el aprendizaje de la esparsidad multi-modal, lo que resulta en un modelo con una gran cantidad de parámetros pero con costos de entrenamiento y inferencia consistentes. La arquitectura MoE-LLaVA está diseñada para activar solo los mejores expertos durante la implementación, manteniendo el resto inactivo.

Exploraremos el marco de MoE-LLaVA, examinando su mecanismo, metodología, arquitectura y cómo se compara con los principales marcos de generación de imágenes y videos.

MoE-LLaVA: Escalando Grandes Modelos de Visión y Lenguaje de Forma Asequible

Además de aprovechar las capas de proyección visual y los codificadores de imágenes, los Grandes Modelos de Visión y Lenguaje también escalan el tamaño del modelo aumentando la cantidad de parámetros para mejorar el rendimiento del modelo. Algunos ejemplos notables de Grandes Modelos de Visión y Lenguaje que han seguido este enfoque para mejorar su rendimiento son MiniGPT-4, InternGPT, InternVL y otros. En aplicaciones del mundo real, escalar un Gran Modelo de Lenguaje o un Gran Modelo de Visión y Lenguaje con datos de entrenamiento de alta calidad a menudo se convierte en una necesidad para mejorar el rendimiento del modelo. Aunque escalar el tamaño del modelo mejora el rendimiento, también aumenta los costos computacionales de entrenamiento y despliegue del modelo, y aumenta aún más las complicaciones y la eficiencia de implementar el modelo en dispositivos paralelos simultáneamente. Una de las principales razones detrás del aumento de los costos de entrenamiento y inferencia, junto con los requisitos computacionales, es que cada token en el marco requiere cálculos con cada parámetro dentro del modelo, conocido como el modelo denso.

Por otro lado, los modelos MoE o Mixture of Expert esparsos han demostrado un escalado efectivo de los marcos procesando datos con la ayuda de parámetros activados fijos, un enfoque que se ha adoptado ampliamente en el campo del Procesamiento de Lenguaje Natural. Sin embargo, utilizar Mixture of Expert para entrenar directamente Grandes Modelos de Visión y Lenguaje esparsos es desafiante, ya que convertir LLMs en LVLMs y esparsificar el modelo al mismo tiempo resulta en una degradación significativa del rendimiento. Para implementar Mixture of Models para escalar LLMs y LVLMs, es esencial inicializar primero el LVLM para la esparsificación. Para lograr esto, el marco de MoE-LLaVA introduce MoE-Tuning, una estrategia de entrenamiento simple pero efectiva de tres fases.

Como se muestra en la figura anterior, el proceso MoE-Tuning primero entrena una MLP o una Red Neuronal Multicapa que adapta los tokens visuales a un Gran Modelo de Lenguaje en la primera etapa. El marco luego entrena todos los parámetros de la LLM para preempoderar el Gran Modelo de Visión y Lenguaje con capacidades de comprensión multi-modal general. Finalmente, en la tercera etapa, el marco replica la Red Neuronal Feed Forward como los pesos de inicialización para los expertos y entrena solo las capas de Mixture of Expert. En general, el proceso de entrenamiento ayuda en la transición gradual del modelo esparso desde una inicialización de LVLM hasta un modelo de mezcla de expertos esparsos.

Con el proceso de entrenamiento cubierto, veamos el MoE-LLaVA, una referencia para Grandes Modelos de Visión y Lenguaje con modelos de Mixture of Expert que incorporan enrutadores aprendibles y modelos MoE. En su núcleo, el modelo MoE-LLaVA consiste en múltiples caminos esparsos, y el marco utiliza estos caminos para enviar cada token a diferentes expertos a través del enrutador aprendible. Los tokens se procesan colectivamente por los expertos activados mientras se mantienen los caminos inactivos en silencio. El marco luego apila las capas de codificador de Mixture of Expert de forma iterativa para proporcionar un camino esparsos hacia un LVLM más grande y poderoso.

Gracias al enfoque implementado por el marco de MoE-LLaVA, es capaz de superar a los modelos con una cantidad similar de parámetros activados y superarlos por una gran diferencia en la referencia de alucinación de objetos POPE, a pesar de tener solo 2.200 millones de parámetros. Además, el marco de MoE-LLaVA con 2.200 millones de parámetros es capaz de lograr un rendimiento comparable al marco InternVL-Chat-19B con casi 8 veces la cantidad de parámetros activados.

Modelos de Lenguaje Grande poderosos con fuertes capacidades de generalización y seguimiento de instrucciones han sido implementados en Grandes Modelos de Visión y Lenguaje. Los primeros LLMs como BLIP codificaron señales visuales en una secuencia de tokens visuales, lo que les permitió adaptar la visión a los LLMs con éxito utilizando múltiples capas de proyección. Al mismo tiempo, trabajos recientes se centran en mejorar el rendimiento del modelo implementando métodos como expandir el conjunto de datos de afinación de instrucciones, aumentar la resolución de la imagen, optimizar las estrategias de entrenamiento, alinear la entrada, mejorar los codificadores de imágenes y mucho más. Estos enfoques han ayudado a empoderar a los LVLMs con capacidades de comprensión visual poderosas expandiendo el conjunto de datos de afinación de instrucciones visuales y la escala del modelo. Además, algunos LVLMs también poseen capacidades de comprensión de imágenes de grano fino, como comprensión de regiones y multi-regiones, así como capacidades de anclaje de píxeles. Sin embargo, el costo computacional que acompaña a la escalada de datos visuales densos y modelos es a menudo significativamente alto, lo que hace que sea desafiante. Por otro lado, el marco de MoE-LLaVA tiene como objetivo hacer que la investigación de LVLMs sea más asequible aprovechando las capacidades de los modelos MoE.

MoE-LLaVA: Método y Arquitectura

En su núcleo, el marco de MoE-LLaVA consiste en una capa de proyección visual (Red Neuronal Multicapa), un codificador de visión, bloques MoE, múltiples bloques LLM apilados y una capa de incrustación de palabras.

Arquitectura

La siguiente tabla resume las configuraciones detalladas del marco de MoE-LLaVA.

Para una imagen RGB dada, el codificador de visión procesa las imágenes para obtener una secuencia de tokens visuales con una capa de proyección visual que mapea la secuencia de tokens visuales a las imágenes de entrada. Las entradas de texto se procesan por la capa de incrustación de palabras que luego proyecta para obtener los tokens de secuencia. Al mismo tiempo, el marco de MoE-LLaVA enlaza los tokens de texto y visuales, y los alimenta al LLM. Sin embargo, el marco solo entrena la capa de proyección visual con el LLM que consiste en Redes Neuronales Feed Forward y Capas de Autoatención Multi-Cabeza. Finalmente, el marco aplica conexiones residuales y normalización de capas a cada bloque.

Continuando, el marco de MoE-LLaVA replica la Red Neuronal Feed Forward desde la segunda etapa para formar un conjunto de expertos como el paso de inicialización. El enrutador, siendo una capa lineal, predice la probabilidad de que cada token se asigne a cada experto. Cada token se procesa por los mejores expertos con la suma ponderada calculada según los pesos del enrutador. Una vez que se activan los mejores expertos, el modelo cierra los expertos restantes, un enfoque que equipa al marco de MoE-LLaVA con caminos esparsos infinitamente posibles, equipando así al modelo con una amplia gama de capacidades.

MoE-Tuning

MoE-Tuning es una estrategia de entrenamiento simple pero efectiva de tres fases que primero entrena una MLP o una Red Neuronal Multicapa que adapta los tokens visuales a un Gran Modelo de Lenguaje en la primera etapa. El marco luego entrena todos los parámetros de la LLM para preempoderar el Gran Modelo de Visión y Lenguaje con capacidades de comprensión multi-modal general. Finalmente, en la tercera etapa, el marco replica la Red Neuronal Feed Forward como los pesos de inicialización para los expertos y entrena solo las capas de Mixture of Expert.

Etapa 1

En la primera etapa, el objetivo principal es adaptar los tokens de imagen al Gran Modelo de Lenguaje, lo que permite que el LLM comprenda las instancias en la imagen. El marco de MoE-LLaVA emplea una Red Neuronal Multicapa para proyectar los tokens de imagen en el dominio de entrada del Gran Modelo de Lenguaje y trata los parches de imagen como tokens de texto pseudo. En esta etapa, el marco de MoE-LLaVA entrena al LLM para describir las imágenes y no aplica las capas MoE al LLM durante esta etapa.

Etapa 2

En la segunda etapa, el marco de MoE-LLaVA intenta mejorar las capacidades y el control del marco ajustando el modelo con datos de instrucción multi-modal. El marco de MoE-LLaVA logra esto ajustando el LLM para convertirse en un LVLM con capacidades de comprensión multi-modal. El marco emplea instrucciones más complejas, incluyendo tareas de reconocimiento de texto y razonamiento lógico de imágenes que requieren que el modelo posea capacidades multi-modales más fuertes. Tradicionalmente, el proceso de entrenamiento para modelos densos se considera completo en este paso. Sin embargo, el marco de MoE-LLaVA encontró desafíos al transformar el LLM en un LVLM al mismo tiempo que se esparsificaba el LVLM. Para contrarrestar este desafío, el marco utiliza los pesos de la etapa como inicialización para la siguiente etapa en un intento de aliviar la dificultad de aprendizaje del modelo esparsos.

Etapa 3

En la tercera etapa, el modelo replica la Red Neuronal Feed Forward varias veces para inicializar los expertos como un procedimiento de inicialización. El marco luego alimenta los tokens de texto e imagen a las capas de Mixture of Expert, después de lo cual el enrutador calcula los pesos de coincidencia entre expertos y cada token. Cada token se procesa por los mejores expertos con la suma ponderada calculada según los pesos del enrutador. Una vez que se activan los mejores expertos, el modelo cierra los expertos restantes, un enfoque que equipa al marco de MoE-LLaVA con caminos esparsos infinitamente posibles, equipando así al modelo con una amplia gama de capacidades.

MoE-LLaVA: Resultados y Experimentos

El marco de MoE-LLaVA adopta CLIP-Large como el codificador de visión con la Red Neuronal Multicapa que consiste en dos capas con una capa de activación GELU que separa las dos. Por defecto, el marco emplea un reemplazo alternado de las Redes Neuronales Feed Forward con las capas de Mixture of Expert, lo que significa que las capas de Mixture of Expert comprenden el 50% del número total de capas. La siguiente tabla contiene los diferentes conjuntos de datos junto con su tamaño de muestra utilizados para entrenar y evaluar el marco de MoE-LLaVA.

Preguntas y Respuestas de Imágenes sin Entrenamiento

La siguiente figura demuestra que MoE-LLaVA es un modelo esparsos con un enrutador suave basado en LVLM. El marco se evalúa en 5 referencias de preguntas y respuestas de imágenes, y como se puede observar, el marco de MoE-LLaVA demuestra capacidades notables de comprensión de imágenes y entrega un rendimiento comparable al estado de la técnica del marco LLaVA 1.5 en cinco referencias diferentes.

Evaluación de Alucinación de Objetos

Para evaluar la alucinación de objetos, el marco de MoE-LLaVA adopta la referencia de evaluación POPE, un método de consulta basado en encuestas, y los resultados se demuestran en la siguiente tabla. Como se puede observar, de todos los marcos, el MoE-LLaVA entrega los resultados más fuertes, lo que indica la capacidad del marco para generar objetos consistentes con la imagen de entrada. Además, es digno de destacar que el marco de MoE-LLaVA equilibra bien la proporción de sí, lo que indica la capacidad del modelo esparsos para proporcionar comentarios precisos para la pregunta dada.

La siguiente imagen contiene la distribución de cargas de expertos, donde las líneas discontinuas representan una distribución bien equilibrada de tokens entre las modalidades o expertos. La primera figura ilustra la carga de trabajo dentro de los expertos, mientras que las imágenes restantes demuestran el rendimiento de los expertos hacia diferentes modalidades.

Además, la siguiente figura demuestra la distribución de modalidades a través de diferentes expertos.

Pensamientos Finales

En este artículo, hemos hablado sobre MoE-LLaVA, una referencia para Grandes Modelos de Visión y Lenguaje con modelos de Mixture of Expert que incorporan enrutadores aprendibles y modelos MoE. En su núcleo, el modelo MoE-LLaVA consiste en múltiples caminos esparsos, y el marco utiliza estos caminos para enviar cada token a diferentes expertos a través del enrutador aprendible. Los tokens se procesan colectivamente por los expertos activados mientras se mantienen los caminos inactivos en silencio. El marco luego apila las capas de codificador de Mixture of Expert de forma iterativa para proporcionar un camino esparsos hacia un LVLM más grande y poderoso. La estrategia de MoE-Tuning aborda de manera innovadora la degradación del rendimiento en el aprendizaje de la esparsidad multi-modal, lo que resulta en un modelo con una cantidad significativa de parámetros pero con costos de entrenamiento y inferencia consistentes. La arquitectura del marco de MoE-LLaVA ha sido diseñada de manera que solo active los mejores expertos durante la implementación, manteniendo el resto de expertos inactivos.

Un ingeniero por profesión, un escritor por corazón. Kunal es un escritor técnico con un profundo amor y comprensión de la IA y el ML, dedicado a simplificar conceptos complejos en estos campos a través de su documentación atractiva e informativa.