Contáctenos

El último modelo 8x7B de combinación de expertos (MoE) de Mistral AI

Inteligencia Artificial

El último modelo 8x7B de combinación de expertos (MoE) de Mistral AI

mm
Mezcla de Expertos mistral ai

Mistral IA

que es una startup de modelo de código abierto con sede en París, ha desafiado las normas al lanzar su último modelo de lenguaje grande (LLM), MoE 8x7B, a través de un simple enlace de torrentEsto contrasta con el enfoque tradicional de Google con el lanzamiento de Gemini, lo que generó conversaciones y entusiasmo dentro de la comunidad de IA.

El enfoque de Mistral AI para sus lanzamientos siempre ha sido poco convencional. A menudo prescindiendo de los acompañamientos habituales de artículos, blogs o comunicados de prensa, su estrategia ha sido excepcionalmente eficaz para captar la atención de la comunidad de IA.

Recientemente, la empresa logró un notable $ 2 mil millones de valoración Tras una ronda de financiación liderada por Andreessen Horowitz, esta ronda de financiación fue histórica, estableciendo un récord con una ronda de capital semilla de 118 millones de dólares, la mayor en la historia europea. Más allá de los éxitos de financiación, Mistral AI participó activamente en los debates sobre la Ley de IA de la UE, abogando por una menor regulación de la IA de código abierto.

Por qué MoE 8x7B está llamando la atención

Descrito como un “GPT-4 reducido”, Mixtral 8x7B utiliza un marco de Mezcla de Expertos (MoE) con ocho expertos. Cada experto tiene 111 mil millones de parámetros, junto con 55 mil millones de parámetros de atención compartida, para dar un total de 166 mil millones de parámetros por modelo. Esta elección de diseño es importante, ya que permite que solo dos expertos participen en la inferencia de cada token, lo que destaca un cambio hacia un procesamiento de IA más eficiente y enfocado.

Una de las principales ventajas de Mixtral es su capacidad para gestionar un amplio contexto de 32,000 XNUMX tokens, lo que ofrece un amplio margen para gestionar tareas complejas. Las capacidades multilingües del modelo incluyen un sólido soporte para inglés, francés, italiano, alemán y español, lo que permite atender a una comunidad global de desarrolladores.

La capacitación previa de Mixtral involucra datos provenientes de la Web abierta, con un enfoque de capacitación simultánea tanto para expertos como para enrutadores. Este método garantiza que el modelo no sólo sea vasto en su espacio de parámetros, sino que también esté finamente sintonizado con los matices de la gran cantidad de datos a los que ha estado expuesto.

Mixtral 8x7B logra una puntuación impresionante

Mixtral 8x7B logra una puntuación impresionante

Mixtral 8x7B supera a LLaMA 2 70B y rivaliza con GPT-3.5, especialmente notable en la tarea MBPP con una tasa de éxito del 60.7%, significativamente más alta que sus contrapartes. Incluso en el riguroso MT-Bench diseñado para modelos que siguen instrucciones, Mixtral 8x7B logra una puntuación impresionante, casi igualando a GPT-3.5

Comprensión del marco de combinación de expertos (MoE)

El modelo de Mezcla de Expertos (MdE), si bien ha cobrado relevancia recientemente debido a su incorporación en modelos de lenguaje de vanguardia como el MdE 8x7B de Mistral AI, se basa en conceptos fundamentales que datan de hace varios años. Repasemos los orígenes de esta idea a través de artículos de investigación seminales.

El concepto de Ministerio de Educación

La Mezcla de Expertos (MoE) representa un cambio de paradigma en la arquitectura de redes neuronales. A diferencia de los modelos tradicionales, que utilizan una red única y homogénea para procesar todo tipo de datos, MoE adopta un enfoque más especializado y modular. Consiste en múltiples redes de expertos, cada una diseñada para gestionar tipos específicos de datos o tareas, supervisadas por una red de control que dirige dinámicamente los datos de entrada al experto más adecuado.

Una capa de Mezcla de Expertos (MoE) integrada dentro de un modelo de lenguaje recurrente

Una capa de Mezcla de Expertos (MoE) integrada dentro de un modelo de lenguaje recurrente (Fuente)

 

La imagen superior presenta una vista general de una capa MoE integrada en un modelo de lenguaje. En esencia, la capa MoE comprende múltiples subredes de propagación hacia adelante, denominadas "expertos", cada una con el potencial de especializarse en el procesamiento de diferentes aspectos de los datos. Una red de puertas, resaltada en el diagrama, determina qué combinación de estos expertos se utiliza para una entrada dada. Esta activación condicional permite a la red aumentar significativamente su capacidad sin un aumento correspondiente en la demanda computacional.

Funcionalidad de la capa MoE

En la práctica, la red de control evalúa la entrada (indicada como G(x) en el diagrama) y selecciona un conjunto disperso de expertos para procesarlo. Esta selección se modula mediante las salidas de la red de puertas, lo que determina eficazmente el voto o la contribución de cada experto al resultado final. Por ejemplo, como se muestra en el diagrama, solo se pueden elegir dos expertos para calcular la salida de cada token de entrada específico, lo que optimiza el proceso al concentrar los recursos computacionales donde más se necesitan.

 

Codificador de transformador con capas MoE (Fuente)

La segunda ilustración de arriba contrasta un codificador Transformer tradicional con uno aumentado con una capa MoE. La arquitectura Transformer, ampliamente conocida por su eficacia en tareas relacionadas con el lenguaje, tradicionalmente consiste en capas de autoatención y retroalimentación apiladas en secuencia. La introducción de capas MoE reemplaza algunas de estas capas de retroalimentación, lo que permite que el modelo escale con respecto a la capacidad de manera más efectiva.

En el modelo aumentado, las capas MoE están divididas en múltiples dispositivos, lo que muestra un enfoque de modelo paralelo. Esto es fundamental cuando se escala a modelos muy grandes, ya que permite la distribución de la carga computacional y los requisitos de memoria entre un grupo de dispositivos, como GPU o TPU. Esta fragmentación es esencial para entrenar e implementar modelos con miles de millones de parámetros de manera eficiente, como lo demuestra el entrenamiento de modelos con cientos de miles de millones a más de un billón de parámetros en clústeres de computación a gran escala.

El enfoque disperso del MoE con ajuste de instrucciones en LLM

El documento titulado “Mezcla dispersa de expertos (MoE) para el modelado de lenguaje escalable” analiza un enfoque innovador para mejorar los modelos de lenguajes grandes (LLM) mediante la integración de la arquitectura de mezcla de expertos con técnicas de ajuste de instrucciones.

Destaca un desafío común donde los modelos MoE tienen un rendimiento inferior en comparación con modelos densos de igual capacidad computacional cuando se ajustan para tareas específicas debido a discrepancias entre el preentrenamiento general y el ajuste fino de tareas específicas.

El ajuste de instrucciones es una metodología de entrenamiento que perfecciona los modelos para que sigan mejor las instrucciones en lenguaje natural, mejorando así su rendimiento en las tareas. El artículo sugiere que los modelos MoE presentan una mejora notable al combinarse con el ajuste de instrucciones, superior a la de sus contrapartes densas. Esta técnica alinea las representaciones preentrenadas del modelo para que sigan las instrucciones con mayor eficacia, lo que se traduce en mejoras significativas en el rendimiento.

Los investigadores realizaron estudios en tres configuraciones experimentales y revelaron que los modelos MoE inicialmente tienen un rendimiento inferior en el ajuste directo de tareas específicas. Sin embargo, cuando se aplica el ajuste de instrucciones, los modelos MoE sobresalen, particularmente cuando se complementan con ajustes específicos de la tarea. Esto sugiere que el ajuste de instrucciones es un paso vital para que los modelos MoE superen a los modelos densos en tareas posteriores.

El efecto del ajuste de instrucciones en MOE

El efecto del ajuste de instrucciones en MOE

También presenta FLAN-MOE32B, un modelo que demuestra la aplicación exitosa de estos conceptos. En particular, supera al FLAN-PALM62B, un modelo denso, en tareas de referencia y utiliza solo un tercio de los recursos computacionales. Esto muestra el potencial de los modelos MoE dispersos combinados con el ajuste de instrucciones para establecer nuevos estándares de eficiencia y rendimiento de LLM.

Implementación de una combinación de expertos en escenarios del mundo real

La versatilidad de los modelos MoE los hace ideales para una variedad de aplicaciones:

  • Procesamiento del lenguaje natural (PNL): Los modelos MoE pueden manejar los matices y las complejidades del lenguaje humano de manera más efectiva, lo que los hace ideales para tareas avanzadas de PNL.
  • Procesamiento de imágenes y videos: En tareas que requieren procesamiento de alta resolución, MoE puede gestionar diferentes aspectos de imágenes o cuadros de video, mejorando tanto la calidad como la velocidad de procesamiento.
  • Soluciones de IA personalizables: Las empresas y los investigadores pueden adaptar los modelos MoE a tareas específicas, lo que lleva a soluciones de IA más específicas y efectivas.

Desafíos y Consideraciones

Si bien los modelos MoE ofrecen numerosos beneficios, también presentan desafíos únicos:

  • Complejidad en Entrenamiento y Tuning: La naturaleza distribuida de los modelos MoE puede complicar el proceso de capacitación, lo que requiere un cuidadoso equilibrio y ajuste de los expertos y la red de activación.
  • Administracion de recursos: La gestión eficiente de los recursos computacionales entre múltiples expertos es crucial para maximizar los beneficios de los modelos MoE.

La incorporación de capas MoE en redes neuronales, especialmente en el dominio de los modelos de lenguaje, ofrece un camino hacia el escalamiento de modelos a tamaños que antes eran inviables debido a limitaciones computacionales. La computación condicional habilitada por las capas MoE permite una distribución más eficiente de los recursos computacionales, lo que permite entrenar modelos más grandes y más capaces. A medida que continuamos exigiendo más de nuestros sistemas de IA, es probable que arquitecturas como el Transformer equipado con MoE se conviertan en el estándar para manejar tareas complejas y de gran escala en varios dominios.

He pasado los últimos cinco años sumergiéndome en el fascinante mundo del aprendizaje automático y el aprendizaje profundo. Mi pasión y experiencia me han llevado a contribuir en más de 50 proyectos diversos de ingeniería de software, con un enfoque particular en AI/ML. Mi curiosidad constante también me ha atraído hacia el procesamiento del lenguaje natural, un campo que estoy ansioso por explorar más a fondo.