Inteligencia artificial
Mistral AI’s Latest Mixture of Experts (MoE) 8x7B Model

que es una startup de modelos de código abierto con sede en París, ha desafiado las normas al lanzar su último modelo de lenguaje grande (LLM), MoE 8x7B, a través de un simple enlace de torrent. Esto contrasta con el enfoque tradicional de Google con su lanzamiento de Gemini, lo que genera conversaciones y emoción dentro de la comunidad de inteligencia artificial.
El enfoque de Mistral AI para los lanzamientos siempre ha sido inconvencional. A menudo prescindiendo de los acompañamientos habituales de artículos, blogs o comunicados de prensa, su estrategia ha sido únicamente efectiva para captar la atención de la comunidad de inteligencia artificial.
Recientemente, la empresa logró una valoración notable de $2 mil millones después de una ronda de financiación liderada por Andreessen Horowitz. Esta ronda de financiación fue histórica, estableciendo un récord con una ronda de semillas de $118 millones, la más grande en la historia de Europa. Más allá de los éxitos de financiación, la participación activa de Mistral AI en las discusiones en torno a la Ley de IA de la UE, abogando por una reducción de la regulación en la inteligencia artificial de código abierto.
Por qué MoE 8x7B está llamando la atención
Descrito como un “GPT-4 reducido”, Mixtral 8x7B utiliza un marco de Mixture of Experts (MoE) con ocho expertos. Cada experto tiene 111B parámetros, junto con 55B parámetros de atención compartida, para dar un total de 166B parámetros por modelo. Esta elección de diseño es significativa, ya que permite que solo dos expertos participen en la inferencia de cada token, lo que destaca un cambio hacia un procesamiento de inteligencia artificial más eficiente y enfocado.
Uno de los aspectos destacados de Mixtral es su capacidad para manejar un contexto extenso de 32,000 tokens, lo que proporciona un amplio alcance para manejar tareas complejas. Las capacidades multilingües del modelo incluyen un soporte robusto para inglés, francés, italiano, alemán y español, lo que atiende a una comunidad de desarrolladores globales.
El preentrenamiento de Mixtral implica datos obtenidos de la web abierta, con un enfoque de entrenamiento simultáneo para ambos expertos y enrutadores. Este método garantiza que el modelo no solo sea vasto en su espacio de parámetros, sino también finamente ajustado a las sutilezas de los vastos datos a los que ha sido expuesto.

Mixtral 8x7B logra una puntuación impresionante
Mixtral 8x7B supera a LLaMA 2 70B y rivaliza con GPT-3.5, especialmente notable en la tarea MBPP con una tasa de éxito del 60,7%, significativamente mayor que la de sus contrapartes. Incluso en la rigurosa MT-Bench diseñada para modelos de seguimiento de instrucciones, Mixtral 8x7B logra una puntuación impresionante, casi igualando a GPT-3.5
Entendiendo el Marco de Mixture of Experts (MoE)
El modelo de Mixture of Experts (MoE), aunque ha ganado atención recientemente debido a su incorporación en modelos de lenguaje de última generación como MoE 8x7B de Mistral AI, en realidad se basa en conceptos fundamentales que se remontan a varios años. Revisemos los orígenes de esta idea a través de papers de investigación seminales.
El Concepto de MoE
Mixture of Experts (MoE) representa un cambio de paradigma en la arquitectura de redes neuronales. A diferencia de los modelos tradicionales que utilizan una red homogénea única para procesar todos los tipos de datos, MoE adopta un enfoque más especializado y modular. Consiste en múltiples redes de “expertos”, cada una diseñada para manejar tipos específicos de datos o tareas, supervisadas por una red de “puerta” que dirige dinámicamente los datos de entrada al experto más adecuado.

Una capa de Mixture of Experts (MoE) incrustada en un modelo de lenguaje recurrente (Fuente)
La imagen anterior presenta una visión general de una capa de MoE incrustada en un modelo de lenguaje. En esencia, la capa de MoE comprende múltiples subredes feed-forward, denominadas “expertos”, cada una con el potencial de especializarse en el procesamiento de diferentes aspectos de los datos. Una red de puerta, resaltada en el diagrama, determina qué combinación de estos expertos se compromete para una entrada determinada. Esta activación condicional permite que la red aumente significativamente su capacidad sin un aumento correspondiente en la demanda computacional.
Funcionalidad de la Capa de MoE
En la práctica, la red de puerta evalúa la entrada (denotada como G(x) en el diagrama) y selecciona un conjunto disperso de expertos para procesarla. Esta selección está modulada por las salidas de la red de puerta, efectivamente determinando el “voto” o contribución de cada experto a la salida final. Por ejemplo, como se muestra en el diagrama, solo dos expertos pueden ser elegidos para calcular la salida para cada token de entrada específico, lo que hace que el proceso sea eficiente al concentrar los recursos computacionales donde son más necesarios.

Codificador de Transformer con capas de MoE (Fuente)
La segunda ilustración anterior contrasta un codificador de Transformer tradicional con uno aumentado con una capa de MoE. La arquitectura de Transformer, ampliamente conocida por su eficacia en tareas relacionadas con el lenguaje, tradicionalmente consiste en capas de autoatención y feed-forward apiladas en secuencia. La introducción de capas de MoE reemplaza algunas de estas capas feed-forward, lo que permite que el modelo se escalable en términos de capacidad de manera más efectiva.
En el modelo aumentado, las capas de MoE se fragmentan en múltiples dispositivos, lo que muestra un enfoque de modelo paralelo. Esto es fundamental cuando se escala a modelos muy grandes, ya que permite la distribución de la carga computacional y los requisitos de memoria a través de un clúster de dispositivos, como GPU o TPU. Esta fragmentación es esencial para entrenar y desplegar modelos con miles de millones de parámetros de manera eficiente, como se evidencia en el entrenamiento de modelos con cientos de miles de millones hasta más de un billón de parámetros en clústeres de cómputo a gran escala.
El Enfoque de MoE Esparsa con Ajuste de Instrucción en LLM
El paper titulado “Mixture of Experts (MoE) Esparsa para Modelado de Lenguaje Escalable” discute un enfoque innovador para mejorar los Modelos de Lenguaje Grande (LLM) integrando la arquitectura de Mixture of Experts con técnicas de ajuste de instrucción.
Destaca un desafío común donde los modelos de MoE subdesempeñan en comparación con los modelos densos de igual capacidad computacional cuando se ajustan para tareas específicas debido a discrepancias entre el preentrenamiento general y el ajuste fino de la tarea.
El ajuste de instrucción es una metodología de entrenamiento donde los modelos se afinan para seguir mejor las instrucciones del lenguaje natural, lo que efectivamente mejora su rendimiento en tareas. El paper sugiere que los modelos de MoE exhiben una mejora notable cuando se combinan con el ajuste de instrucción, más que sus contrapartes densas. Esta técnica alinea las representaciones preentrenadas del modelo para seguir instrucciones de manera más efectiva, lo que conduce a mejoras significativas en el rendimiento.
Los investigadores realizaron estudios en tres configuraciones experimentales, revelando que los modelos de MoE inicialmente subdesempeñan en el ajuste fino directo de tareas específicas. Sin embargo, cuando se aplica el ajuste de instrucción, los modelos de MoE destacan, particularmente cuando se suplementan con un ajuste fino de tareas específicas. Esto sugiere que el ajuste de instrucción es un paso vital para que los modelos de MoE superen a los modelos densos en tareas posteriores.
También introduce FLAN-MOE32B, un modelo que demuestra la aplicación exitosa de estos conceptos. Notablemente, supera a FLAN-PALM62B, un modelo denso, en tareas de referencia mientras utiliza solo un tercio de los recursos computacionales. Esto muestra el potencial de los modelos de MoE esparsos combinados con el ajuste de instrucción para establecer nuevos estándares para la eficiencia y el rendimiento de los LLM.
Implementación de Mixture of Experts en Escenarios del Mundo Real
La versatilidad de los modelos de MoE los hace ideales para una variedad de aplicaciones:
- Procesamiento de Lenguaje Natural (NLP): Los modelos de MoE pueden manejar las sutilezas y complejidades del lenguaje humano de manera más efectiva, lo que los hace ideales para tareas de NLP avanzadas.
- Procesamiento de Imágenes y Vídeo: En tareas que requieren procesamiento de alta resolución, MoE puede manejar diferentes aspectos de imágenes o cuadros de vídeo, lo que mejora tanto la calidad como la velocidad de procesamiento.
- Soluciones de Inteligencia Artificial Personalizadas: Los negocios y los investigadores pueden adaptar los modelos de MoE a tareas específicas, lo que conduce a soluciones de inteligencia artificial más dirigidas y efectivas.
Desafíos y Consideraciones
Aunque los modelos de MoE ofrecen numerosos beneficios, también presentan desafíos únicos:
- Complejidad en el Entrenamiento y Ajuste: La naturaleza distribuida de los modelos de MoE puede complicar el proceso de entrenamiento, lo que requiere un equilibrio y ajuste cuidadoso de los expertos y la red de puerta.
- Gestión de Recursos: La gestión eficiente de los recursos computacionales a través de múltiples expertos es crucial para maximizar los beneficios de los modelos de MoE.
Incorporar capas de MoE en redes neuronales, especialmente en el dominio de los modelos de lenguaje, ofrece un camino hacia la escalabilidad de modelos a tamaños previamente inalcanzables debido a las limitaciones computacionales. El cálculo condicional habilitado por las capas de MoE permite una distribución más eficiente de los recursos computacionales, lo que hace posible entrenar modelos más grandes y capaces. A medida que continuamos exigiendo más a nuestros sistemas de inteligencia artificial, arquitecturas como la de MoE equipada con Transformer probablemente se convertirán en el estándar para manejar tareas complejas y a gran escala en varios dominios.













