Suivez nous sur

Le dernier modèle de mélange d'experts (MoE) 8x7B de Mistral AI

Intelligence Artificielle

Le dernier modèle de mélange d'experts (MoE) 8x7B de Mistral AI

mm
Mélange d'Experts mistral ai

IA Mistral

qui est une startup de modèles open source basée à Paris a défié les normes en publiant son dernier grand modèle de langage (LLM), MoE 8x7B, via un simple lien torrentCela contraste avec l'approche traditionnelle de Google avec sa sortie Gemini, suscitant des conversations et de l'enthousiasme au sein de la communauté de l'IA.

L'approche de Mistral AI en matière de publication a toujours été atypique. Renonçant souvent aux habituels articles, blogs ou communiqués de presse, sa stratégie s'est révélée particulièrement efficace pour capter l'attention de la communauté de l'IA.

Récemment, l'entreprise a réalisé un remarquable Évaluation de 2 milliards de dollars Suite à une levée de fonds menée par Andreessen Horowitz, cette levée de fonds a été historique, établissant un record avec un financement d'amorçage de 118 millions de dollars, le plus important de l'histoire européenne. Au-delà des succès financiers, Mistral AI a activement participé aux discussions autour de la loi européenne sur l'IA, plaidant pour une simplification de la réglementation de l'IA open source.

Pourquoi le MoE 8x7B attire l'attention

Décrit comme un « GPT-4 réduit », Mixtral 8x7B utilise un cadre Mixture of Experts (MoE) avec huit experts. Chaque expert dispose de 111 milliards de paramètres, couplés à 55 milliards de paramètres d’attention partagée, pour un total de 166 milliards de paramètres par modèle. Ce choix de conception est important car il permet à seulement deux experts d'être impliqués dans l'inférence de chaque jeton, soulignant une évolution vers un traitement de l'IA plus efficace et plus ciblé.

L'un des points forts de Mixtral est sa capacitĂ© Ă  gĂ©rer un contexte Ă©tendu de 32,000 XNUMX jetons, offrant ainsi une grande latitude pour traiter des tâches complexes. Les capacitĂ©s multilingues du modèle incluent une prise en charge robuste de l'anglais, du français, de l'italien, de l'allemand et de l'espagnol, rĂ©pondant aux besoins d'une communautĂ© de dĂ©veloppeurs internationale.

La pré-formation de Mixtral porte sur des données issues du Web ouvert, avec une approche de formation simultanée des experts et des routeurs. Cette méthode garantit que le modèle est non seulement vaste dans son espace de paramètres, mais également finement adapté aux nuances des vastes données auxquelles il a été exposé.

Mixtral 8x7B obtient un score impressionnant

Mixtral 8x7B obtient un score impressionnant

Mixtral 8x7B surpasse LLaMA 2 70B et rivalise avec GPT-3.5, particulièrement remarquable dans la tâche MBPP avec un taux de réussite de 60.7 %, nettement supérieur à ses homologues. Même dans le rigoureux MT-Bench conçu pour les modèles suivant les instructions, Mixtral 8x7B obtient un score impressionnant, correspondant presque à GPT-3.5.

Comprendre le cadre de mélange d'experts (MoE)

Le modèle de mélange d'experts (MoE), bien qu'il ait récemment suscité l'intérêt grâce à son intégration dans des modèles de langage de pointe comme le MoE 8x7B de Mistral AI, repose en réalité sur des concepts fondamentaux vieux de plusieurs années. Revenons sur les origines de cette idée à travers des articles de recherche fondateurs.

Le concept du ministère de l’Environnement

Le mĂ©lange d'experts (MoE) reprĂ©sente un changement de paradigme dans l'architecture des rĂ©seaux neuronaux. Contrairement aux modèles traditionnels qui utilisent un rĂ©seau singulier et homogène pour traiter tous types de donnĂ©es, le MoE adopte une approche plus spĂ©cialisĂ©e et modulaire. Il se compose de plusieurs rĂ©seaux « experts Â», chacun conçu pour gĂ©rer des types de donnĂ©es ou de tâches spĂ©cifiques, supervisĂ©s par un « rĂ©seau de contrĂ´le Â» qui oriente dynamiquement les donnĂ©es d'entrĂ©e vers l'expert le plus appropriĂ©.

Une couche Mixture of Experts (MoE) intégrée dans un modèle de langage récurrent

Une couche Mixture of Experts (MoE) intégrée dans un modèle de langage récurrent (Source)

 

L'image ci-dessus prĂ©sente une vue d'ensemble d'une couche MoE intĂ©grĂ©e Ă  un modèle de langage. Cette couche MoE comprend essentiellement plusieurs sous-rĂ©seaux Ă  rĂ©troaction, appelĂ©s « experts Â», chacun pouvant se spĂ©cialiser dans le traitement de diffĂ©rents aspects des donnĂ©es. Un rĂ©seau de portes, mis en Ă©vidence dans le schĂ©ma, dĂ©termine la combinaison de ces experts sollicitĂ©e pour une entrĂ©e donnĂ©e. Cette activation conditionnelle permet au rĂ©seau d'augmenter significativement sa capacitĂ© sans augmentation correspondante de la demande de calcul.

Fonctionnalité de la couche MoE

En pratique, le réseau de contrôle évalue l'entrée (notée G(x) (voir le diagramme) et sélectionne un ensemble restreint d'experts pour le traiter. Cette sélection est modulée par les sorties du réseau de portes, déterminant ainsi le « vote » ou la contribution de chaque expert au résultat final. Par exemple, comme illustré dans le diagramme, seuls deux experts peuvent être choisis pour calculer le résultat pour chaque jeton d'entrée spécifique, ce qui optimise le processus en concentrant les ressources de calcul là où elles sont le plus nécessaires.

 

Encodeur de transformateur avec couches MoE (Source)

La deuxième illustration ci-dessus compare un encodeur Transformer traditionnel avec un autre augmenté par une couche MoE. L'architecture Transformer, largement connue pour son efficacité dans les tâches liées au langage, se compose traditionnellement de couches d'auto-attention et de rétroaction empilées en séquence. L’introduction de couches MoE remplace certaines de ces couches de rétroaction, permettant au modèle d’évoluer plus efficacement en termes de capacité.

Dans le modèle augmenté, les couches MoE sont réparties sur plusieurs appareils, présentant une approche parallèle aux modèles. Ceci est essentiel lors de la mise à l'échelle de très grands modèles, car cela permet de répartir la charge de calcul et les besoins en mémoire sur un cluster de périphériques, tels que les GPU ou les TPU. Ce partitionnement est essentiel pour former et déployer efficacement des modèles comportant des milliards de paramètres, comme en témoigne la formation de modèles comportant des centaines de milliards à plus d'un billion de paramètres sur des clusters de calcul à grande échelle.

L'approche Sparse MoE avec réglage des instructions sur LLM

Le papier intitulé «Mélange d'experts clairsemés (MoE) pour une modélisation linguistique évolutive» discute d'une approche innovante pour améliorer les grands modèles linguistiques (LLM) en intégrant l'architecture Mixture of Experts avec des techniques de réglage des instructions.

Il met en évidence un défi commun dans lequel les modèles MoE sont sous-performants par rapport aux modèles denses de capacité de calcul égale lorsqu'ils sont affinés pour des tâches spécifiques en raison des écarts entre la pré-formation générale et le réglage précis de tâches spécifiques.

Le réglage des instructions est une méthodologie d'entraînement qui affine les modèles pour mieux suivre les instructions en langage naturel, améliorant ainsi efficacement leurs performances. L'article suggère que les modèles MoE présentent une amélioration notable lorsqu'ils sont combinés au réglage des instructions, davantage que leurs homologues denses. Cette technique aligne les représentations pré-entraînées du modèle pour qu'il suive les instructions plus efficacement, ce qui entraîne des gains de performances significatifs.

Les chercheurs ont mené des études sur trois configurations expérimentales, révélant que les modèles MoE étaient initialement sous-performants en termes de réglage fin direct spécifique à une tâche. Cependant, lorsque le réglage des instructions est appliqué, les modèles MoE excellent, en particulier lorsqu'ils sont complétés par un réglage précis spécifique à la tâche. Cela suggère que le réglage des instructions est une étape vitale pour que les modèles MoE surpassent les modèles denses sur les tâches en aval.

L'effet du réglage des instructions sur MOE

L'effet du réglage des instructions sur MOE

Il présente également FLAN-MOE32B, un modèle qui démontre l'application réussie de ces concepts. Il surpasse notamment FLAN-PALM62B, un modèle dense, sur les tâches de référence tout en n'utilisant qu'un tiers des ressources de calcul. Cela met en valeur le potentiel des modèles MoE clairsemés combinés au réglage des instructions pour établir de nouvelles normes en matière d'efficacité et de performances LLM.

Mise en œuvre d'un mélange d'experts dans des scénarios du monde réel

La polyvalence des modèles MoE les rend idĂ©aux pour une gamme d'applications :

  • Traitement du langage naturel (NLP): Les modèles MoE peuvent gĂ©rer plus efficacement les nuances et les complexitĂ©s du langage humain, ce qui les rend idĂ©aux pour les tâches avancĂ©es de PNL.
  • Traitement d'images et de vidĂ©os : Dans les tâches nĂ©cessitant un traitement haute rĂ©solution, MoE peut gĂ©rer diffĂ©rents aspects des images ou des images vidĂ©o, amĂ©liorant ainsi Ă  la fois la qualitĂ© et la vitesse de traitement.
  • Solutions d'IA personnalisables : Les entreprises et les chercheurs peuvent adapter les modèles MoE Ă  des tâches spĂ©cifiques, conduisant ainsi Ă  des solutions d’IA plus ciblĂ©es et plus efficaces.

Défis et considérations

Si les modèles MoE offrent de nombreux avantages, ils prĂ©sentent Ă©galement des dĂ©fis uniques :

  • ComplexitĂ© de la formation et du rĂ©glage : La nature distribuĂ©e des modèles MoE peut compliquer le processus de formation, nĂ©cessitant un Ă©quilibre et un rĂ©glage minutieux des experts et du rĂ©seau de contrĂ´le.
  • La gestion des ressources: La gestion efficace des ressources informatiques entre plusieurs experts est cruciale pour maximiser les avantages des modèles MoE.

L'intégration de couches MoE dans les réseaux neuronaux, en particulier dans le domaine des modèles de langage, offre une voie vers la mise à l'échelle des modèles jusqu'à des tailles auparavant impossibles à réaliser en raison de contraintes informatiques. Le calcul conditionnel activé par les couches MoE permet une répartition plus efficace des ressources de calcul, permettant ainsi de former des modèles plus grands et plus performants. Alors que nous continuons d’exiger davantage de nos systèmes d’IA, des architectures telles que le Transformer équipé du MoE sont susceptibles de devenir la norme pour gérer des tâches complexes et à grande échelle dans divers domaines.

J'ai passé les cinq dernières années à m'immerger dans le monde fascinant du Machine Learning et du Deep Learning. Ma passion et mon expertise m'ont amené à contribuer à plus de 50 projets de génie logiciel divers, avec un accent particulier sur l'IA/ML. Ma curiosité continue m'a également attiré vers le traitement automatique du langage naturel, un domaine que j'ai hâte d'explorer davantage.