Intelligence Artificielle
Le dernier modèle de mélange d'experts (MoE) 8x7B de Mistral AI

qui est une startup de modèles open source basée à Paris a défié les normes en publiant son dernier grand modèle de langage (LLM), MoE 8x7B, via un simple lien torrentCela contraste avec l'approche traditionnelle de Google avec sa sortie Gemini, suscitant des conversations et de l'enthousiasme au sein de la communauté de l'IA.
L'approche de Mistral AI en matière de publication a toujours été atypique. Renonçant souvent aux habituels articles, blogs ou communiqués de presse, sa stratégie s'est révélée particulièrement efficace pour capter l'attention de la communauté de l'IA.
Récemment, l'entreprise a réalisé un remarquable Évaluation de 2 milliards de dollars Suite à une levée de fonds menée par Andreessen Horowitz, cette levée de fonds a été historique, établissant un record avec un financement d'amorçage de 118 millions de dollars, le plus important de l'histoire européenne. Au-delà des succès financiers, Mistral AI a activement participé aux discussions autour de la loi européenne sur l'IA, plaidant pour une simplification de la réglementation de l'IA open source.
Pourquoi le MoE 8x7B attire l'attention
Décrit comme un « GPT-4 réduit », Mixtral 8x7B utilise un cadre Mixture of Experts (MoE) avec huit experts. Chaque expert dispose de 111 milliards de paramètres, couplés à 55 milliards de paramètres d’attention partagée, pour un total de 166 milliards de paramètres par modèle. Ce choix de conception est important car il permet à seulement deux experts d'être impliqués dans l'inférence de chaque jeton, soulignant une évolution vers un traitement de l'IA plus efficace et plus ciblé.
L'un des points forts de Mixtral est sa capacité à gérer un contexte étendu de 32,000 XNUMX jetons, offrant ainsi une grande latitude pour traiter des tâches complexes. Les capacités multilingues du modèle incluent une prise en charge robuste de l'anglais, du français, de l'italien, de l'allemand et de l'espagnol, répondant aux besoins d'une communauté de développeurs internationale.
La pré-formation de Mixtral porte sur des données issues du Web ouvert, avec une approche de formation simultanée des experts et des routeurs. Cette méthode garantit que le modèle est non seulement vaste dans son espace de paramètres, mais également finement adapté aux nuances des vastes données auxquelles il a été exposé.

Mixtral 8x7B obtient un score impressionnant
Mixtral 8x7B surpasse LLaMA 2 70B et rivalise avec GPT-3.5, particulièrement remarquable dans la tâche MBPP avec un taux de réussite de 60.7 %, nettement supérieur à ses homologues. Même dans le rigoureux MT-Bench conçu pour les modèles suivant les instructions, Mixtral 8x7B obtient un score impressionnant, correspondant presque à GPT-3.5.
Comprendre le cadre de mélange d'experts (MoE)
Le modèle de mélange d'experts (MoE), bien qu'il ait récemment suscité l'intérêt grâce à son intégration dans des modèles de langage de pointe comme le MoE 8x7B de Mistral AI, repose en réalité sur des concepts fondamentaux vieux de plusieurs années. Revenons sur les origines de cette idée à travers des articles de recherche fondateurs.
Le concept du ministère de l’Environnement
Le mélange d'experts (MoE) représente un changement de paradigme dans l'architecture des réseaux neuronaux. Contrairement aux modèles traditionnels qui utilisent un réseau singulier et homogène pour traiter tous types de données, le MoE adopte une approche plus spécialisée et modulaire. Il se compose de plusieurs réseaux « experts », chacun conçu pour gérer des types de données ou de tâches spécifiques, supervisés par un « réseau de contrôle » qui oriente dynamiquement les données d'entrée vers l'expert le plus approprié.

Une couche Mixture of Experts (MoE) intégrée dans un modèle de langage récurrent (Source)
L'image ci-dessus présente une vue d'ensemble d'une couche MoE intégrée à un modèle de langage. Cette couche MoE comprend essentiellement plusieurs sous-réseaux à rétroaction, appelés « experts », chacun pouvant se spécialiser dans le traitement de différents aspects des données. Un réseau de portes, mis en évidence dans le schéma, détermine la combinaison de ces experts sollicitée pour une entrée donnée. Cette activation conditionnelle permet au réseau d'augmenter significativement sa capacité sans augmentation correspondante de la demande de calcul.
Fonctionnalité de la couche MoE
En pratique, le réseau de contrôle évalue l'entrée (notée G(x) (voir le diagramme) et sélectionne un ensemble restreint d'experts pour le traiter. Cette sélection est modulée par les sorties du réseau de portes, déterminant ainsi le « vote » ou la contribution de chaque expert au résultat final. Par exemple, comme illustré dans le diagramme, seuls deux experts peuvent être choisis pour calculer le résultat pour chaque jeton d'entrée spécifique, ce qui optimise le processus en concentrant les ressources de calcul là où elles sont le plus nécessaires.

Encodeur de transformateur avec couches MoE (Source)
La deuxième illustration ci-dessus compare un encodeur Transformer traditionnel avec un autre augmenté par une couche MoE. L'architecture Transformer, largement connue pour son efficacité dans les tâches liées au langage, se compose traditionnellement de couches d'auto-attention et de rétroaction empilées en séquence. L’introduction de couches MoE remplace certaines de ces couches de rétroaction, permettant au modèle d’évoluer plus efficacement en termes de capacité.
Dans le modèle augmenté, les couches MoE sont réparties sur plusieurs appareils, présentant une approche parallèle aux modèles. Ceci est essentiel lors de la mise à l'échelle de très grands modèles, car cela permet de répartir la charge de calcul et les besoins en mémoire sur un cluster de périphériques, tels que les GPU ou les TPU. Ce partitionnement est essentiel pour former et déployer efficacement des modèles comportant des milliards de paramètres, comme en témoigne la formation de modèles comportant des centaines de milliards à plus d'un billion de paramètres sur des clusters de calcul à grande échelle.
L'approche Sparse MoE avec réglage des instructions sur LLM
Le papier intitulé «Mélange d'experts clairsemés (MoE) pour une modélisation linguistique évolutive» discute d'une approche innovante pour améliorer les grands modèles linguistiques (LLM) en intégrant l'architecture Mixture of Experts avec des techniques de réglage des instructions.
Il met en évidence un défi commun dans lequel les modèles MoE sont sous-performants par rapport aux modèles denses de capacité de calcul égale lorsqu'ils sont affinés pour des tâches spécifiques en raison des écarts entre la pré-formation générale et le réglage précis de tâches spécifiques.
Le réglage des instructions est une méthodologie d'entraînement qui affine les modèles pour mieux suivre les instructions en langage naturel, améliorant ainsi efficacement leurs performances. L'article suggère que les modèles MoE présentent une amélioration notable lorsqu'ils sont combinés au réglage des instructions, davantage que leurs homologues denses. Cette technique aligne les représentations pré-entraînées du modèle pour qu'il suive les instructions plus efficacement, ce qui entraîne des gains de performances significatifs.
Les chercheurs ont mené des études sur trois configurations expérimentales, révélant que les modèles MoE étaient initialement sous-performants en termes de réglage fin direct spécifique à une tâche. Cependant, lorsque le réglage des instructions est appliqué, les modèles MoE excellent, en particulier lorsqu'ils sont complétés par un réglage précis spécifique à la tâche. Cela suggère que le réglage des instructions est une étape vitale pour que les modèles MoE surpassent les modèles denses sur les tâches en aval.
Il présente également FLAN-MOE32B, un modèle qui démontre l'application réussie de ces concepts. Il surpasse notamment FLAN-PALM62B, un modèle dense, sur les tâches de référence tout en n'utilisant qu'un tiers des ressources de calcul. Cela met en valeur le potentiel des modèles MoE clairsemés combinés au réglage des instructions pour établir de nouvelles normes en matière d'efficacité et de performances LLM.
Mise en œuvre d'un mélange d'experts dans des scénarios du monde réel
La polyvalence des modèles MoE les rend idéaux pour une gamme d'applications :
- Traitement du langage naturel (NLP): Les modèles MoE peuvent gérer plus efficacement les nuances et les complexités du langage humain, ce qui les rend idéaux pour les tâches avancées de PNL.
- Traitement d'images et de vidéos : Dans les tâches nécessitant un traitement haute résolution, MoE peut gérer différents aspects des images ou des images vidéo, améliorant ainsi à la fois la qualité et la vitesse de traitement.
- Solutions d'IA personnalisables : Les entreprises et les chercheurs peuvent adapter les modèles MoE à des tâches spécifiques, conduisant ainsi à des solutions d’IA plus ciblées et plus efficaces.
Défis et considérations
Si les modèles MoE offrent de nombreux avantages, ils présentent également des défis uniques :
- Complexité de la formation et du réglage : La nature distribuée des modèles MoE peut compliquer le processus de formation, nécessitant un équilibre et un réglage minutieux des experts et du réseau de contrôle.
- La gestion des ressources: La gestion efficace des ressources informatiques entre plusieurs experts est cruciale pour maximiser les avantages des modèles MoE.
L'intégration de couches MoE dans les réseaux neuronaux, en particulier dans le domaine des modèles de langage, offre une voie vers la mise à l'échelle des modèles jusqu'à des tailles auparavant impossibles à réaliser en raison de contraintes informatiques. Le calcul conditionnel activé par les couches MoE permet une répartition plus efficace des ressources de calcul, permettant ainsi de former des modèles plus grands et plus performants. Alors que nous continuons d’exiger davantage de nos systèmes d’IA, des architectures telles que le Transformer équipé du MoE sont susceptibles de devenir la norme pour gérer des tâches complexes et à grande échelle dans divers domaines.











