Intelligence artificielle

L’essor du mélange d’experts pour des modèles de langage efficaces et de grande échelle

Published March 21, 2024

Updated April 27, 2026

Aayush Mittal Mittal

Dans le monde du traitement automatique des langues (TAL), la recherche de la construction de modèles de langage plus grands et plus capables a été un facteur moteur derrière de nombreux progrès récents. Cependant, à mesure que ces modèles grandissent en taille, les exigences computationnelles pour la formation et l’inférence deviennent de plus en plus exigeantes, poussant contre les limites des ressources matérielles disponibles.

Entrez le mélange d’experts (MoE), une technique qui promet d’alléger ce fardeau computationnel tout en permettant la formation de modèles de langage plus grands et plus puissants. Ci-dessous, nous discuterons de MoE, explorerons ses origines, son fonctionnement interne et ses applications dans les modèles de langage basés sur les transformateurs.

Les origines du mélange d’experts

Le concept de mélange d’experts (MoE) peut être retracé jusqu’au début des années 1990, lorsque les chercheurs ont exploré l’idée de calcul conditionnel, où des parties d’un réseau de neurones sont activées de manière sélective en fonction des données d’entrée. L’un des travaux pionniers dans ce domaine a été le document “Mélange adaptatif d’experts locaux” de Jacobs et al. en 1991, qui a proposé un cadre d’apprentissage supervisé pour un ensemble de réseaux de neurones, chacun se spécialisant dans une région différente de l’espace d’entrée.

L’idée fondamentale derrière MoE est d’avoir plusieurs réseaux d'”experts”, chacun responsable du traitement d’un sous-ensemble des données d’entrée. Un mécanisme de contrôle, généralement un réseau de neurones lui-même, détermine quel(s) expert(s) doit (doivent) traiter une entrée donnée. Cette approche permet au modèle d’allouer ses ressources computationnelles de manière plus efficace en activant uniquement les experts pertinents pour chaque entrée, plutôt que d’employer la pleine capacité du modèle pour chaque entrée.

Au fil des ans, divers chercheurs ont exploré et étendu l’idée de calcul conditionnel, conduisant à des développements tels que les MoE hiérarchiques, les approximations de bas rang pour le calcul conditionnel et des techniques pour estimer les gradients à travers les neurones stochastiques et les fonctions d’activation à seuil dur.

Mélange d’experts dans les transformateurs

Mélange d’experts

Bien que l’idée de MoE soit ancienne, son application aux modèles de langage basés sur les transformateurs est relativement récente. Les transformateurs, qui sont devenus la norme pour les modèles de langage à l’état de l’art, sont composés de plusieurs couches, chacune contenant un mécanisme d’auto-attention et un réseau de neurones feed-forward (FFN).

L’innovation clé dans l’application de MoE aux transformateurs est de remplacer les couches FFN denses par des couches MoE éparse, chacune consistant en plusieurs experts FFN et un mécanisme de contrôle. Le mécanisme de contrôle détermine quel(s) expert(s) doit (doivent) traiter chaque jeton d’entrée, permettant au modèle d’activer de manière sélective uniquement un sous-ensemble d’experts pour une séquence d’entrée donnée.

L’un des premiers travaux qui a démontré le potentiel de MoE dans les transformateurs a été le document “Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer” de Shazeer et al. en 2017. Ce travail a introduit le concept d’une couche MoE à portail éparse, qui a employé un mécanisme de contrôle qui a ajouté de la parcimonie et du bruit au processus de sélection d’experts, garantissant que seul un sous-ensemble d’experts était activé pour chaque entrée.

Depuis, plusieurs autres travaux ont encore avancé l’application de MoE aux transformateurs, en abordant des défis tels que l’instabilité de formation, l’équilibrage de charge et l’inférence efficace. Des exemples notables incluent le Switch Transformer (Fedus et al., 2021), ST-MoE (Zoph et al., 2022) et GLaM (Du et al., 2022).

Avantages du mélange d’experts pour les modèles de langage

Le principal avantage de l’emploi de MoE dans les modèles de langage est la capacité de faire évoluer la taille du modèle tout en maintenant un coût computationnel relativement constant pendant l’inférence. En activant de manière sélective uniquement un sous-ensemble d’experts pour chaque jeton d’entrée, les modèles MoE peuvent atteindre la puissance expressive de modèles denses beaucoup plus grands tout en nécessitant nettement moins de calcul.

Par exemple, considérons un modèle de langage avec une couche FFN dense de 7 milliards de paramètres. Si nous remplaçons cette couche par une couche MoE composée de huit experts, chacun avec 7 milliards de paramètres, le nombre total de paramètres augmente à 56 milliards. Cependant, pendant l’inférence, si nous n’activons que deux experts par jeton, le coût computationnel est équivalent à celui d’un modèle dense de 14 milliards de paramètres, car il effectue deux multiplications de matrice de 7 milliards de paramètres.

Cette efficacité computationnelle pendant l’inférence est particulièrement précieuse dans les scénarios de déploiement où les ressources sont limitées, tels que les appareils mobiles ou les environnements de calcul de bord. De plus, les exigences computationnelles réduites pendant la formation peuvent conduire à d’importantes économies d’énergie et à une empreinte carbone plus faible, s’alignant sur l’accent croissant mis sur les pratiques d’IA durables.

Défis et considérations

Bien que les modèles MoE offrent des avantages convaincants, leur adoption et leur déploiement sont également accompagnés de plusieurs défis et considérations :

Instabilité de formation : Les modèles MoE sont connus pour être plus sujets à l’instabilité de formation par rapport à leurs homologues denses. Ce problème provient de la nature éparse et conditionnelle des activations d’experts, qui peut entraîner des difficultés dans la propagation des gradients et la convergence. Des techniques telles que la perte z du routeur (Zoph et al., 2022) ont été proposées pour atténuer ces instabilités, mais des recherches supplémentaires sont toujours nécessaires.
Ajustement fin et surapprentissage : Les modèles MoE ont tendance à surapprendre plus facilement pendant l’ajustement fin, en particulier lorsque la tâche en aval a un ensemble de données relativement petit. Ce comportement est attribué à la capacité accrue et à la parcimonie des modèles MoE, qui peuvent conduire à une spécialisation excessive sur les données d’entraînement. Des stratégies d’ajustement fin et de régularisation soigneuses sont nécessaires pour atténuer ce problème.
Exigences de mémoire : Bien que les modèles MoE puissent réduire les coûts computationnels pendant l’inférence, ils ont souvent des exigences de mémoire plus élevées par rapport aux modèles denses de taille similaire. En effet, tous les poids d’experts doivent être chargés en mémoire, même si seul un sous-ensemble est activé pour chaque entrée. Les contraintes de mémoire peuvent limiter la scalabilité des modèles MoE sur les appareils à ressources limitées.
Équilibrage de charge : Pour atteindre une efficacité computationnelle optimale, il est crucial d’équilibrer la charge entre les experts, en veillant à ce qu’aucun expert ne soit surchargé tandis que d’autres restent sous-utilisés. Cet équilibrage de charge est généralement réalisé par des pertes auxiliaires pendant la formation et un réglage soigneux du facteur de capacité, qui détermine le nombre maximum de jetons qui peuvent être affectés à chaque expert.
Surcharge de communication : Dans les scénarios de formation et d’inférence distribués, les modèles MoE peuvent introduire une surcharge de communication supplémentaire en raison de la nécessité d’échanger des informations d’activation et de gradient entre les experts résidant sur différents appareils ou accélérateurs. Des stratégies de communication efficaces et une conception de modèle tenant compte du matériel sont essentielles pour atténuer cette surcharge.

Malgré ces défis, les avantages potentiels des modèles MoE pour permettre des modèles de langage plus grands et plus capables ont suscité des efforts de recherche importants pour aborder et atténuer ces problèmes.

Exemple : Mixtral 8x7B et GLaM

Pour illustrer l’application pratique de MoE dans les modèles de langage, considérons deux exemples notables : Mixtral 8x7B et GLaM.

Mixtral 8x7B est une variante MoE du modèle de langage Mistral, développé par Anthropic. Il se compose de huit experts, chacun avec 7 milliards de paramètres, ce qui donne un total de 56 milliards de paramètres. Cependant, pendant l’inférence, seuls deux experts sont activés par jeton, réduisant ainsi le coût computationnel à celui d’un modèle dense de 14 milliards de paramètres.

Mixtral 8x7B a démontré des performances impressionnantes, surpassant le modèle Llama de 70 milliards de paramètres tout en offrant des temps d’inférence nettement plus rapides. Une version ajustée de Mixtral 8x7B, appelée Mixtral-8x7B-Instruct-v0.1, a également été publiée, améliorant encore ses capacités à suivre les instructions en langage naturel.

Un autre exemple notable est GLaM (Google Language Model), un grand modèle MoE développé par Google. GLaM emploie une architecture de transformateur décodeur-seulement et a été formé sur un énorme ensemble de données de 1,6 billion de jetons. Le modèle atteint des performances impressionnantes sur les évaluations à quelques exemples et à un seul exemple, égalant la qualité de GPT-3 tout en utilisant seulement un tiers de l’énergie nécessaire pour former GPT-3.

Le succès de GLaM peut être attribué à son architecture MoE efficace, qui a permis la formation d’un modèle avec un nombre énorme de paramètres tout en maintenant des exigences computationnelles raisonnables. Le modèle a également démontré le potentiel des modèles MoE pour être plus économes en énergie et plus respectueux de l’environnement par rapport à leurs homologues denses.

L’architecture Grok-1

GROK MÉLANGE D’EXPERTS

Grok-1 est un modèle de langage basé sur les transformateurs avec une architecture unique conçue pour maximiser l’efficacité et les performances. Décomposons les spécifications clés :

Paramètres : Avec un nombre impressionnant de 314 milliards de paramètres, Grok-1 est le plus grand modèle de langage ouvert à ce jour. Cependant, grâce à l’architecture MoE, seuls 25 % des poids (environ 86 milliards de paramètres) sont actifs à tout moment, améliorant ainsi les capacités de traitement.
Architecture : Grok-1 emploie une architecture de mélange de 8 experts, chacun traitant deux jetons pendant l’inférence.
Couches : Le modèle se compose de 64 couches de transformateurs, chacune incorporant une attention multi-tête et des blocs denses.
Tokenisation : Grok-1 utilise un tokenizer SentencePiece avec une taille de vocabulaire de 131 072 jetons.
Embeddings et codage positionnel : Le modèle présente des embeddings de 6 144 dimensions et emploie des codages positionnels rotatifs, permettant une interprétation plus dynamique des données par rapport aux codages positionnels fixes traditionnels.
Attention : Grok-1 utilise 48 têtes d’attention pour les requêtes et 8 têtes d’attention pour les clés et les valeurs, chacune avec une taille de 128.
Longueur de contexte : Le modèle peut traiter des séquences allant jusqu’à 8 192 jetons de long, en utilisant la précision bfloat16 pour un calcul efficace.

Performances et détails d’implémentation

Grok-1 a démontré des performances impressionnantes, surpassant LLaMa 2 70B et Mixtral 8x7B avec un score MMLU de 73 %, mettant en évidence son efficacité et sa précision sur divers tests.

Cependant, il est important de noter que Grok-1 nécessite des ressources GPU importantes en raison de sa taille. La mise en œuvre actuelle dans la version open-source se concentre sur la validation de la correction du modèle et emploie une implémentation de la couche MoE inefficace pour éviter le besoin de noyaux personnalisés.

Néanmoins, le modèle prend en charge le fractionnement d’activation et la quantification 8 bits, ce qui peut optimiser les performances et réduire les exigences de mémoire.

Dans un mouvement remarquable, xAI a publié Grok-1 sous la licence Apache 2.0, rendant ainsi ses poids et son architecture accessibles à la communauté mondiale pour utilisation et contributions.

La publication open-source inclut un référentiel de code d’exemple JAX qui montre comment charger et exécuter le modèle Grok-1. Les utilisateurs peuvent télécharger les poids des points de contrôle à l’aide d’un client torrent ou directement via le HuggingFace Hub, facilitant ainsi l’accès à ce modèle révolutionnaire.

L’avenir du mélange d’experts dans les modèles de langage

Alors que la demande de modèles de langage plus grands et plus capables continue de croître, l’adoption de techniques MoE devrait gagner encore plus de momentum. Les efforts de recherche en cours se concentrent sur la résolution des défis restants, tels que l’amélioration de la stabilité de formation, l’atténuation du surapprentissage pendant l’ajustement fin et l’optimisation des exigences de mémoire et de communication.

Une direction prometteuse est l’exploration d’architectures MoE hiérarchiques, où chaque expert est lui-même composé de plusieurs sous-experts. Cette approche pourrait potentiellement permettre une scalabilité et une efficacité computationnelle encore plus grandes tout en maintenant la puissance expressive des grands modèles.

De plus, le développement de systèmes matériel et logiciel optimisés pour les modèles MoE est un domaine de recherche actif. Des accélérateurs spécialisés et des cadres de formation distribuée conçus pour gérer efficacement les modèles de calcul éparse et conditionnelle des modèles MoE pourraient encore améliorer leurs performances et leur scalabilité.

En outre, l’intégration de techniques MoE avec d’autres avancées dans la modélisation du langage, telles que les mécanismes d’attention éparse, les stratégies de tokenisation efficaces et les représentations multimodales, pourrait conduire à des modèles de langage encore plus puissants et polyvalents capables de relever un large éventail de tâches.

Conclusion

La technique du mélange d’experts est apparue comme un outil puissant dans la quête de modèles de langage plus grands et plus capables. En activant de manière sélective les experts en fonction des données d’entrée, les modèles MoE offrent une solution prometteuse aux défis computationnels associés à l’évolution des modèles denses. Même si des défis subsistent, tels que l’instabilité de formation, le surapprentissage et les exigences de mémoire, les avantages potentiels des modèles MoE en termes d’efficacité computationnelle, de scalabilité et de durabilité environnementale les rendent un domaine d’étude et de développement passionnant.

Alors que le domaine du traitement automatique des langues continue de repousser les limites de ce qui est possible, l’adoption de techniques MoE devrait jouer un rôle crucial dans l’élaboration de la prochaine génération de modèles de langage. En combinant MoE avec d’autres avancées en architecture de modèle, techniques de formation et optimisation du matériel, nous pouvons nous attendre à des modèles de langage encore plus puissants et polyvalents capables de véritablement comprendre et communiquer avec les humains de manière naturelle et transparente.

Aayush Mittal

J'ai passé les cinq dernières années à me plonger dans le monde fascinant de l'apprentissage automatique et de l'apprentissage profond. Ma passion et mon expertise m'ont conduit à contribuer à plus de 50 projets de génie logiciel divers, avec un accent particulier sur l'IA/ML. Ma curiosité permanente m'a également attiré vers le traitement automatique des langues, un domaine que je suis impatient d'explorer plus en détail.