IA 101
L’essor des modèles Mixture-of-Experts : comment les modèles d’intelligence artificielle épars sont en train de façonner l’avenir de l’apprentissage automatique

Les modèles Mixture-of-Experts (MoE) révolutionnent la façon dont nous mettons à l’échelle l’intelligence artificielle. En activant uniquement un sous-ensemble des composants d’un modèle à un moment donné, les MoE offrent une approche novatrice pour gérer le compromis entre la taille du modèle et l’efficacité computationnelle. Contrairement aux modèles denses traditionnels qui utilisent tous les paramètres pour chaque entrée, les MoE atteignent des comptes de paramètres énormes tout en gardant les coûts d’inférence et de formation maîtrisables. Cette avancée a déclenché une vague de recherche et de développement, amenant à la fois les géants de la technologie et les startups à investir lourdement dans les architectures basées sur MoE.
Comment fonctionnent les modèles Mixture-of-Experts
À leur cœur, les modèles MoE se composent de multiples sous-réseaux spécialisés appelés “experts”, supervisés par un mécanisme de contrôle qui décide quels experts doivent gérer chaque entrée. Par exemple, une phrase passée dans un modèle de langage peut ne nécessiter que deux experts sur huit, réduisant ainsi considérablement la charge de calcul.
Ce concept a été popularisé avec les modèles Switch Transformer et GLaM de Google, où les experts ont remplacé les couches feed-forward traditionnelles dans les Transformers. Le Switch Transformer, par exemple, achemine les jetons vers un seul expert par couche, tandis que GLaM utilise un acheminement top-2 pour améliorer les performances. Ces conceptions ont démontré que les MoE pouvaient égaler ou surpasser les modèles denses comme GPT-3 tout en utilisant nettement moins d’énergie et de calcul.
L’innovation clé réside dans le calcul conditionnel. Au lieu de lancer l’ensemble du modèle, les MoE n’activent que les parties les plus pertinentes, ce qui signifie qu’un modèle avec des centaines de milliards ou même des trillions de paramètres peut fonctionner avec l’efficacité d’un modèle beaucoup plus petit. Cela permet aux chercheurs de mettre à l’échelle la capacité sans augmentations linéaires de calcul, une prouesse inaccessible avec les méthodes de mise à l’échelle traditionnelles.

Applications réelles des MoE
Les modèles MoE ont déjà laissé leur marque dans plusieurs domaines. Les modèles GLaM et Switch Transformer de Google ont montré des résultats à l’état de l’art en modélisation de langage avec des coûts de formation et d’inférence inférieurs. Le modèle Z-Code MoE de Microsoft est opérationnel dans son outil de traduction, gérant plus de 100 langues avec une meilleure précision et efficacité que les modèles précédents. Ce ne sont pas seulement des projets de recherche — ils alimentent des services en ligne.
Dans la vision par ordinateur, l’architecture V-MoE de Google a amélioré la précision de classification sur des benchmarks comme ImageNet, et le modèle LIMoE a démontré de solides performances dans des tâches multimodales impliquant à la fois des images et du texte. La capacité des experts à se spécialiser — certains gérant du texte, d’autres des images — ajoute une nouvelle couche de capacité aux systèmes d’intelligence artificielle.
Les systèmes de recommandation et les plateformes d’apprentissage multi-tâches ont également bénéficié des MoE. Par exemple, le moteur de recommandation de YouTube a employé une architecture similaire à MoE pour gérer des objectifs tels que le temps de visionnage et le taux de clics de manière plus efficace. En attribuant des experts différents à des tâches ou des comportements d’utilisateur différents, les MoE aident à construire des moteurs de personnalisation plus robustes.
Avantages et défis
Le principal avantage des MoE est l’efficacité. Ils permettent à des modèles massifs d’être formés et déployés avec nettement moins de calcul. Par exemple, le modèle Mixtral 8×7B de Mistral AI comporte 47 milliards de paramètres au total, mais n’active que 12,9 milliards par jeton, lui donnant l’efficacité d’un modèle de 13 milliards de paramètres tout en rivalisant avec des modèles comme GPT-3.5 en termes de qualité.
Les MoE favorisent également la spécialisation. Puisque différents experts peuvent apprendre des modèles distincts, le modèle global devient meilleur pour gérer des entrées diverses. C’est particulièrement utile dans des tâches multilingues, multi-domaines ou multimodales où un modèle dense universel peut sous-performer.
Cependant, les MoE présentent des défis d’ingénierie. Leur formation nécessite un équilibrage soigneux pour s’assurer que tous les experts sont utilisés de manière efficace. La charge de mémoire est une autre préoccupation — même si seule une fraction des paramètres est active par inférence, tous doivent être chargés en mémoire. La distribution efficace du calcul sur les GPU ou les TPU n’est pas triviale et a conduit au développement de cadres spécialisés comme DeepSpeed de Microsoft et GShard de Google.
Malgré ces obstacles, les avantages en termes de performance et de coût sont suffisamment importants pour que les MoE soient maintenant considérés comme un composant critique de la conception d’intelligence artificielle à grande échelle. À mesure que davantage d’outils et d’infrastructures mûrissent, ces défis sont progressivement surmontés.
Comment les MoE se comparent à d’autres méthodes de mise à l’échelle
La mise à l’échelle dense traditionnelle augmente la taille du modèle et le calcul de manière proportionnelle. Les MoE brisent cette linéarité en augmentant les paramètres totaux sans augmenter le calcul par entrée. Cela permet à des modèles avec des trillions de paramètres d’être formés sur le même matériel qui était auparavant limité à des dizaines de milliards.
Par rapport au regroupement de modèles, qui introduit également une spécialisation mais nécessite plusieurs passes avant complètes, les MoE sont nettement plus efficaces. Au lieu de faire fonctionner plusieurs modèles en parallèle, les MoE font fonctionner un seul modèle — mais avec l’avantage de plusieurs chemins d’experts.
Les MoE complètent également les stratégies comme la mise à l’échelle des données de formation (par exemple, la méthode Chinchilla). Alors que Chinchilla met l’accent sur l’utilisation de plus de données avec des modèles plus petits, les MoE étendent la capacité du modèle tout en maintenant le calcul stable, les rendant idéaux pour les cas où le calcul est le goulet d’étranglement.
Enfin, tandis que des techniques comme le délestage et la quantification réduisent la taille des modèles après la formation, les MoE augmentent la capacité du modèle pendant la formation. Ils ne sont pas un remplacement pour la compression, mais un outil orthogonal pour une croissance efficace.
Les entreprises à la tête de la révolution MoE
Géants de la technologie
Google a été pionnier dans de nombreuses recherches MoE d’aujourd’hui. Leurs modèles Switch Transformer et GLaM ont atteint 1,6 T et 1,2 T de paramètres respectivement. GLaM a égalé les performances de GPT-3 tout en utilisant seulement un tiers de l’énergie. Google a également appliqué les MoE à la vision (V-MoE) et aux tâches multimodales (LIMoE), s’alignant sur leur vision plus large de modèles d’intelligence artificielle universels.
Microsoft a intégré les MoE dans sa production via son modèle Z-Code dans Microsoft Translator. Il a également développé DeepSpeed-MoE, permettant une formation rapide et une inférence à faible latence pour des modèles avec des trillions de paramètres. Leurs contributions incluent les algorithmes de routage et la bibliothèque Tutel pour le calcul MoE efficace.
Meta a exploré les MoE dans les modèles de langage à grande échelle et les systèmes de recommandation. Leur modèle MoE de 1,1 T a montré qu’il pouvait égaler la qualité des modèles denses en utilisant 4 fois moins de calcul. Même si les modèles LLaMA sont denses, la recherche de Meta sur les MoE continue d’informer la communauté plus large.
Amazon soutient les MoE via sa plateforme SageMaker et des efforts internes. Ils ont facilité la formation du modèle Mixtral de Mistral et sont soupçonnés d’utiliser les MoE dans des services comme Alexa AI. La documentation d’AWS promeut activement les MoE pour la formation de modèles à grande échelle.
Huawei et BAAI en Chine ont également développé des modèles MoE record, comme PanGu-Σ (1,085 T de paramètres). Cela montre le potentiel des MoE dans les tâches de langage et multimodales et met en évidence son attrait mondial.
Startups et challengers
Mistral AI est l’enfant prodige de l’innovation MoE en open-source. Leurs modèles Mixtral 8×7B et 8×22B ont prouvé que les MoE peuvent surpasser les modèles denses comme LLaMA-2 70B tout en fonctionnant à une fraction du coût. Avec plus de 600 millions d’euros de financement, Mistral mise gros sur les architectures éparses.
xAI, fondée par Elon Musk, explorent apparemment les MoE dans leur modèle Grok. Même si les détails sont limités, les MoE offrent un moyen pour les startups comme xAI de concurrencer les plus grands acteurs sans avoir besoin d’un calcul massif.
Databricks, via son acquisition MosaicML, a publié DBRX, un modèle MoE ouvert conçu pour l’efficacité. Ils fournissent également une infrastructure et des recettes pour la formation MoE, abaissant le seuil d’adoption.
D’autres acteurs comme Hugging Face ont intégré le support MoE dans leurs bibliothèques, facilitant ainsi aux développeurs la construction de modèles basés sur ceux-ci. Même s’ils ne construisent pas eux-mêmes les MoE, les plateformes qui les permettent sont cruciales pour l’écosystème.
Conclusion
Les modèles Mixture-of-Experts ne sont pas juste une tendance — ils représentent un changement fondamental dans la façon dont les systèmes d’intelligence artificielle sont construits et mis à l’échelle. En activant sélectivement uniquement des parties d’un réseau, les MoE offrent la puissance de modèles massifs sans leur coût prohibitif. À mesure que l’infrastructure logicielle rattrape son retard et que les algorithmes de routage s’améliorent, les MoE sont sur le point de devenir l’architecture par défaut pour l’intelligence artificielle multi-domaine, multilingue et multimodale.
Que vous soyez un chercheur, un ingénieur ou un investisseur, les MoE offrent un aperçu d’un avenir où l’intelligence artificielle est plus puissante, efficace et adaptable que jamais.












