AI 101
L'essor du mélange d'experts : comment les modèles d'IA clairsemés façonnent l'avenir de l'apprentissage automatique

Mélange d'experts (MoE) Les modèles révolutionnent la façon dont nous faisons évoluer l'IA. En n'activant qu'un sous-ensemble de ses composants à un instant T, les MoE offrent une approche novatrice pour gérer le compromis entre taille du modèle et efficacité de calcul. Contrairement aux modèles denses traditionnels qui utilisent tous les paramètres pour chaque entrée, les MoE permettent d'atteindre un nombre considérable de paramètres tout en maîtrisant les coûts d'inférence et de formation. Cette avancée a alimenté une vague de recherche et développement, incitant les géants de la technologie comme les startups à investir massivement dans les architectures basées sur les MoE.
Comment fonctionnent les modèles de mélange d'experts
Fondamentalement, les modèles MoE sont constitués de plusieurs sous-réseaux spécialisés appelés « experts », supervisés par un mécanisme de sélection qui détermine quels experts doivent traiter chaque entrée. Par exemple, une phrase transmise à un modèle de langage peut n'impliquer que deux experts sur huit, ce qui réduit considérablement la charge de calcul.
Ce concept a été introduit dans le courant dominant avec Les modèles Switch Transformer et GLaM de Google, où les experts ont remplacé les couches de rétroaction traditionnelles dans Transformers. Switch Transformer, par exemple, achemine les jetons vers un seul expert par couche, tandis que GLaM utilise le routage top-2 pour de meilleures performances. Ces conceptions ont démontré que les MoE pouvaient égaler, voire surpasser, les modèles denses comme GPT-3, tout en consommant nettement moins d'énergie et de calcul.
L'innovation clé réside dans le calcul conditionnel. Au lieu de lancer l'intégralité du modèle, les MoE n'activent que les parties les plus pertinentes, ce qui signifie qu'un modèle comportant des centaines de milliards, voire des milliers de milliards de paramètres, peut fonctionner avec l'efficacité d'un modèle beaucoup plus petit. Cela permet aux chercheurs d'augmenter la capacité sans augmentation linéaire des calculs, un exploit impossible à réaliser avec les méthodes de mise à l'échelle traditionnelles.

Applications concrètes du MoE
Les modèles MoE ont déjà fait leurs preuves dans plusieurs domaines. GLaM et Switch Transformer de Google ont montré des résultats de pointe en matière de modélisation linguistique, avec des coûts d'apprentissage et d'inférence réduits. Le MoE Z-Code de Microsoft est opérationnel dans son outil Translator, prenant en charge plus de 100 langues avec une précision et une efficacité supérieures aux modèles précédents. Il ne s'agit pas de simples projets de recherche : ils alimentent des services en direct.
En vision par ordinateur, L'architecture V-MoE de Google a amélioré la précision de la classification sur des benchmarks comme ImageNet, et le modèle LIMoE a démontré d'excellentes performances dans les tâches multimodales impliquant à la fois des images et du texte. La capacité des experts à se spécialiser – certains traitant du texte, d'autres des images – ajoute un nouveau niveau de capacité aux systèmes d'IA.
Les systèmes de recommandation et les plateformes d'apprentissage multitâches ont également bénéficié des mécanismes d'apprentissage. Par exemple : Le moteur de recommandation de YouTube a utilisé une architecture de type MoE pour gérer plus efficacement des objectifs tels que la durée de visionnage et le taux de clics. En affectant différents experts à différentes tâches ou comportements utilisateurs, les MoE contribuent à créer des moteurs de personnalisation plus robustes.
Avantages et défis
Le principal avantage des MoE réside dans leur efficacité. Ils permettent d'entraîner et de déployer des modèles massifs avec une puissance de calcul nettement inférieure. Par exemple, le modèle Mixtral 8×7B de Mistral AI possède 47 B de paramètres au total, mais n'en active que 12.9 B par jeton, ce qui lui confère la rentabilité d'un modèle 13 B tout en rivalisant en qualité avec des modèles comme GPT-3.5.
Les modèles d'expérience favorisent également la spécialisation. Puisque différents experts peuvent apprendre des modèles distincts, le modèle global devient plus performant pour gérer des entrées diverses. Ceci est particulièrement utile pour les tâches multilingues, multidomaines ou multimodales, où un modèle dense et uniforme peut s'avérer peu performant.
Cependant, les MoE présentent des défis d'ingénierie. Leur formation nécessite un équilibrage minutieux pour garantir l'utilisation efficace de tous les experts. La surcharge mémoire est un autre problème : même si seule une fraction des paramètres est active par inférence, tous doivent être chargés en mémoire. Répartir efficacement les calculs entre les GPU ou les TPU n'est pas une mince affaire et a conduit au développement de frameworks spécialisés comme DeepSpeed ​​de Microsoft et GShard de Google.
Malgré ces obstacles, les avantages en termes de performances et de coûts sont suffisamment importants pour que les modèles d'expérience soient désormais considérés comme un élément essentiel de la conception d'IA à grande échelle. À mesure que les outils et les infrastructures gagnent en maturité, ces défis sont progressivement surmontés.
Comparaison du MoE avec d'autres méthodes de mise à l'échelle
La mise à l'échelle dense traditionnelle augmente proportionnellement la taille du modèle et les capacités de calcul. Les MoE rompent cette linéarité en augmentant le nombre total de paramètres sans augmenter les capacités de calcul par entrée. Cela permet d'entraîner des modèles comportant des milliards de paramètres sur le même matériel, auparavant limité à des dizaines de milliards.
Comparés à l'assemblage de modèles, qui introduit également une spécialisation mais nécessite plusieurs passages complets, les modèles d'expérience sont bien plus efficaces. Au lieu d'exécuter plusieurs modèles en parallèle, les modèles d'expérience n'en exécutent qu'un seul, mais avec l'avantage de multiples parcours d'expertise.
Les MoE complètent également des stratégies telles que la mise à l'échelle des données d'entraînement (par exemple, la méthode Chinchilla). Si Chinchilla privilégie l'utilisation de plus de données avec des modèles plus petits, les MoE augmentent la capacité du modèle tout en préservant la stabilité du calcul, ce qui les rend idéales lorsque le calcul constitue un goulot d'étranglement.
Enfin, alors que des techniques comme l'élagage et la quantification réduisent la taille des modèles après l'entraînement, les MoE augmentent leur capacité pendant l'entraînement. Ils ne remplacent pas la compression, mais constituent un outil orthogonal pour une croissance efficace.
Les entreprises à la tête de la révolution du ministère de l'Éducation
Géants de la technologie
Google a été le pionnier d'une grande partie de la recherche actuelle du ministère de l'ÉducationLeurs modèles Switch Transformer et GLaM ont été mis à l'échelle avec des paramètres respectifs de 1.6 T et 1.2 T. GLaM a atteint les performances de GPT-3 tout en consommant seulement un tiers de l'énergie. Google a également appliqué les MoE à la vision (V-MoE) et aux tâches multimodales (LIMoE), conformément à sa vision plus large de Pathways pour les modèles d'IA universels.
Microsoft a MoE intégré dans la production via son modèle Z-Code dans Microsoft TranslatorElle a également développé DeepSpeed-MoE, permettant un apprentissage rapide et une inférence à faible latence pour les modèles à mille milliards de paramètres. Ses contributions incluent des algorithmes de routage et la bibliothèque Tutel pour un calcul MoE efficace.
Meta exploré MoEs dans les modèles linguistiques à grande échelle et systèmes de recommandation. Leur modèle MoE de 1.1 T a montré qu'il pouvait égaler la qualité d'un modèle dense en utilisant 4 fois moins de calcul. Bien que les modèles LLaMA soient denses, les recherches de Meta sur le MoE continuent d'informer la communauté au sens large.
Amazon soutient les ministères de l'Éducation via sa plateforme SageMaker et des efforts internes. Ils ont facilité la formation du modèle Mixtral de Mistral et utiliseraient des MoE dans des services comme Alexa AI. La documentation AWS promeut activement les MoE pour la formation de modèles à grande échelle.
Huawei et BAIE en Chine ont également développé des modèles MoE qui battent tous les records, comme PanGu-Σ (1.085T paramètres). Cela démontre le potentiel du MoE dans les tâches linguistiques et multimodales et souligne son attrait mondial.
Startups et Challengers
IA Mistral est l'enfant chéri de Innovation du ministère de l'Éducation dans le domaine de l'open sourceLeurs modèles Mixtral 8×7B et 8×22B ont prouvé que les MoE pouvaient surpasser des modèles denses comme LLaMA-2 70B, tout en étant beaucoup plus économiques. Avec plus de 600 millions d'euros de financement, Mistral mise gros sur les architectures creuses.
xIA, fondée par Elon Musk, est ils exploreraient apparemment les MoE dans leur modèle Grok. Bien que les détails soient limités, les MoE offrent aux startups comme xAI un moyen de rivaliser avec des acteurs plus importants sans avoir besoin de calculs massifs.
Databricks, via son acquisition MosaicML, a publié DBX, un modèle MoE ouvert conçu pour l'efficacité. Ils fournissent également l'infrastructure et les recettes nécessaires à la formation MoE, réduisant ainsi les obstacles à l'adoption.
D'autres acteurs comme Hugging Face ont intégré la prise en charge des MoE à leurs bibliothèques, facilitant ainsi la création de ces modèles par les développeurs. Même s'ils ne développent pas eux-mêmes de MoE, les plateformes qui les permettent sont essentielles à l'écosystème.
Conclusion
Les modèles de mélange d'experts ne sont pas qu'une simple tendance : ils représentent une transformation fondamentale dans la conception et le déploiement des systèmes d'IA. En activant sélectivement certaines parties d'un réseau, les modèles d'expériences (MoE) offrent la puissance de modèles massifs sans leur coût prohibitif. À mesure que l'infrastructure logicielle rattrape son retard et que les algorithmes de routage s'améliorent, les MoE sont en passe de devenir l'architecture par défaut de l'IA multidomaine, multilingue et multimodale.
Que vous soyez chercheur, ingénieur ou investisseur, les MoE offrent un aperçu d’un avenir où l’IA est plus puissante, efficace et adaptable que jamais.










