Intelligence artificielle

Uni-MoE : Scaling Unified Multimodal LLMs avec Mixture of Experts

Published May 31, 2024

Updated April 27, 2026

Kunal Kejriwal

Les récentes avancées dans l’architecture et les performances des Modèles de Langage Multimodaux (MLLM) ou Modèles de Langage à Grande Échelle Multimodaux ont mis en évidence l’importance de données et de modèles évolutifs pour améliorer les performances. Bien que cette approche améliore les performances, elle entraîne des coûts computationnels substantiels qui limitent la praticité et l’utilité de telles approches. Au fil des ans, les modèles de Mixture of Experts (MoE) sont apparus comme une approche alternative réussie pour mettre à l’échelle les modèles d’image-texte et les grands modèles de langage de manière efficace, car les modèles de Mixture of Experts ont des coûts computationnels nettement inférieurs et de fortes performances. Cependant, malgré leurs avantages, les modèles de Mixture of Experts ne constituent pas l’approche idéale pour mettre à l’échelle les grands modèles de langage, car ils impliquent souvent moins d’experts et des modalités limitées, ce qui limite les applications.

Pour contrer les obstacles rencontrés par les approches actuelles et pour mettre à l’échelle les grands modèles de langage de manière efficace, dans cet article, nous allons discuter de Uni-MoE, un modèle de langage multimodal unifié avec une architecture de Mixture of Experts (MoE) capable de gérer un large éventail de modalités et d’experts. Le cadre Uni-MoE met également en œuvre une architecture de Mixture of Experts épars dans les grands modèles de langage dans le but de rendre le processus d’apprentissage et d’inférence plus efficace en utilisant une parallélisation de modèle et de données au niveau de l’expert. De plus, pour améliorer la généralisation et la collaboration multi-experts, le cadre Uni-MoE présente une stratégie d’apprentissage progressive qui est une combinaison de trois processus différents. Dans le premier, le cadre Uni-MoE réalise l’alignement cross-modalité en utilisant divers connecteurs avec différents données cross-modales. Deuxièmement, le cadre Uni-MoE active la préférence des composants experts en formant des experts spécifiques à la modalité avec des données d’instruction cross-modales. Enfin, le modèle Uni-MoE met en œuvre la technique d’apprentissage LoRA (Low-Rank Adaptation) sur des données d’instruction multimodales mélangées pour ajuster le modèle. Lorsque le cadre Uni-MoE ajusté a été évalué sur un ensemble complet de jeux de données multimodaux, les résultats expérimentaux extensifs ont mis en évidence le principal avantage du cadre Uni-MoE pour réduire les biais de performance dans la gestion de jeux de données multimodaux mélangés de manière significative. Les résultats ont également indiqué une amélioration significative de la collaboration multi-experts et de la généralisation.

Cet article vise à couvrir le cadre Uni-MoE en profondeur, et nous explorons le mécanisme, la méthodologie, l’architecture du cadre ainsi que sa comparaison avec les cadres de pointe. Alors, commençons.

Uni-MoE : Scaling Unified Multimodal LLMs

L’avènement de modèles de langage multimodaux open source, notamment LLama et InstantBlip, a souligné le succès notable et les progrès réalisés dans les tâches impliquant la compréhension d’images et de textes au cours des dernières années. De plus, la communauté de l’IA travaille activement à la construction d’un modèle de langage multimodal unifié qui pourrait accueillir un large éventail de modalités, notamment l’image, le texte, l’audio, la vidéo et plus, allant au-delà du paradigme traditionnel image-texte. Une approche courante suivie par la communauté open source pour améliorer les capacités des modèles de langage multimodaux est d’augmenter la taille des modèles de fondation de vision et de les intégrer avec de grands modèles de langage dotés de milliards de paramètres, et d’utiliser des jeux de données multimodaux diversifiés pour améliorer l’ajustement des instructions. Ces développements ont mis en évidence la capacité croissante des modèles de langage multimodaux à raisonner et à traiter plusieurs modalités, soulignant l’importance de l’expansion des données d’instruction multimodales et de l’évolutivité des modèles.

Bien que l’augmentation de la taille d’un modèle soit une approche éprouvée qui donne des résultats substantiels, la mise à l’échelle d’un modèle est un processus computationnellement coûteux pour les processus d’apprentissage et d’inférence.

Pour contrer le problème des coûts computationnels élevés, la communauté open source se tourne vers l’intégration de l’architecture de modèle de Mixture of Experts (MoE) dans les grands modèles de langage pour améliorer l’efficacité à la fois de l’apprentissage et de l’inférence. Contrairement aux modèles de langage multimodaux et aux grands modèles de langage qui utilisent tous les paramètres disponibles pour traiter chaque entrée, ce qui aboutit à une approche computationnelle dense, l’architecture de Mixture of Experts n’exige que l’activation d’un sous-ensemble de paramètres d’experts pour chaque entrée. Par conséquent, l’approche de Mixture of Experts émerge comme une voie viable pour améliorer l’efficacité des grands modèles sans activation extensive de paramètres et sans coûts computationnels élevés. Bien que les travaux existants aient souligné la mise en œuvre et l’intégration réussies de modèles de Mixture of Experts dans la construction de modèles de langage texte-seulement et texte-image, les chercheurs n’ont pas encore pleinement exploré le potentiel de développement de l’architecture de Mixture of Experts pour construire des modèles de langage multimodaux unifiés puissants.

Uni-MoE est un modèle de langage multimodal qui utilise des modèles de Mixture of Experts épars pour interpréter et gérer plusieurs modalités dans le but d’explorer la mise à l’échelle de modèles de langage multimodaux unifiés avec l’architecture de MoE. Comme le montre l’image suivante, le cadre Uni-MoE obtient d’abord le codage de différentes modalités à l’aide d’encodeurs spécifiques à la modalité, puis mappe ces codages dans l’espace de représentation linguistique des grands modèles de langage en utilisant divers connecteurs conçus. Ces connecteurs contiennent un modèle de transformateur entraînable avec des projections linéaires consécutives pour distiller et projeter les représentations de sortie de l’encodeur figé. Le cadre Uni-MoE introduit ensuite des couches de Mixture of Experts épars dans le bloc interne du modèle de langage dense. Par conséquent, chaque bloc basé sur le modèle de Mixture of Experts comporte une couche d’auto-attention partagée applicable à toutes les modalités, un routeur épars pour allouer l’expertise au niveau du jeton et des experts divers basés sur le réseau feedforward. Grâce à cette approche, le cadre Uni-MoE est capable de comprendre plusieurs modalités, notamment la parole, l’audio, le texte, la vidéo, l’image, et n’exige que l’activation de paramètres partiels pendant l’inférence.

De plus, pour améliorer la collaboration multi-experts et la généralisation, le cadre Uni-MoE met en œuvre une stratégie d’apprentissage en trois étapes. Dans la première étape, le cadre utilise des paires image/son-langage pour former les connecteurs correspondants en raison de la représentation unifiée de la modalité dans l’espace linguistique du grand modèle de langage. Deuxièmement, le modèle Uni-MoE forme des experts spécifiques à la modalité en utilisant des jeux de données cross-modales séparément dans le but de raffiner la compétence de chaque expert dans son domaine respectif. Dans la troisième étape, le cadre Uni-MoE intègre ces experts formés dans la couche de Mixture of Experts du grand modèle de langage et forme l’ensemble du cadre Uni-MoE avec des données d’instruction multimodales mélangées. Pour réduire le coût de formation encore plus, le cadre Uni-MoE utilise l’approche d’apprentissage LoRA pour affiner ces couches d’auto-attention et les experts pré-formés.

Uni-MoE : Méthodologie et Architecture

La motivation de base derrière le cadre Uni-MoE est le coût élevé de formation et d’inférence des modèles de langage multimodaux à grande échelle, ainsi que l’efficacité des modèles de Mixture of Experts, et explorer la possibilité de créer un modèle de langage multimodal unifié efficace, puissant et utilisant l’architecture de MoE. La figure suivante présente une représentation de l’architecture mise en œuvre dans le cadre Uni-MoE, montrant la conception qui inclut des encodeurs individuels pour différentes modalités, c’est-à-dire audio, parole et visuels, ainsi que leurs connecteurs respectifs.

Le cadre Uni-MoE intègre ensuite l’architecture de Mixture of Experts avec les blocs de base du grand modèle de langage, un processus crucial pour améliorer l’efficacité globale à la fois de la formation et de l’inférence. Le cadre Uni-MoE réalise cela en mettant en œuvre un mécanisme de routage épars. Le processus de formation global du cadre Uni-MoE peut être divisé en trois phases : l’alignement cross-modalité, la formation d’experts spécifiques à la modalité et l’ajustement de Uni-MoE à l’aide d’un ensemble diversifié de jeux de données d’instruction multimodaux. Pour transformer efficacement les entrées modales diverses en un format linguistique, le cadre Uni-MoE est construit sur le modèle pré-formé LLaVA, un cadre de langage visuel pré-formé. Le modèle de base LLaVA intègre CLIP comme encodeur visuel, ainsi qu’une couche de projection linéaire qui convertit les caractéristiques d’image en jetons d’image mous. De plus, pour traiter le contenu vidéo, le cadre Uni-MoE sélectionne huit cadres représentatifs de chaque vidéo et les transforme en jetons vidéo en effectuant un poolage moyen pour agréger leur représentation basée sur l’image ou le cadre. Pour les tâches audio, le cadre Uni-MoE déploie deux encodeurs, BEATs et l’encodeur Whisper, pour améliorer l’extraction de caractéristiques. Le modèle distille ensuite les vecteurs de caractéristiques audio et les discours à longueur fixe, et les mappe en jetons de parole et en audio mous via une couche de projection linéaire.

Stratégie de Formation

Le cadre Uni-MoE introduit une stratégie d’apprentissage progressive pour le développement progressif du modèle. La stratégie d’apprentissage progressive introduite tente de tirer parti des capacités distinctes de divers experts, d’améliorer l’efficacité de la collaboration multi-experts et d’accroître la généralisabilité globale du cadre. Le processus de formation est divisé en trois étapes dans le but de concrétiser la structure MLLM construite sur les Mixture of Experts intégrés.

Étape 1 : Alignement Cross-Modalité

Dans la première étape, le cadre Uni-MoE tente d’établir une connectivité entre les différentes linguistiques et modalités. Le cadre Uni-MoE réalise cela en traduisant les données modales en jetons mous en construisant des connecteurs. L’objectif principal de la première étape de formation est de minimiser la perte d’entropie générative.

Étape 2 : Formation d’Experts Spécifiques à la Modalité

Dans la deuxième étape, le cadre Uni-MoE se concentre sur le développement d’experts à modalité unique en formant le modèle de manière dédiée sur des données cross-modales spécifiques. L’objectif principal est de raffiner la compétence de chaque expert dans son domaine respectif, améliorant ainsi les performances globales du système de Mixture of Experts sur un large éventail de données multimodales. De plus, le cadre Uni-MoE affine les réseaux feedforward pour les aligner plus étroitement sur les caractéristiques de la modalité, tout en maintenant la perte d’entropie générative comme métrique d’apprentissage ciblée.

Étape 3 : Ajustement de Uni-MoE

Dans la troisième et dernière étape, le cadre Uni-MoE intègre les poids ajustés par les experts pendant l’étape 2 dans les couches de Mixture of Experts. Le cadre Uni-MoE ajuste ensuite les MLLM en utilisant des données d’instruction multimodales mélangées de manière conjointe. Les courbes de perte dans l’image suivante reflètent la progression du processus de formation.

L’analyse comparative entre les configurations de Mixture of Experts a révélé que les experts que le modèle a raffinés pendant la deuxième étape de formation ont affiché une stabilité améliorée et ont atteint une convergence plus rapide sur les jeux de données multimodaux mélangés. De plus, sur les tâches impliquant des données multimodales complexes, notamment le texte, les images, l’audio et les vidéos, le cadre Uni-MoE a démontré des performances de formation plus cohérentes et une variabilité de perte réduite lorsqu’il utilisait quatre experts par rapport à deux experts.

Uni-MoE : Expériences et Résultats

Le tableau suivant résume les spécifications architecturales du cadre Uni-MoE. L’objectif principal du cadre Uni-MoE, construit sur l’architecture LLaMA-7B, est de mettre à l’échelle la taille du modèle.

Le tableau suivant résume la conception et l’optimisation du cadre Uni-MoE, guidées par des tâches de formation spécialisées. Ces tâches sont instrumentales pour raffiner les capacités des couches MLP, en tirant parti ainsi de leurs connaissances spécialisées pour améliorer les performances du modèle. Le cadre Uni-MoE entreprend huit tâches d’experts à modalité unique pour éclaircir les impacts différentiels de diverses méthodologies de formation.

Le modèle évalue les performances de diverses variantes de modèles sur un ensemble diversifié de références qui englobe deux tâches de compréhension de vidéos, trois tâches de compréhension audio et cinq tâches liées à la parole. Tout d’abord, le modèle est testé sur sa capacité à comprendre les tâches de parole-image et de parole-texte, et les résultats sont contenus dans le tableau suivant.

Comme on peut l’observer, les modèles de référence précédents donnent des résultats inférieurs sur les tâches de compréhension de la parole, ce qui affecte les performances sur les tâches de raisonnement image-parole. Les résultats indiquent que l’introduction de l’architecture de Mixture of Experts peut améliorer la généralisabilité des MLLM sur les tâches de raisonnement image-parole non vues. Les résultats indiquent également une amélioration significative de la collaboration multi-experts et de la généralisation.

Pensées Finales

Dans cet article, nous avons discuté de Uni-MoE, un modèle de langage multimodal unifié avec une architecture de Mixture of Experts (MoE) capable de gérer un large éventail de modalités et d’experts. Le cadre Uni-MoE met également en œuvre une architecture de Mixture of Experts épars dans les grands modèles de langage dans le but de rendre le processus d’apprentissage et d’inférence plus efficace en utilisant une parallélisation de modèle et de données au niveau de l’expert. De plus, pour améliorer la généralisation et la collaboration multi-experts, le cadre Uni-MoE présente une stratégie d’apprentissage progressive qui est une combinaison de trois processus différents. Dans le premier, le cadre Uni-MoE réalise l’alignement cross-modalité en utilisant divers connecteurs avec différents données cross-modales. Deuxièmement, le cadre Uni-MoE active la préférence des composants experts en formant des experts spécifiques à la modalité avec des données d’instruction cross-modales. Enfin, le modèle Uni-MoE met en œuvre la technique d’apprentissage LoRA (Low-Rank Adaptation) sur des données d’instruction multimodales mélangées pour ajuster le modèle.

Related Topics:image generation Large Multimodal Models Mixture of Experts MLLMs Multimodal Large Language Model Uni-MoE vision language model

Kunal Kejriwal

Un ingénieur de profession, un écrivain de cœur. Kunal est un rédacteur technique avec une profonde affection et une compréhension de l'IA et du ML, dédié à simplifier les concepts complexes dans ces domaines grâce à sa documentation engageante et informative.