Intelligence Artificielle
Uni-MoE : mise à l'échelle des LLM multimodaux unifiés avec un mélange d'experts

Les progrès récents dans l'architecture et les performances des modèles multimodaux de langage étendu ou MLLM ont mis en évidence l'importance des données et des modèles évolutifs pour améliorer les performances. Bien que cette approche améliore les performances, elle entraîne des coûts de calcul substantiels qui limitent la praticité et la convivialité de telles approches. Au fil des années, les modèles Mixture of Expert ou MoE sont apparus comme une approche alternative réussie pour mettre à l'échelle efficacement des modèles d'image, de texte et de langage volumineux, car les modèles Mixture of Expert ont des coûts de calcul considérablement inférieurs et de solides performances. Cependant, malgré leurs avantages, les mélanges de modèles ne constituent pas l'approche idéale pour mettre à l'échelle de grands modèles de langage, car ils impliquent souvent moins d'experts et des modalités limitées, limitant ainsi les applications.
Pour contrer les obstacles rencontrés par les approches actuelles et pour faire évoluer efficacement les grands modèles de langage, dans cet article, nous parlerons d'Uni-MoE, un grand modèle de langage multimodal unifié avec une architecture MoE ou Mixture of Expert capable de gérer un large éventail de langages. éventail de modalités et d’experts. Le cadre Uni-MoE implémente également une architecture mixte d'experts au sein des grands modèles de langage dans le but de rendre le processus de formation et d'inférence plus efficace en utilisant le parallélisme de modèles de niveau expert et le parallélisme de données. De plus, pour améliorer la généralisation et la collaboration multi-experts, le cadre Uni-MoE présente une stratégie de formation progressive qui est une combinaison de trois processus différents. Dans le premier, le cadre Uni-MoE réalise un alignement inter-modalités en utilisant divers connecteurs avec différentes données inter-modalités. Deuxièmement, le cadre Uni-MoE active la préférence des composants experts en formant des experts spécifiques à une modalité avec des données d'instructions inter-modalités. Enfin, le modèle Uni-MoE implémente la technique d'apprentissage LoRA ou Low-Rank Adaptation sur des données d'instructions multimodales mixtes pour affiner le modèle. Lorsque le cadre Uni-MoE adapté aux instructions a été évalué sur un ensemble complet d'ensembles de données multimodaux, les résultats expérimentaux approfondis ont mis en évidence le principal avantage du cadre Uni-MoE dans la réduction significative des biais de performances dans la gestion d'ensembles de données multimodaux mixtes. Les résultats ont également indiqué une amélioration significative de la collaboration multi-experts et de la généralisation.
Cet article vise à couvrir le framework Uni-MoE en profondeur et nous explorons le mécanisme, la méthodologie, l'architecture du framework ainsi que sa comparaison avec les frameworks de pointe. Alors, commençons.
Uni-MoE : mise à l'échelle des LLM multimodaux unifiés
L'avènement de grands modèles de langage multimodaux open source, notamment LLama et InstantBlip, a souligné le succès et les progrès notables dans les tâches impliquant la compréhension image-texte au cours des dernières années. En outre, la communauté de l'IA travaille activement à la création d'un grand modèle de langage multimodal unifié qui pourrait accueillir un large éventail de modalités, notamment l'image, le texte, l'audio, la vidéo, etc., allant au-delà du paradigme traditionnel image-texte. Une approche courante suivie par la communauté open source pour renforcer les capacités des grands modèles de langage multimodaux consiste à augmenter la taille des modèles de base de vision, à les intégrer à de grands modèles de langage avec des milliards de paramètres et à utiliser divers ensembles de données multimodaux pour améliorer le réglage des instructions. Ces développements ont mis en évidence la capacité croissante des grands modèles de langage multimodaux à raisonner et à traiter plusieurs modalités, démontrant l'importance de l'expansion des données pédagogiques multimodales et de l'évolutivité du modèle.
Bien que la mise à l’échelle d’un modèle soit une approche éprouvée qui donne des résultats substantiels, la mise à l’échelle d’un modèle est un processus coûteux en termes de calcul, tant pour les processus de formation que d’inférence.
Pour contrer le problème des coûts de calcul élevés, la communauté open source s'oriente vers l'intégration du MoE ou mélange d'experts architecture de modèle dans de grands modèles de langage pour améliorer à la fois l’efficacité de la formation et de l’inférence. Contrairement au grand langage multimodal et aux grands modèles de langage qui utilisent tous les paramètres disponibles pour traiter chaque entrée, ce qui donne lieu à une approche informatique dense, l'architecture Mixture of Expert nécessite uniquement que les utilisateurs activent un sous-ensemble de paramètres experts pour chaque entrée. En conséquence, l’approche Mixture of Expert apparaît comme une voie viable pour améliorer l’efficacité des grands modèles sans activation étendue des paramètres et sans coûts de calcul élevés. Bien que les travaux existants aient mis en évidence la mise en œuvre et l'intégration réussies de modèles Mixture of Expert dans la construction de grands modèles texte uniquement et texte-image, les chercheurs doivent encore explorer pleinement le potentiel du développement de l'architecture Mixture of Expert pour construire de puissants grands modèles multimodaux unifiés. modèles de langage.
Uni-MoE est un grand modèle de langage multimodal qui exploite un mélange clairsemé de modèles experts pour interpréter et gérer plusieurs modalités dans le but d'explorer la mise à l'échelle de modèles de grand langage multimodaux unifiés avec l'architecture MoE. Comme le montre l'image suivante, le framework Uni-MoE obtient d'abord le codage de différentes modalités à l'aide d'encodeurs spécifiques aux modalités, puis mappe ces codages dans l'espace de représentation linguistique des grands modèles de langage à l'aide de divers connecteurs conçus. Ces connecteurs contiennent un modèle de transformateur entraînable avec des projections linéaires ultérieures pour distiller et projeter les représentations de sortie de l'encodeur gelé. Le framework Uni-MoE introduit ensuite un mélange clairsemé de couches expertes dans le bloc interne du modèle dense de langage étendu. En conséquence, chaque bloc basé sur un mélange d'experts comporte une couche d'auto-attention partagée applicable à toutes les modalités, un routeur clairsemé pour allouer l'expertise au niveau du jeton et divers experts basés sur le réseau feedforward. Grâce à cette approche, le cadre Uni-MoE est capable de comprendre plusieurs modalités, notamment la parole, l'audio, le texte, la vidéo, l'image, et ne nécessite que l'activation de paramètres partiels lors de l'inférence.
De plus, pour améliorer la collaboration multi-experts et la généralisation, le cadre Uni-MoE met en œuvre une stratégie de formation en trois étapes. Dans la première étape, le cadre utilise de nombreuses paires image/audio/parole vers langue pour former le connecteur correspondant grâce à la représentation de modalité unifiée dans l'espace linguistique du grand modèle de langage. Deuxièmement, le modèle Uni-MoE forme des experts spécifiques à une modalité en utilisant séparément des ensembles de données intermodales dans le but d'affiner les compétences de chaque expert dans son domaine respectif. Dans la troisième étape, le framework Uni-MoE intègre ces experts formés dans la couche Mixture of Expert du grand modèle de langage et forme l'ensemble du framework Uni-MoE avec des données d'instructions multimodales mixtes. Pour réduire davantage le coût de la formation, le cadre Uni-MoE utilise l'approche d'apprentissage LoRA pour affiner ces couches d'auto-attention et les experts pré-réglés.
Uni-MoE : Méthodologie et Architecture
La motivation fondamentale derrière le cadre Uni-MoE est le coût élevé de formation et d'inférence lié à la mise à l'échelle de grands modèles de langage multimodaux ainsi que l'efficacité du mélange de modèles experts, et explore la possibilité de créer un grand modèle de langage multimodal efficace, puissant et unifié en utilisant le Architecture du ministère de l'Environnement. La figure suivante présente une représentation de l'architecture implémentée dans le cadre Uni-MoE démontrant la conception qui comprend des encodeurs individuels pour différentes modalités, c'est-à -dire l'audio, la parole et les visuels, ainsi que leurs connecteurs de modalité respectifs.
Le framework Uni-MoE intègre ensuite l'architecture Mixture of Expert avec les grands blocs de modèle de langage de base, un processus crucial pour améliorer l'efficacité globale du processus de formation et d'inférence. Le framework Uni-MoE y parvient en implémentant un mécanisme de routage clairsemé. Le processus de formation global du cadre Uni-MoE peut être divisé en trois phases : l'alignement intermodal, la formation d'experts spécifiques à chaque modalité et le réglage d'Uni-MoE à l'aide d'un ensemble diversifié d'ensembles de données d'instructions multimodales. Pour transformer efficacement diverses entrées modales en un format linguistique, le cadre Uni-MoE est construit sur LLaVA, un cadre de langage visuel pré-entraîné. Le modèle de base LLaVA intègre CLIP comme encodeur visuel aux côtés d'une couche de projection linéaire qui convertit les caractéristiques de l'image en jetons d'image logicielle correspondants. De plus, pour traiter le contenu vidéo, le framework Uni-MoE sélectionne huit images représentatives de chaque vidéo et les transforme en jetons vidéo par regroupement moyen pour agréger leur représentation basée sur l'image ou l'image. Pour les tâches audio, le framework Uni-MoE déploie deux encodeurs, BEAT et l'encodeur Whisper pour améliorer l'extraction de fonctionnalités. Le modèle distille ensuite les caractéristiques audio vectorielles et vocales de longueur fixe, et les mappe respectivement en jetons vocaux et en audio doux via une couche de projection linéaire.
Stratégie de formation
Le cadre Uni-MoE introduit une stratégie de formation progressive pour le développement progressif du modèle. La stratégie de formation progressive a introduit des tentatives pour exploiter les capacités distinctes de divers experts, améliorer l'efficacité de la collaboration multi-experts et renforcer la généralisabilité globale du cadre. Le processus de formation est divisé en trois étapes avec la tentative d'actualiser le MLLM structure construite sur un mélange intégré d’experts.
Étape 1 : Alignement des modalités croisées
Dans un premier temps, le cadre Uni-MoE tente d'établir une connectivité entre différentes linguistiques et modalités. Le framework Uni-MoE y parvient en traduisant les données modales en jetons logiciels en construisant des connecteurs. L'objectif principal de la première étape de formation est de minimiser la perte d'entropie générative. Dans le cadre Uni-MoE, le LLM est optimisé pour générer des descriptions d'entrées dans différentes modalités, et le modèle soumet uniquement les connecteurs à une formation, une stratégie qui permet au cadre Uni-MoE d'intégrer différentes modalités dans un cadre linguistique unifié.
Étape 2 : Formation d’experts spécifiques aux modalités
Dans la deuxième étape, le cadre Uni-MoE se concentre sur le développement d'experts à modalité unique en formant le modèle spécifiquement sur des données inter-modalités spécifiques. L'objectif principal est d'affiner les compétences de chaque expert dans son domaine respectif, améliorant ainsi les performances globales du système Mixture of Expert sur un large éventail de données multimodales. De plus, le cadre Uni-MoE adapte les réseaux de rétroaction pour s'aligner plus étroitement sur les caractéristiques de la modalité tout en conservant la perte d'entropie générative en tant que formation métrique focale.
Étape 3 : Réglage d'Uni-MoE
Dans la troisième et dernière étape, le cadre Uni-MoE intègre les pondérations réglées par les experts au cours de l'étape 2 dans le mélange de couches d'experts. Le cadre Uni-MoE affine ensuite les MLLM en utilisant conjointement des données d'instructions multimodales mixtes. Les courbes de perte dans l'image suivante reflètent la progression du processus de formation.
L'analyse comparative entre les configurations de Mixture of Expert a révélé que les experts que le modèle a affiné au cours de la 2e étape de formation ont fait preuve d'une stabilité améliorée et ont obtenu une convergence plus rapide sur des ensembles de données multimodaux. En outre, sur les tâches impliquant des données multimodales complexes, notamment du texte, des images, de l'audio et des vidéos, le cadre Uni-MoE a démontré des performances de formation plus cohérentes et une variabilité des pertes réduite lorsqu'il employait quatre experts que lorsqu'il employait deux experts.
Uni-MoE : Expériences et résultats
Le tableau suivant résume les spécifications architecturales du framework Uni-MoE. L'objectif principal du framework Uni-MoE, construit sur l'architecture LLaMA-7B, est de faire évoluer la taille du modèle.
Le tableau suivant résume la conception et l'optimisation du cadre Uni-MoE, guidées par des tâches de formation spécialisées. Ces tâches contribuent à affiner les capacités des couches MLP, tirant ainsi parti de leurs connaissances spécialisées pour améliorer les performances du modèle. Le cadre Uni-MoE entreprend huit tâches d'experts à modalité unique pour élucider les impacts différentiels de diverses méthodologies de formation.
Le modèle évalue les performances de diverses variantes de modèle sur un ensemble diversifié de tests qui englobent deux tâches de compréhension vidéo, trois tâches de compréhension audio et cinq tâches liées à la parole. Tout d’abord, le modèle est testé sur sa capacité à comprendre les tâches parole-image et parole-texte, et les résultats sont contenus dans le tableau suivant.
Comme on peut l’observer, les modèles de base précédents donnent des résultats inférieurs pour les tâches de compréhension de la parole, ce qui a un impact supplémentaire sur les performances des tâches de raisonnement image-parole. Les résultats indiquent que l’introduction d’une architecture Mixture of Expert peut améliorer la généralisabilité des MLLM sur des tâches de raisonnement invisibles audi-image. Le tableau suivant présente les résultats expérimentaux sur les tâches de compréhension image-texte. Comme on peut l’observer, les meilleurs résultats des modèles Uni-MoE surpassent les lignes de base et dépassent la tâche de réglage fin d’une marge moyenne de 4 points.
Réflexions finales
Dans cet article, nous avons parlé d'Uni-MoE, un grand modèle de langage multimodal unifié avec une architecture MoE ou Mixture of Expert capable de gérer un large éventail de modalités et d'experts. Le cadre Uni-MoE implémente également une architecture mixte d'experts au sein des grands modèles de langage dans le but de rendre le processus de formation et d'inférence plus efficace en utilisant le parallélisme de modèles de niveau expert et le parallélisme de données. De plus, pour améliorer la généralisation et la collaboration multi-experts, le cadre Uni-MoE présente une stratégie de formation progressive qui est une combinaison de trois processus différents. Dans le premier, le cadre Uni-MoE réalise un alignement inter-modalités en utilisant divers connecteurs avec différentes données inter-modalités. Deuxièmement, le cadre Uni-MoE active la préférence des composants experts en formant des experts spécifiques à une modalité avec des données d'instructions inter-modalités. Enfin, le modèle Uni-MoE implémente la technique d'apprentissage LoRA ou Low-Rank Adaptation sur des données d'instructions multimodales mixtes pour affiner le modèle.