Suivez nous sur

Uni-MoE : mise Ă  l'Ă©chelle des LLM multimodaux unifiĂ©s avec un mĂ©lange d'experts

Intelligence Artificielle

Uni-MoE : mise Ă  l'Ă©chelle des LLM multimodaux unifiĂ©s avec un mĂ©lange d'experts

mm

Les progrès rĂ©cents dans l'architecture et les performances des modèles multimodaux de langage Ă©tendu ou MLLM ont mis en Ă©vidence l'importance des donnĂ©es et des modèles Ă©volutifs pour amĂ©liorer les performances. Bien que cette approche amĂ©liore les performances, elle entraĂ®ne des coĂ»ts de calcul substantiels qui limitent la praticitĂ© et la convivialitĂ© de telles approches. Au fil des annĂ©es, les modèles Mixture of Expert ou MoE sont apparus comme une approche alternative rĂ©ussie pour mettre Ă  l'Ă©chelle efficacement des modèles d'image, de texte et de langage volumineux, car les modèles Mixture of Expert ont des coĂ»ts de calcul considĂ©rablement infĂ©rieurs et de solides performances. Cependant, malgrĂ© leurs avantages, les mĂ©langes de modèles ne constituent pas l'approche idĂ©ale pour mettre Ă  l'Ă©chelle de grands modèles de langage, car ils impliquent souvent moins d'experts et des modalitĂ©s limitĂ©es, limitant ainsi les applications. 

Pour contrer les obstacles rencontrĂ©s par les approches actuelles et pour faire Ă©voluer efficacement les grands modèles de langage, dans cet article, nous parlerons d'Uni-MoE, un grand modèle de langage multimodal unifiĂ© avec une architecture MoE ou Mixture of Expert capable de gĂ©rer un large Ă©ventail de langages. Ă©ventail de modalitĂ©s et d’experts. Le cadre Uni-MoE implĂ©mente Ă©galement une architecture mixte d'experts au sein des grands modèles de langage dans le but de rendre le processus de formation et d'infĂ©rence plus efficace en utilisant le parallĂ©lisme de modèles de niveau expert et le parallĂ©lisme de donnĂ©es. De plus, pour amĂ©liorer la gĂ©nĂ©ralisation et la collaboration multi-experts, le cadre Uni-MoE prĂ©sente une stratĂ©gie de formation progressive qui est une combinaison de trois processus diffĂ©rents. Dans le premier, le cadre Uni-MoE rĂ©alise un alignement inter-modalitĂ©s en utilisant divers connecteurs avec diffĂ©rentes donnĂ©es inter-modalitĂ©s. Deuxièmement, le cadre Uni-MoE active la prĂ©fĂ©rence des composants experts en formant des experts spĂ©cifiques Ă  une modalitĂ© avec des donnĂ©es d'instructions inter-modalitĂ©s. Enfin, le modèle Uni-MoE implĂ©mente la technique d'apprentissage LoRA ou Low-Rank Adaptation sur des donnĂ©es d'instructions multimodales mixtes pour affiner le modèle. Lorsque le cadre Uni-MoE adaptĂ© aux instructions a Ă©tĂ© Ă©valuĂ© sur un ensemble complet d'ensembles de donnĂ©es multimodaux, les rĂ©sultats expĂ©rimentaux approfondis ont mis en Ă©vidence le principal avantage du cadre Uni-MoE dans la rĂ©duction significative des biais de performances dans la gestion d'ensembles de donnĂ©es multimodaux mixtes. Les rĂ©sultats ont Ă©galement indiquĂ© une amĂ©lioration significative de la collaboration multi-experts et de la gĂ©nĂ©ralisation. 

Cet article vise Ă  couvrir le framework Uni-MoE en profondeur et nous explorons le mĂ©canisme, la mĂ©thodologie, l'architecture du framework ainsi que sa comparaison avec les frameworks de pointe. Alors, commençons. 

Uni-MoE : mise Ă  l'Ă©chelle des LLM multimodaux unifiĂ©s

L'avènement de grands modèles de langage multimodaux open source, notamment LLama et InstantBlip, a soulignĂ© le succès et les progrès notables dans les tâches impliquant la comprĂ©hension image-texte au cours des dernières annĂ©es. En outre, la communautĂ© de l'IA travaille activement Ă  la crĂ©ation d'un grand modèle de langage multimodal unifiĂ© qui pourrait accueillir un large Ă©ventail de modalitĂ©s, notamment l'image, le texte, l'audio, la vidĂ©o, etc., allant au-delĂ  du paradigme traditionnel image-texte. Une approche courante suivie par la communautĂ© open source pour renforcer les capacitĂ©s des grands modèles de langage multimodaux consiste Ă  augmenter la taille des modèles de base de vision, Ă  les intĂ©grer Ă  de grands modèles de langage avec des milliards de paramètres et Ă  utiliser divers ensembles de donnĂ©es multimodaux pour amĂ©liorer le rĂ©glage des instructions. Ces dĂ©veloppements ont mis en Ă©vidence la capacitĂ© croissante des grands modèles de langage multimodaux Ă  raisonner et Ă  traiter plusieurs modalitĂ©s, dĂ©montrant l'importance de l'expansion des donnĂ©es pĂ©dagogiques multimodales et de l'Ă©volutivitĂ© du modèle. 

Bien que la mise Ă  l’échelle d’un modèle soit une approche Ă©prouvĂ©e qui donne des rĂ©sultats substantiels, la mise Ă  l’échelle d’un modèle est un processus coĂ»teux en termes de calcul, tant pour les processus de formation que d’infĂ©rence. 

Pour contrer le problème des coĂ»ts de calcul Ă©levĂ©s, la communautĂ© open source s'oriente vers l'intĂ©gration du MoE ou mĂ©lange d'experts architecture de modèle dans de grands modèles de langage pour amĂ©liorer Ă  la fois l’efficacitĂ© de la formation et de l’infĂ©rence. Contrairement au grand langage multimodal et aux grands modèles de langage qui utilisent tous les paramètres disponibles pour traiter chaque entrĂ©e, ce qui donne lieu Ă  une approche informatique dense, l'architecture Mixture of Expert nĂ©cessite uniquement que les utilisateurs activent un sous-ensemble de paramètres experts pour chaque entrĂ©e. En consĂ©quence, l’approche Mixture of Expert apparaĂ®t comme une voie viable pour amĂ©liorer l’efficacitĂ© des grands modèles sans activation Ă©tendue des paramètres et sans coĂ»ts de calcul Ă©levĂ©s. Bien que les travaux existants aient mis en Ă©vidence la mise en Ĺ“uvre et l'intĂ©gration rĂ©ussies de modèles Mixture of Expert dans la construction de grands modèles texte uniquement et texte-image, les chercheurs doivent encore explorer pleinement le potentiel du dĂ©veloppement de l'architecture Mixture of Expert pour construire de puissants grands modèles multimodaux unifiĂ©s. modèles de langage. 

Uni-MoE est un grand modèle de langage multimodal qui exploite un mĂ©lange clairsemĂ© de modèles experts pour interprĂ©ter et gĂ©rer plusieurs modalitĂ©s dans le but d'explorer la mise Ă  l'Ă©chelle de modèles de grand langage multimodaux unifiĂ©s avec l'architecture MoE. Comme le montre l'image suivante, le framework Uni-MoE obtient d'abord le codage de diffĂ©rentes modalitĂ©s Ă  l'aide d'encodeurs spĂ©cifiques aux modalitĂ©s, puis mappe ces codages dans l'espace de reprĂ©sentation linguistique des grands modèles de langage Ă  l'aide de divers connecteurs conçus. Ces connecteurs contiennent un modèle de transformateur entraĂ®nable avec des projections linĂ©aires ultĂ©rieures pour distiller et projeter les reprĂ©sentations de sortie de l'encodeur gelĂ©. Le framework Uni-MoE introduit ensuite un mĂ©lange clairsemĂ© de couches expertes dans le bloc interne du modèle dense de langage Ă©tendu. En consĂ©quence, chaque bloc basĂ© sur un mĂ©lange d'experts comporte une couche d'auto-attention partagĂ©e applicable Ă  toutes les modalitĂ©s, un routeur clairsemĂ© pour allouer l'expertise au niveau du jeton et divers experts basĂ©s sur le rĂ©seau feedforward. Grâce Ă  cette approche, le cadre Uni-MoE est capable de comprendre plusieurs modalitĂ©s, notamment la parole, l'audio, le texte, la vidĂ©o, l'image, et ne nĂ©cessite que l'activation de paramètres partiels lors de l'infĂ©rence. 

De plus, pour amĂ©liorer la collaboration multi-experts et la gĂ©nĂ©ralisation, le cadre Uni-MoE met en Ĺ“uvre une stratĂ©gie de formation en trois Ă©tapes. Dans la première Ă©tape, le cadre utilise de nombreuses paires image/audio/parole vers langue pour former le connecteur correspondant grâce Ă  la reprĂ©sentation de modalitĂ© unifiĂ©e dans l'espace linguistique du grand modèle de langage. Deuxièmement, le modèle Uni-MoE forme des experts spĂ©cifiques Ă  une modalitĂ© en utilisant sĂ©parĂ©ment des ensembles de donnĂ©es intermodales dans le but d'affiner les compĂ©tences de chaque expert dans son domaine respectif. Dans la troisième Ă©tape, le framework Uni-MoE intègre ces experts formĂ©s dans la couche Mixture of Expert du grand modèle de langage et forme l'ensemble du framework Uni-MoE avec des donnĂ©es d'instructions multimodales mixtes. Pour rĂ©duire davantage le coĂ»t de la formation, le cadre Uni-MoE utilise l'approche d'apprentissage LoRA pour affiner ces couches d'auto-attention et les experts prĂ©-rĂ©glĂ©s. 

Uni-MoE : Méthodologie et Architecture

La motivation fondamentale derrière le cadre Uni-MoE est le coĂ»t Ă©levĂ© de formation et d'infĂ©rence liĂ© Ă  la mise Ă  l'Ă©chelle de grands modèles de langage multimodaux ainsi que l'efficacitĂ© du mĂ©lange de modèles experts, et explore la possibilitĂ© de crĂ©er un grand modèle de langage multimodal efficace, puissant et unifiĂ© en utilisant le Architecture du ministère de l'Environnement. La figure suivante prĂ©sente une reprĂ©sentation de l'architecture implĂ©mentĂ©e dans le cadre Uni-MoE dĂ©montrant la conception qui comprend des encodeurs individuels pour diffĂ©rentes modalitĂ©s, c'est-Ă -dire l'audio, la parole et les visuels, ainsi que leurs connecteurs de modalitĂ© respectifs. 

Le framework Uni-MoE intègre ensuite l'architecture Mixture of Expert avec les grands blocs de modèle de langage de base, un processus crucial pour amĂ©liorer l'efficacitĂ© globale du processus de formation et d'infĂ©rence. Le framework Uni-MoE y parvient en implĂ©mentant un mĂ©canisme de routage clairsemĂ©. Le processus de formation global du cadre Uni-MoE peut ĂŞtre divisĂ© en trois phases : l'alignement intermodal, la formation d'experts spĂ©cifiques Ă  chaque modalitĂ© et le rĂ©glage d'Uni-MoE Ă  l'aide d'un ensemble diversifiĂ© d'ensembles de donnĂ©es d'instructions multimodales. Pour transformer efficacement diverses entrĂ©es modales en un format linguistique, le cadre Uni-MoE est construit sur LLaVA, un cadre de langage visuel prĂ©-entraĂ®nĂ©. Le modèle de base LLaVA intègre CLIP comme encodeur visuel aux cĂ´tĂ©s d'une couche de projection linĂ©aire qui convertit les caractĂ©ristiques de l'image en jetons d'image logicielle correspondants. De plus, pour traiter le contenu vidĂ©o, le framework Uni-MoE sĂ©lectionne huit images reprĂ©sentatives de chaque vidĂ©o et les transforme en jetons vidĂ©o par regroupement moyen pour agrĂ©ger leur reprĂ©sentation basĂ©e sur l'image ou l'image. Pour les tâches audio, le framework Uni-MoE dĂ©ploie deux encodeurs, BEAT et l'encodeur Whisper pour amĂ©liorer l'extraction de fonctionnalitĂ©s. Le modèle distille ensuite les caractĂ©ristiques audio vectorielles et vocales de longueur fixe, et les mappe respectivement en jetons vocaux et en audio doux via une couche de projection linĂ©aire. 

Stratégie de formation

Le cadre Uni-MoE introduit une stratĂ©gie de formation progressive pour le dĂ©veloppement progressif du modèle. La stratĂ©gie de formation progressive a introduit des tentatives pour exploiter les capacitĂ©s distinctes de divers experts, amĂ©liorer l'efficacitĂ© de la collaboration multi-experts et renforcer la gĂ©nĂ©ralisabilitĂ© globale du cadre. Le processus de formation est divisĂ© en trois Ă©tapes avec la tentative d'actualiser le MLLM structure construite sur un mĂ©lange intĂ©grĂ© d’experts. 

Étape 1 : Alignement des modalités croisées

Dans un premier temps, le cadre Uni-MoE tente d'Ă©tablir une connectivitĂ© entre diffĂ©rentes linguistiques et modalitĂ©s. Le framework Uni-MoE y parvient en traduisant les donnĂ©es modales en jetons logiciels en construisant des connecteurs. L'objectif principal de la première Ă©tape de formation est de minimiser la perte d'entropie gĂ©nĂ©rative.  Dans le cadre Uni-MoE, le LLM est optimisĂ© pour gĂ©nĂ©rer des descriptions d'entrĂ©es dans diffĂ©rentes modalitĂ©s, et le modèle soumet uniquement les connecteurs Ă  une formation, une stratĂ©gie qui permet au cadre Uni-MoE d'intĂ©grer diffĂ©rentes modalitĂ©s dans un cadre linguistique unifiĂ©. 

Étape 2 : Formation d’experts spĂ©cifiques aux modalitĂ©s

Dans la deuxième Ă©tape, le cadre Uni-MoE se concentre sur le dĂ©veloppement d'experts Ă  modalitĂ© unique en formant le modèle spĂ©cifiquement sur des donnĂ©es inter-modalitĂ©s spĂ©cifiques. L'objectif principal est d'affiner les compĂ©tences de chaque expert dans son domaine respectif, amĂ©liorant ainsi les performances globales du système Mixture of Expert sur un large Ă©ventail de donnĂ©es multimodales. De plus, le cadre Uni-MoE adapte les rĂ©seaux de rĂ©troaction pour s'aligner plus Ă©troitement sur les caractĂ©ristiques de la modalitĂ© tout en conservant la perte d'entropie gĂ©nĂ©rative en tant que formation mĂ©trique focale. 

Étape 3 : RĂ©glage d'Uni-MoE

Dans la troisième et dernière Ă©tape, le cadre Uni-MoE intègre les pondĂ©rations rĂ©glĂ©es par les experts au cours de l'Ă©tape 2 dans le mĂ©lange de couches d'experts. Le cadre Uni-MoE affine ensuite les MLLM en utilisant conjointement des donnĂ©es d'instructions multimodales mixtes. Les courbes de perte dans l'image suivante reflètent la progression du processus de formation. 

L'analyse comparative entre les configurations de Mixture of Expert a rĂ©vĂ©lĂ© que les experts que le modèle a affinĂ© au cours de la 2e Ă©tape de formation ont fait preuve d'une stabilitĂ© amĂ©liorĂ©e et ont obtenu une convergence plus rapide sur des ensembles de donnĂ©es multimodaux. En outre, sur les tâches impliquant des donnĂ©es multimodales complexes, notamment du texte, des images, de l'audio et des vidĂ©os, le cadre Uni-MoE a dĂ©montrĂ© des performances de formation plus cohĂ©rentes et une variabilitĂ© des pertes rĂ©duite lorsqu'il employait quatre experts que lorsqu'il employait deux experts. 

Uni-MoE : Expériences et résultats

Le tableau suivant rĂ©sume les spĂ©cifications architecturales du framework Uni-MoE. L'objectif principal du framework Uni-MoE, construit sur l'architecture LLaMA-7B, est de faire Ă©voluer la taille du modèle. 

Le tableau suivant rĂ©sume la conception et l'optimisation du cadre Uni-MoE, guidĂ©es par des tâches de formation spĂ©cialisĂ©es. Ces tâches contribuent Ă  affiner les capacitĂ©s des couches MLP, tirant ainsi parti de leurs connaissances spĂ©cialisĂ©es pour amĂ©liorer les performances du modèle. Le cadre Uni-MoE entreprend huit tâches d'experts Ă  modalitĂ© unique pour Ă©lucider les impacts diffĂ©rentiels de diverses mĂ©thodologies de formation. 

Le modèle Ă©value les performances de diverses variantes de modèle sur un ensemble diversifiĂ© de tests qui englobent deux tâches de comprĂ©hension vidĂ©o, trois tâches de comprĂ©hension audio et cinq tâches liĂ©es Ă  la parole. Tout d’abord, le modèle est testĂ© sur sa capacitĂ© Ă  comprendre les tâches parole-image et parole-texte, et les rĂ©sultats sont contenus dans le tableau suivant. 

Comme on peut l’observer, les modèles de base prĂ©cĂ©dents donnent des rĂ©sultats infĂ©rieurs pour les tâches de comprĂ©hension de la parole, ce qui a un impact supplĂ©mentaire sur les performances des tâches de raisonnement image-parole. Les rĂ©sultats indiquent que l’introduction d’une architecture Mixture of Expert peut amĂ©liorer la gĂ©nĂ©ralisabilitĂ© des MLLM sur des tâches de raisonnement invisibles audi-image. Le tableau suivant prĂ©sente les rĂ©sultats expĂ©rimentaux sur les tâches de comprĂ©hension image-texte. Comme on peut l’observer, les meilleurs rĂ©sultats des modèles Uni-MoE surpassent les lignes de base et dĂ©passent la tâche de rĂ©glage fin d’une marge moyenne de 4 points. 

Réflexions finales

Dans cet article, nous avons parlé d'Uni-MoE, un grand modèle de langage multimodal unifié avec une architecture MoE ou Mixture of Expert capable de gérer un large éventail de modalités et d'experts. Le cadre Uni-MoE implémente également une architecture mixte d'experts au sein des grands modèles de langage dans le but de rendre le processus de formation et d'inférence plus efficace en utilisant le parallélisme de modèles de niveau expert et le parallélisme de données. De plus, pour améliorer la généralisation et la collaboration multi-experts, le cadre Uni-MoE présente une stratégie de formation progressive qui est une combinaison de trois processus différents. Dans le premier, le cadre Uni-MoE réalise un alignement inter-modalités en utilisant divers connecteurs avec différentes données inter-modalités. Deuxièmement, le cadre Uni-MoE active la préférence des composants experts en formant des experts spécifiques à une modalité avec des données d'instructions inter-modalités. Enfin, le modèle Uni-MoE implémente la technique d'apprentissage LoRA ou Low-Rank Adaptation sur des données d'instructions multimodales mixtes pour affiner le modèle.

« IngĂ©nieur de profession, Ă©crivain de cĹ“ur Â». Kunal est un rĂ©dacteur technique avec un amour et une comprĂ©hension profonds de l'IA et du ML, dĂ©diĂ© Ă  la simplification de concepts complexes dans ces domaines grâce Ă  sa documentation engageante et informative.