talon MoE-LLaVA : Mélange d'experts pour les modèles de vision et de langage à grande échelle - Unite.AI
Suivez nous sur

Intelligence artificielle

MoE-LLaVA : Mélange d'experts pour les grands modèles de vision et de langage

mm
Le kit de préparation mis à jour on
MoE-LLaVA : Mélange d'experts pour les grands modèles de vision et de langage

Les progrès récents dans les modèles de langage à grande vision (LVLM) ont montré que la mise à l'échelle de ces cadres améliore considérablement les performances dans une variété de tâches en aval. Les LVLM, notamment MiniGPT, LLaMA et autres, ont atteint des capacités remarquables en incorporant des couches de projection visuelle et un encodeur d'image dans leur architecture. En implémentant ces composants, les LVLM améliorent les capacités de perception visuelle des grands modèles linguistiques (LLM). Les performances peuvent être encore améliorées en augmentant la taille du modèle et le nombre de paramètres, ainsi qu'en élargissant l'échelle de l'ensemble de données.

Des modèles comme InternVL ont étendu leur encodeur d'image à plus de 6 milliards de paramètres, tandis que d'autres ont étendu le backend des LVLM à 13 milliards de paramètres, obtenant ainsi des performances supérieures sur un large éventail de tâches. IDEFICS a formé un LVLM avec plus de 80 milliards de paramètres. Ces méthodes de mise à l'échelle ont égalé ou dépassé les performances des LLM pré-entraînés sur plus de 34, 70, voire 100 milliards de paramètres. Cependant, la mise à l’échelle présente un inconvénient : elle augmente considérablement les coûts de formation et d’inférence. En effet, cela nécessite que tous les paramètres soient actifs pour chaque jeton lors du calcul, ce qui entraîne des besoins de calcul élevés et, par conséquent, des coûts plus élevés.

Cet article traite de MoE-LLaVA, une architecture LVLM clairsemée basée sur un mélange d'experts (MoE) qui utilise une stratégie de formation efficace, MoE-Tuning, pour les LVLM. MoE-Tuning aborde de manière innovante la dégradation des performances dans l'apprentissage multimodal par parcimonie, ce qui donne lieu à un modèle avec un grand nombre de paramètres mais des coûts de formation et d'inférence cohérents. L'architecture MoE-LLaVA est conçue pour activer uniquement les meilleurs experts pendant le déploiement, gardant les autres inactifs.

Nous explorerons le cadre MoE-LLaVA, en examinant son mécanisme, sa méthodologie, son architecture et comment il se compare aux principaux cadres de génération d'images et de vidéos.

MoE-LLaVA : faire évoluer les modèles de langage à grande vision à un prix abordable

En plus d'exploiter les couches de projection visuelle et les encodeurs d'images, les modèles linguistiques à grande vision augmentent également la taille du modèle en augmentant le nombre de paramètres pour améliorer les performances du modèle. Quelques exemples notables de modèles de langage à grande vision qui ont suivi cette approche pour améliorer leurs performances sont MiniGPT-4, InternGPT, InternVL et autres. Dans les applications du monde réel, la mise à l'échelle d'un modèle linguistique à grande échelle ou d'un modèle linguistique à grande vision avec des données de formation de haute qualité devient souvent une nécessité pour améliorer les performances du modèle. Bien que la mise à l'échelle d'une taille de modèle améliore effectivement les performances, elle augmente également les coûts de calcul liés à la formation et au déploiement du modèle, et augmente encore les complications et l'efficacité du déploiement simultané du modèle sur des appareils parallèles. L'une des principales raisons de l'augmentation des coûts de formation et d'inférence ainsi que des exigences de calcul est que chaque jeton du cadre nécessite un calcul avec chaque paramètre du modèle connu sous le nom de modèle dense. 

D'autre part, des MoE clairsemés ou des mélanges de modèles experts ont démontré une mise à l'échelle efficace des cadres en traitant les données à l'aide de paramètres activés fixes, une approche qui a été largement adoptée dans le domaine du traitement du langage naturel. Cependant, utiliser Mixture of Expert pour former directement des modèles de langage à grande vision clairsemés est un défi, car la conversion de LLM en LVLM et la fragmentation simultanée du modèle entraînent une dégradation significative des performances. Pour implémenter un mélange de modèles pour mettre à l'échelle les LLM et les LVLM, il est essentiel d'initialiser d'abord le LVLM pour la sparsification. Pour y parvenir, le cadre MoE-LLaVA introduit MoE-Tuning, une stratégie de formation en trois phases simple mais efficace. 

Comme le montre la figure ci-dessus, le processus MoE-Tuning entraîne d'abord un MLP ou un Perceptron multicouche qui adapte les jetons visuels à un grand modèle de langage dans un premier temps. Le cadre entraîne ensuite l'ensemble des paramètres du LLM pour doter le modèle de langage à grande vision de capacités générales de compréhension multimodale. Enfin, dans la troisième étape, le framework réplique le FFN ou Feed Forward Network comme poids d'initialisation pour les experts et forme uniquement le mélange de couches experts. Dans l'ensemble, le processus de formation contribue à la transition progressive du modèle clairsemé d'une initialisation LVLM à un mélange clairsemé de modèles experts. 

Le processus de formation étant couvert, mettons en lumière MoE-LLaVA, une base de référence pour les modèles de langage à grande vision avec un mélange de modèles experts qui intègre des routeurs apprenables et des modèles MoE. À la base, le modèle MoE-LLaVA se compose de plusieurs chemins clairsemés, et le cadre utilise ces chemins pour distribuer chaque jeton à différents experts via le routeur apprenable. Les jetons sont ensuite traités collectivement par les experts activés tout en gardant silencieux les chemins inactifs. Le framework empile ensuite le mélange de couches d'encodeurs Expert de manière itérative pour fournir un chemin clairsemé vers un LVLM plus grand et plus puissant. 

Grâce à l'approche mise en œuvre par le framework MoE-LLaVA, il est capable de surpasser les modèles avec un nombre similaire de paramètres activés, et de les surpasser d'une grande différence sur le benchmark des hallucinations d'objets POPE, bien qu'il n'ait que 2.2 milliards de paramètres. De plus, le framework MoE-LLaVA, avec 2.2 milliards de paramètres, est capable d'atteindre des performances comparables au framework InternVL-Chat-19B avec près de 8 fois le nombre de paramètres activés. 

De puissants modèles de langage étendus dotés de fortes capacités de généralisation et de suivi d'instructions ont été implémentés pour Grands modèles de langage visuel. Les premiers LLM comme BLIP codaient les signaux visuels dans une séquence de jetons visuels leur permettant d'adapter avec succès la vision aux LLM en utilisant plusieurs couches de projection. Dans le même temps, des travaux récents se concentrent sur l'amélioration des performances du modèle en mettant en œuvre des méthodes telles que l'expansion de l'ensemble de données de réglage des instructions, l'augmentation de la résolution de l'image, l'optimisation des stratégies de formation, l'alignement des entrées, l'amélioration des encodeurs d'image et bien plus encore. Ces approches ont contribué à doter les LVLM de puissantes capacités de compréhension visuelle en élargissant l'instruction visuelle en ajustant l'ensemble de données et les échelles de modèle. En outre, certains LVLM possèdent également des capacités de compréhension fine des images, telles que la compréhension des régions et de plusieurs régions, ainsi que des capacités de mise à la terre par pixel. Cependant, le coût de calcul associé à la mise à l’échelle de données visuelles et de modèles denses est souvent très élevé, ce qui rend son utilisation difficile. D'autre part, le cadre MoE-LLaVA vise à rendre la recherche LVLM plus abordable en tirant parti des capacités des modèles MoE. 

MoE-LLaVA : Méthode et Architecture

À la base, le cadre MoE-LLaVA se compose d'une couche de projection visuelle (Multilayer Perceptron), d'un encodeur de vision, de blocs MoE, de plusieurs blocs LLM empilés et d'une couche d'intégration de mots. 

Architecture

Le tableau suivant résume les configurations détaillées du cadre MoE-LLaVA. 

Pour une image RVB donnée, le codeur de vision traite les images pour obtenir une séquence de jetons visuels avec une couche de projection visuelle mappant la séquence de jetons visuels aux images d'entrée. Les entrées de texte sont traitées par la couche d'intégration de mots qui les projette ensuite pour obtenir les jetons de séquence. Dans le même temps, le cadre MoE-LLaVA relie les jetons textuels et visuels entre eux et les transmet au LLM. Cependant, le cadre entraîne uniquement la couche de projection visuelle avec le grand modèle de langage composé de réseaux neuronaux FFN ou Feedforward et de couches d'auto-attention multi-têtes. Enfin, le cadre applique des connexions résiduelles et une normalisation des couches à chaque bloc. 

En progressant, le cadre MoE-LLaVA réplique les réseaux de neurones FFN ou Feedforward à partir de la deuxième étape pour former un ensemble d'experts comme étape d'initialisation. Le routeur étant une couche linéaire, prédit la probabilité que chaque jeton soit attribué à chaque expert. Chaque jeton est traité par les meilleurs experts avec la probabilité maximale et calcule la somme pondérée en fonction du résultat softmax des probabilités. 

Réglage du MoE

MoE-Tuning est une stratégie de formation en trois phases simple mais efficace qui forme d'abord un MLP ou un Perceptron multicouche qui adapte les jetons visuels à un grand modèle de langage dans la première étape. Le cadre entraîne ensuite l'ensemble des paramètres du LLM pour doter le modèle de langage à grande vision de capacités générales de compréhension multimodale. Enfin, dans la troisième étape, le framework réplique le FFN ou Feed Forward Network comme poids d'initialisation pour les experts et forme uniquement le mélange de couches experts. 

Étape 1

Dans la première étape, l'objectif principal est d'adapter les jetons d'image au grand modèle de langage qui permet au LLM de comprendre les instances de l'image. Le framework MoE-LLaVA utilise un perceptron multicouche pour projeter les jetons d'image dans le domaine d'entrée du grand modèle de langage et traite les correctifs d'image comme des jetons de pseudo-texte. À cette étape, le cadre MoE-LLaVA entraîne le LLM à décrire les images et n'applique pas les couches MoE au LLM au cours de cette étape.

Étape 2

Dans la deuxième étape, le MoE-LLaVA tente d'améliorer les capacités et la contrôlabilité du cadre en ajustant le modèle avec des données d'instructions multimodales. Le cadre MoE-LLaVA y parvient en ajustant le LLM pour devenir un LVLM doté de capacités de compréhension multimodales. Le cadre utilise des instructions plus complexes, notamment des tâches de reconnaissance de texte et de raisonnement d'images logiques qui nécessitent que le modèle possède des capacités multimodales plus fortes. Traditionnellement, le processus de formation des modèles denses est considéré comme terminé par cette étape. Cependant, le cadre MoE-LLaVA a rencontré des difficultés pour transformer le LLM en un LVLM simultanément à la fragmentation du LVLM. Pour relever ce défi, le cadre utilise les poids de l'étape comme initialisation de l'étape suivante dans le but d'atténuer la difficulté d'apprentissage du modèle clairsemé. 

Étape 3

Dans la troisième étape, le modèle réplique plusieurs fois le réseau neuronal feedforward pour initialiser les experts en tant que procédure d'initialisation. Le framework alimente ensuite les jetons de texte et d'image dans le mélange de couches expertes, après quoi le routeur calcule les pondérations correspondantes entre les experts et chaque jeton. Chaque jeton est ensuite traité par les experts top-k avec la sortie agrégée calculée par sommation pondérée basée sur les poids du routeur. Une fois les experts top-k activés, le modèle ferme les experts restants, une approche qui dote le cadre MoE-LLaVA de chemins clairsemés infiniment possibles, dotant ainsi le modèle d'un large éventail de capacités. 

MoE-LLaVA : Résultats et expérimentations

Le framework MoE-LLaVA adopte CLIP-Large comme encodeur de vision avec le Perceptron multicouche composé de deux couches avec une couche d'activation GELU séparant les deux. Par défaut, le cadre utilise un remplacement alterné des réseaux de neurones à action directe par le mélange de couches expertes, ce qui signifie que le mélange de couches expertes représente 50 % du nombre total de couches. Le tableau suivant contient les différents ensembles de données ainsi que la taille de leur échantillon utilisés pour former et évaluer le cadre MoE-LLaVA. 

Réponse aux questions sur l'image Zero-Shot

La figure suivante montre que MoE-LLaVA est un modèle clairsemé avec un routeur logiciel basé sur LVLM. Le cadre est évalué sur 5 critères de réponse aux questions d'image et, comme on peut l'observer, le cadre MoE-LLaVA démontre des capacités remarquables de compréhension d'images et offre des performances comparables à celles du cadre de pointe LLaVA 1.5 sur cinq critères différents. 

Évaluation des hallucinations d'objets

Pour évaluer l'hallucination d'objet, le cadre MoE-LLaVA adopte le pipeline d'évaluation POPE, une méthode de requête basée sur des sondages, et les résultats sont présentés dans le tableau suivant. Comme on peut l'observer, parmi tous les frameworks, le MoE-LLaVA fournit les résultats les plus forts, indiquant la capacité du framework à générer des objets cohérents avec l'image d'entrée. De plus, il convient de noter que le cadre MoE-LLaVA équilibre bien le ratio oui, indiquant la capacité du modèle clairsemé à fournir un retour d’information précis pour la question donnée. 

L'image suivante contient la répartition des chargements experts, où les lignes discontinues représentent une répartition bien équilibrée des jetons entre les modalités ou les experts. La première figure illustre la charge de travail des experts tandis que les images restantes démontrent la performance des experts selon différentes modalités. 

De plus, la figure suivante montre la répartition des modalités entre différents experts. 

Réflexions finales

Dans cet article, nous avons parlé de MoE-LLaVA, une base de référence pour les modèles de langage à grande vision avec un mélange de modèles experts qui intègre des routeurs apprenables et des modèles MoE. À la base, le modèle MoE-LLaVA se compose de plusieurs chemins clairsemés, et le cadre utilise ces chemins pour distribuer chaque jeton à différents experts via le routeur apprenable. Les jetons sont ensuite traités collectivement par les experts activés tout en gardant silencieux les chemins inactifs. Le framework empile ensuite le mélange de couches d'encodeurs Expert de manière itérative pour fournir un chemin clairsemé vers un LVLM plus grand et plus puissant. La stratégie MoE-Tuning aborde le problème commun de la dégradation des performances dans l'apprentissage multimodal par parcimonie de manière innovante, en construisant par conséquent un modèle avec un nombre significativement plus grand de paramètres mais des coûts de formation et d'inférence cohérents. L'architecture du cadre MoE-LLaVA a été conçue de manière à activer uniquement les meilleurs experts pendant le déploiement tout en gardant les experts restants inactifs. 

« Ingénieur de profession, écrivain de cœur ». Kunal est un rédacteur technique avec un amour et une compréhension profonds de l'IA et du ML, dédié à la simplification de concepts complexes dans ces domaines grâce à sa documentation engageante et informative.