Intelligence Artificielle
MiniGPT-5 : génération de vision et de langage entrelacés via des Vokens génératifs

Au cours des dernières années, les grands modèles linguistiques (LLM) ont attiré l'attention des développeurs d'IA du monde entier en raison des percées dans le traitement du langage naturel (NLP). Ces modèles ont établi de nouvelles références en matière de génération et de compréhension de textes. Cependant, malgré les progrès réalisés dans la génération de textes, produire des images qui correspondent de manière cohérente aux récits textuels reste un défi. Pour résoudre ce problème, les développeurs ont introduit une approche innovante de génération de vision et de langage basée sur des « vokens génératifs », comblant le fossé des sorties texte-image harmonisées.
Le fondement de MiniGPT-5 est une stratégie de formation en deux étapes qui se concentre fortement sur la génération de données multimodales sans description où les données de formation ne nécessitent aucune description d'image complète. De plus, pour renforcer l'intégrité du modèle, le modèle intègre un système de guidage sans classificateur qui améliore l'efficacité d'un voken pour la génération d'images. Dans la phase initiale, le framework MiniGPT-5 a démontré des performances puissantes et une amélioration substantielle par rapport au modèle de base Divter formé sur l'ensemble de données MMDialog, et a constamment démontré sa capacité à fournir des résultats multimodaux comparables, voire supérieurs, dans les évaluations humaines effectuées. sur l'ensemble de données VIST qui met en évidence ses performances et son efficacité sur divers benchmarks.
MiniGPT5 : une introduction
Avec la collection développements récents des frameworks LLM, et des applications basées sur ces frameworks LLM, l'intégration de fonctionnalités multimédias est un domaine qui a connu une popularité croissante car elle s'avère également être une avancée vitale qui alimente un large éventail d'applications à partir d'outils de création de contenu de pointe. à un agent de dialogue multimodal de pointe. Avec une recherche et un développement continus, les modèles de langage et de vision en sont au point où des travaux sont en cours pour les aider à générer de manière transparente des données textuelles et visuelles. Le capacité de LLM à générer des données multimodales de manière transparente contribuera à améliorer les interactions dans différents domaines, notamment le commerce électronique, les médias et la réalité virtuelle.
En fin de compte, l'objectif est de permettre aux modèles de synthétiser, de reconnaître et de répondre de manière cohérente et logique en utilisant à la fois des modalités textuelles et visuelles, jouant ainsi un rôle crucial dans l'harmonisation du flux d'informations et la création de récits logiques et cohérents. La nécessité de parvenir à un mélange de modalités textuelles et visuelles est principalement alimentée par le besoin d'interactions multimodales plus fluides, intégrées et interactives dans les LLM, et finalement par la réalisation d'une génération alternée de langage et de vision. Cependant, réaliser des interactions multimodales intégrées et interactives dans les LLM est une tâche complexe et semée de nombreux défis, notamment
- Bien que les LLM actuels soient extrêmement efficaces et performants en matière de génération de texte et de traitement des paires texte-image, ils n'offrent pas de performances satisfaisantes en matière de génération d'images.
- Le développement de ces modèles de vision et de langage repose en grande partie sur des données thématiques, ce qui rend difficile pour les modèles d'aligner le texte généré avec ses images correspondantes.
- Enfin, il est nécessaire de proposer des stratégies plus efficaces, car avec l'augmentation de leurs capacités, les besoins en mémoire des LLM augmentent également, en particulier lors de l'exécution de tâches en aval.
Le framework MiniGPT-5, une technique d'algorithme de génération de langage et de vision entrelacés qui introduit le concept de « vokens génératifs » dans le but de relever les défis mentionnés ci-dessus. Le framework MiniGPT-5 propose une nouvelle approche pour la génération de données multimodales en fusionnant des modèles de langage étendus avec des techniques de diffusion stable à l'aide de jetons visuels spéciaux. La méthode de formation en deux étapes proposée par le framework MiniGPT-5 met en évidence l'importance d'une étape fondamentale exempte de descriptions et de la préparation du modèle pour offrir des performances efficaces même dans des scénarios avec des données limitées.
Mais ce qui différencie le modèle MiniGPT-5 des frameworks existants actuels est que les étapes génériques du framework MiniGPT-5 ne consistent pas en annotations spécifiques à un domaine. De plus, pour garantir que le texte généré et les images correspondantes sont en harmonie les uns avec les autres, le framework MiniGPT-5 déploie une stratégie de double perte qui améliore encore l'approche de MiniGPT-5 consistant à utiliser des conseils sans classificateur et des vokens génératifs. Le framework MiniGPT-5 optimise l'efficacité de la formation et répond aux contraintes de mémoire grâce à sa stratégie efficace en termes de paramètres pour affiner le modèle.
Pour vous fournir un résumé rapide, le framework MiniGPT-5
- Propose une méthode qui utilise des encodeurs multimodaux qui représentent une méthode nouvelle et générique qui s'est historiquement avérée plus efficace que les LLM traditionnels, et utilise des jetons génératifs combinés à des techniques de diffusion stable pour générer des sorties linguistiques et visuelles entrelacées.
- Propose une stratégie de formation en deux étapes pour la génération de sorties multimodales sans description et l'inclusion de conseils sans classificateur pendant la formation pour affiner davantage la qualité des données générées.
Le modèle MiniGPT-5 s'inspire fortement des recherches et travaux antérieurs effectués dans les domaines de
- Génération de texte en image : Faciliter la transformation des descriptions textuelles en leurs représentations visuelles respectives et en modèles texte en image.
- MLLM ou Grands Modèles de Langages Multimodaux : Utiliser des modèles LLM pré-entraînés pour explorer leurs applications et leur efficacité dans générer des données multimodales.
- Génération multimodale avec de grands modèles de langage : Augmenter les capacités d'un LLM pour intégrer de manière transparente la génération de données linguistiques et visuelles.
MiniGPT-5 : méthode, architecture et framework
Pour faciliter les grands modèles de langage dotés de capacités de génération de données multimodales, le modèle MiniGPT-5 introduit un cadre qui vise à intégrer des modèles de génération de texte à des images et des modèles de grand langage multimodaux pré-entraînés. Le framework MiniGPT-5 introduit en outre les « vokens génératifs », des jetons visuels spéciaux qui permettent aux développeurs de résoudre les écarts qui apparaissent dans différents domaines en pouvant s'entraîner directement sur des images brutes. Pour améliorer encore la qualité des données multimodales générées par les LLM, le framework MiniGPT-5 introduit une stratégie sans classificateur couplée à une méthode de formation avancée en deux étapes. Examinons en détail le framework MiniGPT-5.
Étape d'entrée multimodale
Les développements récents des LLM ont mis en lumière leurs capacités de compréhension multimodale, permettant de traiter des images comme une entrée séquentielle. Le framework MiniGPT-5 utilise des vokens génératifs spécialement conçus pour générer des fonctionnalités visuelles dans le but d'étendre les capacités de compréhension multimodale des LLM à la génération de données multimodales. De plus, le framework MiniGPT-5 utilise des techniques de réglage fin efficaces et de pointe pour l'apprentissage de sortie multimodale avec le framework LLM.
Encodage multimodal
L'encodeur visuel pré-entraîné du framework MiniGPT-5 transforme chaque image d'entrée en fonctionnalité, et chaque jeton de texte est intégré en tant que vecteur, et les fonctionnalités d'invite d'entrée sont générées lorsque ces intégrations sont concaténées les unes avec les autres.
Ajout de Vokens dans de grands modèles de langage
Traditionnellement, le vocabulaire du Large Language Model se compose uniquement de jetons textuels, c'est pourquoi les développeurs travaillant sur le framework MiniGPT-5 ont dû combler le fossé entre les LLM génératifs et traditionnels. Le framework MiniGPT-5 introduit un ensemble de jetons spéciaux en tant que jetons génératifs dans le vocabulaire du LLM. Le framework exploite ensuite l'état de sortie caché du LLM pour ces vokens spéciaux pour la génération d'images ultérieures, et l'insertion d'images entrelacées est représentée par la position des vokens.
PEFT ou réglage fin efficace des paramètres
PEFT ou Parameter Efficient Fine Tuning est un concept crucial utilisé pour former les LLM, et pourtant, les applications du PEFT dans des contextes multimodaux sont encore assez largement inexplorées. Le framework MiniGPT-5 utilise le Parameter Efficient Fine Tuning sur l'encodeur du framework MiniGPT-4 afin d'entraîner le modèle à mieux comprendre les invites ou les instructions, et même à améliorer les performances globales du modèle dans un environnement zéro ou nouveau. .
Génération de résultats multimodaux
Pour aligner avec précision le modèle génératif avec les jetons génératifs, le framework MiniGPT-5 formule un module de cartographie compact pour faire correspondre les dimensions et intégrer les pertes de supervision, notamment la perte de modèle de diffusion latente et la perte d'espace de texte. La perte de supervision de diffusion latente aligne directement les caractéristiques visuelles appropriées avec les jetons tandis que la perte d'espace de texte aide le modèle à apprendre les positions correctes des jetons. Étant donné que les vokens génératifs du framework MiniGPT-5 sont guidés directement par les images, le framework MiniGPT-5 n'exige pas que les images aient une description complète, ce qui entraîne un apprentissage sans description.
Génération d'espace de texte
Le framework MiniGPT-5 suit la méthode de modélisation de langage occasionnelle pour générer conjointement des vokens et des textes dans l'espace de texte, et pendant la phase de formation, les développeurs ajoutent les vokens à la position des images de vérité terrain et entraînent le modèle à prédire les vokens. dans la génération de texte.
Cartographie des fonctionnalités Voken pour la génération d'images
Après avoir généré l'espace de texte, le framework aligne l'état de sortie masqué avec l'espace de fonctionnalités conditionnelles de texte du modèle de génération de texte en image. Le framework prend également en charge un module de mappage de fonctionnalités qui comprend un modèle MLP à double couche, une séquence de fonctionnalités de décodeur apprenable et un modèle de transformateur codeur-décodeur à quatre couches.
Génération d'images avec LDM ou modèle de diffusion latente
Pour générer les images requises dans le processus de débruitage, le framework utilise les fonctionnalités de mappage comme entrée conditionnelle. Le cadre utilise également un LDM ou Latent Diffusion Model à titre indicatif, car pendant la phase de formation, l'image de vérité terrain est d'abord convertie en une caractéristique latente à l'aide d'un VAE pré-entraîné, après quoi les développeurs obtiennent la caractéristique de bruit latent en ajoutant du bruit. .
L'approche globale déployée par le framework MiniGPT-5 permet aux développeurs d'avoir une compréhension cohérente et de générer des éléments visuels et textuels, à l'aide de jetons spécialisés, en exploitant les capacités de modèles pré-entraînés et en utilisant des techniques de formation innovantes.
MiniGPT-5 : Formation et résultats
Lorsqu'ils travaillaient sur le framework MiniGPT-5, les développeurs ont observé que la formation sur un ensemble de données texte et image entrelacé limité pouvait directement entraîner des images de qualité diminuée et un désalignement étant donné le changement de domaine important entre les domaines d'image et de texte. Pour atténuer ce problème, les développeurs ont adopté deux stratégies de formation distinctes :
- Englobant l'incorporation de techniques de guidage sans classificateur qui renforcent l'efficacité des jetons génératifs pendant le processus de diffusion.
- La deuxième stratégie est divisée en deux étapes
- Une étape initiale de pré-formation qui se concentre principalement sur l’alignement des fonctionnalités grossières.
- Une étape de mise au point qui facilite l’apprentissage des fonctionnalités.
Guide gratuit CFG ou classificateur
L'idée d'exploiter d'abord CFG pour la génération multimodale est le résultat d'une tentative d'améliorer la cohérence et la logique entre les images et les textes générés, et le CFG est introduit pendant le processus de diffusion texte à image. Cette méthode observe qu'en s'entraînant à la fois sur la génération inconditionnelle et conditionnelle avec abandon du conditionnement, le modèle génératif peut obtenir des résultats conditionnels améliorés.
Stratégie de formation en deux étapes
Compte tenu du changement de domaine important observé entre la génération texte-image et la génération de texte pur, le framework MiniGPT-5 utilise une stratégie en deux étapes pour la formation
- Étape d'alignement unimodal ou UAS,
- Étape d'apprentissage multimodal ou MLS.
Initialement, le cadre aligne les fonctionnalités de génération d'images avec la fonctionnalité voken dans des ensembles de données à paire texte-image unique où chaque échantillon de données contient un seul texte et une seule image, et le texte est généralement la légende de l'image. À ce stade, le framework permet au LLM de générer des vokens en utilisant des légendes comme entrées LLM.
Une fois l'UAS exécuté avec succès, le modèle peut générer des images pour des descriptions de texte unique, mais il a du mal à générer un langage et une vision entrelacés, y compris des paires texte-image, et un raisonnement complexe est nécessaire pour la génération d'images et de texte. Pour surmonter cet obstacle, les développeurs ont affiné le framework MiniGPT-5 en utilisant les paramètres PEFT par des ensembles de données de vision et de langage entrelacés comme VIST. Au cours de cette étape, le framework construit trois tâches différentes à partir de l'ensemble de données
- Génération de texte uniquement : génère le texte associé à partir de l'image suivante.
- Génération d'image uniquement : génère l'image associée à partir du texte suivant.
- Génération multimodale : génère des paires texte-image en utilisant le contexte donné.
MiniGPT-5 : Benchmarks et résultats
Pour évaluer de manière globale ses performances en matière de génération multimodale, l'équipe de développement de MiniGPT-5 compare ses performances avec d'autres modèles de base importants, notamment Divter, GILL et le modèle de génération unimodale finement réglé, et la comparaison est démontrée dans le tableau ci-dessous.
Le cadre MiniGPT-5 comprend que la sortie multimodale peut être significative selon le contexte, mais elle peut différer de la réalité sur le terrain, ce qui est la principale raison pour laquelle le cadre MiniGPT-5 intègre également des entrées humaines pour évaluer et évaluer les performances du modèle. . Dans l'ensemble, l'efficacité du cadre MiniGPT-5 pour les tâches multimodales est mesurée selon trois perspectives.
- Continuité linguistique : évaluer si le contenu généré s’aligne de manière transparente avec le contexte fourni.
- Qualité d'image : évaluer ou évaluer la pertinence et la clarté de l’image générée.
- Cohérence multimodale : pour déterminer si la sortie d'image texte combinée est synchronisée avec le contexte initial.
Évaluation de la dernière étape du VIST
Dans la première étape des expérimentations, le framework MiniGPT-5 vise à générer les images correspondantes, et le tableau ci-dessous résume les résultats obtenus à partir de ce paramètre.
Comme on peut le constater, le framework MiniGPT-5 dans les trois paramètres peut surpasser le framework SD2 affiné, soulignant ainsi l'efficacité du pipeline MiniGPT-5.
La figure ci-dessus compare les performances du framework MiniGPT-5 avec le framework affiné Cadre MiniGPT-4 sur les mesures de performance S-BERT, Rouge-L et Meteor. Les résultats indiquent que l'utilisation de vokens génératifs n'affecte pas négativement les performances du framework lors de l'exécution de tâches de compréhension multimodales. Les résultats démontrent également que le cadre MiniGPT-5 est capable d'utiliser des invites de saisie multimodales horizontales longues sur un large éventail de données pour générer des images cohérentes et de haute qualité sans compromettre la capacité du modèle original en matière de compréhension multimodale.
Le tableau ci-dessus compare les performances de trois frameworks sur 5,000 5 échantillons pour la génération multimodale sous les aspects de cohérence multimodale, de qualité d'image et de continuité du langage. Comme on peut le constater, le framework MiniGPT-70 surpasse les deux autres modèles de base de plus de 5 %. D'autre part, le tableau ci-dessous démontre les performances du framework MiniGPT-3 sur l'ensemble de données de validation CC5M pour la génération d'images uniques. Grâce aux limitations des données, les développeurs ont trouvé une lacune dans l'alignement des vokens lorsqu'ils sont utilisés avec Stable Diffusion. Malgré cette limitation, le framework MiniGPT-XNUMX surpasse le framework GILL de base actuel dans toutes les mesures.
Conclusion
Dans cet article, nous avons parlé de MiniGPT-5, une technique d'algorithme de génération de langage et de vision entrelacés qui introduit le concept de « vokens génératifs » dans le but d'exploiter les capacités des LLM pour générer des données multimodales en alignant le grand modèle de langage avec un modèle de génération de texte en image pré-entraîné. Nous avons parlé des composants essentiels et de l'architecture globale du framework MiniGPT-5 ainsi que des résultats qui indiquent des améliorations substantielles des performances et de l'efficacité par rapport aux modèles de base et de pointe actuels. MiniGPT-5 aspire à établir une nouvelle référence dans le domaine de la génération de contenu et de données multimodaux, et vise à résoudre les défis rencontrés par les modèles précédents lorsqu'ils tentaient de résoudre le même problème.