Suivez nous sur

MiniGPT-5 : gĂ©nĂ©ration de vision et de langage entrelacĂ©s via des Vokens gĂ©nĂ©ratifs

Intelligence Artificielle

MiniGPT-5 : gĂ©nĂ©ration de vision et de langage entrelacĂ©s via des Vokens gĂ©nĂ©ratifs

mm

Au cours des dernières annĂ©es, les grands modèles linguistiques (LLM) ont attirĂ© l'attention des dĂ©veloppeurs d'IA du monde entier en raison des percĂ©es dans le traitement du langage naturel (NLP). Ces modèles ont Ă©tabli de nouvelles rĂ©fĂ©rences en matière de gĂ©nĂ©ration et de comprĂ©hension de textes. Cependant, malgrĂ© les progrès rĂ©alisĂ©s dans la gĂ©nĂ©ration de textes, produire des images qui correspondent de manière cohĂ©rente aux rĂ©cits textuels reste un dĂ©fi. Pour rĂ©soudre ce problème, les dĂ©veloppeurs ont introduit une approche innovante de gĂ©nĂ©ration de vision et de langage basĂ©e sur des « vokens gĂ©nĂ©ratifs Â», comblant le fossĂ© des sorties texte-image harmonisĂ©es.

Le fondement de MiniGPT-5 est une stratĂ©gie de formation en deux Ă©tapes qui se concentre fortement sur la gĂ©nĂ©ration de donnĂ©es multimodales sans description oĂą les donnĂ©es de formation ne nĂ©cessitent aucune description d'image complète. De plus, pour renforcer l'intĂ©gritĂ© du modèle, le modèle intègre un système de guidage sans classificateur qui amĂ©liore l'efficacitĂ© d'un voken pour la gĂ©nĂ©ration d'images. Dans la phase initiale, le framework MiniGPT-5 a dĂ©montrĂ© des performances puissantes et une amĂ©lioration substantielle par rapport au modèle de base Divter formĂ© sur l'ensemble de donnĂ©es MMDialog, et a constamment dĂ©montrĂ© sa capacitĂ© Ă  fournir des rĂ©sultats multimodaux comparables, voire supĂ©rieurs, dans les Ă©valuations humaines effectuĂ©es. sur l'ensemble de donnĂ©es VIST qui met en Ă©vidence ses performances et son efficacitĂ© sur divers benchmarks. 

MiniGPT5 : une introduction

Avec la collection dĂ©veloppements rĂ©cents des frameworks LLM, et des applications basĂ©es sur ces frameworks LLM, l'intĂ©gration de fonctionnalitĂ©s multimĂ©dias est un domaine qui a connu une popularitĂ© croissante car elle s'avère Ă©galement ĂŞtre une avancĂ©e vitale qui alimente un large Ă©ventail d'applications Ă  partir d'outils de crĂ©ation de contenu de pointe. Ă  un agent de dialogue multimodal de pointe. Avec une recherche et un dĂ©veloppement continus, les modèles de langage et de vision en sont au point oĂą des travaux sont en cours pour les aider Ă  gĂ©nĂ©rer de manière transparente des donnĂ©es textuelles et visuelles. Le capacitĂ© de LLM Ă  gĂ©nĂ©rer des donnĂ©es multimodales de manière transparente contribuera Ă  amĂ©liorer les interactions dans diffĂ©rents domaines, notamment le commerce Ă©lectronique, les mĂ©dias et la rĂ©alitĂ© virtuelle. 

En fin de compte, l'objectif est de permettre aux modèles de synthétiser, de reconnaître et de répondre de manière cohérente et logique en utilisant à la fois des modalités textuelles et visuelles, jouant ainsi un rôle crucial dans l'harmonisation du flux d'informations et la création de récits logiques et cohérents. La nécessité de parvenir à un mélange de modalités textuelles et visuelles est principalement alimentée par le besoin d'interactions multimodales plus fluides, intégrées et interactives dans les LLM, et finalement par la réalisation d'une génération alternée de langage et de vision. Cependant, réaliser des interactions multimodales intégrées et interactives dans les LLM est une tâche complexe et semée de nombreux défis, notamment

  1. Bien que les LLM actuels soient extrĂŞmement efficaces et performants en matière de gĂ©nĂ©ration de texte et de traitement des paires texte-image, ils n'offrent pas de performances satisfaisantes en matière de gĂ©nĂ©ration d'images. 
  2. Le dĂ©veloppement de ces modèles de vision et de langage repose en grande partie sur des donnĂ©es thĂ©matiques, ce qui rend difficile pour les modèles d'aligner le texte gĂ©nĂ©rĂ© avec ses images correspondantes. 
  3. Enfin, il est nĂ©cessaire de proposer des stratĂ©gies plus efficaces, car avec l'augmentation de leurs capacitĂ©s, les besoins en mĂ©moire des LLM augmentent Ă©galement, en particulier lors de l'exĂ©cution de tâches en aval. 

Le framework MiniGPT-5, une technique d'algorithme de gĂ©nĂ©ration de langage et de vision entrelacĂ©s qui introduit le concept de « vokens gĂ©nĂ©ratifs » dans le but de relever les dĂ©fis mentionnĂ©s ci-dessus. Le framework MiniGPT-5 propose une nouvelle approche pour la gĂ©nĂ©ration de donnĂ©es multimodales en fusionnant des modèles de langage Ă©tendus avec des techniques de diffusion stable Ă  l'aide de jetons visuels spĂ©ciaux. La mĂ©thode de formation en deux Ă©tapes proposĂ©e par le framework MiniGPT-5 met en Ă©vidence l'importance d'une Ă©tape fondamentale exempte de descriptions et de la prĂ©paration du modèle pour offrir des performances efficaces mĂŞme dans des scĂ©narios avec des donnĂ©es limitĂ©es. 

Mais ce qui diffĂ©rencie le modèle MiniGPT-5 des frameworks existants actuels est que les Ă©tapes gĂ©nĂ©riques du framework MiniGPT-5 ne consistent pas en annotations spĂ©cifiques Ă  un domaine. De plus, pour garantir que le texte gĂ©nĂ©rĂ© et les images correspondantes sont en harmonie les uns avec les autres, le framework MiniGPT-5 dĂ©ploie une stratĂ©gie de double perte qui amĂ©liore encore l'approche de MiniGPT-5 consistant Ă  utiliser des conseils sans classificateur et des vokens gĂ©nĂ©ratifs. Le framework MiniGPT-5 optimise l'efficacitĂ© de la formation et rĂ©pond aux contraintes de mĂ©moire grâce Ă  sa stratĂ©gie efficace en termes de paramètres pour affiner le modèle. 

Pour vous fournir un résumé rapide, le framework MiniGPT-5

  1. Propose une mĂ©thode qui utilise des encodeurs multimodaux qui reprĂ©sentent une mĂ©thode nouvelle et gĂ©nĂ©rique qui s'est historiquement avĂ©rĂ©e plus efficace que les LLM traditionnels, et utilise des jetons gĂ©nĂ©ratifs combinĂ©s Ă  des techniques de diffusion stable pour gĂ©nĂ©rer des sorties linguistiques et visuelles entrelacĂ©es. 
  2. Propose une stratĂ©gie de formation en deux Ă©tapes pour la gĂ©nĂ©ration de sorties multimodales sans description et l'inclusion de conseils sans classificateur pendant la formation pour affiner davantage la qualitĂ© des donnĂ©es gĂ©nĂ©rĂ©es. 

Le modèle MiniGPT-5 s'inspire fortement des recherches et travaux antĂ©rieurs effectuĂ©s dans les domaines de 

  • GĂ©nĂ©ration de texte en image : Faciliter la transformation des descriptions textuelles en leurs reprĂ©sentations visuelles respectives et en modèles texte en image. 
  • MLLM ou Grands Modèles de Langages Multimodaux : Utiliser des modèles LLM prĂ©-entraĂ®nĂ©s pour explorer leurs applications et leur efficacitĂ© dans gĂ©nĂ©rer des donnĂ©es multimodales
  • GĂ©nĂ©ration multimodale avec de grands modèles de langage : Augmenter les capacitĂ©s d'un LLM pour intĂ©grer de manière transparente la gĂ©nĂ©ration de donnĂ©es linguistiques et visuelles. 

MiniGPT-5 : mĂ©thode, architecture et framework

Pour faciliter les grands modèles de langage dotĂ©s de capacitĂ©s de gĂ©nĂ©ration de donnĂ©es multimodales, le modèle MiniGPT-5 introduit un cadre qui vise Ă  intĂ©grer des modèles de gĂ©nĂ©ration de texte Ă  des images et des modèles de grand langage multimodaux prĂ©-entraĂ®nĂ©s. Le framework MiniGPT-5 introduit en outre les « vokens gĂ©nĂ©ratifs Â», des jetons visuels spĂ©ciaux qui permettent aux dĂ©veloppeurs de rĂ©soudre les Ă©carts qui apparaissent dans diffĂ©rents domaines en pouvant s'entraĂ®ner directement sur des images brutes. Pour amĂ©liorer encore la qualitĂ© des donnĂ©es multimodales gĂ©nĂ©rĂ©es par les LLM, le framework MiniGPT-5 introduit une stratĂ©gie sans classificateur couplĂ©e Ă  une mĂ©thode de formation avancĂ©e en deux Ă©tapes. Examinons en dĂ©tail le framework MiniGPT-5. 

Étape d'entrée multimodale

Les dĂ©veloppements rĂ©cents des LLM ont mis en lumière leurs capacitĂ©s de comprĂ©hension multimodale, permettant de traiter des images comme une entrĂ©e sĂ©quentielle. Le framework MiniGPT-5 utilise des vokens gĂ©nĂ©ratifs spĂ©cialement conçus pour gĂ©nĂ©rer des fonctionnalitĂ©s visuelles dans le but d'Ă©tendre les capacitĂ©s de comprĂ©hension multimodale des LLM Ă  la gĂ©nĂ©ration de donnĂ©es multimodales. De plus, le framework MiniGPT-5 utilise des techniques de rĂ©glage fin efficaces et de pointe pour l'apprentissage de sortie multimodale avec le framework LLM. 

Encodage multimodal

L'encodeur visuel prĂ©-entraĂ®nĂ© du framework MiniGPT-5 transforme chaque image d'entrĂ©e en fonctionnalitĂ©, et chaque jeton de texte est intĂ©grĂ© en tant que vecteur, et les fonctionnalitĂ©s d'invite d'entrĂ©e sont gĂ©nĂ©rĂ©es lorsque ces intĂ©grations sont concatĂ©nĂ©es les unes avec les autres. 

Ajout de Vokens dans de grands modèles de langage

Traditionnellement, le vocabulaire du Large Language Model se compose uniquement de jetons textuels, c'est pourquoi les dĂ©veloppeurs travaillant sur le framework MiniGPT-5 ont dĂ» combler le fossĂ© entre les LLM gĂ©nĂ©ratifs et traditionnels. Le framework MiniGPT-5 introduit un ensemble de jetons spĂ©ciaux en tant que jetons gĂ©nĂ©ratifs dans le vocabulaire du LLM. Le framework exploite ensuite l'Ă©tat de sortie cachĂ© du LLM pour ces vokens spĂ©ciaux pour la gĂ©nĂ©ration d'images ultĂ©rieures, et l'insertion d'images entrelacĂ©es est reprĂ©sentĂ©e par la position des vokens. 

PEFT ou réglage fin efficace des paramètres

PEFT ou Parameter Efficient Fine Tuning est un concept crucial utilisĂ© pour former les LLM, et pourtant, les applications du PEFT dans des contextes multimodaux sont encore assez largement inexplorĂ©es. Le framework MiniGPT-5 utilise le Parameter Efficient Fine Tuning sur l'encodeur du framework MiniGPT-4 afin d'entraĂ®ner le modèle Ă  mieux comprendre les invites ou les instructions, et mĂŞme Ă  amĂ©liorer les performances globales du modèle dans un environnement zĂ©ro ou nouveau. . 

Génération de résultats multimodaux

Pour aligner avec prĂ©cision le modèle gĂ©nĂ©ratif avec les jetons gĂ©nĂ©ratifs, le framework MiniGPT-5 formule un module de cartographie compact pour faire correspondre les dimensions et intĂ©grer les pertes de supervision, notamment la perte de modèle de diffusion latente et la perte d'espace de texte. La perte de supervision de diffusion latente aligne directement les caractĂ©ristiques visuelles appropriĂ©es avec les jetons tandis que la perte d'espace de texte aide le modèle Ă  apprendre les positions correctes des jetons. Étant donnĂ© que les vokens gĂ©nĂ©ratifs du framework MiniGPT-5 sont guidĂ©s directement par les images, le framework MiniGPT-5 n'exige pas que les images aient une description complète, ce qui entraĂ®ne un apprentissage sans description. 

 GĂ©nĂ©ration d'espace de texte

Le framework MiniGPT-5 suit la mĂ©thode de modĂ©lisation de langage occasionnelle pour gĂ©nĂ©rer conjointement des vokens et des textes dans l'espace de texte, et pendant la phase de formation, les dĂ©veloppeurs ajoutent les vokens Ă  la position des images de vĂ©ritĂ© terrain et entraĂ®nent le modèle Ă  prĂ©dire les vokens. dans la gĂ©nĂ©ration de texte. 

Cartographie des fonctionnalités Voken pour la génération d'images

Après avoir gĂ©nĂ©rĂ© l'espace de texte, le framework aligne l'Ă©tat de sortie masquĂ© avec l'espace de fonctionnalitĂ©s conditionnelles de texte du modèle de gĂ©nĂ©ration de texte en image. Le framework prend Ă©galement en charge un module de mappage de fonctionnalitĂ©s qui comprend un modèle MLP Ă  double couche, une sĂ©quence de fonctionnalitĂ©s de dĂ©codeur apprenable et un modèle de transformateur codeur-dĂ©codeur Ă  quatre couches. 

Génération d'images avec LDM ou modèle de diffusion latente

Pour gĂ©nĂ©rer les images requises dans le processus de dĂ©bruitage, le framework utilise les fonctionnalitĂ©s de mappage comme entrĂ©e conditionnelle. Le cadre utilise Ă©galement un LDM ou Latent Diffusion Model Ă  titre indicatif, car pendant la phase de formation, l'image de vĂ©ritĂ© terrain est d'abord convertie en une caractĂ©ristique latente Ă  l'aide d'un VAE prĂ©-entraĂ®nĂ©, après quoi les dĂ©veloppeurs obtiennent la caractĂ©ristique de bruit latent en ajoutant du bruit. . 

L'approche globale dĂ©ployĂ©e par le framework MiniGPT-5 permet aux dĂ©veloppeurs d'avoir une comprĂ©hension cohĂ©rente et de gĂ©nĂ©rer des Ă©lĂ©ments visuels et textuels, Ă  l'aide de jetons spĂ©cialisĂ©s, en exploitant les capacitĂ©s de modèles prĂ©-entraĂ®nĂ©s et en utilisant des techniques de formation innovantes. 

MiniGPT-5 : Formation et rĂ©sultats

Lorsqu'ils travaillaient sur le framework MiniGPT-5, les dĂ©veloppeurs ont observĂ© que la formation sur un ensemble de donnĂ©es texte et image entrelacĂ© limitĂ© pouvait directement entraĂ®ner des images de qualitĂ© diminuĂ©e et un dĂ©salignement Ă©tant donnĂ© le changement de domaine important entre les domaines d'image et de texte. Pour attĂ©nuer ce problème, les dĂ©veloppeurs ont adoptĂ© deux stratĂ©gies de formation distinctes : 

  1. Englobant l'incorporation de techniques de guidage sans classificateur qui renforcent l'efficacitĂ© des jetons gĂ©nĂ©ratifs pendant le processus de diffusion. 
  2. La deuxième stratégie est divisée en deux étapes
    1. Une Ă©tape initiale de prĂ©-formation qui se concentre principalement sur l’alignement des fonctionnalitĂ©s grossières. 
    2. Une Ă©tape de mise au point qui facilite l’apprentissage des fonctionnalitĂ©s. 

Guide gratuit CFG ou classificateur

L'idée d'exploiter d'abord CFG pour la génération multimodale est le résultat d'une tentative d'améliorer la cohérence et la logique entre les images et les textes générés, et le CFG est introduit pendant le processus de diffusion texte à image. Cette méthode observe qu'en s'entraînant à la fois sur la génération inconditionnelle et conditionnelle avec abandon du conditionnement, le modèle génératif peut obtenir des résultats conditionnels améliorés.

Stratégie de formation en deux étapes

Compte tenu du changement de domaine important observé entre la génération texte-image et la génération de texte pur, le framework MiniGPT-5 utilise une stratégie en deux étapes pour la formation

  1. Étape d'alignement unimodal ou UAS,
  2. Étape d'apprentissage multimodal ou MLS. 

Initialement, le cadre aligne les fonctionnalitĂ©s de gĂ©nĂ©ration d'images avec la fonctionnalitĂ© voken dans des ensembles de donnĂ©es Ă  paire texte-image unique oĂą chaque Ă©chantillon de donnĂ©es contient un seul texte et une seule image, et le texte est gĂ©nĂ©ralement la lĂ©gende de l'image. Ă€ ce stade, le framework permet au LLM de gĂ©nĂ©rer des vokens en utilisant des lĂ©gendes comme entrĂ©es LLM. 

Une fois l'UAS exécuté avec succès, le modèle peut générer des images pour des descriptions de texte unique, mais il a du mal à générer un langage et une vision entrelacés, y compris des paires texte-image, et un raisonnement complexe est nécessaire pour la génération d'images et de texte. Pour surmonter cet obstacle, les développeurs ont affiné le framework MiniGPT-5 en utilisant les paramètres PEFT par des ensembles de données de vision et de langage entrelacés comme VIST. Au cours de cette étape, le framework construit trois tâches différentes à partir de l'ensemble de données

  1. GĂ©nĂ©ration de texte uniquement : gĂ©nère le texte associĂ© Ă  partir de l'image suivante. 
  2. GĂ©nĂ©ration d'image uniquement : gĂ©nère l'image associĂ©e Ă  partir du texte suivant. 
  3. GĂ©nĂ©ration multimodale : gĂ©nère des paires texte-image en utilisant le contexte donnĂ©. 

MiniGPT-5 : Benchmarks et résultats

Pour Ă©valuer de manière globale ses performances en matière de gĂ©nĂ©ration multimodale, l'Ă©quipe de dĂ©veloppement de MiniGPT-5 compare ses performances avec d'autres modèles de base importants, notamment Divter, GILL et le modèle de gĂ©nĂ©ration unimodale finement rĂ©glĂ©, et la comparaison est dĂ©montrĂ©e dans le tableau ci-dessous. 

Le cadre MiniGPT-5 comprend que la sortie multimodale peut ĂŞtre significative selon le contexte, mais elle peut diffĂ©rer de la rĂ©alitĂ© sur le terrain, ce qui est la principale raison pour laquelle le cadre MiniGPT-5 intègre Ă©galement des entrĂ©es humaines pour Ă©valuer et Ă©valuer les performances du modèle. . Dans l'ensemble, l'efficacitĂ© du cadre MiniGPT-5 pour les tâches multimodales est mesurĂ©e selon trois perspectives. 

  1. ContinuitĂ© linguistique : Ă©valuer si le contenu gĂ©nĂ©rĂ© s’aligne de manière transparente avec le contexte fourni. 
  2. QualitĂ© d'image : Ă©valuer ou Ă©valuer la pertinence et la clartĂ© de l’image gĂ©nĂ©rĂ©e. 
  3. CohĂ©rence multimodale : pour dĂ©terminer si la sortie d'image texte combinĂ©e est synchronisĂ©e avec le contexte initial. 

Évaluation de la dernière étape du VIST

Dans la première Ă©tape des expĂ©rimentations, le framework MiniGPT-5 vise Ă  gĂ©nĂ©rer les images correspondantes, et le tableau ci-dessous rĂ©sume les rĂ©sultats obtenus Ă  partir de ce paramètre. 

Comme on peut le constater, le framework MiniGPT-5 dans les trois paramètres peut surpasser le framework SD2 affinĂ©, soulignant ainsi l'efficacitĂ© du pipeline MiniGPT-5. 

La figure ci-dessus compare les performances du framework MiniGPT-5 avec le framework affinĂ© Cadre MiniGPT-4 sur les mesures de performance S-BERT, Rouge-L et Meteor. Les rĂ©sultats indiquent que l'utilisation de vokens gĂ©nĂ©ratifs n'affecte pas nĂ©gativement les performances du framework lors de l'exĂ©cution de tâches de comprĂ©hension multimodales. Les rĂ©sultats dĂ©montrent Ă©galement que le cadre MiniGPT-5 est capable d'utiliser des invites de saisie multimodales horizontales longues sur un large Ă©ventail de donnĂ©es pour gĂ©nĂ©rer des images cohĂ©rentes et de haute qualitĂ© sans compromettre la capacitĂ© du modèle original en matière de comprĂ©hension multimodale. 

Le tableau ci-dessus compare les performances de trois frameworks sur 5,000 5 Ă©chantillons pour la gĂ©nĂ©ration multimodale sous les aspects de cohĂ©rence multimodale, de qualitĂ© d'image et de continuitĂ© du langage. Comme on peut le constater, le framework MiniGPT-70 surpasse les deux autres modèles de base de plus de 5 %. D'autre part, le tableau ci-dessous dĂ©montre les performances du framework MiniGPT-3 sur l'ensemble de donnĂ©es de validation CC5M pour la gĂ©nĂ©ration d'images uniques. Grâce aux limitations des donnĂ©es, les dĂ©veloppeurs ont trouvĂ© une lacune dans l'alignement des vokens lorsqu'ils sont utilisĂ©s avec Stable Diffusion. MalgrĂ© cette limitation, le framework MiniGPT-XNUMX surpasse le framework GILL de base actuel dans toutes les mesures. 

Conclusion

Dans cet article, nous avons parlĂ© de MiniGPT-5, une technique d'algorithme de gĂ©nĂ©ration de langage et de vision entrelacĂ©s qui introduit le concept de « vokens gĂ©nĂ©ratifs Â» dans le but d'exploiter les capacitĂ©s des LLM pour gĂ©nĂ©rer des donnĂ©es multimodales en alignant le grand modèle de langage avec un modèle de gĂ©nĂ©ration de texte en image prĂ©-entraĂ®nĂ©. Nous avons parlĂ© des composants essentiels et de l'architecture globale du framework MiniGPT-5 ainsi que des rĂ©sultats qui indiquent des amĂ©liorations substantielles des performances et de l'efficacitĂ© par rapport aux modèles de base et de pointe actuels. MiniGPT-5 aspire Ă  Ă©tablir une nouvelle rĂ©fĂ©rence dans le domaine de la gĂ©nĂ©ration de contenu et de donnĂ©es multimodaux, et vise Ă  rĂ©soudre les dĂ©fis rencontrĂ©s par les modèles prĂ©cĂ©dents lorsqu'ils tentaient de rĂ©soudre le mĂŞme problème.

« IngĂ©nieur de profession, Ă©crivain de cĹ“ur Â». Kunal est un rĂ©dacteur technique avec un amour et une comprĂ©hension profonds de l'IA et du ML, dĂ©diĂ© Ă  la simplification de concepts complexes dans ces domaines grâce Ă  sa documentation engageante et informative.