talon Mini-Gemini : exploiter le potentiel des modèles de langage de vision multimodaux - Unite.AI
Suivez nous sur

Intelligence artificielle

Mini-Gemini : exploiter le potentiel des modèles de langage de vision multimodaux

mm

Publié le

 on

Mini-Gemini : exploiter le potentiel des modèles de langage de vision multimodaux

Les avancées dans grands modèles de langage ont considérablement accéléré le développement de traitement du langage naturel, ou PNL. L'introduction du framework Transformer s'est avérée être une étape importante, facilitant le développement d'une nouvelle vague de modèles de langage, notamment OPT et BERT, qui présentent une profonde compréhension linguistique. De plus, la création des modèles GPT, ou Generative Pre-trained Transformer, a introduit un nouveau paradigme avec la modélisation autorégressive et a établi une méthode robuste pour la prédiction et la génération du langage. L'avènement de modèles de langage tels que GPT-4, ChatGPT, Mixtral, LLaMA et d'autres a encore alimenté une évolution rapide, chaque modèle démontrant des performances améliorées dans les tâches impliquant un traitement linguistique complexe. Parmi les méthodes existantes, le réglage des instructions est apparu comme une technique clé pour affiner le résultat de grands modèles de langage pré-entraînés, et l'intégration de ces modèles avec des outils spécifiques pour les tâches visuelles a mis en évidence leur adaptabilité et ouvert les portes à de futures applications. Celles-ci vont bien au-delà du traitement textuel traditionnel des LLM pour inclure les interactions multimodales.

De plus, la convergence des modèles de traitement du langage naturel et de vision par ordinateur a donné naissance aux VLM, ou Vision Language Models, qui combinent des modèles linguistiques et visuels pour obtenir des capacités de compréhension et de raisonnement multimodales. L'intégration et l'avènement de modèles visuels et linguistiques ont joué un rôle crucial dans l'avancement des tâches qui nécessitent à la fois le traitement du langage et la compréhension visuelle. L'émergence de modèles révolutionnaires comme CLIP a encore comblé le fossé entre les tâches de vision et les modèles de langage, démontrant la faisabilité et le caractère pratique des applications multimodales. Des cadres plus récents tels que LLaMA et BLIP exploitent des données d'instructions personnalisées pour concevoir des stratégies efficaces qui démontrent les puissantes capacités du modèle. De plus, la combinaison de grands modèles de langage avec des sorties d'images est au centre de recherches multimodales récentes, les méthodes récentes étant capables de contourner la génération directe en utilisant l'approche de récupération d'images pour produire des sorties d'images et des textes entrelacés.

Cela étant dit, et malgré les progrès rapides dans les modèles de langage de vision facilitant le raisonnement de base et le dialogue visuel, il existe toujours un écart de performances important entre les modèles avancés comme GPT-4 et les modèles de langage de vision. Mini-Gemini est une tentative de réduire l'écart qui existe entre les modèles de langage de vision et les modèles plus avancés en exploitant le potentiel des VLM pour de meilleures performances sous trois aspects : la génération guidée par VLM, les données de haute qualité et les jetons visuels haute résolution. Pour améliorer les jetons visuels, le framework Mini-Gemini propose d'utiliser un encodeur visuel supplémentaire pour un raffinement haute résolution sans augmenter le nombre de jetons visuels. Le cadre Mini-Gemini construit en outre un ensemble de données de haute qualité dans le but de promouvoir une compréhension précise des images et une génération basée sur le raisonnement. Dans l'ensemble, le cadre Mini-Gemini tente d'exploiter le potentiel des modèles de langage de vision et vise à doter les cadres existants de capacités de raisonnement, de compréhension et de génération d'images simultanément. Cet article vise à couvrir le framework Mini-Gemini en profondeur, et nous explorons le mécanisme, la méthodologie, l'architecture du framework ainsi que sa comparaison avec les frameworks de pointe. Alors, commençons. 

Mini-Gemini : accélérer les VLM multimodalités

Au fil des années, les grands modèles de langage ont évolué et se vantent désormais de capacités multimodales remarquables et deviennent un élément essentiel des modèles de langage de vision actuels. Cependant, il existe un écart entre les performances multimodales des grands modèles de langage et des modèles de langage de vision, des recherches récentes cherchant des moyens de combiner la vision avec de grands modèles de langage utilisant des images et des vidéos. Pour les tâches de vision elles-mêmes, la résolution de l’image est un élément crucial pour fonctionner explicitement malgré l’environnement avec un minimum d’hallucinations visuelles. Pour combler ce fossé, les chercheurs développent des modèles pour améliorer la compréhension visuelle dans les contextes actuels. modèles de langage de vision, et deux des approches les plus courantes sont : l'augmentation de la résolution et l'augmentation du nombre de jetons visuels. Bien que l’augmentation du nombre de jetons visuels avec des images de plus haute résolution améliore la compréhension visuelle, cette amélioration s’accompagne souvent d’exigences de calcul accrues et des coûts associés, en particulier lors du traitement de plusieurs images. De plus, les capacités des modèles existants, la qualité des données existantes et leur applicabilité restent insuffisantes pour un processus de développement accéléré, laissant les chercheurs se poser la question suivante : «comment accélérer le développement de modèles de langage de vision à des coûts acceptables"?

Le framework Mini-Gemini tente de répondre à cette question en explorant le potentiel des modèles de langage de vision sous trois aspects : la génération guidée par VLM ou des applications étendues, des données de haute qualité et des jetons visuels haute résolution. Premièrement, le framework Mini-Gemini implémente une architecture ConvNet pour générer efficacement des candidats à plus haute résolution, améliorant les détails visuels tout en conservant le nombre de jetons visuels pour le grand modèle de langage. Le cadre Mini-Gemini fusionne des ensembles de données de haute qualité accessibles au public dans le but d'améliorer la qualité des données, et intègre ces améliorations avec des modèles de langage génératifs et étendus de pointe dans le but d'améliorer les performances des VLM et d'améliorer l’expérience utilisateur. La stratégie à multiples facettes mise en œuvre par le framework Mini-Gemini lui permet d'explorer les capacités cachées des modèles de langage de vision et de réaliser des progrès significatifs avec des contraintes de ressources évidentes. 

En général, le framework Mini-Gemini utilise un paradigme any to any puisqu'il est capable de gérer à la fois du texte et des images en entrée et en sortie. En particulier, le framework Mini-Gemini introduit un pipeline efficace pour améliorer les jetons visuels pour les images d'entrée et propose un système à double encodeur comprenant des encodeurs jumeaux : le premier encodeur est destiné aux images haute résolution, tandis que le second encodeur est destiné aux images à faible résolution. intégration visuelle de qualité. Lors de l'inférence, les encodeurs fonctionnent dans un mécanisme d'attention, dans lequel l'encodeur basse résolution génère des requêtes visuelles, tandis que l'encodeur haute résolution fournit une clé et des valeurs à titre de référence. Pour augmenter la qualité des données, le cadre Mini-Gemini collecte et produit davantage de données basées sur des ressources publiques, notamment des instructions orientées tâches, des données liées à la génération et des réponses haute résolution, la quantité accrue et la qualité améliorée améliorant les performances globales et capacités du modèle. De plus, le framework Mini-Gemini prend en charge la génération simultanée de texte et d'images grâce à l'intégration du modèle de langage de vision avec des modèles génératifs avancés. 

Mini-Gémeaux : Méthodologie et Architecture

À la base, le cadre Mini-Gemini est conceptuellement simple et comprend trois composants. 

  1. Le framework utilise des encodeurs à double vision pour fournir des intégrations visuelles basse résolution et des candidats haute résolution. 
  2. Le cadre propose d'implémenter l'exploration d'informations sur les correctifs pour effectuer une exploration au niveau des correctifs entre les requêtes visuelles basse résolution et les régions haute résolution. 
  3. Le framework Mini-Gemini utilise un grand modèle de langage pour associer simultanément du texte et des images pour la génération et la compréhension. 

Encodeurs double vision

Le framework Mini-Gemini peut traiter à la fois les entrées de texte et d'image, avec la possibilité de les gérer individuellement ou en combinaison. Comme le démontre l'image suivante, le framework Mini-Gemini démarre le processus en utilisant une interpolation bilinéaire pour générer une image basse résolution à partir de son image haute résolution correspondante. 

Le framework traite ensuite ces images et les code dans une intégration visuelle multi-grille dans deux flux d'images parallèles. Plus spécifiquement, le framework Mini-Gemini maintient le pipeline traditionnel pour les flux basse résolution et utilise un transformateur visuel pré-entraîné CLIP pour coder les intégrations visuelles, facilitant ainsi le modèle pour préserver la relation à longue portée entre les correctifs visuels pour les interactions ultérieures dans un langage volumineux. des modèles. Pour les flux haute résolution, le framework Mini-Gemini adopte l'encodeur basé sur CNN ou Convolution Neural Networks pour un traitement d'image haute résolution adaptatif et efficace. 

Exploration d'informations sur les correctifs

Avec les encodeurs à double vision générant les intégrations LR et les fonctionnalités HR, le framework Mini-Gemini propose d'implémenter l'exploration d'informations sur les correctifs dans le but d'étendre le potentiel des modèles de langage de vision avec des jetons visuels améliorés. Afin de maintenir le nombre de jetons visuels pour plus d'efficacité dans les grands modèles de langage, le framework Mini-Gemini prend les intégrations visuelles basse résolution comme requête et vise à récupérer les repères visuels pertinents des candidats aux fonctionnalités RH, le framework prenant le Carte des fonctionnalités RH comme clé et valeur.

Comme le démontre l'image ci-dessus, la formule encapsule le processus d'affinement et de synthèse des indices visuels, qui conduit à la génération de jetons visuels avancés pour le traitement ultérieur du grand modèle de langage. Le processus garantit que le framework est capable de limiter l'exploration de chaque requête à sa sous-région correspondante dans la carte des fonctionnalités HR avec le nombre de fonctionnalités par pixel, ce qui entraîne une efficacité améliorée. Grâce à cette conception, le framework Mini-Gemini est capable d'extraire les détails des fonctionnalités HR sans améliorer le nombre de jetons visuels, et maintient un équilibre entre la faisabilité informatique et la richesse des détails. 

Génération de texte et d'images

Le framework Mini-Gemini concatène les jetons visuels et les jetons de texte d'entrée comme entrée des grands modèles de langage pour la génération auto-régressive. Contrairement aux modèles de langage de vision traditionnels, le framework Mini-Gemini prend en charge la génération de texte uniquement ainsi que la génération texte-image en entrée et en sortie, c'est-à-dire n'importe quelle inférence, et c'est le résultat de ces capacités exceptionnelles de compréhension et de raisonnement image-texte, le Mini-Gemini est capable de générer des images de haute qualité. Contrairement aux travaux récents qui se concentrent sur l'écart de domaine entre les intégrations de texte des modèles de génération et les grands modèles de langage, le framework Mini-Gemini tente d'optimiser l'écart dans le domaine des invites linguistiques en traduisant les instructions de l'utilisateur en invites de haute qualité qui produisent des images contextuelles. dans les modèles de diffusion latente. De plus, pour une meilleure compréhension du réglage fin des instructions et de l'alignement des modalités croisées, le framework Mini-Gemini collecte des échantillons à partir d'ensembles de données de haute qualité accessibles au public et utilise le framework turbo GPT-4 pour construire davantage un ensemble de données de suivi d'instructions de 13 Ko afin de prendre en charge la génération d'images. 

Mini-Gémeaux : Expériences et résultats

Pour évaluer ses performances, le framework Mini-Gemini est instancié avec le framework ConvNext-L pré-entraîné pour l'encodeur de vision RH, et avec un CLIP pré-entraîné Transformateur de vision pour l'encodeur de vision LR. Pour garantir l'efficacité de la formation, le framework Mini-Gemini maintient les deux encodeurs de vision fixes, optimise les projecteurs d'exploration d'informations sur les correctifs à toutes les étapes, et optimise le grand modèle de langage pendant la phase de réglage des instructions elle-même. 

Le tableau suivant compare les performances du framework Mini-Gemini par rapport aux modèles de pointe dans différents contextes et prend également en compte les modèles privés. Comme on peut l'observer, le Mini-Gemini surpasse les frameworks existants sur une large gamme de LLM de manière constante à une résolution normale et démontre des performances supérieures lorsqu'il est configuré avec le Gemma-2B dans la catégorie des modèles efficaces. De plus, lorsque de plus grands modèles de langage sont utilisés, l'évolutivité du framework Mini-Gemini est évidente. 

Pour évaluer ses performances sur des jetons visuels étendus et haute résolution, les expériences sont réalisées avec une taille d'entrée de 672 pour l'encodeur de vision LR et de 1536 pour l'encodeur visuel. Comme mentionné précédemment, l’objectif principal de l’encodeur visuel RH est d’offrir des informations haute résolution sur les candidats. Comme on peut le constater, le framework Mini-Gemini offre des performances supérieures par rapport aux frameworks de pointe. 

De plus, pour évaluer les prouesses en compréhension visuelle du framework Mini-Gemini dans des contextes réels, les développeurs appliquent le modèle à diverses tâches de raisonnement et de compréhension, comme le montre l'image suivante. Comme on peut le constater, le framework Mini-Gemini est capable de résoudre un large éventail de tâches complexes grâce à la mise en œuvre de l'exploration d'informations sur les correctifs et de données de haute qualité. Mais ce qui est plus impressionnant, c'est le fait que le cadre Mini-Gemini démontre un ajout judicieux aux détails qui va au-delà de la simple prouesse de reconnaissance et décrit des éléments complexes de manière complexe. 

La figure suivante fournit une évaluation complète des capacités génératives du framework Mini-Gemini. 

Comparé à des modèles récents comme ChatIllusion et AnyGPT, le framework Mini-Gemini démontre de plus fortes capacités de compréhension multimodale, lui permettant de générer texte en image des légendes qui s'alignent mieux avec les instructions de saisie et aboutissent à des réponses image-texte avec une plus grande similarité conceptuelle. Ce qui est plus impressionnant est le fait que le framework Mini-Gemini démontre une capacité remarquable à générer du contenu de haute qualité en utilisant des instructions humaines multimodèles uniquement avec des données d'entraînement de texte, une capacité qui illustre les solides compétences d'interprétation sémantique et d'alignement image-texte de Mini-Gemini. 

Réflexions finales

Dans cet article, nous avons parlé de Mini-Gemini, un cadre puissant et rationalisé pour les modèles de langage de vision multimodalité. L'objectif principal du framework Mini-Gemini est d'exploiter les capacités latentes des modèles de langage de vision en utilisant des données de haute qualité, une conception stratégique du framework et une portée fonctionnelle élargie. Mini-Gemini est une tentative de réduire l'écart qui existe entre les modèles de langage de vision et les modèles plus avancés en exploitant le potentiel des VLM pour de meilleures performances sous trois aspects : la génération guidée par VLM, les données de haute qualité et les jetons visuels haute résolution. Pour améliorer les jetons visuels, le framework Mini-Gemini propose d'utiliser un encodeur visuel supplémentaire pour un raffinement haute résolution sans augmenter le nombre de jetons visuels. Le cadre Mini-Gemini construit en outre un ensemble de données de haute qualité dans le but de promouvoir une compréhension précise des images et une génération basée sur le raisonnement. Dans l'ensemble, le cadre Mini-Gemini tente d'exploiter le potentiel des modèles de langage de vision et vise à doter les cadres existants de capacités de raisonnement, de compréhension et de génération d'images simultanément.

« Ingénieur de profession, écrivain de cœur ». Kunal est un rédacteur technique avec un amour et une compréhension profonds de l'IA et du ML, dédié à la simplification de concepts complexes dans ces domaines grâce à sa documentation engageante et informative.