Intelligence artificielle

Mini-Gemini: Exploitation du potentiel des modèles de langage visuel multi-modalité

Published April 26, 2024

Updated April 4, 2026

Kunal Kejriwal

Mini-Gemini: Mining the Potential of Multi-modality Vision Language Models

Les progrès réalisés dans les grands modèles de langage ont considérablement accéléré le développement du traitement automatique du langage naturel, ou NLP. L’introduction du cadre de transformation s’est avérée être un jalon, facilitant le développement d’une nouvelle vague de modèles de langage, notamment OPT et BERT, qui présentent une compréhension linguistique profonde. De plus, l’avènement des modèles de transformation génératifs pré-entraînés, ou GPT, a introduit un nouveau paradigme avec la modélisation autorégressive et a établi une méthode robuste pour la prédiction et la génération de langage. L’avènement de modèles de langage tels que GPT-4, ChatGPT, Mixtral, LLaMA et d’autres a encore alimenté l’évolution rapide, chaque modèle démontrant des performances améliorées dans les tâches impliquant un traitement de langage complexe. Parmi les méthodes existantes, l’ajustement des instructions est apparu comme une technique clé pour affiner la sortie des grands modèles de langage pré-entraînés, et l’intégration de ces modèles avec des outils spécifiques pour les tâches visuelles a mis en évidence leur adaptabilité et a ouvert des portes pour les applications futures. Ces applications s’étendent bien au-delà du traitement traditionnel basé sur le texte des LLM pour inclure des interactions multimodales.

De plus, la convergence du traitement automatique du langage naturel et des modèles de vision par ordinateur a donné naissance aux VLM, ou modèles de langage visuel, qui combinent des modèles linguistiques et de vision pour atteindre une compréhension et des capacités de raisonnement transmodales. L’intégration et l’avènement de modèles visuels et linguistiques ont joué un rôle crucial dans l’avancement des tâches qui nécessitent à la fois le traitement du langage et la compréhension visuelle. L’émergence de modèles révolutionnaires comme CLIP a encore comblé le fossé entre les tâches de vision et les modèles de langage, démontrant la faisabilité et la praticité des applications transmodales. Des cadres plus récents comme LLaMA et BLIP utilisent des données d’instruction adaptées pour concevoir des stratégies efficaces qui démontrent les capacités puissantes du modèle. De plus, la combinaison de grands modèles de langage avec des sorties d’image est l’objet de recherches multimodales récentes, avec des méthodes récentes capables de contourner la génération directe en utilisant l’approche de récupération d’images pour produire des sorties d’images et des textes entrelacés.

Avec cela dit, et malgré les progrès rapides dans les modèles de langage visuel facilitant la raison et le dialogue visuel de base, il existe encore un écart de performance important entre des modèles avancés comme GPT-4 et les modèles de langage visuel. Mini-Gemini est une tentative pour réduire l’écart qui existe entre les modèles de langage visuel et les modèles plus avancés en exploitant le potentiel des VLM pour de meilleures performances à trois aspects : la génération guidée par les VLM, les données de haute qualité et les jetons visuels de haute résolution. Pour améliorer les jetons visuels, le cadre Mini-Gemini propose d’utiliser un encodeur visuel supplémentaire pour une affinage de haute résolution sans augmenter le nombre de jetons visuels. Le cadre Mini-Gemini construit en outre un ensemble de données de haute qualité dans le but de promouvoir une compréhension précise des images et une génération basée sur la raison. Dans l’ensemble, le cadre Mini-Gemini tente d’exploiter le potentiel des modèles de langage visuel et vise à doter les cadres existants de capacités de raisonnement d’image, de compréhension et de génération simultanément. Cet article vise à couvrir le cadre Mini-Gemini en profondeur, et nous explorons le mécanisme, la méthodologie, l’architecture du cadre ainsi que sa comparaison avec les cadres de l’état de l’art. Alors, commençons.

Mini-Gemini : Accélération des VLM multi-modalité

Au fil des ans, les grands modèles de langage ont évolué, et ils se caractérisent maintenant par des capacités multi-modales remarquables, et sont devenus une partie essentielle des modèles de langage visuel actuels. Cependant, il existe un fossé entre les performances multi-modales des grands modèles de langage et les modèles de langage visuel, avec des recherches récentes cherchant à combiner la vision avec les grands modèles de langage en utilisant des images et des vidéos. Pour les tâches de vision elles-mêmes, la résolution de l’image est un élément crucial pour décrire explicitement l’environnement entourant avec un minimum d’hallucinations visuelles. Pour combler le fossé, les chercheurs développent des modèles pour améliorer la compréhension visuelle dans les modèles de langage visuel actuels, et deux des approches les plus courantes sont : l’augmentation de la résolution et l’augmentation du nombre de jetons visuels. Bien que l’augmentation du nombre de jetons visuels avec des images de résolution plus élevée améliore la compréhension visuelle, l’amélioration est souvent accompagnée d’exigences et de coûts de calcul accrus, en particulier lors du traitement de plusieurs images. De plus, les capacités des modèles existants, la qualité des données existantes et l’applicabilité restent inadéquates pour un processus de développement accéléré, laissant les chercheurs avec la question, « comment accélérer le développement des modèles de langage visuel avec des coûts acceptables »?

Le cadre Mini-Gemini est une tentative pour répondre à la question, car il tente d’explorer le potentiel des modèles de langage visuel à trois aspects : la génération guidée par les VLM ou les applications étendues, les données de haute qualité et les jetons visuels de haute résolution. Tout d’abord, le cadre Mini-Gemini met en œuvre une architecture ConvNet pour générer des candidats de haute résolution de manière efficace, en améliorant les détails visuels tout en maintenant le nombre de jetons visuels pour le grand modèle de langage. Le cadre Mini-Gemini combine des ensembles de données de haute qualité disponibles publiquement dans le but d’améliorer la qualité des données, et intègre ces améliorations avec des modèles de langage et des modèles génératifs de l’état de l’art avec le but d’améliorer les performances des VLM et d’améliorer l’expérience utilisateur. La stratégie multifacette mise en œuvre par le cadre Mini-Gemini lui permet d’explorer les capacités cachées des modèles de langage visuel et d’obtenir des progrès importants avec des contraintes de ressources évidentes.

En général, le cadre Mini-Gemini emploie un paradigme de n’importe quel à n’importe quel, car il est capable de gérer à la fois le texte et les images comme entrée et sortie. En particulier, le cadre Mini-Gemini introduit un pipeline efficace pour améliorer les jetons visuels pour les images d’entrée, et comporte un système d’encodeur double composé de deux encodeurs : le premier encodeur est pour les images de haute résolution, tandis que le deuxième encodeur est pour les embeddings visuels de basse qualité. Lors de l’inférence, les encodeurs fonctionnent dans un mécanisme d’attention, où l’encodeur de basse résolution génère des requêtes visuelles, tandis que l’encodeur de haute résolution fournit des clés et des valeurs de référence. Pour améliorer la qualité des données, le cadre Mini-Gemini collecte et produit plus de données sur la base de ressources publiques, y compris des instructions axées sur les tâches, des données liées à la génération et des réponses de haute résolution, avec la quantité accrue et la qualité améliorée améliorant les performances et les capacités globales du modèle. De plus, le cadre Mini-Gemini prend en charge la génération de texte et d’image simultanément en raison de l’intégration du modèle de langage visuel avec des modèles génératifs avancés.

Mini-Gemini : Méthodologie et architecture

Au cœur, le cadre Mini-Gemini est conceptuellement simple et se compose de trois composants.

Le cadre emploie des encodeurs visuels doubles pour fournir des embeddings visuels de basse résolution et des candidats de haute résolution.
Le cadre propose de mettre en œuvre l’extraction d’informations de patch pour effectuer l’extraction au niveau du patch entre les requêtes visuelles de basse résolution et les régions de haute résolution.
Le cadre Mini-Gemini utilise un grand modèle de langage pour marier le texte avec les images pour la génération et la compréhension simultanément.

Encodeurs visuels doubles

Le cadre Mini-Gemini peut traiter à la fois les entrées de texte et d’image, avec l’option de les gérer individuellement ou en combinaison. Comme le montre l’image suivante, le cadre Mini-Gemini commence le processus en employant l’interpolation bilinéaire pour générer une image de basse résolution à partir de son image de haute résolution correspondante.

Le cadre traite ensuite ces images et les encode en un embedding visuel multi-grille dans deux flux d’images parallèles. Plus précisément, le cadre Mini-Gemini maintient le pipeline traditionnel pour les flux de basse résolution et emploie un encodeur de transformation visuelle pré-entraîné CLIP pour encoder les embeddings visuels, permettant au modèle de préserver la relation à longue portée entre les patches visuels pour les interactions ultérieures dans les grands modèles de langage. Pour les flux de haute résolution, le cadre Mini-Gemini adopte l’encodeur basé sur le CNN ou les réseaux de neurones convolutifs pour le traitement d’image de haute résolution adaptatif et efficace.

Extraction d’informations de patch

Avec les encodeurs visuels doubles générant les embeddings de basse résolution et les fonctionnalités de haute résolution, le cadre Mini-Gemini propose de mettre en œuvre l’extraction d’informations de patch dans le but d’étendre le potentiel des modèles de langage visuel avec des jetons visuels améliorés. Afin de maintenir le nombre de jetons visuels pour l’efficacité dans les grands modèles de langage, le cadre Mini-Gemini prend les embeddings visuels de basse résolution comme requête et vise à récupérer des indices visuels pertinents à partir des candidats de fonctionnalité de haute résolution, le cadre prenant la carte de fonctionnalité de haute résolution comme clé et valeur.

Comme le montre l’image ci-dessus, la formule encapsule le processus d’affinage et de synthèse des indices visuels, qui conduit à la génération de jetons visuels avancés pour le traitement ultérieur du grand modèle de langage. Le processus garantit que le cadre est capable de limiter l’extraction pour chaque requête à sa région de sous-région correspondante dans la carte de fonctionnalité de haute résolution avec le décompte de fonctionnalités par pixel, ce qui entraîne une efficacité améliorée. En raison de cette conception, le cadre Mini-Gemini est capable d’extraire les détails de la fonctionnalité de haute résolution sans augmenter le nombre de jetons visuels et maintient un équilibre entre la faisabilité de calcul et la richesse des détails.

Génération de texte et d’image

Le cadre Mini-Gemini concatène les jetons visuels et les jetons de texte d’entrée comme entrée pour les grands modèles de langage pour la génération autorégressive. Contrairement aux modèles de langage visuel traditionnels, le cadre Mini-Gemini prend en charge le texte uniquement ainsi que la génération de texte et d’image comme entrée et sortie, c’est-à-dire l’inférence de n’importe quel à n’importe quel, et c’est le résultat de cette compréhension et de ces capacités de raisonnement d’image-texte exceptionnelles que le Mini-Gemini est capable de générer des images de haute qualité. Contrairement aux travaux récents qui se concentrent sur le fossé de domaine entre les embeddings de texte des modèles de génération et les grands modèles de langage, le cadre Mini-Gemini tente d’optimiser le fossé dans le domaine des amorces de langage en traduisant les instructions utilisateur en amorces de haute qualité qui produisent des images pertinentes dans les modèles de diffusion latente. De plus, pour une meilleure compréhension de l’ajustement des instructions et de l’alignement transmodal, le cadre Mini-Gemini collecte des échantillons à partir d’ensembles de données de haute qualité disponibles publiquement et utilise le cadre GPT-4 turbo pour construire un ensemble de données d’instruction de 13 000 pour prendre en charge la génération d’images.

Mini-Gemini : Expériences et résultats

Pour évaluer ses performances, le cadre Mini-Gemini est instancié avec le cadre ConvNext-L pré-entraîné pour l’encodeur visuel de haute résolution et avec un encodeur de transformation visuelle pré-entraîné CLIP pour l’encodeur visuel de basse résolution. Pour assurer l’efficacité de formation, le cadre Mini-Gemini maintient les deux encodeurs visuels fixes et optimise les projecteurs de l’extraction d’informations de patch à toutes les étapes et optimise le grand modèle de langage pendant l’étape d’ajustement des instructions elle-même.

Le tableau suivant compare les performances du cadre Mini-Gemini avec les modèles de l’état de l’art dans différents paramètres et prend également en compte les modèles privés. Comme on peut l’observer, le Mini-Gemini surpasse les cadres existants dans une large gamme de LLM de manière cohérente à la résolution normale et démontre des performances supérieures lorsqu’il est configuré avec le Gemma-2B dans la catégorie des modèles efficaces. De plus, lorsque des grands modèles de langage plus importants sont employés, la scalabilité du cadre Mini-Gemini est évidente.

Pour évaluer ses performances sur les images de haute résolution et les jetons visuels étendus, les expériences sont effectuées avec une taille d’entrée de 672 pour l’encodeur visuel de basse résolution et de 1536 pour l’encodeur visuel. Comme mentionné précédemment, l’objectif principal de l’encodeur visuel de haute résolution est de fournir des informations de candidat de haute résolution. Comme on peut l’observer, le cadre Mini-Gemini offre des performances supérieures lorsqu’il est comparé aux cadres de l’état de l’art.

De plus, pour évaluer les capacités de compréhension visuelle du cadre Mini-Gemini dans les paramètres du monde réel, les développeurs appliquent le modèle à une variété de tâches de raisonnement et de compréhension comme le montre l’image suivante. Comme on peut l’observer, le cadre Mini-Gemini est capable de résoudre un large éventail de tâches complexes grâce à la mise en œuvre de l’extraction d’informations de patch et des données de haute qualité. Mais ce qui est encore plus impressionnant est le fait que le cadre Mini-Gemini démontre une addition minutieuse aux détails qui s’étend au-delà de la simple reconnaissance et décrit des éléments intriqués de manière détaillée.

La figure suivante fournit une évaluation complète des capacités de génération du cadre Mini-Gemini.

Lorsqu’il est comparé aux modèles récents comme ChatIllusion et AnyGPT, le cadre Mini-Gemini démontre des capacités de compréhension multi-modale plus solides, lui permettant de générer des légendes d’image à texte qui s’alignent mieux sur les instructions d’entrée et aboutissent à des réponses d’image à texte avec une similarité conceptuelle plus forte. Ce qui est encore plus impressionnant est le fait que le cadre Mini-Gemini démontre une compétence remarquable dans la génération de contenu de haute qualité en utilisant uniquement des instructions humaines multi-modales avec des données d’entraînement de texte, une capacité qui illustre l’interprétation sémantique robuste et les compétences d’alignement d’image-texte du Mini-Gemini.

Pensées finales

Dans cet article, nous avons discuté du Mini-Gemini, un cadre puissant et rationalisé pour les modèles de langage visuel multi-modalité. L’objectif principal du cadre Mini-Gemini est d’exploiter les capacités latentes des modèles de langage visuel en utilisant des données de haute qualité, une conception stratégique du cadre et une portée fonctionnelle étendue. Mini-Gemini est une tentative pour réduire l’écart qui existe entre les modèles de langage visuel et les modèles plus avancés en exploitant le potentiel des VLM pour de meilleures performances à trois aspects : la génération guidée par les VLM, les données de haute qualité et les jetons visuels de haute résolution. Pour améliorer les jetons visuels, le cadre Mini-Gemini propose d’utiliser un encodeur visuel supplémentaire pour une affinage de haute résolution sans augmenter le nombre de jetons visuels. Le cadre Mini-Gemini construit en outre un ensemble de données de haute qualité dans le but de promouvoir une compréhension précise des images et une génération basée sur la raison. Dans l’ensemble, le cadre Mini-Gemini tente d’exploiter le potentiel des modèles de langage visuel et vise à doter les cadres existants de capacités de raisonnement d’image, de compréhension et de génération simultanément.

Kunal Kejriwal

Un ingénieur de profession, un écrivain de cœur. Kunal est un rédacteur technique avec une profonde affection et une compréhension de l'IA et du ML, dédié à simplifier les concepts complexes dans ces domaines grâce à sa documentation engageante et informative.