Intelligence artificielle
Osprey : RĂ©glage d’instruction visuelle pour une comprĂ©hension au niveau du pixel

Avec l’amélioration récente des méthodes de réglage d’instruction visuelle, les Modèles de Langage Multimodaux (MLLM) ont démontré des capacités de vision-langage à usage général remarquables. Ces capacités les rendent des éléments clés pour les assistants visuels modernes à usage général. Les modèles récents, notamment MiniGPT-4, LLaVA, InstructBLIP et d’autres, présentent des capacités de raisonnement visuel et de suivi d’instructions impressionnantes. Bien que la majorité d’entre eux s’appuient sur des paires d’images et de texte pour l’alignement de la vision et du langage au niveau de l’image, ils se comportent bien dans ce domaine. Cependant, leur dépendance à l’égard de la compréhension au niveau de la boîte et de l’image est la principale raison pour laquelle les MLLM ne parviennent pas à reproduire leurs performances sur les tâches d’alignement de la vision et du langage à grain fin au niveau du pixel. De plus, la disponibilité limitée de données d’instruction basées sur des masques pour la formation pose des défis pour améliorer encore les MLLM.
Osprey est une méthode de formation d’instruction de masque-texte qui vise principalement à étendre les MLLM. Elle intègre des régions masquées à grain fin dans les instructions de langage pour atteindre une compréhension visuelle et linguistique au niveau du pixel. Pour accomplir cela, le cadre Osprey met au point un jeu de données de région-texte basé sur des masques avec plus de 700 000 échantillons. Il injecte une représentation au niveau du pixel dans les Modèles de Langage à Grande Échelle (LLM) pour concevoir un modèle de vision et de langage. Notamment, le cadre Osprey adopte un modèle de convolution CLIP en tant que codeur de vision et intègre un extracteur visuel sensible aux masques dans son architecture. Cela permet une extraction précise de fonctionnalités visuelles de masque à partir d’entrées à haute résolution.
Dans cet article, nous allons discuter du cadre Osprey et approfondir son architecture. Nous allons également explorer le jeu de données de région-texte mis au point avec plus de 700 000 échantillons et comparer ses performances dans diverses tâches de compréhension de région. Alors, commençons.
Osprey : Compréhension au niveau du pixel avec un réglage d’instruction visuelle
Les Modèles de Langage Multimodaux à Grande Échelle comme MiniGPT-4, Otter, Qwen-LV, InstructBLIP et d’autres sont les précurseurs pour le développement d’assistants visuels à usage général, et ils sont réputés pour leurs capacités multimodales et de génération de vision exceptionnelles. Cependant, les Modèles de Langage Multimodaux à Grande Échelle souffrent d’un défi majeur car ils donnent des résultats insatisfaisants sur les tâches de compréhension d’images à grain fin comme la légende, la classification de région et le raisonnement. Une raison majeure pour les performances médiocres sur les tâches de compréhension d’images à grain fin est le manque d’alignement au niveau de la région. Les MLLM récents comme GPT4RoI, Shikra et d’autres visent à permettre une compréhension au niveau de la région dans les modèles de vision et de langage en traitant des régions spécifiées par des boîtes délimitantes, et en exploitant le réglage d’instruction visuelle avec des fonctionnalités spatiales au niveau de l’objet.
Bien que l’approche pour permettre une compréhension au niveau de la région puisse améliorer les performances, l’utilisation de boîtes délimitantes éparses comme entrée de région référencée directement peut introduire des fonctionnalités de fond non pertinentes, conduisant à un alignement de paire de région-texte inexacte pour le réglage d’instruction visuelle sur les grands modèles de langage. Au cours du processus d’inférence, l’entrée de région référencée au niveau de la boîte peut ne pas être en mesure de détecter et de représenter l’objet avec précision ; cela peut entraîner une déviation sémantique, comme le montre l’image suivante.

En comparaison, l’utilisation de masques à grain fin au lieu de boîtes délimitantes grossières comme entrée référencée peut représenter les objets avec plus de précision. Le modèle de segmentation SAM (Segment Anything Model) récemment développé, formé sur des milliards de masques de haute qualité, présente une qualité de segmentation remarquable sur des objets zero-shot et prend en charge l’utilisation de points ou de boîtes délimitantes simples comme invites. Cependant, le cadre SAM ne peut pas générer des étiquettes sémantiques principales, ni fournir des légendes et des attributs sémantiques détaillés. Par conséquent, les modèles existants manquent d’informations multimodales à grain fin inhérentes et ont une compréhension limitée des scènes du monde réel.
Pour relever les défis auxquels sont confrontés les MLLM existants, Osprey, une méthode de formation d’instruction de masque-texte, vise à étendre les capacités des Modèles de Langage Multimodaux à Grande Échelle pour une compréhension à grain fin au niveau du pixel. Le cadre Osprey introduit un extracteur visuel sensible aux masques qui capture des fonctionnalités visuelles de masque avec une granularité précise. Le cadre intercale ensuite les fonctionnalités visuelles avec les instructions de langage pour générer la séquence d’entrée pour le grand modèle de langage, et exploite l’architecture de convolution CLIP pour faciliter l’utilisation d’entrées à haute résolution. Grâce à sa conception et à son architecture, le cadre Osprey est capable d’atteindre une compréhension sémantique à grain fin pour les régions de niveau d’objet et de partie, et fournit des attributs d’objet détaillés ainsi que des descriptions améliorées de scènes complexes.
En exploitant les capacités du réglage d’instruction visuelle, le cadre Osprey permet de nouvelles capacités au-delà de la compréhension au niveau de l’image et de la boîte, car le cadre Osprey peut générer des sémantiques à grain fin en utilisant des masques agnostiques de classe à partir de SAM standard. De plus, Osprey présente des capacités remarquables dans les tâches de classification d’objets référencés, de reconnaissance à vocabulaire ouvert, de légendage au niveau de la région et de description de région détaillée.
Osprey : Méthodologie et architecture
La figure suivante montre la vue d’ensemble de l’architecture du cadre Osprey, composé d’un grand modèle de langage, d’un extracteur visuel sensible aux masques au niveau du pixel et d’un codeur de vision au niveau de l’image.

Pour une image donnée, le langage d’entrée et les régions de masque référencées, le cadre effectue une conversion et une tokenisation pour générer des embeddings avant d’envoyer les séquences d’embeddings de langage et les fonctionnalités de masque intercalées au grand modèle de langage pour obtenir des compréhensions sémantiques à grain fin.
Codeur de vision CLIP de convolution
Le codeur de vision déployé dans la majorité des Modèles de Langage Multimodaux à Grande Échelle est exemplifié à l’aide d’un modèle CLIP basé sur ViT. Par conséquent, le cadre adopte une résolution d’image de 224×224 pixels ou 336 x 336 pixels. Cependant, l’utilisation du modèle CLIP basé sur ViT rend difficile pour le modèle atteindre une compréhension d’image à grain fin des représentations au niveau du pixel, un problème aggravé encore dans les petites régions. De plus, la charge de calcul associée à l’architecture ViT empêche la possibilité d’augmenter la résolution de l’image d’entrée.
Pour relever ce défi, le cadre Osprey met en œuvre un codeur de vision CLIP de convolution dans son architecture. Traditionnellement, les modèles CLIP basés sur les réseaux de neurones convolutionnels ont démontré des capacités de généralisation remarquables sur différentes résolutions d’entrée par rapport aux modèles de transformateur de vision basés sur CLIP. La mise en œuvre d’un modèle CLIP basé sur CNN permet une inférence rapide et une formation efficace sans compromettre les performances du modèle. De plus, un modèle CLIP basé sur CNN est capable de générer des cartes de fonctionnalités multi-échelles que le cadre utilise ensuite directement pour l’extraction de fonctionnalités dans chaque région d’objet suivante.
Extracteur visuel sensible aux masques
Contrairement aux modèles de région existants qui utilisent des boîtes délimitantes éparses comme entrée référencée, le cadre Osprey utilise des régions de masque détaillées pour mettre en œuvre des représentations basées sur les objets. Le modèle Osprey emploie un composant d’extracteur visuel sensible aux masques pour capturer les fonctionnalités visuelles au niveau du pixel dans chaque région d’objet. Le composant d’extracteur visuel sensible aux masques code les fonctionnalités visuelles au niveau du masque, et en outre, rassemble les informations de position spatiale de chaque région.
Pour mettre cela en œuvre, Osprey utilise d’abord les fonctionnalités d’image multi-niveaux générées par le codeur de vision pour adopter l’opération de mise en piscine de masque, et pour chaque fonctionnalité à niveau unique, le cadre met en piscine toutes les fonctionnalités qui se trouvent dans la région de masque. Le modèle code ensuite les fonctionnalités à travers les couches en passant chaque fonctionnalité à travers une couche de projection linéaire qui génère des embeddings au niveau de la région, et fusionne les fonctionnalités multi-niveaux en effectuant une sommation. Le modèle utilise ensuite une couche MLP pour produire le jeton de masque visuel. De plus, Osprey préserve la géométrie spatiale de la région d’objet en codant la relation de position au niveau du pixel en mettant en œuvre un masque binaire pour chaque région d’objet. À la fin, Osprey inclut le jeton de masque visuel et ses jetons spatiaux respectifs pour chaque embedding de région de masque.
Tokenisation LLM
Comme mentionné précédemment, le modèle extrait les embeddings d’image au niveau de l’image en les alimentant dans un codeur de vision CNN pré-formé. Pour les informations textuelles, le modèle utilise d’abord des tokeniseurs LLM pré-formés pour tokeniser les séquences de texte, puis projette ces séquences de texte tokenisées dans des embeddings de texte. Pour les régions basées sur des masques, le modèle définit un jeton spécial comme un espace réservé, puis le remplace par un jeton spatial avec un jeton de masque. Lorsque le modèle se réfère à une région d’objet dans l’entrée de texte, il ajoute l’espace réservé après le nom de la région, ce qui permet aux régions de masque de se mélanger avec les textes pour former des phrases complètes sans espace de tokenisation. De plus, outre les instructions de l’utilisateur, le modèle inclut également une invite de préfixe, un jeton spécial qui sert d’espace réservé, qui est ensuite remplacé par les embeddings d’image au niveau de l’image du codeur de vision. Enfin, le cadre intercale les jetons visuels au niveau de la région et de l’image avec les jetons de texte, et les alimente dans le grand modèle de langage pour comprendre les instructions de l’utilisateur et l’image avec différentes régions dans l’objet.
Osprey : Processus de formation en trois étapes
Le cadre Osprey déploie un processus de formation en trois étapes, dans lequel chaque phase de formation est supervisée en minimisant une perte de prédiction de jeton suivant.
Étape 1 : Formation d’alignement d’image-texte
Dans la première étape, le cadre Osprey déploie le codeur de vision CLIP basé sur CNN pour former les fonctionnalités d’image au niveau de l’image et le connecteur de langage pour former le modèle pour l’alignement des fonctionnalités d’image et de texte. Dans la première étape, le cadre emploie trois composants : un grand modèle de langage pré-formé, un codeur de vision pré-formé et un projecteur d’image au niveau de l’image. Le cadre adopte également une couche MLP pour servir de connecteur de vision et de langage qui aide à améliorer les capacités de génération multimodale d’Osprey.
Étape 2 : Pré-formation d’alignement de masque-texte
Dans la deuxième étape, Osprey charge les poids formés dans la première étape, et emploie son composant d’extracteur visuel sensible aux masques pour capturer les fonctionnalités de région au niveau du pixel. Dans la deuxième étape, le cadre ne forme que l’extracteur visuel sensible aux masques pour aligner les embeddings de langage avec les fonctionnalités de région basées sur des masques. De plus, le modèle collecte des paires de masque et de texte courts à partir de jeux de données de niveau de partie et d’objets publics, et les convertit en données d’instruction pour former davantage le modèle.
Étape 3 : Affinage fin de bout en bout
Dans la troisième et dernière étape, le modèle fixe les poids du codeur de vision, et affine le grand modèle de langage, l’extracteur de fonctionnalités de région basées sur des masques et les composants de projecteur d’image au niveau de l’image dans son architecture. L’objectif principal de la formation dans la troisième étape est d’étendre la capacité du modèle à suivre avec précision les instructions de l’utilisateur et à effectuer efficacement des tâches de compréhension de région au niveau du pixel.
Après la mise en œuvre des trois étapes de formation, le cadre Osprey est capable de comprendre des scénarios complexes définis par les instructions de l’utilisateur et basés sur des régions de masque au niveau du pixel.
Osprey : Résultats expérimentaux
Pour évaluer ses performances, les développeurs d’Osprey effectuent une large gamme d’expériences pour démontrer les capacités du modèle dans la classification, la reconnaissance de région au niveau du pixel et les descriptions complexes.

Segmentation à vocabulaire ouvert
L’objectif principal de la segmentation à vocabulaire ouvert est de générer une reconnaissance de région basée sur des masques et sa catégorie respective de manière explicite. Pour atteindre la segmentation à vocabulaire ouvert, Osprey utilise d’abord une invite de texte d’entrée, après quoi le modèle adopte des régions de masque de vérité de terrain pour l’inférence du modèle afin d’évaluer les performances du modèle dans les tâches de reconnaissance à vocabulaire ouvert. Sur la base de la réponse de phrase générée par le Modèle de Langage Multimodal à Grande Échelle, Osprey calcule la similarité sémantique entre la liste de vocabulaire et la sortie de chaque jeu de données. La figure suivante compare Osprey avec les Modèles de Langage Multimodaux à Grande Échelle actuels.

Comme on peut l’observer, le cadre Osprey surpasse les méthodes existantes d’une marge considérable à la fois sur les jeux de données Cityscapes et ADE20K-150. Les résultats indiquent la capacité d’Osprey à surpasser les approches existantes et à atteindre une compréhension robuste et une reconnaissance sur les régions d’objets à grain fin.
Classification d’objets référencés
Dans la tâche de classification d’objets référencés, le modèle est requis pour classer l’objet dans une région spécifique d’une image. Pour évaluer ses capacités de classification, le cadre Osprey utilise deux métriques de pertinence sémantique, notamment la Similarité Sémantique IoU (S-IoU) et la Similarité Sémantique (SS). La Similarité Sémantique IoU représente le chevauchement des mots entre les étiquettes de prédiction et de vérité de terrain, tandis que la Similarité Sémantique mesure la similarité entre les étiquettes prédites et de vérité de terrain dans un espace sémantique. L’image suivante démontre les performances d’Osprey dans la tâche de classification d’objets référencés par rapport aux modèles qui emploient des approches au niveau de la boîte et de l’image.

Description de région détaillée
Dans la tâche de description de région détaillée, le modèle évalue ses performances sur les capacités de description détaillée suivant les instructions, ainsi que d’autres approches au niveau de la région. Le modèle sélectionne aléatoirement une invite d’inférence d’entrée à partir d’une liste d’invites prédéfinies, et utilise le cadre LLM GPT-4 pour mesurer la qualité de la réponse générée par le modèle par rapport aux régions de référence entrantes de manière exhaustive. En utilisant le pipeline de génération d’instructions, le modèle génère des questions et recherche les réponses de GPT-4, après quoi le LLM évalue la correction de la sémantique et la précision de la compréhension de référence. La table suivante démontre les performances d’Osprey par rapport aux modèles actuels sur les tâches de description de région détaillée.

Légendage au niveau de la région
Le cadre Osprey surpasse également les approches actuelles sur les tâches de légendage au niveau de la région, avec les résultats contenus dans l’image suivante.

Pensées finales
Dans cet article, nous avons discuté d’Osprey, une méthode de formation d’instruction de masque-texte qui vise principalement à étendre les Modèles de Langage Multimodaux à Grande Échelle en intégrant des régions masquées à grain fin dans les instructions de langage pour atteindre une compréhension visuelle et linguistique au niveau du pixel. Pour atteindre son objectif, le cadre Osprey met au point un jeu de données de région-texte basé sur des masques avec plus de 700 000 échantillons, et injecte une représentation au niveau du pixel dans les Modèles de Langage à Grande Échelle pour concevoir un modèle de vision et de langage. Le cadre Osprey vise à améliorer considérablement les Modèles de Langage Multimodaux à Grande Échelle pour une compréhension visuelle à grain fin, et en mettant en œuvre un modèle de convolution CLIP et un extracteur visuel sensible aux masques, Osprey atteint la capacité de comprendre les images à la fois au niveau de la partie et de l’objet.












