Intelligence Artificielle

Réglage des instructions visuelles pour une compréhension au niveau des pixels avec Osprey

Publié 25 janvier 2024

Kunal Kejriwal

Avec l’amélioration récente des méthodes de réglage des instructions visuelles, les grands modèles multimodaux de langage (MLLM) ont démontré de remarquables capacités de langage de vision à usage général. Ces capacités en font des éléments de base essentiels pour les assistants visuels modernes à usage général. Les modèles récents, notamment MiniGPT-4, LLaVA, InstructBLIP et autres, présentent des capacités impressionnantes de raisonnement visuel et de suivi des instructions. Bien que la majorité d’entre eux s’appuient sur des paires image-texte pour l’alignement vision-langage au niveau de l’image, ils fonctionnent bien dans ce domaine. Cependant, leur dépendance à l'égard d'une compréhension au niveau de la boîte et de l'image est la principale raison pour laquelle les MLLM ne parviennent pas à reproduire leurs performances sur des tâches d'alignement de langage de vision à granularité fine au niveau des pixels. De plus, la disponibilité limitée des données d'instructions basées sur les masques pour la formation pose des problèmes pour améliorer davantage les MLLM.

Osprey est une méthode de formation à l'instruction par texte masque dont l'objectif principal est d'étendre les MLLM. Il intègre des régions masquées à granularité fine dans l’enseignement du langage pour permettre une compréhension visuelle du langage au niveau des pixels. Pour ce faire, le framework Osprey organise un ensemble de données région-texte basé sur un masque avec plus de 700 XNUMX échantillons. Il injecte une représentation au niveau des pixels dans les grands modèles linguistiques (LLM) pour concevoir un modèle de langage de vision. Notamment, le framework Osprey adopte un modèle CLIP convolutif comme encodeur de vision et intègre un extracteur visuel prenant en compte les masques dans son architecture. Cela permet une extraction précise des caractéristiques du masque visuel à partir d’une entrée haute résolution.

Dans cet article, nous discuterons du framework Osprey et approfondirons son architecture. Nous explorerons également l'ensemble de données région-texte organisé avec plus de 700 XNUMX échantillons et comparerons ses performances dans diverses tâches de compréhension des régions. Alors, commençons.

Osprey : Compréhension des pixels avec réglage des instructions visuelles

Les grands modèles multimodaux de langage comme MiniGPT-4, Otter, Qwen-LV, InstructBLIP et d'autres sont les pionniers du développement d'assistants visuels à usage général, et ils sont réputés pour leurs capacités multimodales et génératrices de vision exceptionnelles. Cependant, les grands modèles multimodaux de langage souffrent d'un défi majeur car ils fournissent des résultats insatisfaisants sur des tâches de compréhension fine d'images telles que le sous-titrage, la classification des régions et le raisonnement. L’une des principales raisons des performances médiocres dans les tâches de compréhension fine des images est le manque d’alignement au niveau régional. Récent MLLM comme GPT4RoI, Shikra et d'autres visent à permettre la compréhension au niveau régional dans les modèles de langage de vision en traitant les régions spécifiées par le cadre de délimitation et en tirant parti du réglage des instructions visuelles avec des caractéristiques spatiales au niveau de l'objet.

Bien que l'approche visant à permettre la compréhension au niveau de la région puisse améliorer les performances, l'utilisation directe de cadres de délimitation clairsemés comme région d'entrée de référence pourrait introduire des fonctionnalités d'arrière-plan non pertinentes conduisant à un alignement inexact des paires région-texte pour le réglage des instructions visuelles sur de grands modèles de langage. Pendant le processus d'inférence, l'entrée de référence au niveau de la boîte peut ne pas être en mesure de détecter et de représenter l'objet avec précision ; cela pourrait entraîner une déviation sémantique, comme le montre l'image suivante.

En comparaison, l’utilisation de masques à granularité fine au lieu de cadres de délimitation grossiers comme entrée de référence pourrait permettre de représenter les objets avec plus de précision. SAM ou Segment Anything Model récemment développé s'entraîne sur des milliards de masques de haute qualité, démontre une qualité de segmentation remarquable sur des objets zéro et prend en charge l'utilisation de points ou de simples cadres de délimitation comme invites. Cependant, le cadre SAM ne peut pas générer d'étiquettes sémantiques primaires, ni fournir des légendes et des attributs sémantiques détaillés. En conséquence, les modèles existants manquent d’informations multimodales fines et ont une compréhension limitée des scènes du monde réel.

Pour relever les défis rencontrés par les MLLM existants, Osprey, une nouvelle méthode de formation aux instructions de texte de masque, vise à étendre les capacités des grands modèles de langage multimodaux pour une compréhension fine au niveau des pixels. Le framework Osprey introduit un extracteur visuel prenant en compte les masques qui capture avec précision les caractéristiques du masque visuel avec une granularité variable. Le framework entrelace ensuite les fonctionnalités visuelles avec les instructions du langage pour générer la séquence d'entrée pour le grand modèle de langage, et exploite l'architecture CLIP convolutive pour faciliter l'utilisation d'entrées haute résolution. En raison de sa conception et de son architecture, le framework Osprey est capable d'obtenir une compréhension sémantique fine des régions au niveau de l'objet et au niveau de la partie, et fournit des attributs d'objet détaillés ainsi qu'une catégorie d'objet principale et des descriptions améliorées de scènes complexes.

En exploitant les capacités de réglage des instructions visuelles, le framework Osprey offre de nouvelles capacités au-delà de la compréhension des scènes au niveau de l'image et de la boîte, car le framework Osprey peut générer une sémantique fine à l'aide de masques indépendants des classes à partir de SAM disponibles dans le commerce. De plus, Osprey montre également des capacités remarquables en matière de classification d'objets référents, de reconnaissance de vocabulaire ouvert, de sous-titrage au niveau régional et de tâches de description détaillée des régions.

Osprey : Méthodologie et Architecture

La figure suivante montre la présentation de l'architecture du framework Osprey composé d'un grand modèle de langage, d'un extracteur visuel prenant en compte le masque au niveau des pixels et d'un encodeur de vision au niveau de l'image.

Pour une image donnée, le langage d'entrée et les régions de masque de référence, le framework effectue une conversion et une tokenisation pour générer des intégrations avant d'envoyer les séquences d'intégration de langage et les fonctionnalités de masque entrelacées au grand modèle de langage pour obtenir des compréhensions sémantiques fines.

Encodeur convolutif CLIP Vision

L'encodeur de vision déployé dans une majorité de réseaux multimodaux grands modèles de langage est illustré à l’aide d’un modèle CLIP basé sur ViT. En conséquence, le framework adopte une résolution d’image de 224×224 pixels ou 336 x 336 pixels. Cependant, l’utilisation du modèle CLIP basé sur ViT rend difficile la compréhension fine des images des représentations au niveau des pixels, un problème encore amplifié dans les petites régions. De plus, la surcharge de calcul associée à l'architecture ViT entrave la possibilité d'augmenter la résolution de l'image d'entrée.

Pour relever ce défi, le framework Osprey implémente un modèle CLIP convolutif comme encodeur de vision dans son architecture. Traditionnellement, les modèles CLIP basés sur les réseaux de neurones convolutifs ont démontré des capacités de généralisation remarquables sur différentes résolutions d'entrée lorsqu'ils sont comparés aux modèles CLIP basés sur un transformateur de vision. La mise en œuvre d'un modèle CLIP basé sur CNN permet une inférence rapide et une formation efficace sans compromettre les performances du modèle. De plus, un modèle CLIP basé sur CNN est capable de générer des cartes de caractéristiques multi-échelles que le framework utilise ensuite directement pour l'extraction de caractéristiques dans chaque région d'objet suivante.

Extracteur visuel prenant en compte les masques

Contrairement aux modèles existants basés sur des régions qui utilisent des cadres de délimitation clairsemés comme entrée de référence, le framework Osprey utilise des régions de masque détaillées pour implémenter des représentations basées sur des objets. Le modèle Osprey utilise un composant d'extraction visuel prenant en charge les masques pour capturer les caractéristiques au niveau des pixels dans chaque région d'objet. Le composant d'extraction visuelle du logiciel de masque code les caractéristiques visuelles au niveau du masque et rassemble en outre les informations de position spatiale de chaque région.

Pour mettre en œuvre cela, Osprey utilise d'abord les fonctionnalités d'image multi-niveaux générées par l'encodeur de vision pour adopter l'opération de regroupement de masques, et pour chaque fonctionnalité à un seul niveau, le framework regroupe toutes les fonctionnalités qui se trouvent dans la région du masque. Le modèle code ensuite les caractéristiques sur différentes couches en faisant passer chaque caractéristique à travers une couche de projection linéaire qui génère des intégrations au niveau de la région et fusionne les caractéristiques à plusieurs niveaux en effectuant une sommation. Le modèle utilise ensuite une couche MLP pour produire le jeton de masque visuel. De plus, Osprey préserve la géométrie spatiale de la région d'objet en codant la relation de position au niveau des pixels en implémentant un masque binaire pour chaque région d'objet. En fin de compte, Osprey inclut le jeton de masque visuel et ses jetons spatiaux respectifs pour chaque intégration de région de masque.

Tokenisation LLM

Comme mentionné précédemment, le modèle extrait les intégrations au niveau de l'image d'une image en l'introduisant dans un encodeur visuel pré-entraîné basé sur CNN. Pour les informations textuelles, le modèle utilise d'abord des tokeniseurs LLM pré-entraînés pour tokeniser les séquences de texte, puis projette ces séquences de texte tokenisées dans intégrations de texte. Pour les régions basées sur un masque, le modèle définit un jeton spécial comme espace réservé, puis le remplace par un jeton spatial ainsi qu'un jeton de masque. Lorsque le modèle fait référence à une région d'objet dans la saisie de texte, il ajoute l'espace réservé après le nom de sa région, ce qui permet aux régions de masque de bien se mélanger aux textes, ce qui donne lieu à des phrases complètes sans l'espace de tokenisation. De plus, outre les instructions utilisateur, le modèle comprend également une invite de préfixe, un jeton spécial qui sert d'espace réservé, qui est ensuite remplacé par les intégrations au niveau de l'image de l'encodeur de vision. Enfin, le framework entrelace les jetons visuels au niveau de la région et de l'image avec les jetons de texte, et les alimente dans le grand modèle de langage pour comprendre les instructions utilisateur et l'image avec différentes régions de l'objet.

Osprey : processus de formation en trois étapes

Le framework Osprey déploie un processus de formation en trois étapes dans lequel chacune des phases de formation est supervisée en minimisant la perte de prédiction du jeton suivant.

Étape 1 : Formation à l'alignement image-texte

Dans la première étape, le framework Osprey déploie l'encodeur de vision CLIP basé sur CNN pour entraîner les fonctionnalités au niveau de l'image et le connecteur de langage afin d'entraîner le modèle pour l'alignement des fonctionnalités image-texte. Dans la première étape, le framework utilise trois composants : un grand modèle de langage pré-entraîné, un encodeur de vision pré-entraîné et un projecteur au niveau de l'image. Le cadre adopte également une couche MLP pour servir de connecteur de langage de vision qui contribue à améliorer les capacités de génération multimodale d'Osprey.

Étape 2 : Pré-formation sur l'alignement masque-texte

Dans la deuxième étape, Osprey charge le poids entraîné lors de la première étape et utilise son composant Mask-Aware Visual Extractor pour capturer les caractéristiques de la région au niveau des pixels. Dans la deuxième étape, le framework entraîne uniquement l'extracteur visuel Mask-Aware pour aligner les intégrations de langage avec les fonctionnalités de région basées sur les masques. En outre, le modèle collecte des paires de masques au niveau des pixels et des textes courts à partir d'ensembles de données au niveau des objets au niveau partiel et accessibles au public, et les convertit en données de suivi d'instructions pour entraîner davantage le modèle.

Étape 3 : ajustement fin de bout en bout

Dans la troisième et dernière étape, le modèle corrige les poids de l'encodeur de vision et affine le grand modèle de langage, l'extracteur de caractéristiques de région basé sur un masque et les composants du projecteur au niveau de l'image dans son architecture. L'objectif principal de la formation de la troisième étape est d'étendre la capacité du modèle à suivre avec précision les instructions de l'utilisateur et à effectuer efficacement des tâches de compréhension des régions au niveau des pixels.

Après la mise en œuvre des trois étapes de formation, le framework Osprey est capable de comprendre des scénarios complexes définis par les instructions de l'utilisateur et basés sur des régions de masque au niveau des pixels.

Balbuzard pêcheur : résultats expérimentaux

Pour évaluer ses performances, les développeurs d'Osprey mènent un large éventail d'expériences pour démontrer les capacités du modèle en matière de classification, de reconnaissance régionale au niveau des pixels et de descriptions complexes.

Segmentation de vocabulaire ouvert

L'objectif principal de la segmentation à vocabulaire ouvert est de générer explicitement une reconnaissance de région basée sur un masque et sa catégorie respective. Pour réaliser une segmentation de vocabulaire ouvert, Osprey utilise d'abord une invite de saisie de texte, après quoi le modèle adopte des régions de masque de vérité terrain pour l'interférence du modèle afin d'évaluer les performances du modèle dans les tâches de reconnaissance de vocabulaire ouvert. Sur la base de la réponse de phrase générée par le modèle multimodal de grand langage, Osprey calcule la similarité sémantique entre la liste de vocabulaire et la sortie de chaque ensemble de données. La figure suivante compare Osprey aux grands modèles de langage multimodaux de pointe.

Comme on peut le constater, le framework Osprey surpasse considérablement les méthodes existantes sur les ensembles de données Cityscapes et ADE20K-150. Les résultats indiquent la capacité d'Osprey à surpasser les approches existantes et à parvenir à une compréhension et une reconnaissance solides des régions d'objets à granularité fine.

Classification des objets référents

Dans la tâche Classification des objets référents, le modèle doit classer l'objet dans une région spécifique d'une image. Pour évaluer ses capacités de classification, le framework Osprey utilise deux métriques de pertinence sémantique, notamment Semantic IoU ou S-IoU et Semantic Similarity ou SS. L'IoU sémantique représente le chevauchement de mots entre les étiquettes de vérité terrain et de prédiction, tandis que la similarité sémantique mesure la similarité prédite et/ou les étiquettes de vérité terrain dans un espace sémantique. L'image suivante montre les performances d'Osprey dans la tâche de classification d'objets référents lorsqu'elle est comparée à des modèles employant des approches au niveau de la boîte et de l'image.

Description détaillée de la région

Dans la tâche de description détaillée de la région, le modèle évalue ses performances en matière de capacités de description détaillée de suivi d'instructions ainsi que d'autres approches au niveau régional. Le modèle sélectionne de manière aléatoire une invite d'inférence d'entrée dans une liste d'invites prédéfinies et exploite le cadre GPT-4 LLM pour mesurer de manière globale la qualité de la réponse générée par le modèle par rapport aux régions de référence d'entrée. À l'aide du pipeline de génération d'instructions, le modèle génère des questions et recherche les réponses de GPT-4, après quoi le LLM évalue l'exactitude de la sémantique et la précision de la compréhension des références. Le tableau suivant montre les performances d'Osprey par rapport à des modèles de pointe sur les tâches de description détaillée de la région.

Sous-titrage au niveau régional

Le framework Osprey surpasse également les approches actuelles sur les tâches de sous-titrage au niveau régional avec les résultats contenus dans l'image suivante.

Réflexions finales

Dans cet article, nous avons parlé d'Osprey, une méthode de formation à l'instruction par texte masque dont l'objectif principal est d'étendre les MLLM en incorporant des régions masquées à granularité fine dans l'instruction linguistique pour obtenir une compréhension visuelle du langage au niveau des pixels. Pour atteindre son objectif, le framework Osprey organise un ensemble de données région-texte basé sur un masque avec plus de 700 XNUMX échantillons et injecte une représentation au niveau des pixels dans LLM pour concevoir un modèle de langage de vision. Le framework Osprey vise à améliorer considérablement les MLLM pour une compréhension visuelle fine, et en implémentant un modèle CLIP basé sur CNN et un extracteur visuel prenant en compte les masques, Osprey atteint la capacité de comprendre des images au niveau des pièces et des régions au niveau de l'objet.

Rubriques connexes:Vision CLIP MLLM Balbuzard

Kunal Kejriwal

« Ingénieur de profession, écrivain de cœur ». Kunal est un rédacteur technique avec un amour et une compréhension profonds de l'IA et du ML, dédié à la simplification de concepts complexes dans ces domaines grâce à sa documentation engageante et informative.