Intelligence artificielle

Ferret : Performances supérieures dans les tâches de référence et de mise à terre

Publié le 16 janvier 2024

Mis à jour le 22 mai 2026

Par

Kunal Kejriwal

FERRET: REFER AND GROUND AT ANY GRANULARITY

Permettre la compréhension spatiale dans les modèles d’apprentissage de langage et de vision reste un défi de recherche fondamental. Cette compréhension sous-tend deux capacités cruciales : la référence et la mise à terre. La référence permet au modèle d’interpréter avec précision la sémantique de régions spécifiques, tandis que la mise à terre implique l’utilisation de descriptions sémantiques pour localiser ces régions.

Les développeurs ont introduit Ferret, un Modèle de Langage Multimodal (MLLM) capable de comprendre la référence spatiale à travers n’importe quelle granularité ou forme dans une image et de mettre à terre avec précision des descriptions à vocabulaire ouvert. Ferret utilise une représentation hybride novatrice qui combine des caractéristiques continues et des coordonnées discrètes pour représenter les régions d’images. Son échantillonneur visuel spatial-aware gère la variabilité de la densité dans les formes, lui permettant de traiter des entrées de région diverses comme des formes libres, des boîtes de délimitation et des points.

La méthode de Ferret lui permet d’exceller dans les tâches classiques de mise à terre et de référence et de surpasser d’autres MLLM dans les tâches de communication multimodale qui exigent une localisation et une compréhension de région. Cet article explore l’architecture et la méthodologie de Ferret, mettant en évidence ses performances impressionnantes dans diverses tâches de langage multimodal. Commençons par explorer cela plus en détail.

Ferret : Performances supérieures dans les tâches de référence et de mise à terre

La référence dans un modèle est une capacité qui permet au modèle de comprendre la sémantique de régions spécifiques avec précision, tandis que la mise à terre rend essentiel pour le modèle d’utiliser les descriptions sémantiques pour localiser ces régions. Bien qu’elles puissent différer dans leurs tâches respectives, la référence et la mise à terre partagent le même concept fondamental : l’alignement de la sémantique spatiale et de l’information. Cependant, malgré le partage du même concept, les modèles existants apprennent la mise à terre et la référence individuellement. Bien que cette méthode fonctionne, elle pose un obstacle pour atteindre des capacités similaires à celles des humains, car les humains peuvent apprendre d’une tâche et appliquer les apprentissages à d’autres tâches de manière fluide, et sont capables d’intégrer sans effort les capacités de mise à terre/référence avec la raison et le dialogue quotidien. Le cadre de Ferret s’inspire de cette lacune dans les cadres de MLLM existants et étudie trois questions principales :

Comment unifier les capacités de mise à terre et de référence dans le cadre, et comment leur union peut-elle bénéficier l’une à l’autre ?
Les humains utilisent des types de régions variés comme des boîtes, des points, des gribouillages, des formes libres pour la référence ? Comment représenter ces régions variées ?
Comment rendre la mise à terre et la référence robustes, ouvertes au vocabulaire et suivant les instructions, ce qui est critique pour leurs applications pratiques et en temps réel ?

Le cadre de Ferret est un Modèle de Langage Multimodal novateur qui tente de répondre à ces questions. Le cadre de Ferret choisit un Modèle de Langage Multimodal comme base en raison de leurs remarquables capacités de vision et de compréhension du langage mondiales. De plus, pour unifier les capacités de mise à terre et de référence, le cadre de Ferret représente les coordonnées des régions sous forme numérique en langage naturel. Cependant, dans la pratique, il est inefficace d’utiliser des coordonnées de boîte ou même des points pour représenter des formes de région variées comme des gribouillages, des traits ou des polygones complexes, car ces formes sont essentielles pour une précision améliorée et une interaction humain-modèle plus universelle. Pour résoudre ce problème, le cadre de Ferret emploie un échantillonneur visuel spatial-aware qui acquiert les régions visuelles pour les régions indépendamment de la forme, négociant ainsi avec la variabilité de densité dans ces formes. Le cadre combine ensuite les caractéristiques visuelles continues avec des coordonnées discrètes pour représenter les régions visuelles dans l’entrée, aboutissant à la création d’une représentation hybride de région dans Ferret.

Le cadre de Ferret déploie les méthodes ci-dessus pour résoudre les entrées qui mélangent du texte libre avec des régions référencées, et est capable de générer sans effort les coordonnées de chaque objet pouvant être mis à terre en générant du texte pour mettre à terre les objets mentionnés dans la sortie. En faisant cela, Ferret est le premier cadre à traiter des entrées de région à forme libre dans les Modèles de Langage Multimodal. De plus, le cadre de Ferret absorbe des capacités remarquables de localisation spatiale et de compréhension ouvertes au vocabulaire, lui permettant d’atteindre des performances supérieures lorsqu’il est évalué sur des tâches classiques de mise à terre et de référence.

En poursuivant, le cadre de Ferret trouve son inspiration dans trois cadres d’IA existants, notamment les Modèles de Langage Multimodal, les MLLM pour la référence et la mise à terre, et l’unification de la mise à terre et de la compréhension de la vision et du langage.

L’introduction de Modèles de Langage de grande échelle, notamment GPT, DALL-E, PaLM, LLaMA et BLOOM, a changé le paysage de la recherche en traitement automatique des langues, aboutissant à des progrès importants des modèles de langage multimodal. Les premiers modèles de langage multimodal se sont concentrés principalement sur la génération d’images et de texte à grande échelle, avec des exemples notables tels que PaLI, SimVLM, GIT, BLIP-2, FLAMINGO, CM3 et PaLI-X. Cependant, depuis que le cadre Flamingo a atteint une intégration efficace des MLLM avec un encodeur d’image CLIP pré-entraîné via des blocs d’attention croisés, aboutissant à des capacités remarquables d’apprentissage à quelques exemples multimodaux. La recherche actuelle cherche à utiliser des modèles de langage de grande échelle pré-entraînés pour l’ajustement des instructions visuelles, avec des exemples notables tels que MiniGPT-4, Otter, InstructBLIP et plus. De plus, des modèles récents comme Emu et GILL ont montré un succès remarquable en utilisant les MLLM pour la génération d’images et la recherche d’images. Le cadre de Ferret fait également référence à des recherches antérieures qui se concentrent sur l’unification de la sortie de texte et de boîte de délimitation pour les modèles de langage et de vision.

Ferret : Méthodologie et Architecture

Représentations hybrides de région

Les points, les boîtes et les formes libres sont les trois formats dominants que les modèles de langage utilisent lorsqu’ils font référence à des régions spécifiques. D’une part, les points et les boîtes peuvent être représentés avec précision par des coordonnées, mais la représentation de formes libres est un peu plus complexe, car les formes libres sont variées. Les formes libres peuvent englober un large éventail de régions, notamment des masques, des polygones et des gribouillages. Utiliser des coordonnées pour décrire des formes libres est une tâche complexe qui entrave la capacité du modèle à apprendre à établir une corrélation entre les régions et les coordonnées correspondantes. De plus, l’utilisation de coordonnées pour les formes libres est coûteuse en termes de calcul et obscure.

Pour résoudre ce problème et généraliser à tous les trois formats, le cadre de Ferret propose une représentation hybride de région qui combine des caractéristiques visuelles continues avec des coordonnées discrètes pour faire référence à une région particulière.

Pour les caractéristiques visuelles continues, pour une région donnée, le cadre de Ferret construit d’abord un masque binaire 2D de la même taille que l’image, et marque une valeur 1 à l’intérieur de la région ciblée, tandis qu’il attribue une valeur 0 en dehors de la région. Le modèle extrait ensuite le masque binaire avec la carte de caractéristiques d’image extraite, puis l’envoie à l’échantillonneur visuel spatial-aware.

Architecture

L’architecture du modèle Ferret se compose de trois principaux composants

Un encodeur d’image pour extraire les embeddings d’images.
Un échantillonneur visuel spatial-aware pour extraire les caractéristiques continues de région.
Un Modèle de Langage de grande échelle pour modéliser conjointement le texte, l’image et les caractéristiques de région.

L’image est d’abord alimentée dans l’encodeur visuel pré-entraîné pour extraire les embeddings d’images. Pour les entrées de texte, le cadre utilise d’abord un tokeniseur de MLLM pré-entraîné pour tokeniser la séquence de texte, puis projette ces jetons dans des embeddings de texte. Pour les régions référencées, Ferret ajoute un jeton spécial et les coordonnées comme espace réservé pour les caractéristiques continues après le nom de la région. Si le nom de la région est inconnu ou est complexe à décrire en raison de l’inclusion de plusieurs objets, le cadre utilise simplement le nom de la région ou la zone.

L’un des principaux défis liés aux régions référencées est que leur forme peut être très variable, ce qui signifie qu’elles peuvent avoir différentes formes et ne sont pas limitées aux seules boîtes rectangulaires ou aux points. Les régions référencées avec des formes irrégulières ne peuvent pas être traitées avec des méthodes traditionnelles comme le traitement basé sur la grille, y compris l’attention basée sur les patchs ou les techniques de convolution. Pour résoudre ce problème, le cadre de Ferret propose un échantillonneur visuel spatial-aware. Pour une carte de caractéristiques extraite donnée avec un masque de région binaire, le modèle de Ferret échantillonne d’abord un nombre N de points au hasard à l’intérieur du masque de région binaire.

Pour chaque point individuel, le modèle obtient sa caractéristique en effectuant une interpolation bilinéaire. Les N points sont ensuite alimentés dans une cascade de blocs, chacun passant par trois étapes différentes : échantillonnage, regroupement et mise en pool. Dans la phase d’échantillonnage, un nombre fixe de points est échantillonné à partir de N points disponibles en utilisant l’algorithme de sélection de point le plus éloigné (FPS) qui garantit une couverture adéquate. Dans la deuxième étape, pour chaque point d’échantillonnage, le cadre recherche ses k plus proches voisins parmi les N points disponibles. Pour chaque groupe, le modèle fusionne ensuite les caractéristiques du point d’échantillonnage avec les caractéristiques de ses voisins. Dans la dernière étape, le cadre de Ferret effectue une mise en pool maximale pour fusionner les caractéristiques des k voisins en une seule caractéristique pour agir comme représentation pour le point échantillonné. En effectuant ces trois étapes, le cadre de Ferret se retrouve avec moins de points mais avec un espace de caractéristiques plus dense, car il intègre non seulement les caractéristiques des voisins locaux mais également leurs positions relatives.

Génération de données visuelles assistée par GPT

Les données d’ajustement d’instruction de dialogue sont d’une importance critique pour les Modèles de Langage Multimodal de grande échelle, car elles ne les aident pas seulement à convertir les ensembles de données existants en modèles, mais elles aident également le modèle à comprendre l’intention humaine et à générer des réponses appropriées. La plupart des MLLM utilisent une méthode de prompt à quelques exemples pour obtenir des données d’ajustement d’instruction visuelle, où le modèle fournit une description textuelle de scènes dans l’image, ainsi que des dialogues annotés par l’homme en tant qu’exemples à quelques exemples. Cependant, les méthodes d’ajustement d’instruction existantes se concentrent principalement sur la description de l’ensemble de l’image sans spécifier explicitement les informations spatiales. Le cadre de Ferret met l’accent sur les connaissances basées sur la région pour collecter les données d’ajustement d’instruction de référence et de mise à terre en trois étapes.

En plus d’utiliser des légendes globales et des objets, le cadre fournit une description de scène symbolique qui décrit la relation physique entre les légendes de région et les objets, tout en fournissant leurs coordonnées.
Pour les dialogues annotés par l’homme, le cadre ajoute des coordonnées après les objets ou les régions pouvant être mis à terre, soit dans l’entrée, soit dans la sortie, ou les deux, avec les dialogues se concentrant principalement sur des régions spécifiques qui aident à inciter le modèle de langage à suivre des modèles similaires pour la génération de nouveaux dialogues.
Il est possible que le dialogue généré par le cadre ne suive pas les règles et les modèles tels que spécifiés par les exemples à quelques exemples et les invites du système. Pour résoudre ce problème, le cadre utilise à nouveau un modèle de langage pour raffiner les dialogues générés par le modèle initialement.

Extraction négative spatiale

Les recherches antérieures ont démontré que les Modèles de Langage Multimodal de grande échelle ont une forte probabilité de halluciner lorsqu’ils répondent à des questions oui ou non. Pour s’assurer que le modèle de Ferret ne hallucine pas dans des conditions similaires, le cadre emploie une approche d’extraction négative spatiale avec une localisation de catégorie conditionnée par l’image et une localisation de catégorie conditionnée par la sémantique. Les deux méthodes demandent au modèle de localiser des catégories d’objets spécifiques qui permettent au modèle de reconnaître l’absence de certains objets dans l’image.

Ferret : Résultats et Expérimentation

Pour analyser ses performances, le cadre de Ferret est évalué sur des références et des tâches de mise à terre classiques après lesquelles le cadre est évalué dans une tâche de conversation multimodale plus complexe et en testant ses capacités de référence et de mise à terre.

La capacité du modèle à comprendre la référence est évaluée par la précision avec laquelle un modèle peut comprendre la sémantique de la région référencée donnée dans l’image ou la question. Pour mesurer la précision du modèle, les objets, qui sont les sémantiques les plus basiques, sont considérés en premier lieu, car ils ne sont pas seulement fondamentaux mais également faciles à définir. Pour imiter la versatilité humaine, le cadre remplace l’emplacement de l’objet dans l’image par une forme libre, une boîte et un point. Pour une forme libre, le modèle génère aléatoirement des traits à l’intérieur de l’objet de vérité terrain pour la simulation. Pour une boîte, le cadre de Ferret utilise la boîte de délimitation de vérité terrain fournie par le composant LVIS. Enfin, pour un point, le modèle échantillonne aléatoirement un point à l’intérieur de l’objet de vérité terrain qui est également proche de la limite de l’objet de vérité terrain. Les résultats sur les trois types de référence sont démontrés dans l’image suivante.

Le cadre de Ferret démontre des performances remarquables dans les tâches de dialogue référentiel, laissant place à une intégration avec différentes tâches d’apprentissage visuel, en particulier celles avec des sorties de mise à terre. Pour évaluer sa capacité de mise à terre, le cadre de Ferret se soumet d’abord à des tâches de mise à terre visuelle avec un paradigme génératif. Le cadre évalue ensuite sa capacité sur des tâches de légendage mis à terre pour mesurer l’alignement entre les régions et les mots.

Dans les tâches de mise à terre visuelle, le cadre vise à mettre à terre des requêtes de langage dans des régions alignées de l’image, et comme on peut le voir dans l’image suivante, le cadre de Ferret démontre des performances remarquables sur tous les références, et les performances sont comparables à celles atteintes par des méthodes de fine-tuning spécialisées.

Pour les tâches de légendage mis à terre, le modèle doit générer une légende, puis mettre à terre les phrases nominales générées dans les régions d’image. La prédiction finale faite par le modèle se compose de trois composants : des régions visuelles sous forme de boîtes, des légendes de texte et des alignements de mise à terre entre les boîtes et les mots. Les résultats sont démontrés dans l’image suivante, et comme on peut l’observer, le cadre livre des performances comparables aux méthodes de pointe.

Enfin, la conversation multimodale est l’une des capacités les plus souhaitables dans un MLLM, et les MLLM existants évaluent principalement les descriptions détaillées, la conversation et la raison complexe avec le modèle de langage en tant que juge. Cependant, comme aucun ensemble de données n’évalue la conversation multimodale avec des actions de référence ou de mise à terre obligatoires, cela laisse un vide. Pour combler ce vide, le cadre de Ferret couvre trois questions basées sur la région pour évaluer ses capacités de référence et de mise à terre dans les tâches de conversation multimodale. Les résultats sont démontrés dans l’image suivante.

Enfin, le cadre de Ferret est comparé directement au cadre de pointe GPT, et les résultats sont démontrés ci-dessous.

Pensées finales

Dans cet article, nous avons parlé de Ferret, un Modèle de Langage Multimodal qui démontre des capacités de mise à terre et de référence remarquables. Le cadre de Ferret peut faire référence à des régions d’images indépendamment de leur forme, et peut établir une mise à terre pour le texte prédit par le modèle automatiquement. Ferret emploie un échantillonneur visuel spatial-aware capable de gérer la variabilité de densité affichée par différentes formes pour extraire les caractéristiques continues de régions variées. En conséquence, le cadre de Ferret peut accepter des entrées de région diverses, notamment des formes libres, des boîtes de délimitation et des points.

Kunal Kejriwal

Un ingénieur de profession, un écrivain de cœur. Kunal est un rédacteur technique avec une profonde affection et une compréhension de l'IA et du ML, dédié à simplifier les concepts complexes dans ces domaines grâce à sa documentation engageante et informative.