Intelligence Artificielle
LLaVA-UHD : un LMM percevant tous les formats d'image et les images haute résolution
Les récents progrès et progrès des grands modèles de langage ont connu une augmentation significative des capacités de raisonnement, de compréhension et d'interaction du langage visuel. Les frameworks modernes y parviennent en projetant des signaux visuels dans des LLM ou des Large Language Models pour permettre leur capacité à percevoir le monde visuellement, un éventail de scénarios dans lesquels les stratégies d'encodage visuel jouent un rôle crucial. Cependant, les images du monde réel contiennent non seulement un large éventail de scénarios, mais elles varient également considérablement en termes de résolutions et de formats d'image, ce qui pose des défis importants aux LLM dans différents domaines et tâches. Pour faire face à la variance significative posée par les images du monde réel, les grands modèles de langage modernes perçoivent les images dans une faible résolution, c'est-à -dire 224 × 224, et un rapport hauteur/largeur fixe, c'est-à -dire 1:1. Bien que le compromis consistant à s'en tenir à une faible résolution et à un rapport hauteur/largeur fixe augmente la généralisabilité du LLM dans les applications du monde réel, il brouille souvent le contenu de l'image de manière significative tout en entraînant également une grave distorsion de forme. Le compromis a un impact significatif sur les capacités des grands modèles multimodaux ou LMM, en particulier ceux optimisés pour des tâches fines, notamment la reconnaissance optique de caractères et la compréhension de petits objets. De plus, étant donné que la résolution et le rapport hauteur/largeur sont prédéterminés, les modèles ne peuvent que faire les meilleures suppositions sur les images floues, ce qui entraîne des hallucinations du modèle, une situation dans laquelle le modèle produit des réponses textuelles qui ne sont pas fondées factuellement sur les images.
Dans cet article, nous parlerons de LLaVA-UHD, une nouvelle approche qui prend d'abord les frameworks LLaVA-1.5 et GPT-4V comme exemples représentatifs, et tente d'exposer les défauts systématiques enracinés dans leur stratégie d'encodage visuel. Le cadre LLaVA-UHD, un modal multimodal, est une tentative de relever ces défis. Le framework LLaVA-UHD peut percevoir des images en haute résolution ainsi que dans n'importe quel rapport hauteur/largeur. Le cadre LLaVA-UHD est construit autour de trois composants clés. Premièrement, une stratégie de modularisation d'image qui divise les images à résolution native en tranches plus petites de taille variable dans le but d'améliorer l'efficacité et d'étendre l'encodage. Ensuite, un module de compression qui condense davantage les jetons d'image produits par les encodeurs visuels. Enfin, un schéma spatial qui organise les jetons de tranche pour les grands modèles de langage. Des expériences approfondies indiquent que le framework LLaVA-UHD est capable de surpasser les grands modèles de langage de pointe sur 9 benchmarks. De plus, en utilisant seulement 94 % de calcul d'inférence, le framework LLaVA-UHD est capable de prendre en charge des images avec une résolution 6 fois plus grande, soit 672 × 1088.
LLaVA-UHD : percevez efficacement les images dans n'importe quel rapport d'aspect et Haute résolution
Le raisonnement, la compréhension et l'interaction vision-langage ont récemment connu des progrès significatifs, en grande partie grâce à l'essor récent des grands modèles de langage. Dans les cadres modernes, ce même objectif est atteint en alimentant les grands modèles de langage (LLM) en signaux visuels afin de les rendre capables d'interpréter visuellement le monde réel, un large éventail de scénarios reposant sur des stratégies d'encodage visuel. La différence de scénario reflète une couverture restreinte des LLM dans différents domaines et tâches, tandis que la différence de résolution et de format d'image révèle d'importantes variations intraclasses dans les images réelles, difficiles à gérer. Contrairement à la petite échelle qui réduit la variance, les modèles issus de BERT prennent en compte l'importance de la faible résolution (par exemple, pour le LLaVA-UHD, 224×224) des images avec un format d'image fixe de 1:1 pour obtenir des images réelles. Si ce compromis est utile pour garantir la généralisabilité des LLM aux applications réelles, il conduit souvent à des images très floues et favorise une importante distorsion de forme. Cela réduit les capacités des grands modèles. modèles multimodaux ou des LMM (par exemple, tâches à granularité fine), telles que la reconnaissance optique de caractères et la compréhension de petits objets. Étant donné que la résolution et le rapport hauteur/largeur sont prédéfinis, les modèles ne peuvent que deviner les images floues, ce qui conduit à des hallucinations du modèle, rendant les réponses textuelles finales générées non fondées sur les faits dans les images. Alors pourquoi les modèles LMM de référence ne perçoivent-ils pas les images dans des résolutions élevées et des formats d'image variés ?
Il existe deux raisons principales pour lesquelles les LMM de référence sont incapables de percevoir des images à haute résolution et à résolution variée. Premièrement, étant donné que les encodeurs visuels sont pré-entraînés dans des résolutions fixes, il est difficile pour le modèle et l'encodeur de traiter des images avec des rapports d'aspect et des résolutions variables, ce qui a un impact significatif sur l'adaptabilité du modèle. Deuxièmement, l’encodage d’images haute résolution directement à l’aide de transformateurs de vision est associé à un coût de calcul important par rapport à la taille des images. En outre, les coûts de calcul pourraient être considérablement plus élevés pour le grand modèle de langage afin de traiter un grand nombre de jetons visuels pour des images haute résolution, ce qui aurait un impact significatif sur l'efficacité globale du modèle. Pour relever ces défis, le LLaVA-UHD, un grand modèle multimodal qui perçoit des images haute résolution et n'importe quel rapport hauteur/largeur, prend les frameworks LLaVA-1.5 et GPT-4V comme exemples représentatifs, et tente d'exposer les défauts systématiques enracinés dans leur visuel. stratégie d’encodage.

L'image ci-dessus reflète les résultats expérimentaux du GPT-4V pour identifier le nombre d'objets dans une image. À la base, le cadre LLaVA-UHD comporte trois composants. Premièrement, une stratégie de modularisation d'image qui divise les images à résolution native en tranches plus petites de taille variable pour un codage extensible et efficace. Contrairement aux LLM récents qui ajustent les images dans plusieurs résolutions et formats d'image fixes, les tranches de taille variable générées par le framework LLaVA-UHD permettent une adaptabilité totale aux images de résolution native sans distorsion des formes, redimensionnement ou remplissage. Deuxièmement, le modèle condense les jetons visuels par une couche de compression sur une longueur modeste, ce qui réduit considérablement le calcul des LLM. Enfin, le modèle organise les jetons de tranche compressés dans un schéma spatial pour informer le grand modèle de langage des positions des tranches dans les images.
LLaVA-UHD : Méthodologie et Architecture
Sur la base des enseignements de certaines expériences pilotes visant à étudier les frameworks existants, notamment GPT-4V et LLaVA-1.5, le framework LLaVA-UHD implémente une architecture à trois composants, comme le montre l'image suivante.

Premièrement, une stratégie de modularisation d'image qui divise les images à résolution native en tranches plus petites de taille variable dans le but d'améliorer l'efficacité et d'étendre l'encodage. Ensuite, un module de compression qui condense davantage les jetons d'image produits par les encodeurs visuels. Enfin, un schéma spatial qui organise les jetons de tranche pour les grands modèles de langage. Examinons en détail ces composants.
Encodage visuel modularisé
Une approche courante pour traiter des images haute résolution avec différents formats d'image consiste à interpoler les incorporations de position du Vision Transformer ou ViT vers la forme cible pour un codage direct dans son ensemble. Cependant, la mise en œuvre de cette approche s'accompagne souvent de coûts de calcul élevés, et les problèmes de distribution entraînent une dégradation supplémentaire des performances. Pour relever ce défi, le framework LLaVA-UHD présente une stratégie de codage visuel modularisée qui vise essentiellement à diviser les images à résolution native en tranches plus petites de taille variable où la forme de chaque tranche est assez proche du paramètre standard de pré-entraînement du transformateur de vision. . Grâce à l'utilisation de tranches de taille variable, le cadre LLaVA-UHD est capable d'atteindre une adaptabilité totale aux images de résolution native sans implémenter de remodelage ou de remplissage déformant la forme. De plus, l’objectif principal de la stratégie de découpage d’images est de déterminer une division d’images haute résolution avec des modifications minimes des résolutions de chaque tranche. Pour une image donnée avec une certaine résolution (w, h) et un transformateur de vision pré-entraîné dans une autre résolution, le framework LLaVA-UHD détermine d'abord le calcul idéal, c'est-à -dire le nombre de tranches nécessaires pour traiter l'image. Le framework factorise ensuite le nombre de tranches en m colonnes et n lignes. Le cadre définit ensuite une fonction de score pour mesurer l'écart par rapport au paramètre standard de pré-entraînement du transformateur de vision. Théoriquement, le framework LLaVA-UHD est capable de démontrer que la stratégie de partition mise en œuvre dans son architecture garantit des changements mineurs attendus et des changements modestes dans le pire des cas par rapport à la résolution de pré-entraînement standard pour chaque tranche.
De plus, la majorité des LLM existants implémentent une résolution statique pour l'encodage des tranches d'image, une approche qui empêche la pleine adaptabilité du modèle aux résolutions natives puisqu'ils n'ont accès qu'à plusieurs tranches de forme fixe prédéfinies. De plus, la résolution de tranche statique nuit aux performances, à l'efficacité et à l'exactitude du modèle, car elle entraîne inévitablement un redimensionnement ou un remplissage déformant la forme. Pour résoudre ce problème, le framework LLaVA-UHD propose d'encoder les tranches d'image dans les proportions telles que définies par la stratégie de partition. Pour être plus précis, le framework LLaVA-UHD redimensionne d'abord l'image originale proportionnellement en fonction du rapport hauteur/largeur de manière à ce que le nombre de correctifs corresponde au budget de pré-entraînement, c'est-à -dire le nombre de séquences d'intégration de positions dans le transformateur de vision, au maximum. . Le modèle LLaVA-UHD remodèle ensuite la séquence d'intégration de position 1D pré-entraînée du transformateur de vision dans un format 2D conformément à ses paramètres de pré-entraînement.
Couche de compression
Un problème courant auquel les LLM sont confrontés lors du traitement d'images haute résolution est que la quantité de jetons visuels qu'ils doivent traiter est nettement plus élevée (pour référence, le framework LLaVA-1.5 produit environ 3500 672 jetons visuels lors du traitement d'une seule image avec une résolution : 1008 × 672). ), représentant une part importante des ressources et des coûts de calcul. Pour tenir compte de ce défi, le modèle LLaVA-UHD implémente une couche de ré-échantillonnage de percepteur partagée pour compresser les jetons visuels de chaque tranche d'image. Le modèle implémente ensuite un ensemble de vecteurs de requête via une attention croisée pour rééchantillonner la sortie des jetons d'image par les encodeurs visuels à un nombre inférieur. Par rapport aux stratégies de projection visuelle multicouches basées sur le Perceptron multicouche, l'approche d'échantillon de percepteur mise en œuvre par LLaVA-UHD est capable de maintenir un nombre abordable mais fixe de jetons visuels quelle que soit sa résolution d'image, ce qui rend le cadre LLaVA-UHD plus compatible avec les hautes performances. traitement d'images en résolution et tâches de compréhension. Pour illustrer cela, le framework LLaVA-UDH génère la même quantité de jetons lors de l'encodage d'une image de résolution 1008 × XNUMX que le LLaVA-1.5 génère lors de l'encodage une image de résolution 336×336, près de 6 fois plus efficace que son concurrent.
Schéma spatial pour les tranches d'image
C'est une pratique nécessaire pour informer le grand modèle de langage des organisations spatiales des tranches d'images puisque le partitionnement des images est dynamique entre différentes images. Le framework LLaVA-UHD conçoit et implémente un schéma spatial qui utilise deux jetons spéciaux pour informer le LLM de la position relative des tranches d'image. Sous ce schéma spatial, le framework LLaVA-UHD utilise « », pour séparer les représentations de tranches dans une ligne, et les différentes lignes sont séparées à l'aide d'un « \n ».
LLaVA-UDH : Expériences et Résultats
Le cadre LLaVA-UHD est évalué par rapport à 9 références populaires, notamment des références générales de réponses aux questions visuelles, des références de réponses visuelles aux questions basées sur des caractères optiques, des références d'hallucinations et des références complètes. De plus, le cadre LLaVA-UHD est comparé à des références solides, notamment LLaVA-1.5, MiniGPT-v2, InstructBLIP, BLIP-2 et plus encore.
Les performances du framework LLaVA-UHD sur 9 benchmarks populaires sont résumées et comparées aux benchmarks populaires dans le tableau ci-dessous.

Sur la base des performances ci-dessus, on peut conclure que le cadre LLaVA-UHD est capable de surpasser les modèles de référence solides sur des références populaires, y compris des références générales solides formées sur une quantité de données beaucoup plus importante, ainsi que des LLM plus performants qui nécessitent beaucoup plus de calculs. comme Fuyu-8B, Monkey et plus encore. Deuxièmement, les résultats indiquent également que le framework LLaVA-UHD obtient des résultats nettement meilleurs par rapport à l'architecture LLaVA-1.5, et d'une part, là où LLaVA-1.5 prend en charge une résolution fixe de 336 × 336, le framework LLaVA-UHD prend en charge des images de résolution 672 × 1088. avec n’importe quel rapport hauteur/largeur et le même nombre de jetons visuels.


Réflexions finales
Dans cet article, nous avons parlé de LLaVA-UHD, une nouvelle approche qui prend d'abord les frameworks LLaVA-1.5 et GPT-4V comme exemples représentatifs, et tente d'exposer les défauts systématiques enracinés dans leur stratégie d'encodage visuel. Le cadre LLaVA-UHD, un modal multimodal, est une tentative de relever ces défis. Le framework LLaVA-UHD peut percevoir des images en haute résolution ainsi que dans n'importe quel rapport hauteur/largeur. Le cadre LLaVA-UHD est construit autour de trois composants clés. Premièrement, une stratégie de modularisation d'image qui divise les images à résolution native en tranches plus petites de taille variable dans le but d'améliorer l'efficacité et d'étendre l'encodage. Ensuite, un module de compression qui condense davantage les jetons d'image produits par les encodeurs visuels. Enfin, un schéma spatial qui organise les jetons de tranche pour les grands modèles de langage. Des expériences approfondies indiquent que le framework LLaVA-UHD est capable de surpasser les grands modèles de langage de pointe sur 9 benchmarks. De plus, en utilisant seulement 94 % de calcul d'inférence, le framework LLaVA-UHD est capable de prendre en charge des images avec une résolution 6 fois plus grande, soit 672 × 1088.












