Intelligence artificielle

LLaVA-UHD : un LMM perçoit tout aspect de ratio et d’images haute résolution

Published June 6, 2024

Updated April 27, 2026

Kunal Kejriwal

LLaVA-UHD: an LMM Perceiving Any Aspect Ratio and High-Resolution Images

Les progrès récents et les avancées des grands modèles de langage ont connu une augmentation significative des capacités de raisonnement, de compréhension et d’interaction vision-langage. Les cadres modernes réalisent cela en projetant des signaux visuels dans les LMM ou les grands modèles de langage pour leur permettre de percevoir visuellement le monde, un ensemble de scénarios où les stratégies d’encodage visuel jouent un rôle crucial. Cependant, les images du monde réel ne contiennent pas seulement une grande variété de scénarios, mais varient également de manière significative en termes de résolutions et de ratios d’aspect, ce qui pose des défis importants pour les LMM dans différents domaines et tâches. Pour relever la variance significative posée par les images du monde réel, les grands modèles de langage modernes perçoivent les images en basse résolution, c’est-à-dire 224×224, et un ratio d’aspect fixe, c’est-à-dire 1:1. Bien que le compromis pour rester en basse résolution et en ratio d’aspect fixe augmente la généralisabilité du LMM dans les applications du monde réel, il entraîne souvent un flou des contenus de l’image ainsi qu’une distorsion de forme grave. Le compromis a un impact significatif sur les capacités des grands modèles multi-modalités ou LMM, en particulier ceux optimisés pour les tâches à grain fin, notamment la reconnaissance optique des caractères et la compréhension d’objets petits. De plus, puisque la résolution et le ratio d’aspect sont prédéterminés, les modèles ne peuvent faire que des suppositions éclairées sur les images floues, ce qui entraîne des hallucinations de modèle, une situation dans laquelle le modèle produit des réponses textuelles qui ne sont pas fondées sur des faits dans les images.

Dans cet article, nous allons parler de LLaVA-UHD, une approche novatrice qui prend d’abord les cadres LLaVA-1.5 et GPT-4V comme exemples représentatifs, et tente d’exposer les failles systémiques enracinées dans leur stratégie d’encodage visuel. Le cadre LLaVA-UHD, un modal multi-modal, est une tentative pour relever les défis. Le cadre LLaVA-UHD peut percevoir des images en haute résolution ainsi qu’en tout ratio d’aspect. Le cadre LLaVA-UHD est construit autour de trois composants clés. Premièrement, une stratégie de modularisation d’image qui divise les images à résolution native en tranches de taille variable pour améliorer l’efficacité et étendre l’encodage. Ensuite, un module de compression qui condense les jetons d’image produits par les encodeurs visuels. Enfin, un schéma spatial qui organise les jetons de tranches pour les grands modèles de langage. Des expériences complètes indiquent que le cadre LLaVA-UHD est capable de surpasser les grands modèles de langage de l’état de l’art sur 9 références. De plus, en utilisant seulement 94 % de calcul d’inférence, le cadre LLaVA-UHD est capable de prendre en charge des images avec une résolution 6 fois plus grande, c’est-à-dire 672×1088.

LLaVA-UHD : Percevoir efficacement les images dans tout ratio d’aspect et haute résolution

Le raisonnement vision-langage, la compréhension et l’interaction ont fait des progrès significatifs ces derniers temps, en grande partie grâce à la récente poussée pour les grands modèles de langage. Dans les cadres modernes, cela est réalisé en alimentant des signaux visuels dans les LMM (grands modèles de langage) pour leur permettre de comprendre visuellement le monde réel, une gamme diversifiée de scénarios qui reposent sur des stratégies d’encodage visuel. La différence de scénario reflète une couverture étroite des LMM dans différents domaines et tâches, tandis que la différence de résolution et de ratio d’aspect révèle les grandes variations intraclasses dans les images du monde réel, qui sont difficiles à gérer. Contrairement à la petite échelle qui réduit la variance, les modèles après BERT traitent de la signification de la résolution (par exemple, pour LLaVA-UHD, il s’agit de 224×224) des images avec un ratio d’aspect fixe, 1:1 pour donner des images du monde réel. Bien que ce compromis soit utile pour assurer la généralisabilité du LMM dans les applications du monde réel, il entraîne souvent des images très floues tout en favorisant une distorsion de forme grave. Ce compromis a un impact significatif sur les capacités des grands modèles multi-modalités ou LMM (par exemple, les tâches à grain fin), tels que la reconnaissance optique des caractères et la compréhension d’objets petits. Puisque la résolution et le ratio d’aspect sont prédéterminés, les modèles ne peuvent faire que des suppositions éclairées sur les images floues, ce qui entraîne des hallucinations de modèle, une situation dans laquelle le modèle produit des réponses textuelles qui ne sont pas fondées sur des faits dans les images. Pourquoi les modèles LMM de référence ne perçoivent-ils pas les images en haute résolution et en ratio d’aspect variable ?

Il existe deux raisons majeures pour lesquelles les modèles LMM de référence ne peuvent pas percevoir les images en haute résolution et en ratio d’aspect variable. Premièrement, puisque les encodeurs visuels sont pré-entraînés en résolutions fixes, cela rend difficile pour le modèle et l’encodeur de traiter les images avec des ratios d’aspect et des résolutions variables, ce qui affecte considérablement l’adaptabilité du modèle. Deuxièmement, l’encodage direct d’images haute résolution à l’aide de transformateurs de vision est associé à des coûts de calcul importants par rapport à la taille des images. De plus, les coûts de calcul peuvent être nettement plus élevés pour que le grand modèle de langage traite un grand nombre de jetons visuels pour les images haute résolution, ce qui affecte considérablement l’efficacité globale du modèle. Pour relever ces défis, LLaVA-UHD, un grand modèle multi-modal qui perçoit les images haute résolution et tout ratio d’aspect, prend les cadres LLaVA-1.5 et GPT-4V comme exemples représentatifs, et tente d’exposer les failles systémiques enracinées dans leur stratégie d’encodage visuel.

L’image ci-dessus reflète les résultats expérimentaux de GPT-4V dans l’identification du nombre d’objets dans une image. Au cœur du cadre LLaVA-UHD, il y a trois composants. Premièrement, une stratégie de modularisation d’image qui divise les images à résolution native en tranches de taille variable pour une codification extensible et efficace. Contrairement aux LMM récents qui adaptent les images à plusieurs résolutions et ratios d’aspect fixes, les tranches de taille variable générées par le cadre LLaVA-UHD permettent une adaptabilité complète aux images à résolution native sans distorsion de forme, redimensionnement ou remplissage. Deuxièmement, le modèle condense les jetons visuels par une couche de compression pour une longueur modeste, ce qui réduit considérablement le calcul pour les LMM. Enfin, le modèle organise les jetons de tranches compressés dans un schéma spatial pour informer les positions de tranches dans les images au grand modèle de langage.

LLaVA-UHD : Méthodologie et Architecture

Sur la base des apprentissages de certaines expériences pilotes pour étudier les cadres existants, notamment GPT-4V et LLaVA-1.5, le cadre LLaVA-UHD met en œuvre une architecture à trois composants comme démontré dans l’image suivante.

Premièrement, une stratégie de modularisation d’image qui divise les images à résolution native en tranches de taille variable pour améliorer l’efficacité et étendre l’encodage. Ensuite, un module de compression qui condense les jetons d’image produits par les encodeurs visuels. Enfin, un schéma spatial qui organise les jetons de tranches pour les grands modèles de langage. Examinons ces composants en détail.

Encodage visuel modularisé

Une approche courante pour traiter les images haute résolution avec différents ratios d’aspect consiste à interpoler les incrustations de position du Vision Transformer ou ViT à la forme cible pour un encodage direct comme un tout. Cependant, la mise en œuvre de cette approche est souvent accompagnée de coûts de calcul élevés, et les problèmes hors distribution entraînent une dégradation des performances. Pour relever ce défi, le cadre LLaVA-UHD présente une stratégie d’encodage visuel modularisé qui vise à diviser les images à résolution native en tranches de taille variable où la forme de chaque tranche est proche de la configuration d’entraînement standard du transformateur de vision. Grâce à l’utilisation de tranches de taille variable, le cadre LLaVA-UHD est capable d’atteindre une adaptabilité complète aux images à résolution native sans implémenter de reformulation de forme ou de remplissage. De plus, l’objectif principal de la stratégie de découpage d’image est de déterminer une division d’images haute résolution avec des changements minimaux aux résolutions de chaque tranche. Pour une image donnée avec une certaine résolution (w, h) et un transformateur de vision pré-entraîné dans une autre résolution, le cadre LLaVA-UHD détermine d’abord le calcul idéal, c’est-à-dire le nombre de tranches nécessaires pour traiter l’image. Le cadre divise ensuite le nombre de tranches en m colonnes et n lignes. Le cadre définit ensuite une fonction de score pour mesurer l’écart par rapport à la configuration d’entraînement standard du transformateur de vision. Théoriquement, le cadre LLaVA-UHD est capable de démontrer que la stratégie de partition mise en œuvre dans son architecture garantit des changements minimes et modestes par rapport à la résolution d’entraînement standard pour chaque tranche.

De plus, la plupart des LMM existants mettent en œuvre une résolution statique pour l’encodage de tranches d’image, une approche qui empêche l’adaptabilité complète du modèle aux résolutions natives puisqu’ils n’ont accès qu’à plusieurs tranches de forme fixe prédéfinies. De plus, la résolution de tranche statique nuit à la performance, à l’efficacité et à la correction du modèle puisqu’elle entraîne inévitablement une reformulation de forme ou un remplissage. Pour relever ce problème, le cadre LLaVA-UHD propose d’encoder les tranches d’image dans le ratio d’aspect défini par la stratégie de partition. Plus précisément, le cadre LLaVA-UHD redimensionne d’abord l’image originale de manière proportionnelle en fonction du ratio d’aspect de manière à ce que le nombre de patches soit dans le budget d’entraînement, c’est-à-dire le nombre de séquences d’incrustation de position dans le transformateur de vision, de manière maximale. Le modèle LLaVA-UHD reconfigure ensuite la séquence d’incrustation de position 1D pré-entraînée du transformateur de vision en un format 2D en fonction de ses paramètres d’entraînement.

Couche de compression

Un problème courant que les LMM rencontrent lors du traitement d’images haute résolution est que la quantité de jetons visuels qu’ils doivent traiter est nettement plus élevée (par exemple, le cadre LLaVA-1.5 produit environ 3500 jetons visuels lors du traitement d’une seule image avec une résolution de 672×1008), ce qui représente une grande partie des ressources et coûts de calcul. Pour relever ce défi, le modèle LLaVA-UHD met en œuvre une couche de ré-échantillonnage de perceiver partagée pour compresser les jetons visuels de chaque tranche d’image. Le modèle met ensuite en œuvre un ensemble de vecteurs de requête via l’attention croisée pour ré-échantillonner la sortie des jetons d’image par les encodeurs visuels à un nombre inférieur. Lorsqu’il est comparé aux stratégies de projection visuelle basées sur le perceptron multi-couche, l’approche de ré-échantillonnage de perceiver mise en œuvre par LLaVA-UHD est capable de maintenir un nombre de jetons visuels abordable mais fixe, indépendamment de la résolution de l’image, ce qui rend le cadre LLaVA-UHD plus compatible avec les tâches de traitement et de compréhension d’images haute résolution. Pour illustrer cela, le cadre LLaVA-UDH génère la même quantité de jetons lors de l’encodage d’une image avec une résolution de 672×1008 que le cadre LLaVA-1.5 génère lors de l’encodage d’une image avec une résolution de 336×336, soit environ 6 fois plus efficace que son concurrent.

Schéma spatial pour les tranches d’image

Il est nécessaire d’informer le grand modèle de langage de l’organisation spatiale des tranches d’image, car le partitionnement des images est dynamique entre les différentes images. Le cadre LLaVA-UHD conçoit et met en œuvre un schéma spatial qui utilise deux jetons spéciaux pour informer le LMM de la position relative des tranches d’image. Selon ce schéma spatial, le cadre LLaVA-UHD utilise « , » pour séparer les représentations de tranches dans une ligne, et les lignes différentes sont séparées à l’aide d’un « n ».

LLaVA-UDH : Expériences et Résultats

Le cadre LLaVA-UHD est évalué par rapport à 9 références populaires, notamment des références de questions visuelles générales, des références de questions visuelles basées sur les caractères optiques, des références d’hallucination et des références complètes. De plus, le cadre LLaVA-UHD est comparé à des références solides, notamment LLaVA-1.5, MiniGPT-v2, InstructBLIP, BLIP-2, et plus.

Les performances du cadre LLaVA-UHD sur 9 références populaires sont résumées et comparées aux références populaires dans le tableau ci-dessous.

Sur la base des performances ci-dessus, il peut être conclu que le cadre LLaVA-UHD est capable de surpasser les modèles de référence solides sur les références populaires, notamment les références générales solides formées sur une quantité de données nettement plus importante, ainsi que de surpasser les LMM qui nécessitent nettement plus de calcul, comme Fuyu-8B, Monkey, et plus. Deuxièmement, les résultats indiquent également que le cadre LLaVA-UHD obtient des résultats nettement meilleurs que l’architecture LLaVA-1.5, et d’un autre côté, où LLaVA-1.5 prend en charge une résolution fixe de 336×336, le cadre LLaVA-UHD prend en charge des images avec une résolution de 672×1088 et tout ratio d’aspect, et le même nombre de jetons visuels.

Pensées finales

Dans cet article, nous avons parlé de LLaVA-UHD, une approche novatrice qui prend d’abord les cadres LLaVA-1.5 et GPT-4V comme exemples représentatifs, et tente d’exposer les failles systémiques enracinées dans leur stratégie d’encodage visuel. Le cadre LLaVA-UHD, un modal multi-modal, est une tentative pour relever les défis. Le cadre LLaVA-UHD peut percevoir des images en haute résolution ainsi qu’en tout ratio d’aspect. Le cadre LLaVA-UHD est construit autour de trois composants clés. Premièrement, une stratégie de modularisation d’image qui divise les images à résolution native en tranches de taille variable pour améliorer l’efficacité et étendre l’encodage. Ensuite, un module de compression qui condense les jetons d’image produits par les encodeurs visuels. Enfin, un schéma spatial qui organise les jetons de tranches pour les grands modèles de langage. Des expériences complètes indiquent que le cadre LLaVA-UHD est capable de surpasser les grands modèles de langage de l’état de l’art sur 9 références. De plus, en utilisant seulement 94 % de calcul d’inférence, le cadre LLaVA-UHD est capable de prendre en charge des images avec une résolution 6 fois plus grande, c’est-à-dire 672×1088.

Kunal Kejriwal

Un ingénieur de profession, un écrivain de cœur. Kunal est un rédacteur technique avec une profonde affection et une compréhension de l'IA et du ML, dédié à simplifier les concepts complexes dans ces domaines grâce à sa documentation engageante et informative.