Suivez nous sur

LLaVA-UHD : un LMM percevant tous les formats d'image et les images haute rĂ©solution

Intelligence Artificielle

LLaVA-UHD : un LMM percevant tous les formats d'image et les images haute rĂ©solution

mm
LLaVA-UHD : un LMM percevant tous les formats d'image et les images haute rĂ©solution

Les rĂ©cents progrès et progrès des grands modèles de langage ont connu une augmentation significative des capacitĂ©s de raisonnement, de comprĂ©hension et d'interaction du langage visuel. Les frameworks modernes y parviennent en projetant des signaux visuels dans des LLM ou des Large Language Models pour permettre leur capacitĂ© Ă  percevoir le monde visuellement, un Ă©ventail de scĂ©narios dans lesquels les stratĂ©gies d'encodage visuel jouent un rĂ´le crucial. Cependant, les images du monde rĂ©el contiennent non seulement un large Ă©ventail de scĂ©narios, mais elles varient Ă©galement considĂ©rablement en termes de rĂ©solutions et de formats d'image, ce qui pose des dĂ©fis importants aux LLM dans diffĂ©rents domaines et tâches. Pour faire face Ă  la variance significative posĂ©e par les images du monde rĂ©el, les grands modèles de langage modernes perçoivent les images dans une faible rĂ©solution, c'est-Ă -dire 224 Ă— 224, et un rapport hauteur/largeur fixe, c'est-Ă -dire 1:1. Bien que le compromis consistant Ă  s'en tenir Ă  une faible rĂ©solution et Ă  un rapport hauteur/largeur fixe augmente la gĂ©nĂ©ralisabilitĂ© du LLM dans les applications du monde rĂ©el, il brouille souvent le contenu de l'image de manière significative tout en entraĂ®nant Ă©galement une grave distorsion de forme. Le compromis a un impact significatif sur les capacitĂ©s des grands modèles multimodaux ou LMM, en particulier ceux optimisĂ©s pour des tâches fines, notamment la reconnaissance optique de caractères et la comprĂ©hension de petits objets. De plus, Ă©tant donnĂ© que la rĂ©solution et le rapport hauteur/largeur sont prĂ©dĂ©terminĂ©s, les modèles ne peuvent que faire les meilleures suppositions sur les images floues, ce qui entraĂ®ne des hallucinations du modèle, une situation dans laquelle le modèle produit des rĂ©ponses textuelles qui ne sont pas fondĂ©es factuellement sur les images. 

Dans cet article, nous parlerons de LLaVA-UHD, une nouvelle approche qui prend d'abord les frameworks LLaVA-1.5 et GPT-4V comme exemples reprĂ©sentatifs, et tente d'exposer les dĂ©fauts systĂ©matiques enracinĂ©s dans leur stratĂ©gie d'encodage visuel. Le cadre LLaVA-UHD, un modal multimodal, est une tentative de relever ces dĂ©fis. Le framework LLaVA-UHD peut percevoir des images en haute rĂ©solution ainsi que dans n'importe quel rapport hauteur/largeur. Le cadre LLaVA-UHD est construit autour de trois composants clĂ©s. Premièrement, une stratĂ©gie de modularisation d'image qui divise les images Ă  rĂ©solution native en tranches plus petites de taille variable dans le but d'amĂ©liorer l'efficacitĂ© et d'Ă©tendre l'encodage. Ensuite, un module de compression qui condense davantage les jetons d'image produits par les encodeurs visuels. Enfin, un schĂ©ma spatial qui organise les jetons de tranche pour les grands modèles de langage. Des expĂ©riences approfondies indiquent que le framework LLaVA-UHD est capable de surpasser les grands modèles de langage de pointe sur 9 benchmarks. De plus, en utilisant seulement 94 % de calcul d'infĂ©rence, le framework LLaVA-UHD est capable de prendre en charge des images avec une rĂ©solution 6 fois plus grande, soit 672 Ă— 1088. 

LLaVA-UHD : percevez efficacement les images dans n'importe quel rapport d'aspect et Haute rĂ©solution

Le raisonnement, la comprĂ©hension et l'interaction vision-langage ont rĂ©cemment connu des progrès significatifs, en grande partie grâce Ă  l'essor rĂ©cent des grands modèles de langage. Dans les cadres modernes, ce mĂŞme objectif est atteint en alimentant les grands modèles de langage (LLM) en signaux visuels afin de les rendre capables d'interprĂ©ter visuellement le monde rĂ©el, un large Ă©ventail de scĂ©narios reposant sur des stratĂ©gies d'encodage visuel. La diffĂ©rence de scĂ©nario reflète une couverture restreinte des LLM dans diffĂ©rents domaines et tâches, tandis que la diffĂ©rence de rĂ©solution et de format d'image rĂ©vèle d'importantes variations intraclasses dans les images rĂ©elles, difficiles Ă  gĂ©rer. Contrairement Ă  la petite Ă©chelle qui rĂ©duit la variance, les modèles issus de BERT prennent en compte l'importance de la faible rĂ©solution (par exemple, pour le LLaVA-UHD, 224Ă—224) des images avec un format d'image fixe de 1:1 pour obtenir des images rĂ©elles. Si ce compromis est utile pour garantir la gĂ©nĂ©ralisabilitĂ© des LLM aux applications rĂ©elles, il conduit souvent Ă  des images très floues et favorise une importante distorsion de forme. Cela rĂ©duit les capacitĂ©s des grands modèles. modèles multimodaux ou des LMM (par exemple, tâches Ă  granularitĂ© fine), telles que la reconnaissance optique de caractères et la comprĂ©hension de petits objets. Étant donnĂ© que la rĂ©solution et le rapport hauteur/largeur sont prĂ©dĂ©finis, les modèles ne peuvent que deviner les images floues, ce qui conduit Ă  des hallucinations du modèle, rendant les rĂ©ponses textuelles finales gĂ©nĂ©rĂ©es non fondĂ©es sur les faits dans les images. Alors pourquoi les modèles LMM de rĂ©fĂ©rence ne perçoivent-ils pas les images dans des rĂ©solutions Ă©levĂ©es et des formats d'image variĂ©s ? 

Il existe deux raisons principales pour lesquelles les LMM de rĂ©fĂ©rence sont incapables de percevoir des images Ă  haute rĂ©solution et Ă  rĂ©solution variĂ©e. Premièrement, Ă©tant donnĂ© que les encodeurs visuels sont prĂ©-entraĂ®nĂ©s dans des rĂ©solutions fixes, il est difficile pour le modèle et l'encodeur de traiter des images avec des rapports d'aspect et des rĂ©solutions variables, ce qui a un impact significatif sur l'adaptabilitĂ© du modèle. Deuxièmement, l’encodage d’images haute rĂ©solution directement Ă  l’aide de transformateurs de vision est associĂ© Ă  un coĂ»t de calcul important par rapport Ă  la taille des images. En outre, les coĂ»ts de calcul pourraient ĂŞtre considĂ©rablement plus Ă©levĂ©s pour le grand modèle de langage afin de traiter un grand nombre de jetons visuels pour des images haute rĂ©solution, ce qui aurait un impact significatif sur l'efficacitĂ© globale du modèle. Pour relever ces dĂ©fis, le LLaVA-UHD, un grand modèle multimodal qui perçoit des images haute rĂ©solution et n'importe quel rapport hauteur/largeur, prend les frameworks LLaVA-1.5 et GPT-4V comme exemples reprĂ©sentatifs, et tente d'exposer les dĂ©fauts systĂ©matiques enracinĂ©s dans leur visuel. stratĂ©gie d’encodage. 

L'image ci-dessus reflète les rĂ©sultats expĂ©rimentaux du GPT-4V pour identifier le nombre d'objets dans une image. Ă€ la base, le cadre LLaVA-UHD comporte trois composants. Premièrement, une stratĂ©gie de modularisation d'image qui divise les images Ă  rĂ©solution native en tranches plus petites de taille variable pour un codage extensible et efficace. Contrairement aux LLM rĂ©cents qui ajustent les images dans plusieurs rĂ©solutions et formats d'image fixes, les tranches de taille variable gĂ©nĂ©rĂ©es par le framework LLaVA-UHD permettent une adaptabilitĂ© totale aux images de rĂ©solution native sans distorsion des formes, redimensionnement ou remplissage. Deuxièmement, le modèle condense les jetons visuels par une couche de compression sur une longueur modeste, ce qui rĂ©duit considĂ©rablement le calcul des LLM. Enfin, le modèle organise les jetons de tranche compressĂ©s dans un schĂ©ma spatial pour informer le grand modèle de langage des positions des tranches dans les images. 

LLaVA-UHD : Méthodologie et Architecture

Sur la base des enseignements de certaines expĂ©riences pilotes visant Ă  Ă©tudier les frameworks existants, notamment GPT-4V et LLaVA-1.5, le framework LLaVA-UHD implĂ©mente une architecture Ă  trois composants, comme le montre l'image suivante. 

Premièrement, une stratĂ©gie de modularisation d'image qui divise les images Ă  rĂ©solution native en tranches plus petites de taille variable dans le but d'amĂ©liorer l'efficacitĂ© et d'Ă©tendre l'encodage. Ensuite, un module de compression qui condense davantage les jetons d'image produits par les encodeurs visuels. Enfin, un schĂ©ma spatial qui organise les jetons de tranche pour les grands modèles de langage. Examinons en dĂ©tail ces composants. 

Encodage visuel modularisé

Une approche courante pour traiter des images haute rĂ©solution avec diffĂ©rents formats d'image consiste Ă  interpoler les incorporations de position du Vision Transformer ou ViT vers la forme cible pour un codage direct dans son ensemble. Cependant, la mise en Ĺ“uvre de cette approche s'accompagne souvent de coĂ»ts de calcul Ă©levĂ©s, et les problèmes de distribution entraĂ®nent une dĂ©gradation supplĂ©mentaire des performances. Pour relever ce dĂ©fi, le framework LLaVA-UHD prĂ©sente une stratĂ©gie de codage visuel modularisĂ©e qui vise essentiellement Ă  diviser les images Ă  rĂ©solution native en tranches plus petites de taille variable oĂą la forme de chaque tranche est assez proche du paramètre standard de prĂ©-entraĂ®nement du transformateur de vision. . Grâce Ă  l'utilisation de tranches de taille variable, le cadre LLaVA-UHD est capable d'atteindre une adaptabilitĂ© totale aux images de rĂ©solution native sans implĂ©menter de remodelage ou de remplissage dĂ©formant la forme. De plus, l’objectif principal de la stratĂ©gie de dĂ©coupage d’images est de dĂ©terminer une division d’images haute rĂ©solution avec des modifications minimes des rĂ©solutions de chaque tranche. Pour une image donnĂ©e avec une certaine rĂ©solution (w, h) et un transformateur de vision prĂ©-entraĂ®nĂ© dans une autre rĂ©solution, le framework LLaVA-UHD dĂ©termine d'abord le calcul idĂ©al, c'est-Ă -dire le nombre de tranches nĂ©cessaires pour traiter l'image. Le framework factorise ensuite le nombre de tranches en m colonnes et n lignes. Le cadre dĂ©finit ensuite une fonction de score pour mesurer l'Ă©cart par rapport au paramètre standard de prĂ©-entraĂ®nement du transformateur de vision. ThĂ©oriquement, le framework LLaVA-UHD est capable de dĂ©montrer que la stratĂ©gie de partition mise en Ĺ“uvre dans son architecture garantit des changements mineurs attendus et des changements modestes dans le pire des cas par rapport Ă  la rĂ©solution de prĂ©-entraĂ®nement standard pour chaque tranche. 

De plus, la majoritĂ© des LLM existants implĂ©mentent une rĂ©solution statique pour l'encodage des tranches d'image, une approche qui empĂŞche la pleine adaptabilitĂ© du modèle aux rĂ©solutions natives puisqu'ils n'ont accès qu'Ă  plusieurs tranches de forme fixe prĂ©dĂ©finies. De plus, la rĂ©solution de tranche statique nuit aux performances, Ă  l'efficacitĂ© et Ă  l'exactitude du modèle, car elle entraĂ®ne inĂ©vitablement un redimensionnement ou un remplissage dĂ©formant la forme. Pour rĂ©soudre ce problème, le framework LLaVA-UHD propose d'encoder les tranches d'image dans les proportions telles que dĂ©finies par la stratĂ©gie de partition. Pour ĂŞtre plus prĂ©cis, le framework LLaVA-UHD redimensionne d'abord l'image originale proportionnellement en fonction du rapport hauteur/largeur de manière Ă  ce que le nombre de correctifs corresponde au budget de prĂ©-entraĂ®nement, c'est-Ă -dire le nombre de sĂ©quences d'intĂ©gration de positions dans le transformateur de vision, au maximum. . Le modèle LLaVA-UHD remodèle ensuite la sĂ©quence d'intĂ©gration de position 1D prĂ©-entraĂ®nĂ©e du transformateur de vision dans un format 2D conformĂ©ment Ă  ses paramètres de prĂ©-entraĂ®nement. 

Couche de compression

Un problème courant auquel les LLM sont confrontĂ©s lors du traitement d'images haute rĂ©solution est que la quantitĂ© de jetons visuels qu'ils doivent traiter est nettement plus Ă©levĂ©e (pour rĂ©fĂ©rence, le framework LLaVA-1.5 produit environ 3500 672 jetons visuels lors du traitement d'une seule image avec une rĂ©solution : 1008 Ă— 672). ), reprĂ©sentant une part importante des ressources et des coĂ»ts de calcul. Pour tenir compte de ce dĂ©fi, le modèle LLaVA-UHD implĂ©mente une couche de rĂ©-Ă©chantillonnage de percepteur partagĂ©e pour compresser les jetons visuels de chaque tranche d'image. Le modèle implĂ©mente ensuite un ensemble de vecteurs de requĂŞte via une attention croisĂ©e pour rééchantillonner la sortie des jetons d'image par les encodeurs visuels Ă  un nombre infĂ©rieur. Par rapport aux stratĂ©gies de projection visuelle multicouches basĂ©es sur le Perceptron multicouche, l'approche d'Ă©chantillon de percepteur mise en Ĺ“uvre par LLaVA-UHD est capable de maintenir un nombre abordable mais fixe de jetons visuels quelle que soit sa rĂ©solution d'image, ce qui rend le cadre LLaVA-UHD plus compatible avec les hautes performances. traitement d'images en rĂ©solution et tâches de comprĂ©hension. Pour illustrer cela, le framework LLaVA-UDH gĂ©nère la mĂŞme quantitĂ© de jetons lors de l'encodage d'une image de rĂ©solution 1008 Ă— XNUMX que le LLaVA-1.5 gĂ©nère lors de l'encodage une image de rĂ©solution 336Ă—336, près de 6 fois plus efficace que son concurrent. 

Schéma spatial pour les tranches d'image

C'est une pratique nĂ©cessaire pour informer le grand modèle de langage des organisations spatiales des tranches d'images puisque le partitionnement des images est dynamique entre diffĂ©rentes images. Le framework LLaVA-UHD conçoit et implĂ©mente un schĂ©ma spatial qui utilise deux jetons spĂ©ciaux pour informer le LLM de la position relative des tranches d'image. Sous ce schĂ©ma spatial, le framework LLaVA-UHD utilise « Â», pour sĂ©parer les reprĂ©sentations de tranches dans une ligne, et les diffĂ©rentes lignes sont sĂ©parĂ©es Ă  l'aide d'un « \n Â». 

LLaVA-UDH : Expériences et Résultats

Le cadre LLaVA-UHD est Ă©valuĂ© par rapport Ă  9 rĂ©fĂ©rences populaires, notamment des rĂ©fĂ©rences gĂ©nĂ©rales de rĂ©ponses aux questions visuelles, des rĂ©fĂ©rences de rĂ©ponses visuelles aux questions basĂ©es sur des caractères optiques, des rĂ©fĂ©rences d'hallucinations et des rĂ©fĂ©rences complètes. De plus, le cadre LLaVA-UHD est comparĂ© Ă  des rĂ©fĂ©rences solides, notamment LLaVA-1.5, MiniGPT-v2, InstructBLIP, BLIP-2 et plus encore. 

Les performances du framework LLaVA-UHD sur 9 benchmarks populaires sont rĂ©sumĂ©es et comparĂ©es aux benchmarks populaires dans le tableau ci-dessous. 

Sur la base des performances ci-dessus, on peut conclure que le cadre LLaVA-UHD est capable de surpasser les modèles de rĂ©fĂ©rence solides sur des rĂ©fĂ©rences populaires, y compris des rĂ©fĂ©rences gĂ©nĂ©rales solides formĂ©es sur une quantitĂ© de donnĂ©es beaucoup plus importante, ainsi que des LLM plus performants qui nĂ©cessitent beaucoup plus de calculs. comme Fuyu-8B, Monkey et plus encore. Deuxièmement, les rĂ©sultats indiquent Ă©galement que le framework LLaVA-UHD obtient des rĂ©sultats nettement meilleurs par rapport Ă  l'architecture LLaVA-1.5, et d'une part, lĂ  oĂą LLaVA-1.5 prend en charge une rĂ©solution fixe de 336 Ă— 336, le framework LLaVA-UHD prend en charge des images de rĂ©solution 672 Ă— 1088. avec n’importe quel rapport hauteur/largeur et le mĂŞme nombre de jetons visuels. 

Réflexions finales

Dans cet article, nous avons parlĂ© de LLaVA-UHD, une nouvelle approche qui prend d'abord les frameworks LLaVA-1.5 et GPT-4V comme exemples reprĂ©sentatifs, et tente d'exposer les dĂ©fauts systĂ©matiques enracinĂ©s dans leur stratĂ©gie d'encodage visuel. Le cadre LLaVA-UHD, un modal multimodal, est une tentative de relever ces dĂ©fis. Le framework LLaVA-UHD peut percevoir des images en haute rĂ©solution ainsi que dans n'importe quel rapport hauteur/largeur. Le cadre LLaVA-UHD est construit autour de trois composants clĂ©s. Premièrement, une stratĂ©gie de modularisation d'image qui divise les images Ă  rĂ©solution native en tranches plus petites de taille variable dans le but d'amĂ©liorer l'efficacitĂ© et d'Ă©tendre l'encodage. Ensuite, un module de compression qui condense davantage les jetons d'image produits par les encodeurs visuels. Enfin, un schĂ©ma spatial qui organise les jetons de tranche pour les grands modèles de langage. Des expĂ©riences approfondies indiquent que le framework LLaVA-UHD est capable de surpasser les grands modèles de langage de pointe sur 9 benchmarks. De plus, en utilisant seulement 94 % de calcul d'infĂ©rence, le framework LLaVA-UHD est capable de prendre en charge des images avec une rĂ©solution 6 fois plus grande, soit 672 Ă— 1088. 

 

« IngĂ©nieur de profession, Ă©crivain de cĹ“ur Â». Kunal est un rĂ©dacteur technique avec un amour et une comprĂ©hension profonds de l'IA et du ML, dĂ©diĂ© Ă  la simplification de concepts complexes dans ces domaines grâce Ă  sa documentation engageante et informative.