Inteligência artificial

LLaVA-UHD: um LMM que Percebe Qualquer Proporção e Imagens de Alta Resolução

Published June 6, 2024

Updated April 27, 2026

Kunal Kejriwal

LLaVA-UHD: an LMM Perceiving Any Aspect Ratio and High-Resolution Images

O recente progresso e avanço dos Grandes Modelos de Linguagem experimentou um aumento significativo nas capacidades de raciocínio, compreensão e interação visão-linguagem. Os frameworks modernos alcançam isso projetando sinais visuais nos LLMs ou Grandes Modelos de Linguagem para habilitar sua capacidade de perceber o mundo visualmente, uma variedade de cenários onde as estratégias de codificação visual desempenham um papel crucial. No entanto, as imagens do mundo real não apenas contêm uma ampla gama de cenários, mas também variam significativamente em termos de resoluções e proporções, apresentando desafios significativos para os LLMs em diferentes domínios e tarefas. Para lidar com a variância significativa apresentada pelas imagens do mundo real, os modelos de linguagem grandes modernos percebem imagens em baixa resolução, ou seja, 224×224, e uma proporção fixa, ou seja, 1:1. Embora fazer a concessão de manter a baixa resolução e a proporção fixa aumente a generalização do LLM em aplicações do mundo real, isso frequentemente deixa as imagens muito desfocadas, além de resultar em distorção severa de forma. A concessão impacta significativamente as capacidades dos grandes modelos de multimodalidade ou LMM, especialmente aqueles otimizados para tarefas de granularidade fina, incluindo reconhecimento óptico de caracteres e compreensão de objetos pequenos. Além disso, como a resolução e a proporção são pré-determinadas, os modelos só podem fazer as melhores suposições para as imagens desfocadas, levando a alucinações do modelo, uma situação em que o modelo produz respostas textuais que não são fundamentadas factualmente nas imagens.

Neste artigo, vamos falar sobre o LLaVA-UHD, uma abordagem nova que primeiro toma os frameworks LLaVA-1.5 e GPT-4V como exemplos representativos e tenta expor as falhas sistemáticas enraizadas em sua estratégia de codificação visual. O framework LLaVA-UHD, um modal multimodal, é uma tentativa de abordar os desafios. O framework LLaVA-UHD pode perceber imagens em alta resolução, bem como em qualquer proporção. O framework LLaVA-UHD é construído em torno de três componentes principais. Primeiro, uma estratégia de modularização de imagem que divide imagens de resolução nativa em fatias menores de tamanho variável, em uma tentativa de melhorar a eficiência e estender a codificação. Em seguida, um módulo de compressão que condensa os tokens de imagem produzidos pelos codificadores visuais ainda mais. Finalmente, um esquema espacial que organiza os tokens de fatia para os grandes modelos de linguagem. Experimentos abrangentes indicam que o framework LLaVA-UHD é capaz de superar os grandes modelos de linguagem de estado da arte em 9 benchmarks. Além disso, usando apenas 94% de computação de inferência, o framework LLaVA-UHD é capaz de suportar imagens com resolução 6 vezes maior, ou seja, 672×1088.

LLaVA-UHD: Perceber Imagens em Qualquer Proporção e Alta Resolução de Forma Eficiente

O raciocínio visão-linguagem, compreensão e interação fizeram um progresso significativo recentemente, graças ao impulso recente para os Grandes Modelos de Linguagem. Nos frameworks modernos, o mesmo é alcançado alimentando sinais visuais nos LLMs (Grandes Modelos de Linguagem) para torná-los capazes de interpretar o mundo real visualmente, uma variedade de cenários que dependem de estratégias de codificação visual. A diferença de cenário reflete uma cobertura estreita dos LLMs em diferentes domínios e tarefas, enquanto a diferença em resoluções e proporções revela as grandes variações intraclasses nas imagens do mundo real, que são difíceis de lidar. Ao contrário da pequena escala que reduz a variância, os modelos após o BERT lidam com a significância a partir da baixa resolução (por exemplo, para o LLaVA-UHD é 224×224) das imagens com uma proporção fixa, 1:1, para dar imagens do mundo real. Embora essa concessão seja útil para garantir a generalização do LLM em aplicações do mundo real, isso frequentemente leva a imagens muito desfocadas, além de promover distorção severa de forma. Isso reduz as capacidades dos grandes modelos de multimodalidade ou LMM (por exemplo, tarefas de granularidade fina), como reconhecimento óptico de caracteres e compreensão de objetos pequenos. Como a resolução e a proporção são pré-determinadas, os modelos só podem fazer as melhores suposições para as imagens desfocadas, levando a alucinações do modelo, uma situação em que o modelo produz respostas textuais que não são fundamentadas factualmente nas imagens. Por que os modelos LMM de referência não percebem imagens em alta resolução e variadas proporções?

Existem duas razões principais pelas quais os modelos LMM de referência não conseguem perceber imagens com alta resolução e variadas proporções. Primeiro, como os codificadores visuais são pré-treinados em resoluções fixas, isso torna difícil para o modelo e o codificador lidar com imagens com proporções e resoluções variadas, impactando significativamente a adaptabilidade do modelo. Em segundo lugar, a codificação de imagens de alta resolução diretamente usando transformadores de visão está associada a um custo computacional significativo em relação ao tamanho da imagem. Além disso, os custos de computação podem ser significativamente maiores para o grande modelo de linguagem processar um grande número de tokens visuais para imagens de alta resolução, impactando significativamente a eficiência geral do modelo. Para contrariar esses desafios, o LLaVA-UHD, um grande modelo multimodal que percebe imagens de alta resolução e qualquer proporção, toma os frameworks LLaVA-1.5 e GPT-4V como exemplos representativos e tenta expor as falhas sistemáticas enraizadas em sua estratégia de codificação visual.

A imagem acima reflete os resultados experimentais do GPT-4V na identificação do número de objetos dentro de uma imagem. No núcleo, o framework LLaVA-UHD tem três componentes. Primeiro, uma estratégia de modularização de imagem que divide imagens de resolução nativa em fatias menores de tamanho variável para codificação extensível e eficiente. Ao contrário dos LLMs recentes que ajustam imagens a várias resoluções e proporções fixas, as fatias de tamanho variável geradas pelo framework LLaVA-UHD permitem a adaptação total às imagens de resolução nativa sem distorcer formas, redimensionar ou preencher. Em segundo lugar, o modelo condensa os tokens visuais por uma camada de compressão para um comprimento modesto, resultando na redução significativa do cálculo para os LLMs. Finalmente, o modelo organiza os tokens de fatia comprimidos em um esquema espacial para informar as posições de fatia nas imagens ao grande modelo de linguagem.

LLaVA-UHD: Metodologia e Arquitetura

Com base nos aprendizados de alguns experimentos piloto para estudar os frameworks existentes, incluindo GPT-4V e LLaVA-1.5, o framework LLaVA-UHD implementa uma arquitetura de três componentes, como demonstrado na imagem a seguir.

Primeiro, uma estratégia de modularização de imagem que divide imagens de resolução nativa em fatias menores de tamanho variável, em uma tentativa de melhorar a eficiência e estender a codificação. Em seguida, um módulo de compressão que condensa os tokens de imagem produzidos pelos codificadores visuais ainda mais. Finalmente, um esquema espacial que organiza os tokens de fatia para os grandes modelos de linguagem. Vamos dar uma olhada detalhada nesses componentes.

Codificação Visual Modularizada

Uma abordagem comum para lidar com imagens de alta resolução com diferentes proporções é interpolando as incorporações de posição do Vision Transformer ou ViT para o formato alvo para codificação direta como um todo. No entanto, a implementação dessa abordagem é frequentemente acompanhada de altos custos computacionais, e problemas fora do conjunto de dados resultam em degradação de desempenho adicional. Para lidar com esse desafio, o framework LLaVA-UHD apresenta uma estratégia de codificação visual modularizada que basicamente visa dividir imagens de resolução nativa em fatias menores de tamanho variável, onde a forma de cada fatia é bastante próxima do padrão de pré-treinamento do transformador de visão. Devido ao uso de fatias de tamanho variável, o framework LLaVA-UHD é capaz de alcançar a adaptação total às imagens de resolução nativa sem implementar qualquer reformatação ou preenchimento que distorça a forma. Além disso, o objetivo principal da estratégia de fatiamento de imagem é determinar uma divisão de imagens de alta resolução com mudanças mínimas nas resoluções de cada fatia. Para uma imagem dada com uma certa resolução (w, h) e um transformador de visão pré-treinado em outra resolução, o framework LLaVA-UHD primeiro determina o cálculo ideal, ou seja, o número de fatias necessárias para processar a imagem. O framework então fatoriza o número de fatias em m colunas e n linhas. O framework então define uma função de pontuação para medir a desviação do padrão de pré-treinamento do transformador de visão. Teoricamente, o framework LLaVA-UHD é capaz de demonstrar que a estratégia de partição implementada em sua arquitetura garante mudanças mínimas esperadas e mudanças modestas no pior caso em relação à resolução padrão de pré-treinamento para cada fatia.

Além disso, a maioria dos LLMs existentes implementa uma resolução estática para a codificação de fatias de imagem, uma abordagem que impede a adaptação total do modelo às resoluções nativas, pois eles têm acesso apenas a algumas fatias de forma fixa pré-definidas. Adicionalmente, a resolução de fatia estática prejudica o desempenho, a eficiência e a correção do modelo, pois incurre inevitavelmente em reformatação ou preenchimento que distorça a forma. Para lidar com esse problema, o framework LLaVA-UHD propõe codificar fatias de imagem na proporção definida pela estratégia de partição. Para ser mais específico, o framework LLaVA-UHD primeiro redimensiona a imagem original proporcionalmente de acordo com a proporção de forma que o número de patches se ajuste dentro do orçamento de pré-treinamento, ou seja, o número de sequências de incorporação de posição no transformador de visão, maximamente. O modelo LLaVA-UHD então reformata a sequência de incorporação de posição pré-treinada de 1D do transformador de visão em um formato 2D de acordo com suas configurações de pré-treinamento.

Camada de Compressão

Um problema comum que os LLMs enfrentam ao processar imagens de alta resolução é que a quantidade de tokens visuais que eles precisam processar é significativamente maior (por exemplo, o framework LLaVA-1.5 produz cerca de 3500 tokens visuais ao processar uma única imagem com resolução: 672×1008), responsável por uma grande parte dos recursos e custos computacionais. Para lidar com esse desafio, o modelo LLaVA-UHD implementa uma camada de amostrador de perceptor compartilhado para comprimir os tokens visuais de cada fatia de imagem. O modelo então implementa um conjunto de vetores de consulta por meio de atenção cruzada para reamostrar a saída dos tokens de imagem pelos codificadores visuais para um número menor. Em comparação com as estratégias de projeção visual baseadas em Multilayer Perceptron prevalentes, a abordagem de amostrador de perceptor implementada pelo LLaVA-UHD é capaz de manter um número fixo e acessível de tokens visuais, independentemente da resolução da imagem, tornando o framework LLaVA-UHD mais compatível com tarefas de processamento e compreensão de imagens de alta resolução. Para colocar isso em perspectiva, o framework LLaVA-UDH gera a mesma quantidade de tokens ao codificar uma imagem com resolução 672×1008 quanto o framework LLaVA-1.5 gera ao codificar uma imagem com resolução 336×336, quase 6 vezes mais eficaz do que seu concorrente.

Esquema Espacial para Fatias de Imagem

É uma prática necessária informar o grande modelo de linguagem sobre a organização espacial das fatias de imagem, pois a partição das imagens é dinâmica em diferentes imagens. O framework LLaVA-UHD projeta e implementa um esquema espacial que usa dois tokens especiais para informar o LLM sobre a posição relativa das fatias de imagem. Sob esse esquema espacial, o framework LLaVA-UHD usa “,” para separar as representações de fatia em uma linha, e as linhas diferentes são separadas usando um “n”.

LLaVA-UDH: Experimentos e Resultados

O framework LLaVA-UHD é avaliado contra 9 benchmarks populares, incluindo benchmarks de resposta a perguntas visuais gerais, benchmarks de resposta a perguntas visuais baseadas em caracteres ópticos, benchmarks de alucinação e benchmarks abrangentes. Além disso, o framework LLaVA-UHD é comparado com linhas de base fortes, incluindo LLaVA-1.5, MiniGPT-v2, InstructBLIP, BLIP-2 e mais.

O desempenho do framework LLaVA-UHD em 9 benchmarks populares é resumido e comparado com os benchmarks populares na tabela abaixo.

Com base no desempenho acima, pode-se concluir que o framework LLaVA-UHD é capaz de superar os modelos de linha de base fortes em benchmarks populares, incluindo linhas de base fortes treinadas em uma quantidade significativamente maior de dados, além de superar os LLMs que precisam de computação significativamente mais intensa, como Fuyu-8B, Monkey e mais. Em segundo lugar, os resultados também indicam que o framework LLaVA-UHD alcança resultados significativamente melhores sobre a arquitetura LLaVA-1.5, e em um ponto onde o LLaVA-1.5 suporta uma resolução fixa de 336×336, o framework LLaVA-UHD suporta imagens com resolução 672×1088 e qualquer proporção, e o mesmo número de tokens visuais.

Pensamentos Finais

Neste artigo, falamos sobre o LLaVA-UHD, uma abordagem nova que primeiro toma os frameworks LLaVA-1.5 e GPT-4V como exemplos representativos e tenta expor as falhas sistemáticas enraizadas em sua estratégia de codificação visual. O framework LLaVA-UHD, um modal multimodal, é uma tentativa de abordar os desafios. O framework LLaVA-UHD pode perceber imagens em alta resolução, bem como em qualquer proporção. O framework LLaVA-UHD é construído em torno de três componentes principais. Primeiro, uma estratégia de modularização de imagem que divide imagens de resolução nativa em fatias menores de tamanho variável, em uma tentativa de melhorar a eficiência e estender a codificação. Em seguida, um módulo de compressão que condensa os tokens de imagem produzidos pelos codificadores visuais ainda mais. Finalmente, um esquema espacial que organiza os tokens de fatia para os grandes modelos de linguagem. Experimentos abrangentes indicam que o framework LLaVA-UHD é capaz de superar os grandes modelos de linguagem de estado da arte em 9 benchmarks. Além disso, usando apenas 94% de computação de inferência, o framework LLaVA-UHD é capaz de suportar imagens com resolução 6 vezes maior, ou seja, 672×1088.

Kunal Kejriwal

Um engenheiro por profissão, um escritor por coração. Kunal é um escritor técnico com um amor e compreensão profundos de AI e ML, dedicado a simplificar conceitos complexos nestes campos por meio de sua documentação envolvente e informativa.