AI 模型与平台

LLaVA-UHD：高效地感知任意高分辨率和长宽比的图像

发布于 2024年6月6日

更新于 2026年5月21日

作者

Kunal Kejriwal

LLaVA-UHD: an LMM Perceiving Any Aspect Ratio and High-Resolution Images

近年来，大型语言模型在视觉语言推理、理解和交互方面取得了显著进步，主要得益于最近的视觉语言模型的发展。现代框架通过将视觉信号投影到大型语言模型中，使其能够视觉地解释世界，这是一系列依赖于视觉编码策略的场景。然而，现实世界的图像不仅包含广泛的场景，还在分辨率和长宽比方面存在显著差异，这对大型语言模型在不同领域和任务中构成了重大挑战。为了应对现实世界图像的显著差异，现代大型语言模型以低分辨率（例如224×224）和固定长宽比（例如1:1）来感知图像。虽然这种妥协提高了大型语言模型在现实世界应用中的通用性，但它往往会使图像内容变得模糊，并导致严重的形状失真。这显著影响了大型多模态模型或LMM（例如，优化用于细粒度任务的模型，包括光学字符识别和小物体理解）的能力。由于分辨率和长宽比是预定义的，模型只能对模糊的图像进行猜测，从而导致模型产生不基于事实的文本响应。那么，为什么基准LMM模型不能感知高分辨率和不同长宽比的图像呢？

有两个主要原因导致基准LMM无法感知高分辨率和不同长宽比的图像。首先，由于视觉编码器是以固定分辨率预训练的，因此使得模型和编码器难以处理具有不同长宽比和分辨率的图像，从而显著影响模型的适应性。其次，使用视觉变换器直接编码高分辨率图像的计算成本很高，且计算成本可能会随着图像大小的增加而显著增加。此外，对于大型语言模型来说，处理高分辨率图像的众多视觉令牌的计算成本可能会更高，从而显著影响模型的整体效率。为了应对这些挑战，LLaVA-UHD框架以LLaVA-1.5和GPT-4V框架为代表，尝试揭示其视觉编码策略中的系统性缺陷。LLaVA-UHD框架是一个多模态模型，旨在解决这些挑战。LLaVA-UHD框架可以感知高分辨率和任意长宽比的图像。LLaVA-UHD框架围绕三个关键组件构建。首先，图像模块化策略将本机分辨率图像划分为较小的可变大小的切片，以提高效率和扩展编码。其次，压缩模块进一步压缩视觉编码器产生的图像令牌。最后，空间模式组织切片令牌以供大型语言模型使用。综合实验表明，LLaVA-UHD框架能够在9个基准测试中超越最先进的大型语言模型。此外，通过仅使用94％的推理计算，LLaVA-UHD框架能够支持6倍更大的分辨率（即672×1088）的图像。

LLaVA-UHD：高效地感知任意高分辨率和长宽比的图像

近年来，视觉语言推理、理解和交互取得了显著进步，主要得益于大型语言模型的发展。现代框架通过将视觉信号投影到大型语言模型中，使其能够视觉地解释世界，这是一系列依赖于视觉编码策略的场景。然而，现实世界的图像不仅包含广泛的场景，还在分辨率和长宽比方面存在显著差异，这对大型语言模型在不同领域和任务中构成了重大挑战。与此相比，模型在低分辨率（例如224×224）和固定长宽比（例如1:1）下处理图像，虽然提高了大型语言模型在现实世界应用中的通用性，但往往会使图像内容变得模糊，并导致严重的形状失真。这显著影响了大型多模态模型或LMM（例如，优化用于细粒度任务的模型，包括光学字符识别和小物体理解）的能力。由于分辨率和长宽比是预定义的，模型只能对模糊的图像进行猜测，从而导致模型产生不基于事实的文本响应。那么，为什么基准LMM模型不能感知高分辨率和不同长宽比的图像呢？

上图反映了GPT-4V在识别图像中对象数量的实验结果。LLaVA-UHD框架的核心有三个组件。首先，图像模块化策略将本机分辨率图像划分为较小的可变大小的切片，以提高效率和扩展编码。与最近的LMM不同，LLaVA-UHD框架生成的可变大小的切片使其能够完全适应本机分辨率图像，而无需形状失真的重塑或填充。其次，模型通过压缩层将视觉令牌压缩到适中的长度，从而显著减少了LMM的计算成本。最后，模型通过空间模式组织压缩的切片令牌，以告知大型语言模型切片在图像中的位置。

LLaVA-UHD：方法和架构

基于对现有框架（包括GPT-4V和LLaVA-1.5）的研究，LLaVA-UHD框架实现了一个三组件架构，如下图所示。

首先，图像模块化策略将本机分辨率图像划分为较小的可变大小的切片，以提高效率和扩展编码。其次，压缩模块进一步压缩视觉编码器产生的图像令牌。最后，空间模式组织切片令牌以供大型语言模型使用。让我们详细了解这些组件。

模块化视觉编码

处理高分辨率和不同长宽比的图像的一种常见方法是直接对视觉变换器或ViT进行插值，以达到目标形状。然而，这种方法的实现往往伴随着高计算成本，且分布外问题会导致进一步的性能下降。为了应对这个挑战，LLaVA-UHD框架提出了一种模块化视觉编码策略，旨在将本机分辨率图像划分为较小的可变大小的切片，其中每个切片的形状都接近于视觉变换器的标准预训练设置。由于使用了可变大小的切片，LLaVA-UHD框架能够实现对本机分辨率图像的完全适应，而无需形状失真的重塑或填充。此外，图像切片策略的主要目标是确定高分辨率图像的最小变化分割。对于具有特定分辨率（w，h）的图像和预训练于其他分辨率的视觉变换器，LLaVA-UHD框架首先确定处理图像所需的理想计算，即需要的切片数量。然后，框架将切片数量分解为m列和n行。框架然后定义一个评分函数来衡量与视觉变换器的标准预训练设置的偏差。理论上，LLaVA-UHD框架能够证明其架构中实现的分区策略保证了每个切片相对于标准预训练分辨率的最小期望变化和适中的最坏情况变化。

此外，大多数现有的LMM实现了静态分辨率的图像切片编码，这种方法阻止了模型对本机分辨率的完全适应，因为它们只能访问几个预定义的固定形状切片。另外，静态切片分辨率会损害模型的性能、效率和正确性，因为它不可避免地会导致形状失真的重塑或填充。为了应对这个问题，LLaVA-UHD框架提出以分区策略定义的长宽比来编码图像切片。具体来说，LLaVA-UHD框架首先按照长宽比成比例地重塑原始图像，以使补丁数量适合视觉变换器的预训练预算，即最大化位置嵌入序列中的补丁数量。然后，LLaVA-UHD模型将视觉变换器的预训练1D位置嵌入序列重塑为2D格式，以符合其预训练设置。

压缩层

处理高分辨率图像时，LMM面临的一个常见问题是它们需要处理的视觉令牌数量显著增加（例如，LLaVA-1.5框架在处理单个分辨率为672×1008的图像时会产生大约3500个视觉令牌），这占据了大量计算资源和成本。为了应对这个挑战，LLaVA-UHD模型实现了一个共享的感知器重采样层来压缩每个图像切片的视觉令牌。然后，模型通过交叉注意力实现了一组查询向量来重采样视觉编码器的输出，以较低的数量表示图像令牌。与流行的多层感知器基于视觉投影策略相比，LLaVA-UHD实现的感知器采样方法能够在图像分辨率变化的情况下保持一个可接受的固定数量的视觉令牌，使LLaVA-UHD框架更适合高分辨率图像处理和理解任务。例如，LLaVA-UDH框架在编码672×1008分辨率图像时生成的令牌数量与LLaVA-1.5框架在编码336×336分辨率图像时生成的令牌数量相同，几乎是其竞争对手的6倍。

图像切片的空间模式

由于图像的划分是动态的，为了使大型语言模型了解图像切片的空间组织，这是一种必要的做法。LLaVA-UHD框架设计并实现了一种空间模式，使用两个特殊令牌来告知LMM图像切片的相对位置。在这种空间模式下，LLaVA-UHD框架使用“，”来分隔行中的切片表示，并使用“n”来分隔不同的行。

LLaVA-UDH：实验和结果

LLaVA-UHD框架被评估在9个流行基准测试中，包括一般视觉问答基准测试、光学字符基于视觉问答基准测试、幻觉基准测试和综合基准测试。此外，LLaVA-UHD框架被比较与强大的基准模型，包括LLaVA-1.5、MiniGPT-v2、InstructBLIP、BLIP-2等。

LLaVA-UHD框架在9个流行基准测试中的性能总结如下表所示。

根据上述性能，可以得出结论，LLaVA-UHD框架能够在流行基准测试中超越强大的基准模型，包括在大量数据上训练的强大基准模型，以及需要更多计算的LLM，如Fuyu-8B、Monkey等。其次，结果还表明，LLaVA-UHD框架在LLaVA-1.5架构上取得了显著更好的结果，一方面LLaVA-1.5支持固定336×336分辨率，另一方面LLaVA-UHD框架支持672×1088分辨率图像和任意长宽比，并且具有相同数量的视觉令牌。

最后的思考

在本文中，我们讨论了LLaVA-UHD，一种新颖的方法，它首先以LLaVA-1.5和GPT-4V框架为代表，尝试揭示其视觉编码策略中的系统性缺陷。LLaVA-UHD框架是一个多模态模型，旨在解决这些挑战。LLaVA-UHD框架可以感知高分辨率和任意长宽比的图像。LLaVA-UHD框架围绕三个关键组件构建。首先，图像模块化策略将本机分辨率图像划分为较小的可变大小的切片，以提高效率和扩展编码。其次，压缩模块进一步压缩视觉编码器产生的图像令牌。最后，空间模式组织切片令牌以供大型语言模型使用。综合实验表明，LLaVA-UHD框架能够在9个基准测试中超越最先进的大型语言模型。此外，通过仅使用94％的推理计算，LLaVA-UHD框架能够支持6倍更大的分辨率（即672×1088）的图像。