人工智能
LLaVA-UHD:一种能够感知任意宽高比和高分辨率图像的LMM
最近,大型语言模型的进展和改进使得视觉语言推理、理解和交互能力有了显著的提高。现代框架通过将视觉信号投影到大型语言模型中,使其能够视觉地感知世界,这是一系列依赖于视觉编码策略的场景。然而,真实世界的图像不仅包含广泛的场景,还在分辨率和宽高比方面有显著的差异,这对大型语言模型在不同领域和任务中构成了重大挑战。为了解决真实世界图像带来的显著差异,现代大型语言模型以低分辨率(例如224×224)和固定宽高比(例如1:1)来感知图像。虽然这种妥协提高了大型语言模型在真实世界应用中的通用性,但它经常导致图像内容变得模糊,同时也导致严重的形状失真。这显著影响了大型多模态模型(LMM)的能力,特别是那些针对细粒度任务优化的模型,包括光学字符识别和小物体理解。另外,由于分辨率和宽高比是预定的,模型只能对模糊的图像进行最佳猜测,导致模型产生不基于图像的事实的文本响应,即模型幻觉。
在本文中,我们将讨论LLaVA-UHD,一种新颖的方法,它首先以LLaVA-1.5和GPT-4V框架为代表性示例,并尝试揭示它们的视觉编码策略中的系统性缺陷。LLaVA-UHD框架是一种多模态模型,旨在解决这些挑战。LLaVA-UHD框架可以感知高分辨率图像和任意宽高比的图像。LLaVA-UHD框架围绕三个关键组件构建。首先,是一种图像模块化策略,它将本地分辨率图像划分为较小的可变大小的切片,以提高效率和扩展编码。其次,是一个压缩模块,它进一步压缩视觉编码器产生的图像令牌。最后,是一个空间模式,它组织图像切片的令牌以供大型语言模型使用。综合实验表明,LLaVA-UHD框架能够在9个基准测试中超越最先进的大型语言模型。此外,仅使用94%的推理计算,LLaVA-UHD框架就能够支持6倍更大的分辨率(即672×1088)的图像。
LLaVA-UHD:高效地感知任意宽高比和高分辨率图像
视觉语言推理、理解和交互近期取得了显著的进展,主要归功于大型语言模型的最近推动。在现代框架中,这是通过将视觉信号输入大型语言模型来实现的,使其能够视觉地解释世界,这是一系列依赖于视觉编码策略的场景。真实世界图像的差异不仅体现在场景上,还体现在分辨率和宽高比的差异上,这对大型语言模型在不同领域和任务中构成了重大挑战。与低分辨率相比,高分辨率图像的差异更大,模型更难处理。为了解决真实世界图像带来的显著差异,现代大型语言模型以低分辨率(例如224×224)和固定宽高比(例如1:1)来感知图像。虽然这种妥协提高了大型语言模型在真实世界应用中的通用性,但它经常导致图像内容变得模糊,同时也导致严重的形状失真。这显著影响了大型多模态模型(LMM)的能力,特别是那些针对细粒度任务优化的模型,包括光学字符识别和小物体理解。由于分辨率和宽高比是预定的,模型只能对模糊的图像进行最佳猜测,导致模型产生不基于图像的事实的文本响应,即模型幻觉。
为什么现有的基准LMM模型不能感知高分辨率和任意宽高比的图像?主要有两个原因。首先,视觉编码器是预训练的固定分辨率的,这使得模型和编码器难以处理具有不同宽高比和分辨率的图像,从而显著影响模型的适应性。其次,直接使用视觉Transformer对高分辨率图像进行编码会带来显著的计算成本,尤其是图像尺寸较大时。另外,大型语言模型处理高分辨率图像的视觉令牌数量会显著增加,从而影响模型的整体效率。为了应对这些挑战,LLaVA-UHD,一种大型多模态模型,能够感知高分辨率和任意宽高比的图像,它以LLaVA-1.5和GPT-4V框架为代表性示例,并尝试揭示它们的视觉编码策略中的系统性缺陷。

上述图像反映了GPT-4V在识别图像中物体数量的实验结果。LLaVA-UHD框架的核心有三个组件。首先,是一种图像模块化策略,它将本地分辨率图像划分为较小的可变大小的切片,以提高效率和扩展编码。与最近的LLM不同,它们将图像适应到几个固定分辨率和宽高比,LLaVA-UHD框架生成的可变大小的切片使其能够完全适应本地分辨率图像,而不需要形状失真的重塑或填充。其次,模型通过压缩层将视觉编码器产生的图像令牌压缩到适中的长度,从而显著减少大型语言模型的计算量。最后,模型使用空间模式组织压缩的切片令牌,以告知大型语言模型图像中的切片位置。
LLaVA-UHD:方法和架构
基于对现有框架(包括GPT-4V和LLaVA-1.5)的初步实验,LLaVA-UHD框架实现了一个三组件架构,如下图所示。

首先,是一种图像模块化策略,它将本地分辨率图像划分为较小的可变大小的切片,以提高效率和扩展编码。其次,是一个压缩模块,它进一步压缩视觉编码器产生的图像令牌。最后,是一个空间模式,它组织切片令牌以供大型语言模型使用。让我们详细看一下这些组件。
模块化视觉编码
处理高分辨率和不同宽高比图像的一种常见方法是直接对图像进行插值,以适应视觉Transformer的预训练设置。然而,这种方法的实现通常伴随着高计算成本,且离群值问题会导致进一步的性能下降。为了解决这个挑战,LLaVA-UHD框架提出了一个模块化视觉编码策略,它将本地分辨率图像划分为较小的可变大小的切片,其中每个切片的形状都接近视觉Transformer的标准预训练设置。由于使用了可变大小的切片,LLaVA-UHD框架能够实现对本地分辨率图像的完全适应,而无需进行形状失真的重塑或填充。此外,图像切片策略的主要目标是确定一种对高分辨率图像进行划分的方法,使每个切片的分辨率变化最小。对于给定的图像及其分辨率(w,h),以及视觉Transformer的预训练分辨率,LLaVA-UHD框架首先确定处理图像所需的理想计算量(即切片数量)。然后,框架将切片数量分解为m列和n行。框架定义了一个评分函数来衡量与视觉Transformer的标准预训练设置的偏差。理论上,LLaVA-UHD框架能够证明其架构中的划分策略保证了每个切片相对于标准预训练分辨率的最小期望变化和适中的最坏情况变化。
此外,大多数现有的LLM实现了静态分辨率的图像切片编码,这种方法阻碍了模型对本地分辨率的完全适应,因为它们只能访问几个预定义的固定形状切片。另外,静态切片分辨率会损害模型的性能、效率和正确性,因为它不可避免地会导致形状失真的重塑或填充。为了解决这个问题,LLaVA-UHD框架提议按照划分策略定义的宽高比来编码图像切片。具体来说,LLaVA-UHD框架首先按照宽高比成比例地重塑原始图像,以使视觉Transformer的预训练位置嵌入序列能够最大限度地适应图像。然后,LLaVA-UHD模型将视觉Transformer的预训练1D位置嵌入序列重塑为2D格式,以符合其预训练设置。
压缩层
LLM在处理高分辨率图像时面临的一个常见问题是,它们需要处理的视觉令牌数量显著增加(例如,LLaVA-1.5框架在处理一个672×1008分辨率的图像时会产生大约3500个视觉令牌),这占用了大量的计算资源和成本。为了应对这个挑战,LLaVA-UHD模型实现了一个共享的感知器重采样层来压缩每个图像切片的视觉令牌。然后,模型通过交叉注意力实现了一组查询向量来重采样视觉编码器的输出,以减少视觉令牌的数量。与基于多层感知器的视觉投影策略相比,LLaVA-UHD实现的感知器重采样方法能够保持一个可接受的固定视觉令牌数量,无论图像分辨率如何,使LLaVA-UHD框架更适合高分辨率图像处理和理解任务。例如,LLaVA-UHD框架在编码672×1008分辨率图像时会产生与LLaVA-1.5框架在编码336×336分辨率图像时相同数量的令牌,几乎是其竞争者的6倍。
图像切片的空间模式
由于图像的划分是动态的,跨不同图像变化,因此,需要一种方法来告知大型语言模型图像切片的空间组织。LLaVA-UHD框架设计并实现了一种空间模式,使用两个特殊令牌来告知LLM图像切片的相对位置。在这种空间模式下,LLaVA-UHD框架使用“,”来分隔行中的切片表示,不同行使用“n”来分隔。
LLaVA-UHD:实验和结果
LLaVA-UHD框架在9个流行的基准测试中进行了评估,包括一般视觉问答基准测试、基于光学字符的视觉问答基准测试、幻觉基准测试和综合基准测试。另外,LLaVA-UHD框架与强大的基准模型进行了比较,包括LLaVA-1.5、MiniGPT-v2、InstructBLIP、BLIP-2等。
LLaVA-UHD框架在9个流行基准测试中的性能总结如下表所示。

根据上述性能,可以得出结论,LLaVA-UHD框架能够在流行的基准测试中超越强大的基准模型,包括在大量数据上训练的强大基准模型,以及需要显著更多计算的LLM,如Fuyu-8B、Monkey等。其次,结果还表明,LLaVA-UHD框架在LLaVA-1.5架构上取得了显著的改进,LLaVA-1.5仅支持固定336×336分辨率,而LLaVA-UHD框架支持672×1088分辨率的图像和任意宽高比,并且产生相同数量的视觉令牌。


总结
在本文中,我们讨论了LLaVA-UHD,一种新颖的方法,它首先以LLaVA-1.5和GPT-4V框架为代表性示例,并尝试揭示它们的视觉编码策略中的系统性缺陷。LLaVA-UHD框架是一种多模态模型,旨在解决这些挑战。LLaVA-UHD框架可以感知高分辨率图像和任意宽高比的图像。LLaVA-UHD框架围绕三个关键组件构建。首先,是一种图像模块化策略,它将本地分辨率图像划分为较小的可变大小的切片,以提高效率和扩展编码。其次,是一个压缩模块,它进一步压缩视觉编码器产生的图像令牌。最后,是一个空间模式,它组织切片令牌以供大型语言模型使用。综合实验表明,LLaVA-UHD框架能够在9个基准测试中超越最先进的大型语言模型。此外,仅使用94%的推理计算,LLaVA-UHD框架就能够支持6倍更大的分辨率(即672×1088)的图像。












