关注我们.

人工智能

LLaVA-UHD:感知任何长宽比和高分辨率图像的 LMM

mm

发布时间

 on

LLaVA-UHD:感知任何长宽比和高分辨率图像的 LMM

大型语言模型的最新进展和进步经历了视觉语言推理、理解和交互能力的显着提高。现代框架通过将视觉信号投射到法学硕士或大型语言模型中来实现这一目标,使其能够以视觉方式感知世界,在一系列场景中,视觉编码策略发挥着至关重要的作用。然而,现实世界的图像不仅包含广泛的场景,而且在分辨率和纵横比方面也存在显着差异,这对跨不同领域和任务的法学硕士提出了重大挑战。为了解决现实世界图像带来的显着差异,现代大型语言模型以低分辨率(即 224×224)和固定纵横比(即 1:1)感知图像。虽然坚持使用低分辨率和固定纵横比的折衷方案提高了法学硕士在实际应用中的通用性,但它通常会显着模糊图像的内容,同时也会导致严重的形状失真。这种妥协显着影响了大型多模态模型或 LMM 的能力,尤其是针对细粒度任务(包括光学字符识别和小物体理解)进行优化的模型。此外,由于分辨率和长宽比是预先确定的,模型只能对模糊图像做出最佳猜测,从而导致模型产生幻觉,在这种情况下模型会产生与图像中没有事实依据的文本响应。 

在本文中,我们将讨论 LLaVA-UHD,这是一种新颖的方法,首先以 LLaVA-1.5 和 GPT-4V 框架为代表,并试图揭露其视觉编码策略中根源的系统缺陷。 LLaVA-UHD 框架是一种多模式模式,是应对这些挑战的尝试。 LLaVA-UHD 框架可以感知高分辨率和任何长宽比的图像。 LLaVA-UHD 框架围绕三个关键组件构建。首先,图像模块化策略将原始分辨率图像划分为更小的可变大小的切片,以试图提高效率并扩展编码。接下来,压缩模块进一步压缩视觉编码器生成的图像标记。最后,一个为大型语言模型组织切片标记的空间模式。综合实验表明,LLaVA-UHD 框架能够在 9 个基准测试中超越最先进的大型语言模型。此外,仅使用 94% 的推理计算,LLaVA-UHD 框架就能够支持 6 倍分辨率的图像,即 672×1088。 

LLaVA-UHD:有效感知任何长宽比的图像 高分辨率

视觉语言推理、理解和交互最近取得了重大进展,这很大程度上归功于最近对大型语言模型的推动。在现代框架中,通过将视觉信号输入 LLM(大型语言模型),使它们能够以视觉方式解释现实世界,以及依赖于视觉编码策略的各种场景,可以实现同样的目的。场景的差异反映了法学硕士跨不同领域和任务的狭窄覆盖范围,而分辨率和纵横比的差异则揭示了现实世界图像中难以处理的巨大类内差异。与降低方差的小尺度不同,BERT 之后的模型处理具有固定宽高比 224:224 的低分辨率(例如,对于 LLaVA-UHD 为 1×1)图像的重要性,以给出真实世界的图像。虽然这种妥协对于确保法学硕士在现实世界应用中的通用性很有用,但它通常会导致图像非常模糊,同时导致严重的形状扭曲。这降低了大公司的能力 多模态模型 或 LMM(例如细粒度任务),例如光学字符识别和小物体理解。由于分辨率和长宽比是预先定义的,模型只能猜测模糊的图像,导致模型产生幻觉,使得最终生成的文本响应并不真正基于图像。那么为什么基准 LMM 模型不能感知高分辨率和不同纵横比的图像呢? 

基准 LMM 无法感知高分辨率和变化分辨率的图像有两个主要原因。首先,由于视觉编码器是在固定分辨率下进行预训练的,这使得模型和编码器很难处理具有不同长宽比和分辨率的图像,从而显着影响模型的适应性。其次,直接使用视觉变换器对高分辨率图像进行编码与图像大小相关的大量计算成本相关。此外,大型语言模型处理大量高分辨率图像的视觉标记的计算成本可能会明显更高,从而显着影响模型的整体效率。为了应对这些挑战,LLaVA-UHD是一种感知高分辨率图像和任何长宽比的大型多模态模型,以LLaVA-1.5和GPT-4V框架为代表,并试图揭露其视觉上根源的系统缺陷。编码策略。 

上图反映了 GPT-4V 在识别图像中物体数量方面的实验结果。 LLaVA-UHD 框架的核心由三个组件组成。首先,图像模块化策略将原始分辨率图像划分为更小的可变大小的切片,以进行可扩展和高效的编码。与最近将图像适应多种固定分辨率和长宽比的法学硕士相反,LLaVA-UHD 框架生成的可变大小切片能够完全适应原始分辨率图像,而不会扭曲形状、调整大小或填充。其次,该模型通过压缩层将视觉标记压缩到适当的长度,从而显着减少 LLM 的计算量。最后,该模型在空间模式中组织压缩的切片标记,以将图像中的切片位置告知大语言模型。 

LLaVA-UHD:方法论和架构

根据研究 GPT-4V 和 LLaVA-1.5 等现有框架的一些试点实验的经验教训,LLaVA-UHD 框架实现了三组件架构,如下图所示。 

首先,图像模块化策略将原始分辨率图像划分为更小的可变大小的切片,以试图提高效率并扩展编码。接下来,压缩模块进一步压缩视觉编码器生成的图像标记。最后,一个为大型语言模型组织切片标记的空间模式。让我们详细了解一下这些组件。 

模块化视觉编码

处理不同长宽比的高分辨率图像的常见方法是将 Vision Transformer 或 ViT 的位置嵌入插值到目标形状以进行整体直接编码。然而,这种方法的实现往往伴随着高昂的计算成本,并且分布外问题会导致性能进一步下降。为了应对这一挑战,LLaVA-UHD 框架提出了一种模块化视觉编码策略,其基本上旨在将原始分辨率图像划分为更小的可变大小切片,其中每个切片的形状非常接近视觉变换器的标准预训练设置。由于使用了可变大小的切片切片,LLaVA-UHD 框架能够实现对原始分辨率图像的完全适应性,而无需实现任何形状扭曲的重塑或填充。此外,图像切片策略的主要目标是确定高分辨率图像的分割,并且每个切片的分辨率变化最小。对于具有特定分辨率(w,h)的给定图像,以及以另一种分辨率预训练的视觉变换器,LLaVA-UHD 框架首先确定理想的计算,即处理图像所需的切片数量。然后,框架将切片数量分解为 m 列和 n 行。然后,该框架定义了一个评分函数来测量与视觉变换器的标准预训练设置的偏差。理论上,LLaVA-UHD 框架能够证明在其架构中实现的分区策略保证了相对于每个切片的标准预训练分辨率的较小的预期变化和适度的最坏情况变化。 

此外,大多数现有的法学硕士都实现了图像切片编码的静态分辨率,这种方法阻碍了模型对原始分辨率的完全适应性,因为它们只能访问几个预定义的固定形状切片。此外,静态切片分辨率会损害模型的性能、效率和正确性,因为它不可避免地会导致形状扭曲的大小调整或填充。为了解决这个问题,LLaVA-UHD 框架建议按照分区策略定义的宽高比对图像切片进行编码。更具体地说,LLaVA-UHD 框架首先根据纵横比按比例调整原始图像的大小,以使补丁的数量符合预训练预算,即视觉变换器中的位置嵌入序列的数量,最大。然后,LLaVA-UHD 模型根据其预训练设置,将视觉转换器的预训练 1D 位置嵌入序列重塑为 2D 格式。 

压缩层

LLM 在处理高分辨率图像时面临的一个常见问题是,他们必须处理的视觉标记数量明显更高(作为参考,LLaVA-1.5 框架在处理分辨率为 3500×672 的单个图像时会产生大约 1008 个视觉标记) ),占计算资源和成本的主要部分。为了应对这一挑战,LLaVA-UHD 模型实现了共享感知器重采样器层来压缩每个图像切片的视觉标记。然后,该模型通过交叉注意力实现一组查询向量,以将视觉编码器的图像标记输出重新采样为较低的数字。与流行的基于多层感知器的视觉投影策略相比,LLaVA-UHD 实现的感知器样本方法能够保持负担得起但固定数量的视觉标记,而不管其图像分辨率如何,从而使 LLaVA-UHD 框架与高分辨率更兼容。分辨率图像处理和理解任务。为了将其表达出来,LLaVA-UDH 框架在编码 672×1008 分辨率图像时生成与 拉瓦-1.5框架在编码336×336分辨率图像时生成,比竞争对手效率提高近6倍。 

图像切片的空间模式

由于图像分区在不同图像之间是动态的,因此向大型语言模型通报图像切片的空间组织是必要的做法。 LLaVA-UHD 框架设计并实现了一个空间模式,该模式使用两个特殊标记来通知 LLM 图像切片的相对位置。在这种空间模式下,LLaVA-UHD框架使用“,”来分隔行中的切片表示,并且不同的行使用“\n”分隔。 

LLaVA-UDH:实验和结果

LLaVA-UHD 框架根据 9 个流行的基准进行评估,包括通用视觉问答基准、基于光学字符的视觉问答基准、幻觉基准和综合基准。此外,还将 LLaVA-UHD 框架与包括 LLaVA-1.5 在内的强基线进行了比较, 迷你GPT-v2、InstructBLIP、BLIP-2 等。 

总结了 LLaVA-UHD 框架在 9 个流行基准上的性能,并与下表中的流行基准进行了比较。 

基于上述性能,可以得出结论,LLaVA-UHD 框架能够在流行的基准测试上优于强基线模型,包括在大量数据上训练的强通用基线,以及优于需要更多计算的 LLM如 Fuyu-8B、Monkey 等。其次,结果还表明LLaVA-UHD框架比LLaVA-1.5架构取得了明显更好的结果,一方面LLaVA-1.5支持固定的336×336分辨率,而LLaVA-UHD框架支持672×1088分辨率图像具有任何长宽比和相同数量的视觉标记。 

总结

在本文中,我们讨论了 LLaVA-UHD,这是一种新颖的方法,首先以 LLaVA-1.5 和 GPT-4V 框架为代表,并试图揭露其视觉编码策略中根源的系统缺陷。 LLaVA-UHD 框架是一种多模式模式,是应对这些挑战的尝试。 LLaVA-UHD 框架可以感知高分辨率和任何长宽比的图像。 LLaVA-UHD 框架围绕三个关键组件构建。首先,图像模块化策略将原始分辨率图像划分为更小的可变大小的切片,以试图提高效率并扩展编码。接下来,压缩模块进一步压缩视觉编码器生成的图像标记。最后,一个为大型语言模型组织切片标记的空间模式。综合实验表明,LLaVA-UHD 框架能够在 9 个基准测试中超越最先进的大型语言模型。此外,仅使用 94% 的推理计算,LLaVA-UHD 框架就能够支持 6 倍分辨率的图像,即 672×1088。 

 

“职业工程师,心灵作家”。 Kunal 是一位技术作家,对人工智能和机器学习有着深厚的热爱和理解,致力于通过他引人入胜且信息丰富的文档来简化这些领域的复杂概念。