人工智能

Mini-Gemini：挖掘多模态视觉语言模型的潜力

发布时间

3个月前

2024 年 4 月 26 日

的进步大型语言模型大大加快了发展自然语言处理，或自然语言处理。 Transformer 框架的引入被证明是一个里程碑，促进了新一波语言模型的发展，包括 OPT 和 BERT，它们展现了深刻的语言理解。此外，GPT（生成式预训练 Transformer 模型）的诞生引入了自回归建模的新范式，并建立了一种稳健的语言预测和生成方法。 GPT-4、ChatGPT、Mixtral、LLaMA 等语言模型的出现进一步推动了快速发展，每个模型在涉及复杂语言处理的任务中都表现出了增强的性能。在现有方法中，指令调优已成为细化预训练大型语言模型输出的关键技术，并且这些模型与视觉任务特定工具的集成突出了它们的适应性，并为未来的应用打开了大门。这些远远超出了法学硕士传统的基于文本的处理，包括多模式交互。

此外，自然语言处理和计算机视觉模型的融合催生了VLM（视觉语言模型），它结合了语言和视觉模型，以实现跨模态理解和推理能力。视觉和语言模型的集成和出现在推进需要语言处理和视觉理解的任务方面发挥了至关重要的作用。像CLIP这样的革命性模型的出现，进一步弥合了视觉任务和语言模型之间的差距，展示了跨模态应用的可行性和实用性。 LLaMA 和 BLIP 等最新框架利用定制指令数据来设计有效的策略，展示模型的强大功能。此外，将大型语言模型与图像输出相结合是最近多模态研究的重点，最近的方法能够通过利用图像检索方法来生成图像输出和交错文本来绕过直接生成。

话虽如此，尽管视觉语言模型的快速进步促进了基本推理和视觉对话，但 GPT-4 等先进模型和视觉语言模型之间仍然存在显着的性能差距。 Mini-Gemini 试图通过从 VLM 引导生成、高质量数据和高分辨率视觉标记三个方面挖掘 VLM 的潜力来缩小视觉语言模型与更高级模型之间存在的差距。为了增强视觉标记，Mini-Gemini 框架建议利用额外的视觉编码器进行高分辨率细化，而不增加视觉标记的数量。 Mini-Gemini框架进一步构建了高质量的数据集，试图促进图像的精确理解和基于推理的生成。总体而言，Mini-Gemini框架试图挖掘视觉语言模型的潜力，旨在为现有框架同时赋予图像推理、理解和生成能力。本文旨在深入探讨 Mini-Gemini 框架，我们探讨了该框架的机制、方法、架构，以及它与最先进框架的比较。那么让我们开始吧。

Mini-Gemini：加速多模态 VLM

多年来，大型语言模型不断发展，现在拥有卓越的多模态能力，正在成为当前视觉语言模型的重要组成部分。然而，大型语言模型和视觉语言模型的多模态性能之间存在差距，最近的研究正在寻找使用图像和视频将视觉与大型语言模型相结合的方法。对于视觉任务本身来说，图像分辨率是一个至关重要的因素，无论周围环境如何，视觉幻觉最少。为了弥补这一差距，研究人员正在开发模型来提高当前的视觉理解视觉语言模型，两种最常见的方法是：提高分辨率和增加视觉标记的数量。尽管增加具有更高分辨率图像的视觉标记的数量确实增强了视觉理解，但这种增强通常伴随着计算要求和相关成本的增加，尤其是在处理多个图像时。此外，现有模型的能力、现有数据的质量和适用性仍然不足以加速开发过程，这给研究人员留下了这样的问题：“如何以可接受的成本加速视觉语言模型的开发“？

Mini-Gemini框架试图回答这个问题，它试图从VLM引导的生成或扩展应用、高质量数据和高分辨率视觉标记三个方面探索视觉语言模型的潜力。首先，Mini-Gemini 框架实现了 ConvNet 架构，可以有效生成更高分辨率的候选对象，增强视觉细节，同时保持大型语言模型的视觉标记计数。 Mini-Gemini 框架合并了公开可用的高质量数据集，试图提高数据质量，并将这些增强功能与最先进的生成和大型语言模型相结合，试图增强 VLM 的性能，并改进用户体验。 Mini-Gemini框架实施的多方面策略使其能够探索视觉语言模型的隐藏能力，并在明显的资源限制下取得显着的进步。

一般来说，Mini-Gemini 框架采用任意范式，因为它能够处理文本和图像作为输入和输出。特别是，Mini-Gemini 框架引入了一种用于增强输入图像的视觉标记的高效管道，并具有由双编码器组成的双编码器系统：第一个编码器用于高分辨率图像，而第二个编码器用于低分辨率图像。高质量的视觉嵌入。在推理过程中，编码器以注意力机制工作，其中低分辨率编码器生成视觉查询，而高分辨率编码器提供键和值以供参考。为了提高数据质量，Mini-Gemini框架根据公共资源收集和生成更多数据，包括面向任务的指令、与生成相关的数据和高分辨率响应，数量的增加和质量的提高提高了整体性能和模型的能力。此外，由于视觉语言模型与高级生成模型的集成，Mini-Gemini 框架支持并发文本和图像生成。

Mini-Gemini：方法论和架构

Mini-Gemini 框架的核心概念很简单，由三个组件组成。

该框架采用双视觉编码器来提供低分辨率视觉嵌入和高分辨率候选。
该框架建议实现补丁信息挖掘，以在低分辨率视觉查询和高分辨率区域之间的补丁级别进行挖掘。
Mini-Gemini 框架利用大型语言模型将文本与图像结合起来，同时生成和理解。

双视觉编码器

Mini-Gemini 框架可以处理文本和图像输入，可以选择单独或组合处理它们。如下图所示，Mini-Gemini 框架通过采用双线性插值从相应的高分辨率图像生成低分辨率图像来开始该过程。

然后，该框架处理这些图像并将它们编码为两个并行图像流中的多网格视觉嵌入。更具体地说，Mini-Gemini 框架保留了低分辨率流的传统管道，并采用 CLIP 预训练的 Visual Transformer 来编码视觉嵌入，从而促进模型保留视觉块之间的远程关系，以便后续在大语言中进行交互楷模。对于高分辨率流，Mini-Gemini 框架采用基于 CNN 或卷积神经网络的编码器进行自适应且高效的高分辨率图像处理。

补丁信息挖掘

通过双视觉编码器生成 LR 嵌入和 HR 特征，Mini-Gemini 框架建议实现补丁信息挖掘，目的是通过增强的视觉标记扩展视觉语言模型的潜力。为了保持大型语言模型中视觉标记的数量以提高效率，Mini-Gemini 框架以低分辨率视觉嵌入作为查询，旨在从 HR 候选特征中检索相关视觉线索，该框架采用HR特征图作为键和值。

如上图所示，该公式封装了细化和合成视觉线索的过程，从而为后续大型语言模型处理生成高级视觉标记。该过程确保框架能够将每个查询的挖掘限制在具有像素级特征计数的 HR 特征图中相应的子区域，从而提高效率。由于这种设计，Mini-Gemini框架能够在不增加视觉标记数量的情况下提取HR特征细节，并在计算可行性和细节丰富度之间保持平衡。

文本和图像生成

Mini-Gemini 框架将视觉标记和输入文本标记连接起来，作为大型语言模型的输入以进行自回归生成。与传统视觉语言模型不同，Mini-Gemini框架支持纯文本以及文本图像生成作为输入和输出，即任意推理，正是这种出色的图像文本理解和推理能力的结果， Mini-Gemini 能够生成高质量的图像。与最近关注生成模型和大型语言模型的文本嵌入之间的领域差距的研究不同，Mini-Gemini 框架试图通过将用户指令转换为生成上下文相关图像的高质量提示来优化语言提示领域的差距在潜在扩散模型中。此外，为了更好地理解指令微调和跨模态对齐，Mini-Gemini框架从公开的高质量数据集中收集样本，并使用GPT-4 Turbo框架进一步构建13K指令跟随数据集以支持图像生成。

迷你双子座：实验和结果

为了评估其性能，Mini-Gemini 框架使用 HR 视觉编码器的预训练 ConvNext-L 框架和 CLIP 预训练框架进行实例化视觉变压器用于 LR 视觉编码器。为了保证训练效率，Mini-Gemini框架保持两个视觉编码器固定，并在各个阶段优化补丁信息挖掘的投影仪，并在指令调优阶段本身优化大语言模型。

下表比较了 Mini-Gemini 框架与不同设置下最先进模型的性能，并且还考虑了私有模型。可以看出，Mini-Gemini 在正常分辨率下始终优于各种 LLM 的现有框架，并且在高效模型类别中与 Gemma-2B 一起配置时表现出卓越的性能。此外，当采用更大的语言模型时，Mini-Gemini框架的可扩展性是显而易见的。

为了评估其在高分辨率和扩展视觉标记上的性能，实验中 LR 视觉编码器的输入大小为 672，视觉编码器的输入大小为 1536。如前所述，HR 视觉编码器的主要目的是提供高分辨率的候选信息。可以看出，与最先进的框架相比，Mini-Gemini 框架提供了卓越的性能。

此外，为了评估 Mini-Gemini 框架在现实环境中的视觉理解能力，开发人员将该模型应用于各种推理和理解任务，如下图所示。可以看出，得益于补丁信息挖掘和高质量数据的实现，Mini-Gemini 框架能够解决各种复杂的任务。但更令人印象深刻的是，Mini-Gemini 框架展示了对细节的敏锐补充，超越了单纯的识别能力，并复杂地描述了复杂的元素。

下图给出了Mini-Gemini框架生成能力的综合评价。

与 ChatIllusion 和 AnyGPT 等最新模型相比，Mini-Gemini 框架表现出更强的多模态理解能力，使其能够生成文字转图片标题与输入指令更好地对齐，并导致图像到文本的答案具有更强的概念相似性。更令人印象深刻的是，Mini-Gemini 框架在仅使用文本训练数据使用多模型人类指令生成高质量内容方面表现出了卓越的熟练程度，这一能力说明了 Mini-Gemini 强大的语义解释和图像文本对齐技能。

总结

在本文中，我们讨论了 Mini-Gemini，这是一种强大且精简的多模态视觉语言模型框架。 Mini-Gemini 框架的主要目标是利用高质量数据、框架的战略设计和扩展的功能范围来利用视觉语言模型的潜在功能。 Mini-Gemini 试图通过从 VLM 引导生成、高质量数据和高分辨率视觉标记三个方面挖掘 VLM 的潜力来缩小视觉语言模型与更高级模型之间存在的差距。为了增强视觉标记，Mini-Gemini 框架建议利用额外的视觉编码器进行高分辨率细化，而不增加视觉标记的数量。 Mini-Gemini框架进一步构建了高质量的数据集，试图促进图像的精确理解和基于推理的生成。总体而言，Mini-Gemini框架试图挖掘视觉语言模型的潜力，旨在为现有框架同时赋予图像推理、理解和生成能力。

下一步

基于解码器的大型语言模型：完整指南

不要错过

Snowflake Arctic：企业人工智能的前沿法学硕士

库纳尔·凯杰里瓦尔

“职业工程师，心灵作家”。 Kunal 是一位技术作家，对人工智能和机器学习有着深厚的热爱和理解，致力于通过他引人入胜且信息丰富的文档来简化这些领域的复杂概念。

联合人工智能

Mini-Gemini：挖掘多模态视觉语言模型的潜力

人工智能

Mini-Gemini：挖掘多模态视觉语言模型的潜力

目录

Mini-Gemini：加速多模态 VLM