人工智能

MoE-LLaVA：大型视觉语言模型的专家混合

Published April 1, 2024

Updated April 27, 2026

Kunal Kejriwal

MoE-LLaVA: Mixture of Experts for Large Vision-Language Models

近年来，大型视觉语言模型（LVLMs）的进展表明，扩大这些框架的规模可以显著提高其在各种下游任务中的性能。包括MiniGPT、LLaMA等在内的LVLMs，通过将视觉投影层和图像编码器纳入其架构，实现了显著的能力。通过实施这些组件，LVLMs增强了大型语言模型（LLMs）的视觉感知能力。性能可以通过增加模型的大小和参数数量以及扩大数据集规模进一步提高。

像InternVL这样的模型扩展了图像编码器，参数数量超过60亿，而其他模型将LVLMs的后端扩展到130亿参数，实现了广泛任务的卓越性能。IDEFICS训练了一个具有超过80亿参数的LVLM。这些扩展方法已达到或超过了在超过34亿、70亿甚至100亿参数上预训练的LLMs的性能。然而，扩展有其缺点：它显著增加了训练和推理成本。这是因为它需要所有参数对于每个计算令牌都处于活动状态，从而导致高计算需求和更高的成本。

本文讨论MoE-LLaVA，一种基于专家混合（MoE）的稀疏LVLM架构，它采用一种有效的训练策略MoE-Tuning，用于LVLMs。MoE-Tuning创新地解决了多模态稀疏学习中的性能下降问题，实现了一个参数数量众多但训练和推理成本一致的模型。MoE-LLaVA架构旨在仅在部署期间激活前k个专家，而保持其他专家不活动。

我们将探讨MoE-LLaVA框架，检查其机制、方法、架构以及它与领先的图像和视频生成框架的比较。

MoE-LLaVA：可负担的大型视觉语言模型扩展

除了利用视觉投影层和图像编码器外，大型视觉语言模型还通过增加参数数量来增强模型的性能。MiniGPT-4、InternGPT、InternVL等是遵循此方法来增强其性能的著名大型视觉语言模型的例子。在实际应用中，使用高质量的训练数据来扩展大型语言模型或大型视觉语言模型通常是提高模型性能的必要条件。虽然扩展模型大小可以提高性能，但也会增加训练和部署模型的计算成本，并进一步增加在并行设备上同时部署模型的复杂性和效率。增加训练和推理成本以及计算要求的主要原因是，每个令牌在框架中都需要与模型中的每个参数进行计算，这被称为密集模型。

另一方面，稀疏的MoE或专家混合模型已经通过使用固定激活的参数来处理数据，展示了框架的有效扩展，这种方法在自然语言处理领域得到了广泛的应用。然而，直接使用专家混合来训练稀疏的大型视觉语言模型具有挑战性，因为同时将LLMs转换为LVLMs和稀疏化模型会导致显著的性能下降。为了实现LLMs和LVLMs的混合模型扩展，必须首先对LVLM进行稀疏化初始化。为此，MoE-LLaVA框架引入了MoE-Tuning，一种简单而有效的三阶段训练策略。

如上图所示，MoE-Tuning过程首先在第一阶段训练一个MLP或多层感知器，以将视觉令牌适应于大型语言模型。然后，框架训练整个LLM的参数，以预先赋予大型视觉语言模型一般的多模态理解能力。最后，在第三阶段，框架复制FFN或前馈神经网络作为专家的初始化权重，并仅训练专家混合层。总体而言，训练过程有助于稀疏模型从LVLM初始化到稀疏专家混合模型的逐渐过渡。

既然我们已经介绍了训练过程，让我们来看看MoE-LLaVA，一种具有专家混合模型的基准大型视觉语言模型，它集成了可学习的路由器和MoE模型。MoE-LLaVA模型的核心由多个稀疏路径组成，框架使用这些路径通过可学习的路由器将每个令牌分发到不同的专家。然后，激活的专家集体处理令牌，同时保持不活动的路径保持沉默。框架然后迭代地堆叠专家混合编码器层，以提供一个通往更大、更强大的LVLM的稀疏路径。

由于MoE-LLaVA框架采用的方法，它能够在POPE对象幻觉基准测试中超越具有类似数量激活参数的模型，并且在仅具有22亿参数的情况下，实现了与InternVL-Chat-19B框架相当的性能，后者具有近8倍的激活参数数量。

具有强大泛化和指令跟随能力的强大大型语言模型已经被实施到大型视觉语言模型中。早期的LLMs，如BLIP，将视觉信号编码为一系列视觉令牌，使它们能够使用多个投影层成功地将视觉适应于LLMs。同时，最近的工作重点是通过实施方法（如扩展指令微调数据集、增加图像分辨率、优化训练策略、对齐输入、增强图像编码器等）来提高模型性能。这些方法通过扩展视觉指令微调数据集和模型规模，帮助赋予LVLMs强大的视觉理解能力。此外，一些LVLMs还具有细粒度的图像理解能力，例如区域和多区域理解以及像素级别的接地能力。然而，扩大密集视觉数据和模型的计算成本通常很高，这使得它具有挑战性。另一方面，MoE-LLaVA框架旨在通过利用MoE模型的能力使LVLM研究更加经济实惠。

MoE-LLaVA：方法和架构

MoE-LLaVA框架的核心由视觉投影层（多层感知器）、视觉编码器、MoE块、多个堆叠的LLM块和词嵌入层组成。

架构

以下表格总结了MoE-LLaVA框架的详细配置。

对于给定的RGB图像，视觉编码器处理图像以获得一系列视觉令牌，并且视觉投影层将视觉令牌序列映射到输入图像。文本输入由词嵌入层处理，然后投影以获得序列令牌。同时，MoE-LLaVA框架将文本和视觉令牌链接在一起，并将它们输入到LLM。但是，框架仅训练视觉投影层，具有FFN或前馈神经网络和多头自注意力层的大型语言模型。最后，框架对每个块应用残差连接和层归一化。

继续，MoE-LLaVA框架复制第二阶段的FFN或前馈神经网络以初始化专家作为初始化步骤。路由器作为一个线性层，预测每个令牌被分配到每个专家的概率。每个令牌由具有最大概率的前k个专家处理，并根据路由器的softmax结果计算加权和。一次激活顶级专家，模型关闭剩余的专家，这种方法使MoE-LLaVA框架具有无限可能的稀疏路径，从而使模型具有广泛的能力。

MoE-Tuning

MoE-Tuning是一种简单而有效的三阶段训练策略，首先在第一阶段训练一个MLP或多层感知器，以将视觉令牌适应于大型语言模型。然后，框架训练整个LLM的参数，以预先赋予大型视觉语言模型一般的多模态理解能力。最后，在第三阶段，框架复制FFN或前馈神经网络作为专家的初始化权重，并仅训练专家混合层。

阶段1

在第一阶段，主要目标是将图像令牌适应于大型语言模型，以使LLM能够理解图像中的实例。MoE-LLaVA框架使用多层感知器将图像令牌投影到大型语言模型的输入域，并将图像块视为伪文本令牌。在此阶段，MoE-LLaVA框架训练LLM以描述图像，并不在此阶段将MoE层应用于LLM。

阶段2

在第二阶段，MoE-LLaVA尝试通过使用多模态指令数据来增强框架的能力和可控性。MoE-LLaVA框架通过调整LLM使其成为具有多模态理解能力的LVLM来实现这一点。框架使用更复杂的指令，包括文本识别和逻辑图像推理任务，这些任务需要模型具有更强的多模态能力。传统上，密集模型的训练过程在此步骤完成。但是，MoE-LLaVA框架在同时将LLM转换为LVLM和稀疏化LVLM时遇到了挑战。为了应对这一挑战，框架使用来自该阶段的权重作为下一阶段的初始化，以减轻稀疏模型的学习难度。

阶段3

在第三阶段，模型复制前馈神经网络几次以初始化专家作为初始化步骤。然后，框架将文本和图像令牌输入到专家混合层，路由器计算专家和每个令牌之间的匹配权重。每个令牌由具有最大概率的前k个专家处理，并根据路由器的softmax结果计算加权和。一旦激活顶级专家，模型关闭剩余的专家，这种方法使MoE-LLaVA框架具有无限可能的稀疏路径，从而使模型具有广泛的能力。

MoE-LLaVA：结果和实验

MoE-LLaVA框架采用CLIP-Large作为视觉编码器，多层感知器由两个层组成，中间有一个GELU激活层。默认情况下，框架采用前馈神经网络和专家混合层的交替替换，这意味着专家混合层占总层数的50%。以下表格包含用于训练和评估MoE-LLaVA框架的不同数据集及其样本大小。

零样本图像问答

以下图表表明MoE-LLaVA是一个具有软路由器的LVLM的稀疏模型。框架在5个图像问答基准测试中进行了评估，如图所示，MoE-LLaVA框架展示了显著的图像理解能力，并在五个不同的基准测试中实现了与最先进的LLaVA 1.5框架相当的性能。

对象幻觉评估

为了评估对象幻觉，MoE-LLaVA框架采用了POPE评估管道，一种基于投票的查询方法，结果如以下表格所示。如图所示，MoE-LLaVA框架在所有框架中实现了最强的结果，表明该框架能够生成与输入图像一致的对象。此外，值得注意的是，MoE-LLaVA框架很好地平衡了是率，表明稀疏模型能够为给定的问题提供准确的反馈。

以下图表显示了专家负载的分布，其中虚线表示模态或专家之间的令牌分布良好。第一个图表显示了专家中的工作量，而剩余的图表显示了专家对不同模态的性能。

此外，以下图表显示了不同专家之间的模态分布。

最后的想法

在本文中，我们讨论了MoE-LLaVA，一种具有专家混合模型的基准大型视觉语言模型，它集成了可学习的路由器和MoE模型。MoE-LLaVA模型的核心由多个稀疏路径组成，框架使用这些路径通过可学习的路由器将每个令牌分发到不同的专家。然后，激活的专家集体处理令牌，同时保持不活动的路径保持沉默。框架然后迭代地堆叠专家混合编码器层，以提供一个通往更大、更强大的LVLM的稀疏路径。MoE-Tuning策略创新地解决了多模态稀疏学习中的性能下降问题，从而构建了一个具有大量参数但训练和推理成本一致的模型。MoE-LLaVA框架的架构旨在仅在部署期间激活前k个专家，同时保持剩余的专家不活动。