人工智能

统一多模态大语言模型Uni-MoE：使用专家混合架构进行扩展

Published May 31, 2024

Updated May 15, 2026

Kunal Kejriwal

近年来，多模态大语言模型（MLLMs）的架构和性能取得了显著进步，凸显了可扩展数据和模型的重要性以提高性能。虽然这种方法可以提高性能，但它需要大量计算资源，从而限制了此类方法的实用性和可用性。多年来，混合专家（MoE）模型已成为一种成功的替代方法，用于高效扩展图像-文本和大语言模型，因为混合专家模型具有显著较低的计算成本和强大的性能。然而，尽管混合模型具有优势，但它们并不是扩展大语言模型的理想方法，因为它们通常涉及较少的专家和有限的模态，从而限制了应用范围。

为了克服当前方法的局限性，并高效扩展大语言模型，本文将讨论Uni-MoE，一种具有混合专家（MoE）架构的统一多模态大语言模型。Uni-MoE框架还实现了大语言模型中的稀疏混合专家架构，以通过使用专家级模型并行和数据并行使训练和推理过程更加高效。另外，为了增强泛化和多专家协作，Uni-MoE框架提出了一种进步式训练策略，它是三个不同过程的组合。在第一步中，Uni-MoE框架使用各种连接器和不同模态的数据实现跨模态对齐。第二，Uni-MoE框架通过训练模态特定专家并使用跨模态指令数据激活专家组件来实现其偏好。最后，Uni-MoE模型在混合多模态指令数据上实现了LoRA（低秩适应）学习技术来调整模型。当指令调整的Uni-MoE框架在综合的多模态数据集上进行评估时，广泛的实验结果凸显了Uni-MoE框架在显著降低混合多模态数据集的性能偏差方面的主要优势。结果还表明了多专家协作和泛化的显著改善。

本文旨在深入介绍Uni-MoE框架，并探讨其机制、方法论、架构以及与最先进框架的比较。让我们开始吧。

统一多模态大语言模型Uni-MoE：扩展

近年来，开源多模态大语言模型（包括LLama和InstantBlip）取得了显著成功和进步，尤其是在图像-文本理解任务中。另外，人工智能社区正在积极地构建一个统一的多模态大语言模型，以适应广泛的模态，包括图像、文本、音频、视频等，超越传统的图像-文本范式。开源社区通常遵循的一种方法是增加视觉基础模型的大小，并将其与具有数十亿参数的大语言模型集成，使用多样化的多模态数据集来增强指令调整。这些发展凸显了多模态大语言模型处理和推理多个模态的能力的重要性，展示了扩展多模态指令数据和模型可扩展性的必要性。

虽然扩展模型是一种经过验证的方法，可以带来显著的结果，但扩展模型对于训练和推理过程来说是计算成本高昂的。

为了解决高昂的计算成本问题，开源社区正在将混合专家（MoE）模型架构集成到大语言模型中，以提高训练和推理效率。与使用所有可用参数处理每个输入的多模态大语言模型和大语言模型不同，混合专家架构仅需要激活每个输入的专家参数子集。因此，混合专家方法成为一种可行的途径，以提高大型模型的效率，而无需大量参数激活和高昂的计算成本。虽然现有工作已经强调了混合专家模型在构建文本和文本-图像大型语言模型中的成功实施和集成，但研究人员尚未充分探索开发混合专家架构来构建强大的统一多模态大语言模型的潜力。

Uni-MoE是一种多模态大语言模型，它利用稀疏混合专家模型来解释和管理多个模态，尝试使用混合专家架构扩展统一多模态大语言模型。如以下图所示，Uni-MoE框架首先使用模态特定编码器获取不同模态的编码，然后使用各种连接器将这些编码映射到大语言模型的语言表示空间。这些连接器包含一个可训练的变换器模型和随后的线性投影，以提取和投影冻结编码器的输出表示。然后，Uni-MoE框架在大语言模型的内部块中引入了稀疏混合专家层。因此，每个混合专家块都具有一个共享的自注意力层，适用于所有模态，一个用于在令牌级别分配专业知识的稀疏路由器，以及基于前馈网络的多样化专家。由于这种方法，Uni-MoE框架能够理解多个模态，包括语音、音频、文本、视频、图像，并且仅需要在推理过程中激活部分参数。

另外，为了增强多专家协作和泛化，Uni-MoE框架实现了一种三阶段训练策略。在第一阶段，框架使用大量图像/音频/语音到语言对来训练相应的连接器，利用大语言模型语言空间中的统一模态表示。在第二阶段，Uni-MoE模型训练模态特定专家，使用跨模态数据集独立地精炼每个专家的专业知识。在第三阶段，Uni-MoE框架将这些训练好的专家集成到大语言模型的混合专家层中，并使用混合多模态指令数据训练整个Uni-MoE框架。为了进一步降低训练成本，Uni-MoE框架采用LoRA学习方法来微调这些自注意力层和预训练的专家。

统一多模态大语言模型Uni-MoE：方法论和架构

Uni-MoE框架的基本动机是多模态大语言模型的高训练和推理成本，以及混合专家模型的效率，探索使用混合专家架构创建一个高效、强大和统一的多模态大语言模型的可能性。以下图表展示了Uni-MoE框架的架构，包括各个模态的单独编码器和连接器。

然后，Uni-MoE框架将混合专家架构与大语言模型的核心块集成，这对于提高训练和推理过程的整体效率至关重要。Uni-MoE框架通过实现稀疏路由机制来实现这一点。Uni-MoE框架的整体训练过程可以分为三个阶段：跨模态对齐、训练模态特定专家和使用多样化的多模态指令数据集来调整Uni-MoE。为了高效地将多样化的模态输入转换为语言格式，Uni-MoE框架建立在预训练的视觉语言框架LLaVA之上。LLaVA基模型集成了CLIP作为其视觉编码器，并具有一个线性投影层，将图像特征转换为其对应的软图像令牌。此外，为了处理视频内容，Uni-MoE框架从每个视频中选择八个代表性帧，并通过平均池化将它们转换为视频令牌，以聚合其图像或帧表示。对于音频任务，Uni-MoE框架部署两个编码器：BEATs和Whisper编码器，以增强特征提取。然后，模型将音频特征向量和固定长度的语音转换为语音令牌和软音频，通过线性投影层。

训练策略

Uni-MoE框架引入了一种进步式训练策略，用于模型的增量开发。引入的进步式训练策略尝试利用各种专家的独特能力，增强多专家协作效率，并提高框架的整体泛化能力。训练过程分为三个阶段，尝试实现基于集成混合专家的MLLM结构。

阶段1：跨模态对齐

在第一阶段，Uni-MoE框架尝试在不同的语言和模态之间建立连接。Uni-MoE框架通过构建连接器来实现这一点。第一阶段训练的主要目标是最小化生成熵损失。在Uni-MoE框架中，LLM被优化为生成不同模态输入的描述，而模型仅对连接器进行训练，这种策略使Uni-MoE框架能够在统一的语言框架中集成不同的模态。

阶段2：训练模态特定专家

在第二阶段，Uni-MoE框架专注于通过在特定模态的跨模态数据上训练模型来开发单模态专家。主要目标是通过在其各自领域内精炼每个专家的专业知识来提高混合专家系统在广泛的多模态数据上的整体性能。此外，Uni-MoE框架将前馈网络调整为更密切地与模态的特征相匹配，同时保持生成熵损失作为焦点度量训练。

阶段3：调整Uni-MoE

在第三阶段和最后阶段，Uni-MoE框架将第二阶段中专家调整的权重集成到混合专家层中。然后，Uni-MoE框架使用混合多模态指令数据联合微调MLLMs。以下图表反映了训练过程的进度。

混合专家配置的比较分析显示，在第二阶段训练过程中模型改进的专家显示出增强的稳定性，并在混合模态数据集上更快地收敛。此外，在涉及复杂多模态数据（包括文本、图像、音频、视频）的任务中，当使用四个专家而不是两个专家时，Uni-MoE框架表现出更一致的训练性能和降低的损失变异性。

统一多模态大语言模型Uni-MoE：实验和结果

以下表格总结了Uni-MoE框架的架构规范。Uni-MoE框架的主要目标是基于LLaMA-7B架构来扩展模型大小。

以下表格总结了Uni-MoE框架的设计和优化，如专用训练任务所指导的那样。这些任务对于提高MLP层的能力至关重要，从而利用其专门的知识来提高模型性能。Uni-MoE框架进行了八个单模态专家任务，以阐明不同训练方法的差异影响。

模型评估了各种模型变体在多样化的基准测试集上的性能，包括两个视频理解任务、三个音频理解任务和五个语音相关任务。首先，模型在语音-图像和语音-文本任务上进行了测试，结果如下表所示。

如可以观察到的那样，之前的基线模型在语音理解任务上表现较差，这进一步影响了图像-语音推理任务的性能。结果表明，引入混合专家架构可以提高MLLMs在未见的音频-图像推理任务上的泛化能力。以下表格显示了图像-文本理解任务的实验结果。如可以观察到的那样，Uni-MoE模型的最佳结果超过了基线，并在平均上超过了微调任务4个点。

最后的思考

在本文中，我们讨论了Uni-MoE，一种具有混合专家（MoE）架构的统一多模态大语言模型。Uni-MoE框架还实现了大语言模型中的稀疏混合专家架构，以通过使用专家级模型并行和数据并行使训练和推理过程更加高效。另外，为了增强泛化和多专家协作，Uni-MoE框架提出了一种进步式训练策略，它是三个不同过程的组合。在第一步中，Uni-MoE框架使用各种连接器和不同模态的数据实现跨模态对齐。第二，Uni-MoE框架通过训练模态特定专家并使用跨模态指令数据激活专家组件来实现其偏好。最后，Uni-MoE模型在混合多模态指令数据上实现了LoRA（低秩适应）学习技术来调整模型。 Uni-MoE框架激活了专家组件的偏好，通过训练模态特定专家并使用跨模态指令数据。最后，Uni-MoE模型在混合多模态指令数据上实现了LoRA或低秩适应学习技术来调整模型。当使用混合多模态指令数据对指令调整的Uni-MoE框架进行评估时，广泛的实验结果凸显了Uni-MoE框架在显著降低混合多模态数据集的性能偏差方面的主要优势。结果还表明了多专家协作和泛化的显著改善。最后，Uni-MoE模型在混合多模态指令数据上实现了LoRA或低秩适应学习技术来调整模型。当使用混合多模态指令数据对指令调整的Uni-MoE框架进行评估时，广泛的实验结果凸显了Uni-MoE框架在显著降低混合多模态数据集的性能偏差方面的主要优势。结果还表明了多专家协作和泛化的显著改善。