人工智能

Uni-MoE：通过专家组合扩展统一多模式法学硕士

发布时间

1年前

2024 年 5 月 31 日

库纳尔·凯杰里瓦尔

多模态大型语言模型（MLLM）的架构和性能的最新进展凸显了可扩展数据和模型对于增强性能的重要性。尽管这种方法确实提高了性能，但它会产生大量的计算成本，从而限制了此类方法的实用性和可用性。多年来，专家混合模型或 MoE 模型已成为有效扩展图像文本和大型语言模型的成功替代方法，因为专家混合模型具有显着较低的计算成本和强大的性能。然而，尽管模型混合有其优点，但它并不是扩展大型语言模型的理想方法，因为它们通常涉及较少的专家和有限的模式，从而限制了应用。

为了克服当前方法遇到的障碍，并有效地扩展大型语言模型，在本文中，我们将讨论 Uni-MoE，这是一种统一的多模态大型语言模型，具有 MoE 或专家混合架构，能够处理广泛的一系列的模式和专家。 Uni-MoE 框架还在大型语言模型中实现了稀疏的专家混合架构，试图通过采用专家级模型并行性和数据并行性来提高训练和推理过程的效率。此外，为了增强泛化和多专家协作，Uni-MoE 框架提出了一种渐进式培训策略，该策略结合了三个不同的流程。首先，Uni-MoE 框架使用具有不同跨模态数据的各种连接器来实现跨模态对齐。其次，Uni-MoE 框架通过使用跨模态指令数据训练特定模态专家来激活专家组件的偏好。最后，Uni-MoE 模型在混合多模态指令数据上实现 LoRA 或低秩适应学习技术来调整模型。当在一组全面的多模态数据集上评估指令调整的 Uni-MoE 框架时，大量的实验结果突显了 Uni-MoE 框架在显着减少处理混合多模态数据集时的性能偏差方面的主要优势。结果还表明多专家协作和泛化能力有了显着改善。

本文旨在深入介绍 Uni-MoE 框架，我们探讨了该框架的机制、方法、架构，以及它与最先进框架的比较。那么让我们开始吧。

Uni-MoE：扩展统一多模式法学硕士

包括 LLama 和 InstantBlip 在内的开源多模态大语言模型的出现概述了过去几年在涉及图像文本理解的任务中取得的显着成功和进步。此外，人工智能社区正在积极致力于构建一个统一的多模态大语言模型，该模型可以容纳图像、文本、音频、视频等多种模态，超越传统的图像文本范式。开源社区提升多模态大语言模型能力的常用方法是增加视觉基础模型的规模，并将其与具有数十亿参数的大语言模型集成，并使用多样化的多模态数据集来增强指令调优。这些发展凸显了多模态大语言模型推理和处理多种模态的能力不断增强，展示了扩展多模态教学数据和模型可扩展性的重要性。

尽管扩展模型是一种经过尝试和测试的方法，可以提供实质性结果，但扩展模型对于训练和推理过程来说都是一个计算成本高昂的过程。

为了解决高开销计算成本的问题，开源社区正在朝着集成 MoE 或混合专家大型语言模型中的模型架构，以提高训练和推理效率。与使用所有可用参数来处理每个输入从而产生密集计算方法的多模态大语言和大语言模型相反，专家混合架构仅要求用户为每个输入激活专家参数的子集。因此，专家混合方法成为提高大型模型效率的可行途径，无需大量参数激活和高额计算成本。尽管现有的工作强调了混合专家模型在构建纯文本和文本图像大型模型中的成功实现和集成，但研究人员尚未充分探索开发混合专家架构以构建强大的统一多模态大型模型的潜力。语言模型。

Uni-MoE 是一种多模态大语言模型，它利用稀疏的专家模型混合来解释和管理多种模态，试图探索通过 MoE 架构扩展统一的多模态大语言模型。如下图所示，Uni-MoE 框架首先使用特定于模态的编码器获得不同模态的编码，然后使用各种设计的连接器将这些编码映射到大型语言模型的语言表示空间中。这些连接器包含可训练的变压器模型，以及随后的线性投影，以提取和投影冻结编码器的输出表示。然后，Uni-MoE 框架在密集大型语言模型的内部块中引入了稀疏的专家层混合。因此，每个基于专家混合的块都具有适用于所有模式的共享自注意力层、用于在令牌级别分配专业知识的稀疏路由器以及基于前馈网络的多样化专家。由于这种方法，Uni-MoE 框架能够理解多种模态，包括语音、音频、文本、视频、图像，并且在推理过程中只需要激活部分参数。

此外，为了加强多专家协作和泛化，Uni-MoE 框架实施了三阶段培训策略。在第一阶段，由于大语言模型的语言空间中的统一模态表示，该框架使用广泛的图像/音频/语音到语言对来训练相应的连接器。其次，Uni-MoE 模型分别使用跨模态数据集来训练特定模态的专家，以试图提高每个专家在各自领域内的熟练程度。在第三阶段，Uni-MoE框架将这些经过训练的专家集成到大语言模型的Mixture of Expert层中，并使用混合多模态指令数据来训练整个Uni-MoE框架。为了进一步降低训练成本，Uni-MoE 框架采用 LoRA 学习方法来微调这些自注意力层和预先调整的专家。

Uni-MoE：方法论和架构

Uni-MoE 框架背后的基本动机是扩展多模态大语言模型的高训练和推理成本以及专家模型混合的效率，并探索利用利用创建高效、强大且统一的多模态大语言模型的可能性这教育部架构。下图展示了 Uni-MoE 框架中实现的架构，展示了包括用于不同模态（即音频、语音和视觉）的单独编码器及其各自模态连接器的设计。

然后，Uni-MoE 框架将 Mixture of Expert 架构与核心大型语言模型块集成，这一过程对于提高训练和推理过程的整体效率至关重要。 Uni-MoE 框架通过实施稀疏路由机制来实现这一点。 Uni-MoE 框架的整体训练过程可以分为三个阶段：跨模态对齐、训练特定模态的专家以及使用不同的多模态指令数据集调整 Uni-MoE。为了有效地将不同的模态输入转换为语言格式，Uni-MoE 框架构建在预训练的视觉语言框架 LLaVA 之上。 LLaVA 基础模型将 CLIP 作为其视觉编码器与线性投影层集成，将图像特征转换为相应的软图像标记。此外，为了处理视频内容，Uni-MoE 框架从每个视频中选择八个代表性帧，并通过平均池化将它们转换为视频令牌，以聚合其图像或基于帧的表示。对于音频任务，Uni-MoE 框架部署了两个编码器：BEAT 和 Whisper 编码器来增强特征提取。然后，该模型提取音频特征向量和固定长度的语音，并通过线性投影层将它们分别映射为语音标记和软音频。

培训策略

Uni-MoE 框架引入了渐进式训练策略，用于模型的增量开发。渐进式培训策略试图利用不同专家的独特能力，提高多专家协作效率，并提高框架的整体通用性。培训过程分为三个阶段，试图实现 MLLM 结构建立在综合专家混合之上。

第一阶段：跨模态对齐

在第一阶段，Uni-MoE 框架试图在不同语言和模式之间建立连接。 Uni-MoE 框架通过构建连接器将模态数据转换为软令牌来实现这一目标。第一个训练阶段的主要目标是最小化生成熵损失。在 Uni-MoE 框架内，LLM 经过优化，可以为不同模态的输入生成描述，并且该模型仅对连接器进行训练，这一策略使 Uni-MoE 框架能够将不同模态集成到统一的语言框架中。

第二阶段：培训特定模式的专家

在第二阶段，Uni-MoE 框架侧重于通过专门针对特定跨模态数据训练模型来培养单一模态专家。主要目标是提高每位专家在各自领域内的熟练程度，从而提高混合专家系统在各种多模式数据上的整体性能。此外，Uni-MoE 框架定制前馈网络，使其与模态的特征更紧密地结合，同时保持生成熵损失作为焦点度量训练。

第 3 阶段：调整 Uni-MoE

在第三个也是最后一个阶段，Uni-MoE 框架将专家在第 2 阶段调整的权重集成到专家层的混合中。然后，Uni-MoE 框架联合利用混合多模式指令数据对 MLLM 进行微调。下图中的损失曲线反映了训练过程的进度。

Mixture of Expert 配置之间的比较分析表明，专家在第二个训练阶段改进的模型表现出增强的稳定性，并在混合模式数据集上实现了更快的收敛。此外，在涉及文本、图像、音频、视频等复杂多模态数据的任务上，Uni-MoE 框架在采用四名专家时比采用两名专家时表现出更一致的训练性能并降低了损失变异性。

Uni-MoE：实验和结果

下表总结了 Uni-MoE 框架的架构规范。 Uni-MoE 框架基于 LLaMA-7B 架构构建，其主要目标是扩展模型大小。

下表总结了以专门训练任务为指导的 Uni-MoE 框架的设计和优化。这些任务有助于完善 MLP 层的功能，从而利用其专业知识来增强模型性能。 Uni-MoE 框架承担八项单一模式专家任务，以阐明各种培训方法的不同影响。

该模型通过一组不同的基准评估各种模型变体的性能，其中包括两个视频理解、三个音频理解和五个语音相关任务。首先，测试模型对语音图像和语音文本任务的理解能力，结果如下表所示。

可以看出，之前的基线模型在语音理解任务中的结果较差，这进一步影响了图像语音推理任务的性能。结果表明，引入混合专家架构可以增强 MLLM 在未见过的音频图像推理任务上的泛化能力。下表列出了图文理解任务的实验结果。可以看出，Uni-MoE 模型的最佳结果优于基线，并且平均超出微调任务 4 个百分点。

总结

在本文中，我们讨论了 Uni-MoE，这是一种统一的多模式大型语言模型，具有 MoE 或专家混合架构，能够处理各种模式和专家。 Uni-MoE 框架还在大型语言模型中实现了稀疏的专家混合架构，试图通过采用专家级模型并行性和数据并行性来提高训练和推理过程的效率。此外，为了增强泛化和多专家协作，Uni-MoE 框架提出了一种渐进式培训策略，该策略结合了三个不同的流程。首先，Uni-MoE 框架使用具有不同跨模态数据的各种连接器来实现跨模态对齐。其次，Uni-MoE 框架通过使用跨模态指令数据训练特定模态专家来激活专家组件的偏好。最后，Uni-MoE 模型在混合多模态指令数据上实现 LoRA 或低秩适应学习技术来调整模型。