人工智能

Mistral AI 的最新专家混合 (MoE) 8x7B 模型

发布时间

2年前

2023 年 12 月 15 日

阿尤什·米塔尔

西北风人工智能

这是一家总部位于巴黎的开源模型初创公司，它通过简单的方式发布了最新的大型语言模型 (LLM) MoE 8x7B，从而挑战了规范。种子链接。这将谷歌的传统方法与他们的 Gemini 版本形成鲜明对比，引发了人工智能社区内的对话和兴奋。

Mistral AI 的发布方式一直都是非常规的。他们的策略通常不附带通常的论文、博客或新闻稿，但在吸引人工智能社区的注意力方面发挥了独特的作用。

近期，公司取得了令人瞩目的成绩估值为2十亿美元继 Andreessen Horowitz 领投的一轮融资之后。本轮融资具有历史意义，种子轮融资金额达 118 亿美元，创下欧洲历史上规模最大的融资记录。除了融资方面的成功之外，Mistral AI 还积极参与有关欧盟人工智能法案的讨论，主张减少对开源人工智能的监管。

为什么 MoE 8x7B 引起关注

Mixtral 4x8B 被描述为“缩小版的 GPT-7”，它利用由八位专家组成的专家混合 (MoE) 框架。每个专家有 111B 个参数，加上 55B 个共享注意力参数，每个模型总共有 166B 个参数。这种设计选择意义重大，因为它只允许两名专家参与每个令牌的推理，凸显了向更高效、更集中的人工智能处理的转变。

Mixtral 的主要亮点之一是它能够管理 32,000 个代币的广泛上下文，为处理复杂任务提供了充足的范围。该模型的多语言功能包括对英语、法语、意大利语、德语和西班牙语的强大支持，以满足全球开发者社区的需求。

Mixtral 的预训练涉及来自开放网络的数据，并采用针对专家和路由器的同步训练方法。这种方法确保模型不仅具有巨大的参数空间，而且还针对其所接触的大量数据的细微差别进行了微调。

混合 8x7B 取得了令人印象深刻的成绩

Mixtral 8x7B 的性能优于 LLaMA 2 70B，可与 GPT-3.5 相媲美，尤其是在 MBPP 任务中表现出色，成功率为 60.7%，明显高于同类任务。即使在为指令跟踪模型量身定制的严格 MT-Bench 中，Mixtral 8x7B 也取得了令人印象深刻的分数，几乎与 GPT-3.5 相当

了解专家混合 (MoE) 框架

专家混合 (MoE) 模型虽然由于融入 Mistral AI 的 MoE 8x7B 等最先进的语言模型而最近受到关注，但实际上植根于几年前的基本概念。让我们通过开创性的研究论文重新审视这个想法的起源。

教育部的概念

专家混合 (MoE) 代表了神经网络架构的范式转变。与使用单一同质网络处理所有类型数据的传统模型不同，MoE 采用更专业化和模块化的方法。它由多个“专家”网络组成，每个网络都设计用于处理特定类型的数据或任务，并由“门控网络”监督，动态地将输入数据定向到最合适的专家。

嵌入循环语言模型中的专家混合 (MoE) 层 (来源)

上图展示了嵌入语言模型中的 MoE 层的高级视图。从本质上讲，MoE 层包含多个前馈子网络，称为“专家”，每个子网络都有可能专门处理数据的不同方面。图中突出显示的门控网络确定这些专家的哪种组合参与给定的输入。这种条件激活允许网络显着增加其容量，而不会相应增加计算需求。

MoE 层的功能

在实践中，门控网络评估输入（表示为 G(x) 图中）并选择一组稀疏的专家来处理它。这种选择由门控网络的输出进行调节，有效地确定每个专家对最终输出的“投票”或贡献。例如，如图所示，可以只选择两名专家来计算每个特定输入标记的输出，通过将计算资源集中在最需要的地方来提高过程效率。

具有 MoE 层的 Transformer 编码器 (来源)

上面的第二张图将传统的 Transformer 编码器与由 MoE 层增强的编码器进行了对比。 Transformer 架构因其在语言相关任务中的功效而广为人知，传统上由按顺序堆叠的自注意力层和前馈层组成。 MoE 层的引入取代了其中一些前馈层，使模型能够更有效地根据容量进行扩展。

在增强模型中，MoE 层跨多个设备进行分片，展示了模型并行方法。当扩展到非常大的模型时，这一点至关重要，因为它允许在 GPU 或 TPU 等设备集群上分配计算负载和内存需求。这种分片对于有效地训练和部署具有数十亿个参数的模型至关重要，在大规模计算集群上训练具有数千亿到超过一万亿个参数的模型就证明了这一点。

LLM 的稀疏 MoE 方法和指令调整

论文标题为“用于可扩展语言建模的稀疏专家混合 (MoE)”讨论了一种通过将专家混合架构与指令调优技术集成来改进大型语言模型 (LLM) 的创新方法。

它强调了一个常见的挑战，即由于一般预训练和特定于任务的微调之间的差异，在针对特定任务进行微调时，MoE 模型与具有相同计算能力的密集模型相比表现不佳。

指令调优是一种训练方法，可以对模型进行改进，以更好地遵循自然语言指令，从而有效地提高其任务性能。该论文表明，MoE 模型在与指令调整相结合时表现出显着的改进，比密集模型的改进更明显。该技术可以调整模型的预训练表示，以更有效地遵循指令，从而显着提高性能。

研究人员对三个实验设置进行了研究，结果表明 MoE 模型最初在直接针对特定任务的微调方面表现不佳。然而，当应用指令调整时，MoE 模型表现出色，特别是在进一步补充特定于任务的微调时。这表明指令调整是 MoE 模型在下游任务上超越密集模型的重要一步。

指令调优对 MOE 的影响

它还介绍了 FLAN-MOE32B，该模型展示了这些概念的成功应用。值得注意的是，它在基准任务上优于密集模型 FLAN-PALM62B，同时仅使用三分之一的计算资源。这展示了稀疏 MoE 模型与指令调整相结合为 LLM 效率和性能设定新标准的潜力。

在现实场景中实施专家混合

MoE 模型的多功能性使其成为一系列应用的理想选择：

自然语言处理（NLP）： MoE 模型可以更有效地处理人类语言的细微差别和复杂性，使其成为高级 NLP 任务的理想选择。
图像和视频处理： 在需要高分辨率处理的任务中，MoE 可以管理图像或视频帧的不同方面，从而提高质量和处理速度。
可定制的人工智能解决方案： 企业和研究人员可以根据特定任务定制 MoE 模型，从而制定更有针对性、更有效的人工智能解决方案。

挑战和考虑

虽然 MoE 模型提供了许多好处，但它们也带来了独特的挑战：

训练和调整的复杂性： MoE 模型的分布式特性可能会使训练过程变得复杂，需要仔细平衡和调整专家和门控网络。
资源管理： 跨多个专家有效管理计算资源对于最大限度地发挥 MoE 模型的优势至关重要。

将 MoE 层合并到神经网络中，尤其是在语言模型领域，为将模型缩放到以前由于计算限制而无法实现的尺寸提供了一条途径。 MoE 层启用的条件计算可以更有效地分配计算资源，从而可以训练更大、能力更强的模型。随着我们对人工智能系统的要求不断提高，像 MoE 配备的 Transformer 这样的架构很可能成为跨各个领域处理复杂、大规模任务的标准。