人工智能

Mistral AI的最新混合专家（MoE）8x7B模型

Published December 15, 2023

Updated April 28, 2026

Aayush Mittal Mittal

Mistral AI

是一家位于巴黎的开源模型初创公司，通过发布其最新的大型语言模型（LLM），即MoE 8x7B，挑战了传统的规范，并通过一个简单的 torrent 链接进行发布。这与谷歌的传统方法有所不同，引发了AI社区的热烈讨论和兴奋。

Mistral AI 的发布方式一直都很非传统。他们经常不发布论文、博客或新闻稿，而是通过独特的方式吸引了AI社区的注意力。

最近，该公司获得了令人瞩目的 $2亿美元的估值，这是在由Andreessen Horowitz 领投的融资轮次中实现的。这种融资方式创下了历史记录，单轮融资就获得了1.18亿美元的资金，这是欧洲历史上最大的单轮融资。除了融资上的成功之外，Mistral AI 还积极参与了围绕EU AI法案的讨论，倡导减少对开源AI的监管。

为什么MoE 8x7B引起了关注

被描述为“缩小版的GPT-4”，Mixtral 8x7B采用了混合专家（MoE）框架，拥有八个专家。每个专家都有1110亿个参数，结合550亿个共享注意力参数，总共有1660亿个参数。这种设计选择很重要，因为它只允许两个专家参与每个令牌的推理，突出了向更高效和更专注的AI处理的转变。

Mixtral的一个主要亮点是其能够处理大量上下文，高达32000个令牌，为处理复杂任务提供了足够的空间。该模型的多语言能力包括对英语、法语、意大利语、德语和西班牙语的强大支持，迎合了全球开发者社区的需求。

Mixtral的预训练涉及来自开放网络的数据，并采用专家和路由器同时训练的方法。这种方法确保模型不仅在参数空间上巨大，而且还对其接触到的大量数据进行了精细的调整。

Mixtral 8x7B 取得了令人印象深刻的成绩

Mixtral 8x7B在多个任务中超越了LLaMA 2 70B和GPT-3.5，尤其是在MBPP任务中取得了60.7%的成功率，远高于其对手。即使在针对指令遵循模型的严格MT-Bench测试中，Mixtral 8x7B也取得了令人印象深刻的成绩，几乎与GPT-3.5不相上下。

理解混合专家（MoE）框架

混合专家（MoE）模型虽然近期因其被集成到像Mistral AI的MoE 8x7B这样的最先进语言模型中而引起了注意，但其根源在于几年前就有的基础概念。让我们通过开创性的研究论文来回顾这个想法的起源。

MoE的概念

混合专家（MoE）代表着神经网络架构中的一个范式转变。与传统模型使用单一的同质网络来处理所有类型的数据不同，MoE采用了更为专门和模块化的方法。它由多个“专家”网络组成，每个网络都设计用于处理特定类型的数据或任务，并由一个“门控网络”动态地将输入数据引导到最合适的专家。

一个混合专家（MoE）层嵌入在一个循环语言模型中（来源）

上图展示了一个MoE层在语言模型中的高层视图。其本质上，MoE层由多个前馈子网络组成，称为“专家”，每个专家都有潜力在处理数据的不同方面上进行专攻。一个门控网络，如图所示，决定哪些专家被激活来处理给定的输入。这一有条件的激活使得网络能够显著增加其容量，而无需相应地增加计算需求。

MoE层的功能

在实践中，门控网络评估输入（在图中用G(x)表示），并选择一组稀疏的专家来处理它。这种选择由门控网络的输出调节，有效地决定了每个专家对最终输出的“投票”或贡献。例如，如图所示，对于每个特定的输入令牌，只有两个专家可能被选中来计算输出，使得该过程通过集中计算资源在最需要的地方变得高效。

带有MoE层的Transformer编码器（来源）

上图对比了传统的Transformer编码器和带有MoE层的Transformer编码器。Transformer架构广泛用于语言相关任务，传统上由自注意力层和前馈层堆叠而成。引入MoE层取代了一些前馈层，使得模型能够更有效地扩展容量。

在增强的模型中，MoE层被分割到多个设备上，展示了模型并行的方法。这对于训练和部署具有数十亿甚至数万亿参数的模型至关重要，因为它允许将计算负载和内存需求分布在一组设备上，例如GPU或TPU。这种分片对于利用MoE层的优势是必不可少的，如训练和部署具有数十亿到数万亿参数的模型所示。

MoE的稀疏方法与LLM的指令调优

题为“用于可扩展语言模型的稀疏混合专家（MoE）”的论文讨论了一种创新方法，通过将混合专家架构与指令调优技术相结合来改进大型语言模型（LLM）。

它强调了一个常见的挑战，即MoE模型在为特定任务进行微调时往往无法达到与具有相同计算能力的密集模型相同的性能，这是由于一般预训练和任务特定微调之间的差异所致。

指令调优是一种训练方法，通过这种方法，模型被改进以更好地遵循自然语言指令，有效地增强了其任务性能。该论文提出，当MoE模型与指令调优相结合时，会比其密集对应物表现得更好，尤其是在进一步进行任务特定微调时。

研究人员进行了三项实验，结果显示MoE模型最初在直接任务特定微调中表现不佳。然而，当应用指令调优时，MoE模型表现出色，特别是在进一步进行任务特定微调后。这种技术使得模型的预训练表示更好地遵循指令，导致性能显著提高。

指令调优对MoE的影响

它还引入了FLAN-MOE32B，这是一个成功应用这些概念的模型。值得注意的是，它在基准任务中超越了FLAN-PALM62B，这是一个密集模型，同时只使用了三分之一的计算资源。这展示了稀疏MoE模型与指令调优相结合的潜力，以设定LLM效率和性能的新标准。

在现实场景中实现混合专家

MoE模型的多功能性使其适用于广泛的应用：

自然语言处理（NLP）：MoE模型可以更有效地处理人类语言的细微差别和复杂性，使其适合高级NLP任务。
图像和视频处理：在需要高分辨率处理的任务中，MoE可以管理图像或视频帧的不同方面，提高质量和处理速度。
可定制的AI解决方案：企业和研究人员可以将MoE模型定制为特定任务，从而实现更有针对性和更有效的AI解决方案。

挑战和考虑

训练和调优的复杂性：MoE模型的分布式性质可能会使训练过程复杂化，需要仔细平衡和调优专家和门控网络。
资源管理：在多个专家之间高效地管理计算资源对于最大化MoE模型的优势至关重要。

将MoE层集成到神经网络中，特别是在语言模型领域，为我们提供了一条扩展模型规模的途径，以应对以前由于计算约束而不可行的任务。MoE层实现的有条件计算使得计算资源可以更高效地分配，从而可以训练出更大、更强大的模型。随着我们对AI系统的要求不断增加，像MoE层增强的Transformer这样的架构可能会成为处理各个领域复杂、 largescale任务的标准。

Aayush Mittal

我过去五年一直沉浸在令人着迷的机器学习和深度学习世界中。我的热情和专业知识使我能够为超过50个不同的软件工程项目做出贡献，特别注重人工智能/机器学习。我的持续好奇心也使我对自然语言处理产生了兴趣，这是一个我渴望进一步探索的领域。

Unite.AI

Mistral AI的最新混合专家（MoE）8x7B模型

You may like