AI 入门 101
Mixture-of-Experts 的崛起:如何让稀疏 AI 模型塑造机器学习的未来

Mixture-of-Experts (MoE) 模型正在革新我们扩展 AI 的方式。通过仅激活模型的子集,MoE 提供了一种新颖的方法来管理模型大小和计算效率之间的权衡。与传统的密集模型不同,MoE 实现了巨大的参数数量,同时保持了可管理的推理和训练成本。这一突破引发了一波研究和开发浪潮,导致科技巨头和初创公司都在 MoE 基础架构上进行了大量投资。
如何工作的 Mixture-of-Experts 模型
MoE 模型的核心是多个专门的子网络,称为“专家”,由一个门控机制控制,决定哪些专家处理每个输入。例如,输入到语言模型的句子可能只会激活八个专家中的两个,从而大大减少计算工作量。
这个概念是由 Google 的 Switch Transformer 和 GLaM 模型 推广的,其中专家取代了传统的 Transformer 中的前馈层。Switch Transformer 例如,每层只将令牌路由到一个专家,而 GLaM 使用前两名路由以提高性能。这些设计表明,MoE 可以匹配或超越密集模型,如 GPT-3,同时使用显著较少的能量和计算资源。
关键创新在于有条件的计算。与其激活整个模型,MoE 只激活最相关的部分,这意味着一个具有数百亿甚至数万亿参数的模型可以像一个规模小得多的模型一样高效运行。这使研究人员能够在不增加计算的同时扩大模型容量,这是传统扩展方法无法实现的。

MoE 的现实世界应用
MoE 模型已经在多个领域留下了自己的印记。Google 的 GLaM 和 Switch Transformer 在语言建模中展示了最先进的结果,具有较低的训练和推理成本。Microsoft 的 Z-Code MoE 已在其翻译工具中投入使用,处理超过 100 种语言,具有比以前的模型更高的准确性和效率。这些不仅仅是研究项目——它们正在为活跃的服务提供支持。
在计算机视觉中,Google 的 V-MoE 架构 已经在 ImageNet 等基准测试中提高了分类准确率,而 LIMoE 模型在涉及图像和文本的多模态任务中展示了强大的性能。专家的专业化能力——一些处理文本,另一些处理图像——为 AI 系统添加了新的功能层次。
推荐系统和多任务学习平台也从 MoE 中受益。例如,YouTube 的推荐引擎采用了 MoE 类似的架构,以更高效地处理观看时间和点击率等目标。通过为不同任务或用户行为分配不同的专家,MoE 有助于构建更强大的个性化引擎。
MoE 的优点和挑战
MoE 的主要优势在于其效率。它们允许大规模模型以显著降低计算成本进行训练和部署。例如,Mistral AI 的 Mixtral 8×7B 模型具有 47B 总参数,但每个令牌仅激活 12.9B 参数,使其具有与 13B 模型相同的成本效益,同时在质量方面与 GPT-3.5 竞争。
MoE 还促进了专业化。由于不同的专家可以学习不同的模式,整个模型在处理多样化输入时变得更好。这在多语言、多领域或多模态任务中尤其有用,因为一个通用密集模型可能会表现不佳。
然而,MoE 也带来了工程挑战。训练它们需要仔细平衡,以确保所有专家都能有效使用。内存开销也是一个问题——虽然每次推理只激活一小部分参数,但所有参数都必须加载到内存中。在 GPU 或 TPU 上高效分布计算是一个非平凡的任务,导致了像 Microsoft 的 DeepSpeed 和 Google 的 GShard 这样的专用框架的发展。
尽管存在这些障碍,MoE 的性能和成本优势足够显著,以至于现在被认为是大规模 AI 设计的关键组件。随着更多工具和基础设施的成熟,这些挑战正在逐渐被克服。
MoE 与其他扩展方法的比较
传统的密集扩展方法会使模型大小和计算成本成比例增加。MoE 打破了这种线性关系,通过增加总参数数量而不增加每个输入的计算成本。这使得具有数万亿参数的模型可以在以前仅限于数十亿参数的模型的同一硬件上进行训练。
与模型集成相比,MoE 更加高效。模型集成也引入了专业化,但需要多次完整的前向传递。MoE 只运行一个模型,但具有多个专家路径的好处。
MoE 也补充了其他策略,如扩展训练数据(例如 Chinchilla 方法)。虽然 Chinchilla 强调使用更多数据和较小的模型,但 MoE 在保持计算成本稳定的同时扩大了模型容量,使其成为计算成本是瓶颈的情况下的理想选择。
最后,虽然像剪枝和量化这样的技术可以在训练后缩小模型,但 MoE 在训练期间增加了模型容量。它们不是压缩的替代品,而是一种用于高效增长的正交工具。
领导 MoE 革命的公司
科技巨头
Google 开创了今天的大部分 MoE 研究。他们的 Switch Transformer 和 GLaM 模型扩展到了 1.6T 和 1.2T 参数。GLaM 匹配了 GPT-3 的性能,同时使用了仅仅三分之一的能量。Google 还将 MoE 应用于视觉(V-MoE)和多模态任务(LIMoE),这与他们的 Pathways 视觉为通用 AI 模型的愿景相符。
Microsoft 已经 将 MoE 集成到生产环境中,通过其 Z-Code 模型在 Microsoft Translator 中。他们还开发了 DeepSpeed-MoE,实现了大规模 MoE 模型的快速训练和低延迟推理。他们的贡献包括路由算法和用于高效 MoE 计算的 Tutel 库。
Meta 探索了 大规模语言模型和推荐系统中的 MoE。他们的 1.1T MoE 模型展示了它可以使用 4 倍较少的计算资源匹配密集模型的质量。虽然 LLaMA 模型是密集的,但 Meta 的 MoE 研究继续为更广泛的社区提供信息。
Amazon 通过其 SageMaker 平台和内部工作支持 MoE。他们促进了 Mistral 的 Mixtral 模型的训练,并据传正在像 Alexa AI 这样的服务中使用 MoE。AWS 文档积极推广 MoE 用于大规模模型训练。
Huawei 和 BAAI 在中国也开发了创纪录的 MoE 模型,如 PanGu-Σ (1.085T 参数)。这展示了 MoE 在语言和多模态任务中的潜力,并突出了其全球吸引力。
初创公司和挑战者
Mistral AI 是 MoE 创新的开源先驱。他们的 Mixtral 8×7B 和 8×22B 模型已经证明了 MoE 可以在运行成本仅为密集模型的一小部分的情况下超越像 LLaMA-2 70B 这样的模型。凭借超过 6 亿欧元的资金,Mistral 正在大举押注稀疏架构。
xAI 由埃隆·马斯克创立,据报道正在其 Grok 模型中 探索 MoE。虽然细节有限,但 MoE 为像 xAI 这样的初创公司提供了一种方法,使他们能够在不需要大量计算资源的情况下与更大的玩家竞争。
Databricks 通过其 MosaicML 收购,发布了 DBRX,一种为高效设计的开源 MoE 模型。他们还提供了 MoE 训练的基础设施和配方,降低了采用门槛。
其他参与者,如 Hugging Face,将 MoE 支持集成到他们的库中,使开发人员更容易在这些模型上构建。即使他们自己不构建 MoE,支持它们的平台对于生态系统也至关重要。
结论
Mixture-of-Experts 模型不仅仅是一种趋势——它们代表了构建和扩展 AI 系统的基本转变。通过仅激活网络的一部分,MoE 提供了大型模型的力量,而无需承担其高昂的成本。随着软件基础设施的成熟和路由算法的改进,MoE 有望成为多领域、多语言和多模态 AI 的默认架构。
无论您是研究人员、工程师还是投资者,MoE 都为我们提供了一个视角,展现了 AI 的未来——一个 AI 更加强大、效率更高、适应性更强的未来。












