人工智能

MPT-30B：MosaicML 超越 GPT-3 推出新型大型语言模型，拓展 NLP 边界

Published July 5, 2023

Updated April 28, 2026

Haziqa Sajid

Featured Blog Image-MPT-30B: MosaicML Outshines GPT-3 With A New LLM To Push The Boundaries of Language Models

MosaicML 是一家提供 AI 部署和扩展解决方案的生成式 AI 公司。他们最新的大型语言模型（LLM） MPT-30B 正在 AI 社区内引起轰动。

MosaicML 的 LLM 之旅始于 2023 年 5 月发布的 MPT-7B（Mosaic 预训练变换器），它有三个变体：

MPT-7B-StoryWriter-65k+（用于长篇故事生成）
MPT-7B-Instruct（用于短篇指令跟随）
MPT-7B-Chat（用于对话生成）

这些模型在 ML 社区中获得了巨大的成功，这得益于它们的开源性、商业可用性和处理扩展上下文窗口的卓越能力。

最重要的是，该模型在某些情况下与其他可比模型（如 LLaMA-7B、StableLM 7B 等）不相上下，甚至超越了它们。到 6 月，MPT-7B 系列已经被下载超过 300 万次。6 月 22 日，MosaicML 发布了 MPT-30B，这进一步提高了开源基础模型的标准。

MPT-30B：一个比 GPT-3 更强大的 LLM

MPT-30B 是一个开源和商业授权的基于解码器的 LLM，它比 GPT-3-175B 更强大，仅使用了 GPT-3 参数的 17%，即 30B。它在多个任务中超越了 GPT-3。以下是 MPT-30B 和 GPT-3 的比较。

来源

MPT-30B 建立在之前的 MPT-7B 模型之上。与同等规模的模型相比，它的训练计算效率更高。例如，LLaMA-30B 使用的 FLOPs 预算约为 MPT-30B 的 1.44 倍，而 Falcon-40B 的 FLOPs 预算比 MPT-30B 高出 1.27 倍。以下是 MPT-30B 在各项任务中相对于其前身的改进情况。

The MPT-30B：一个比 GPT-3 更强大的 LLM-MPT-30B-MPT-7B-Comparison

来源

MPT-30B 的一些特殊功能如下：

8k Token 上下文窗口

LLM 中的上下文窗口是指模型在生成输出之前可以考虑的令牌范围。MPT-30B 在训练时有 8000 个令牌的上下文窗口。它首先使用 1T 令牌和 2k 令牌序列进行训练，然后使用额外的 50B 令牌和 8k 令牌序列（大约 6000 个字）。

ALiBi 支持

为了解释这个功能，让我们考虑一个问题：

MPT-30B 如何理解和预测比其训练数据更长的序列？

MPT-30B 使用带线性偏差的注意力（ALiBi）技术来理解更长的序列，并在微调或推理期间将上下文窗口扩展到 8k 令牌之外。

与其计算位置嵌入（即为序列中的每个单词分配一个向量），ALiBi 计算键和查询令牌之间的注意力分数。当键和查询令牌相邻时，惩罚较低，否则惩罚较高。因此，底层变换器架构可以外推到长输入序列。

通过 FlashAttention 实现高效推理和训练性能

注意力，即关注输入序列的相关部分，是变换器的关键组件，但它可能很慢且占用大量内存，尤其是在处理长文本序列时。

FlashAttention 是康奈尔大学研究人员提出的解决 MPT-30B 中这个问题的方法。使用称为 tiling 的技术，FlashAttention 减少了模型需要从内存中读取或写入的次数，从而加快了处理速度。因此，该模型采用了最先进的 FlashAttention 技术和 NVIDIA 的 FasterTransformer 优化库，以实现高效的训练和推理。

易于训练和部署

开发人员可以从头开始训练 MPT-30B，也可以使用 MosaicML 的检查点以实现更快速的部署。此外，它可以针对特定数据集进行微调以适应特定领域的用例。

模型的大小是为了能够在单个 GPU 上轻松部署而选择的，特别是 1xA100-80GB（16 位精度）或 1xA100-40GB（8 位精度）。这意味着该模型的设计是为了适应这些 GPU 的内存限制。

编码能力

MPT-30B 还具有出色的编码能力。 HumanEval 是 OpenAI 发布的一个包含 164 个手工制作的编程问题的数据集。在 HumanEval 数据集上，该模型超越了专用 LLM 模型，例如 StarCoder 系列。

来源

微调变体：MPT-30B-Instruct 和 MPT-30B-Chat

MPT-30B-Instruct

LLM 主要用于指令，如问答、文本摘要、语言翻译等。MPT-30B-Instruct 是 MPT-30B 的一个商业可用（保持商业 CC-By-SA-3.0 许可）的变体，专门针对指令跟随任务进行微调。用于微调的数据集如下：

FLAN
P3
Alpaca
Dolly-15k

Dolly 数据集进一步使用 Anthropic 的 Helpful 和 Harmless 数据集进行指令微调。此外，用于数据增强的数据集包括：

CompetitionMath
GradeSchoolMath
DialogSum
DuoRC
QASPER
QuALITY
SummScreen
Spider

MPT-30B-Chat

MPT-30B-Chat 是 MPT-30B 的一个针对对话生成进行微调的版本。它是一个在 CC-By-NC-SA-4.0 许可下发布的研究成果，仅允许非商业用途。该模型使用了多个语言数据集进行微调，包括：

Airoboros/GPT4-1.2
Baize
Camel
GPTeacher
Guanaco
LongCoversations
ShareGPT
WizardLM

LLM 占据了多亿美元的生成式 AI 市场的大部分份额，该市场在去年 ChatGPT 革新了该领域后迅速增长。MPT 系列是这一革命的基础部分。在不久的将来，我们可以期待看到更强大、更高效的商业可用开源模型。

有关最新的 AI 新闻，请访问 unite.ai。