人工智能

MPT-30B：MosaicML 凭借新的 LLM 超越 GPT-3，突破 NLP 的界限

发布时间

10个月前

2023 年 7 月 5 日

哈兹卡·萨吉德

特色博客图片-MPT-30B：MosaicML 通过新的 LLM 超越 GPT-3，突破语言模型的界限

马赛克ML 是一个生成式人工智能提供人工智能部署和可扩展性解决方案的公司。他们最新的大语言模型（LLM） MPT-30B 正在人工智能界掀起波澜。

MosaicML 的 LLM 之旅始于发布 MPT-7B （Mosaic Pretrained Transformer）于 2023 年 XNUMX 月发布，具有三个变体：

MPT-7B-StoryWriter-65k+（用于长篇故事生成）
MPT-7B-Instruct（用于以下简短指令）
MPT-7B-Chat（用于生成对话）

这些模型因其开源性质、商业可用性以及处理扩展上下文窗口的卓越能力而在机器学习社区取得了巨大成功。

最重要的是，该模型处于同等水平，并且在某些情况下优于其他类似模型（拉马-7B, 稳定LM 7B， ETC）。截至7月，MPT-3B系列下载量已超过22万次。 XNUMX月XNUMX日，MosaicML发布 MPT-30B 这进一步提高了开源基础模型的门槛。

MPT-30B：超越 GPT-3 的强大 LLM

MPT-30B是一个开源且商业许可的基于解码器的LLM，比 GPT-3-175B 仅具有 GPT-17 参数的 3%，即 30B。它在多项任务上都优于 GPT-3。这是 MPT-30B 和 GPT-3 之间的比较。

来源

MPT-30B 是在之前的 MPT-7B 型号的基础上构建的。与具有相似大小的模型相比，训练的计算效率更高。例如，LLaMA-30B 使用的 FLOPs 预算大约是 MPT-1.44B 的 30 倍，而 Falcon-40B 的 FLOPs 预算是 MPT-1.27B 的 30 倍。以下是 MPT-30B 相对于其前身在各种任务上的改进的说明。

MPT-30B：超越 GPT-3-MPT-30B-MPT-7B 比较的强大法学硕士

来源

MPT-30B的一些特点如下：

8k 令牌上下文窗口

LLM 中的上下文窗口是指模型在生成输出之前可以考虑的标记范围。 MPT-30B 在训练时有一个包含 8000 个标记的上下文窗口。首先使用 1k 令牌序列对 2T 令牌进行训练，然后使用 50k 令牌序列的额外 8B 令牌进行训练（大约 6000字).

阿里币支持

为了解释这个特性，我们先考虑一个问题：

MPT-30B 如何理解并预测比训练时更长的序列？

MPT-30B采用具有线性偏差的注意力 (ALiBi) 理解更长序列并在微调或推理期间将上下文窗口扩展到超过 8k 标记的技术。

ALiBi 不是计算位置嵌入（即为序列中的每个单词分配一个向量），而是计算键和查询标记之间的注意力分数。当密钥和查询令牌靠近时，惩罚较低，但否则较高。结果，底层变压器架构可以推断出长格式输入。

通过 FlashAttention 实现高效的推理和训练性能

注意力，即关注输入序列的相关部分，是 Transformer 的关键组成部分，但它可能很慢并且占用大量内存，特别是在处理长文本序列时。

闪光灯康奈尔大学研究人员提出的一种方法可以解决 MPT-30B 的这个问题。 FlashAttention 使用一种称为平铺的技术，减少了模型需要读取或写入内存的次数，从而加快了处理速度。因此，该模型采用了最先进的 FlashAttention 技术和 NVIDIA 更快的变形金刚用于高效训练和推理的优化库。