存根 MPT-30B:MosaicML 凭借新的 LLM 超越 GPT-3,突破 NLP 的界限 - Unite.AI
关注我们.

人工智能

MPT-30B:MosaicML 凭借新的 LLM 超越 GPT-3,突破 NLP 的界限

mm

发布时间

 on

特色博客图片-MPT-30B:MosaicML 通过新的 LLM 超越 GPT-3,突破语言模型的界限

马赛克ML 是一个 生成式人工智能 提供人工智能部署和可扩展性解决方案的公司。 他们最新的大语言模型(LLM) MPT-30B 正在人工智能界掀起波澜。

MosaicML 的 LLM 之旅始于发布 MPT-7B (Mosaic Pretrained Transformer)于 2023 年 XNUMX 月发布,具有三个变体:

  1. MPT-7B-StoryWriter-65k+(用于长篇故事生成)
  2. MPT-7B-Instruct(用于以下简短指令)
  3. MPT-7B-Chat(用于生成对话)

这些模型因其开源性质、商业可用性以及处理扩展上下文窗口的卓越能力而在机器学习社区取得了巨大成功。

最重要的是,该模型处于同等水平,并且在某些情况下优于其他类似模型(拉马-7B, 稳定LM 7B, ETC)。 截至7月,MPT-3B系列下载量已超过22万次。 XNUMX月XNUMX日,MosaicML发布 MPT-30B 这进一步提高了开源基础模型的门槛。

MPT-30B:超越 GPT-3 的强大 LLM

MPT-30B是一个开源且商业许可的基于解码器的LLM,比 GPT-3-175B 仅具有 GPT-17 参数的 3%,即 30B。 它在多项任务上都优于 GPT-3。 这是 MPT-30B 和 GPT-3 之间的比较。

MPT-30B 是在之前的 MPT-7B 型号的基础上构建的。 与具有相似大小的模型相比,训练的计算效率更高。 例如,LLaMA-30B 使用的 FLOPs 预算大约是 MPT-1.44B 的 30 倍,而 Falcon-40B 的 FLOPs 预算是 MPT-1.27B 的 30 倍。 以下是 MPT-30B 相对于其前身在各种任务上的改进的说明。

MPT-30B的一些特点如下:

8k 令牌上下文窗口

LLM 中的上下文窗口是指模型在生成输出之前可以考虑的标记范围。 MPT-30B 在训练时有一个包含 8000 个标记的上下文窗口。 首先使用 1k 令牌序列对 2T 令牌进行训练,然后使用 50k 令牌序列的额外 8B 令牌进行训练(大约 6000字).

阿里币支持

为了解释这个特性,我们先考虑一个问题:

MPT-30B 如何理解并预测比训练时更长的序列?

MPT-30B采用 具有线性偏差的注意力 (ALiBi) 理解更长序列并在微调或推理期间将上下文窗口扩展到超过 8k 标记的技术。

ALiBi 不是计算位置嵌入(即为序列中的每个单词分配一个向量),而是计算键和查询标记之间的注意力分数。 当密钥和查询令牌靠近时,惩罚较低,但否则较高。 结果,底层 变压器架构 可以推断出长格式输入。

通过 FlashAttention 实现高效的推理和训练性能

注意力,即关注输入序列的相关部分,是 Transformer 的关键组成部分,但它可能很慢并且占用大量内存,特别是在处理长文本序列时。

闪光灯 康奈尔大学研究人员提出的一种方法可以解决 MPT-30B 的这个问题。 FlashAttention 使用一种称为平铺的技术,减少了模型需要读取或写入内存的次数,从而加快了处理速度。 因此,该模型采用了最先进的 FlashAttention 技术和 NVIDIA 更快的变形金刚 用于高效训练和推理的优化库。

易于培训和部署

开发人员可以从头开始训练 MPT-30B 或使用 MosaicML 的检查点来加快部署速度。 此外,它还可以针对特定数据集上的特定领域用例进行微调。

选择该模型的大小是为了能够在单个 GPU 上轻松部署,特别是 1 位精度的 100xA80-16GB 或 1 位精度的 100xA40-8GB。 这意味着该模型的设计符合这些 GPU 的内存限制。

编码能力

MPT-30B 还提供卓越的编码功能。 人类评估 是 OpenAI 发布的数据集,包含 164 个手工编程问题。 在 HumanEval 数据集上,该模型超越了专门构建的 LLM 模型,例如 星码器 系列。

微调变体:MPT-30B-Instruct 和 MPT-30B-Chat

MPT-30B-指令

LLM 主要用于问答、文本摘要、语言翻译等指令。MPT-30B-Instruct 是 MPT-3.0B 的商业可用(维护商业 CC-By-SA-30 许可证)变体,专门针对指导以下任务。 为了进行微调,使用了以下数据集:

  1. 水果馅饼
  2. P3
  3. 羊驼
  4. 多莉-15k

Dolly 数据集进一步增强 Anthropic 的有益无害数据集 用于指令微调。 此外,还使用了多种数据集进行数据增强,如下所示:

  1. 竞赛数学
  2. 小学数学
  3. 对话和
  4. 杜奥RC
  5. 卡斯帕
  6. 质量
  7. 汇总筛选
  8. 蜘蛛

MPT-30B-聊天

MPT-30B-Chat 是用于对话生成的 MPT-30B 的微调版本。 它是根据 CC-By-NC-SA-4.0 许可证发布的研究工件,仅允许非商业用途。 该模型使用各种语言数据集进行了微调,包括:

  1. 爱洛波洛斯/GPT4-1.2
  2. 白泽
  3. 骆驼
  4. GP老师
  5. 原驼
  6. 长谈
  7. 分享GPT
  8. 向导LM

LLM 共享很大一部分 数十亿美元 去年 ChatGPT 彻底改变了格局后,生成式 AI 市场立即经历了巨大的增长。 MPT 系列是这场革命的基础部分。 在不久的将来,我们可以期待看到比 MPT 系列更强大、更高效的商用开源模型。

有关最新的人工智能新闻,请访问 团结.ai.