人工智能

Snowflake Arctic：企业人工智能的前沿法学硕士

发布时间

2星期前

2024 年 4 月 25 日

当今的企业越来越多地探索利用大型语言模型 (LLM) 来提高生产力和创建智能应用程序的方法。然而，许多可用的法学硕士选项都是通用模型，并非针对数据分析、编码和任务自动化等特殊企业需求而定制。进入北极雪花 – 专为核心企业用例设计和优化的最先进的法学硕士。

Arctic 由 Snowflake 的人工智能研究团队开发，通过高效的培训、成本效益和无与伦比的开放性突破了可能的界限。这种革命性的模型在关键企业基准测试中表现出色，同时与现有法学硕士相比所需的计算能力要少得多。让我们深入探讨是什么让 Arctic 成为企业人工智能的游戏规则改变者。

重新定义企业智能从本质上讲，Arctic 专注于在对企业真正重要的指标上提供卓越的性能 - 编码、SQL 查询、复杂的指令遵循以及生成脚踏实地、基于事实的输出。 Snowflake 将这些关键功能组合成一部小说“企业智能” 度量。

结果不言自明。 Arctic 在企业智能基准方面达到或优于 LLAMA 7B 和 LLAMA 70B 等模型，同时使用的计算预算不到一半。值得注意的是，尽管利用 计算资源比 LLAMA 17B 少 70 倍，Arctic 在编码（HumanEval+、MBPP+）、SQL 生成（Spider）和指令跟踪（IFEval）等专业测试上实现了同等水平。

但 Arctic 的实力不仅仅体现在企业基准上。与使用 DBRX 等指数级更高计算预算训练的模型相比，它在一般语言理解、推理和数学能力方面保持了强大的性能。这种整体能力使 Arctic 成为满足企业多样化人工智能需求的无与伦比的选择。

创新

Dense-MoE 混合变压器那么 Snowflake 团队是如何构建如此强大且高效的法学硕士的呢？答案在于 Arctic 尖端的密集专家混合 (MoE) 混合变压器架构。

传统的密集变压器模型随着其规模的增长而训练成本越来越高，计算需求也呈线性增长。 MoE 设计通过利用多个并行前馈网络（专家）并仅激活每个输入令牌的子集来帮助规避此问题。

然而，仅仅使用 MoE 架构是不够的——Arctic 巧妙地结合了密集组件和 MoE 组件的优势。它将 10 亿参数密集变压器编码器与 128 个专家残差 MoE 多层感知器 (MLP) 层配对。这种密集 MoE 混合模型总共有 480 亿个参数，但使用 top-17 门控在任何给定时间只有 2 亿个参数处于活动状态。

其影响是深远的——Arctic 实现了前所未有的模型质量和容量，同时在训练和推理过程中保持显着的计算效率。例如，Arctic 在推理过程中的活动参数比 DBRX 等模型少 50%。

但模型架构只是故事的一部分。 Arctic 的卓越性能是 Snowflake 研究团队开发的多项开创性技术和见解的结晶：

以企业为中心的培训数据课程通过广泛的实验，团队发现应该尽早学习常识推理等通用技能，而编码和 SQL 等更复杂的专业技能最好在培训过程的后期获得。 Arctic 的数据课程遵循模仿人类学习进程的三阶段方法。

第一个 teratokens 专注于建立广泛的基础。接下来的 1.5 个 teratoken 专注于通过针对 SQL、编码任务等定制的数据来开发企业技能。最终的 teratokens 使用精细的数据集进一步完善了 Arctic 的专业化。

最佳架构选择虽然 MoE 承诺每次计算的质量更高，但选择正确的配置至关重要，但人们对此知之甚少。通过详细的研究，Snowflake 确定了一个雇用 128 名专家的架构，在评估质量效率权衡后，对每一层进行 top-2 门控。

增加专家数量可以提供更多组合，从而增强模型容量。然而，这也增加了沟通成本，因此Snowflake选择了128名精心设计的“浓缩”专家，通过top-2门控激活作为最佳平衡。

系统协同设计但是，即使是最佳的模型架构也可能会受到系统瓶颈的破坏。因此，Snowflake 团队也在这方面进行了创新——与底层训练和推理系统携手共同设计模型架构。

为了高效训练，密集和 MoE 组件的结构可以实现重叠的通信和计算，隐藏大量的通信开销。在推理方面，该团队利用 NVIDIA 的创新技术，尽管 Arctic 规模庞大，仍可实现高效部署。

FP8 量化等技术允许在单个 GPU 节点上拟合完整模型以进行交互式推理。较大的批次可以利用 Arctic 跨多个节点的并行能力，同时由于其紧凑的 17B 活动参数而保持令人印象深刻的计算效率。

凭借 Apache 2.0 许可证，Arctic 的权重和代码可不受限制地用于任何个人、研究或商业用途。但 Snowflake 走得更远，开源了其完整的数据配方、模型实现、技巧以及为北极提供动力的深入研究见解。

“”北极食谱”是一个全面的知识库，涵盖了构建和优化像 Arctic 这样的大型 MoE 模型的各个方面。它提炼了数据源、模型架构设计、系统协同设计、优化训练/推理方案等方面的关键知识。

从确定最佳数据课程到构建 MoE，同时共同优化编译器、调度程序和硬件，这些广泛的知识体系使以前仅限于精英人工智能实验室的技能民主化。《Arctic Cookbook》加快了学习曲线，使全球企业、研究人员和开发人员能够为几乎任何用例创建自己的经济高效、量身定制的法学硕士。

北极入门

对于热衷于利用 Arctic 的公司，Snowflake 提供了多种快速入门途径：

无服务器推理：Snowflake 客户可以在该公司的完全托管人工智能平台 Snowflake Cortex 上免费访问 Arctic 模型。除此之外，Arctic 可用于所有主要型号目录，例如 AWS、Microsoft Azure、NVIDIA 等。

从头开始：开源模型权重和实现允许开发人员直接将 Arctic 集成到他们的应用程序和服务中。 Arctic 存储库提供代码示例、部署教程、微调方法等。

构建自定义模型：借助 Arctic Cookbook 的详尽指南，开发人员可以利用 Arctic 开发的经验从头开始构建自己的自定义 MoE 模型，并针对任何专门用例进行优化。

开放企业 AI 的新时代 Arctic 不仅仅是另一种强大的语言模型，它预示着专为企业构建的开放、经济高效和专业的 AI 功能的新时代。

从彻底改变数据分析和编码效率，到推动任务自动化和更智能的应用程序，Arctic 的企业优先 DNA 使其成为普通法学硕士无可比拟的选择。通过开源模型以及其背后的整个研发流程，Snowflake 正在培育一种协作文化，从而提升整个人工智能生态系统。

随着企业越来越多地采用生成式人工智能，Arctic 提供了一个大胆的蓝图，用于开发客观上更适合生产工作负载和企业环境的模型。它将尖端研究、无与伦比的效率和坚定的开放精神融为一体，为人工智能变革潜力的民主化树立了新的基准。

以下部分包含有关如何使用 Snowflake Arctic 模型的代码示例：

亲身体验北极

现在我们已经介绍了 Arctic 真正具有开创性的因素，接下来让我们深入探讨开发人员和数据科学家如何开始将这个强大的模型投入使用。
Arctic 开箱即用，可以预先训练并准备好通过 Hugging Face 等主要模型中心和合作伙伴人工智能平台进行部署。但当针对您的特定用例对其进行定制和微调时，它的真正威力就会显现出来。

Arctic 的 Apache 2.0 许可证提供了将其集成到您的应用程序、服务或自定义 AI 工作流程中的完全自由。让我们通过一些使用 Transformers 库的代码示例来帮助您入门：
与北极的基本推论

对于快速文本生成用例，我们可以加载 Arctic 并非常轻松地运行基本推理：

from transformers import AutoTokenizer, AutoModelForCausalLM
# Load the tokenizer and model
tokenizer = AutoTokenizer.from_pretrained("Snowflake/snowflake-arctic-instruct")
model = AutoModelForCausalLM.from_pretrained("Snowflake/snowflake-arctic-instruct")
# Create a simple input and generate text
input_text = "Here is a basic question: What is the capital of France?"
input_ids = tokenizer.encode(input_text, return_tensors="pt")
# Generate response with Arctic
output = model.generate(input_ids, max_length=150, do_sample=True, top_k=50, top_p=0.95, num_return_sequences=1)
generated_text = tokenizer.decode(output[0], skip_special_tokens=True)
print(generated_text)

这应该输出类似：

“法国的首都是巴黎。巴黎是法国最大的城市，也是全国经济、政治、文化中心。它是埃菲尔铁塔、卢浮宫博物馆和巴黎圣母院等著名地标的所在地。”

正如您所看到的，Arctic 可以无缝理解查询，并利用其强大的语言理解能力提供详细、扎实的响应。

针对特殊任务进行微调

开箱即用的 Arctic 令人印象深刻，但当针对专门任务针对您的专有数据进行定制和微调时，Arctic 才真正大放异彩。 Snowflake 提供了广泛的食谱，涵盖：

整理适合您的用例的高质量培训数据
实施定制的多阶段培训课程
利用高效的 LoRA、P-Tuning 或 FactorizedFusion 微调方法
针对敏锐的 SQL、编码或其他关键企业技能进行优化

以下是如何使用 LoRA 和 Snowflake 的配方在您自己的编码数据集上微调 Arctic 的示例：

from transformers import AutoModelForCausalLM, AutoTokenizer
from peft import LoraConfig, get_peft_model, prepare_model_for_int8_training
# Load base Arctic model
tokenizer = AutoTokenizer.from_pretrained("Snowflake/snowflake-arctic-instruct")
model = AutoModelForCausalLM.from_pretrained("Snowflake/snowflake-arctic-instruct", load_in_8bit=True)
# Initialize LoRA configs
lora_config = LoraConfig(
r=8,
lora_alpha=16,
target_modules=["query_key_value"],
lora_dropout=0.05,
bias="none",
task_type="CAUSAL_LM"
)
# Prepare model for LoRA finetuning
model = prepare_model_for_int8_training(model)
model = get_peft_model(model, lora_config)
# Your coding datasets
data = load_coding_datasets()
# Fine-tune with Snowflake's recipes
train(model, data, ...)

此代码说明了如何轻松加载 Arctic、初始化为代码生成量身定制的 LoRA 配置，然后利用 Snowflake 的指导在您的专有编码数据集上微调模型。

经过定制和微调，Arctic 成为一个私人动力源，可以为您的核心企业工作流程和利益相关者的需求提供无与伦比的性能。