人工智能

DBRX 内部：Databricks 释放强大的开源 LLM

更新 on 2024 年 4 月 16 日

在快速发展的大语言模型（LLM）领域，出现了一种新的强大模型——DBRX， Databricks 创建的开源模型。该法学硕士以其在各种基准测试中最先进的表现而引起轰动，甚至可以与 OpenAI 的 GPT-4 等行业巨头的能力相媲美。

DBRX 代表了人工智能民主化的一个重要里程碑，为研究人员、开发人员和企业提供了对顶级语言模型的开放访问。但 DBRX 到底是什么？它有何特别之处？在本次技术深入探讨中，我们将探索创新架构、培训流程和关键功能，这些功能将 DBRX 推向了开放式 LLM 领域的前沿。

DBRX 的诞生 DBRX 的创建是由 Databricks 的使命推动的，即让所有企业都能访问数据智能。作为数据分析平台的领导者，Databricks 认识到法学硕士的巨大潜力，并着手开发一种可以匹配甚至超越专有产品性能的模型。

经过数月的深入研究、开发和数百万美元的投资，Databricks 团队在 DBRX 上取得了突破。该模型在包括语言理解、编程和数学在内的广泛基准测试中的令人印象深刻的表现，牢固地确立了其作为开放式法学硕士的最新技术水平。

创新架构

专家混合的力量 DBRX 卓越性能的核心在于其创新的专家混合 (MoE) 架构。这种前沿的设计代表了与传统密集模型的背离，采用稀疏方法，提高了预训练效率和推理速度。

在 MoE 框架中，只有一组选定的组件（称为“专家”）针对每个输入被激活。这种专业化使模型能够更熟练地处理更广泛的任务，同时还优化计算资源。

DBRX 凭借其细粒度的 MoE 架构进一步深化了这一概念。与其他一些使用较少数量较大专家的 MoE 模型不同，DBRX 雇用了 16 名专家，其中 65 名专家活跃于任何给定的输入。这种设计提供了惊人的 XNUMX 倍可能的专家组合，直接促成了 DBRX 的卓越性能。

DBRX 凭借多项创新功能脱颖而出：

旋转位置编码 (RoPE)： 增强对标记位置的理解，这对于生成上下文准确的文本至关重要。
门控线性单元 (GLU)： 引入门控机制，增强模型更有效地学习复杂模式的能力。
分组查询注意力（GQA）： 通过优化注意力机制提高模型效率。
高级标记化： 利用 GPT-4 的标记器更有效地处理输入。

MoE 架构特别适合大规模语言模型，因为它允许更有效的扩展和更好地利用计算资源。通过将学习过程分布在多个专门的子网络上，DBRX 可以有效地为每个任务分配数据和计算能力，确保高质量的输出和最佳的效率。

广泛的训练数据和高效的优化虽然DBRX的架构无疑令人印象深刻，但其真正的威力在于细致的训练过程和所接触的海量数据。 DBRX 经过了令人震惊的 12 万亿代币文本和代码数据的预训练，这些数据经过精心策划，以确保高质量和多样性。

训练数据是使用 Databricks 的工具套件进行处理的，包括用于数据处理的 Apache Spark、用于数据管理和治理的 Unity Catalog 以及用于实验跟踪的 MLflow。这个全面的工具集使 Databricks 团队能够有效地管理、探索和细化海量数据集，为 DBRX 的卓越性能奠定了基础。

为了进一步增强模型的能力，Databricks 采用了动态预训练课程，创新性地在训练期间改变数据组合。该策略允许使用 36 亿个活跃参数有效地处理每个代币，从而形成更全面、适应性更强的模型。

此外，DBRX 的培训过程还利用 Databricks 的专有工具和库套件（包括 Composer、LLM Foundry、MegaBlocks 和 Streaming）进行了效率优化。通过采用课程学习和优化策略等技术，该团队的计算效率比之前的模型提高了近四倍。

培训和架构

DBRX 在包含 12 万亿代币的庞大数据集上使用下一个代币预测模型进行训练，强调文本和代码。该训练集被认为比之前模型中使用的训练集更加有效，确保了对各种提示的丰富理解和响应能力。

DBRX的架构不仅证明了Databricks的技术实力，也凸显了其在多个领域的应用。从增强聊天机器人交互到支持复杂的数据分析任务，DBRX 可以集成到需要细致入微的语言理解的不同领域。

值得注意的是，DBRX Instruct 甚至可以与市场上一些最先进的封闭型号相媲美。根据 Databricks 的测量，它超越了 GPT-3.5，并且在常识、常识推理、编程和数学推理等各种基准测试中与 Gemini 1.0 Pro 和 Mistral Medium 具有竞争力。

例如，在衡量语言理解的 MMLU 基准测试中，DBRX Instruct 获得了 73.7% 的分数，超过了 GPT-3.5 报告的 70.0% 的分数。在 HellaSwag 常识推理基准测试中，DBRX Instruct 获得了令人印象深刻的 89.0%，超过了 GPT-3.5 的 85.5%。

DBRX Instruct 确实表现出色，在 HumanEval 基准测试中达到了 70.1% 的惊人准确率，不仅优于 GPT-3.5 (48.1%)，而且优于专门的 CodeLLaMA-70B Instruct 模型 (67.8%)。

这些出色的结果凸显了 DBRX 的多功能性及其在各种任务（从自然语言理解到复杂编程和数学问题解决）中表现出色的能力。

高效推理和可扩展性 DBRX MoE 架构的主要优势之一是推理过程中的效率。由于参数的稀疏激活，DBRX 的推理吞吐量比具有相同总参数数的密集模型快两到三倍。

与流行的开源 LLM LLaMA2-70B 相比，DBRX 不仅表现出更高的质量，而且推理速度几乎提高了一倍，尽管其活动参数数量大约只有 LLaMAXNUMX-XNUMXB 的一半。这种效率使 DBRX 成为从内容创建到数据分析等各种应用程序中部署的有吸引力的选择。

此外，Databricks 还开发了一个强大的训练堆栈，允许企业从头开始训练自己的 DBRX 级模型或在提供的检查点之上继续训练。这一功能使企业能够充分利用 DBRX 的潜力，并根据其特定需求进行定制，进一步实现尖端 LLM 技术的普及。

Databricks 开发的 DBRX 模型标志着机器学习领域的重大进步，特别是通过利用开源社区的创新工具。这一开发之旅受到两项关键技术的显着影响：MegaBlocks 库和 PyTorch 的完全分片数据并行 (FSDP) 系统。

MegaBlocks：提高教育部效率

超级块该库解决了与专家混合 (MoE) 层中的动态路由相关的挑战，这是扩展神经网络的常见障碍。传统框架通常会施加限制，从而降低模型效率或损害模型质量。然而，MegaBlocks 通过块稀疏操作重新定义了 MoE 计算，这些操作巧妙地管理 MoE 内的内在动态，从而避免了这些妥协。

这种方法不仅保留了令牌的完整性，而且与现代 GPU 功能很好地结合在一起，与传统方法相比，训练时间缩短了 40%。这种效率对于 DBRX 等模型的训练至关重要，这些模型严重依赖先进的 MoE 架构来有效管理其广泛的参数集。

PyTorch FSDP：扩展大型模型

PyTorch 的完全分片数据并行 (FSDP) 提供了一种强大的解决方案，通过优化跨多个计算设备的参数分片和分布来训练超大型模型。 FSDP 与关键 PyTorch 组件共同设计，可无缝集成，提供类似于本地训练设置的直观用户体验，但规模更大。

FSDP 的设计巧妙地解决了几个关键问题：

用户体验：尽管后端流程复杂，但它简化了用户界面，使其更易于更广泛的使用。
硬件异构性：适应不同的硬件环境，有效优化资源利用。
资源利用和内存规划：FSDP 增强了计算资源的使用，同时最大限度地减少了内存开销，这对于训练以 DBRX 规模运行的模型至关重要。

FSDP 不仅支持比以前在分布式数据并行框架下可能的模型更大的模型，而且在吞吐量和效率方面保持近线性的可扩展性。事实证明，这一功能对于 Databricks 的 DBRX 至关重要，使其能够跨多个 GPU 进行扩展，同时有效管理大量参数。

可访问性和集成

为了履行促进 AI 开放获取的使命，Databricks 已通过多种渠道提供 DBRX。基本模型 (DBRX Base) 和微调模型 (DBRX Instruct) 的权重都托管在流行的 Hugging Face 平台上，允许研究人员和开发人员轻松下载和使用模型。

此外，该 DBRX 模型存储库可在 GitHub 上获取，提供透明度并支持进一步探索和自定义模型代码。

对于 Databricks 客户来说，DBRX Base 和 DBRX Instruct 可通过 Databricks Foundation Model API 方便地访问，从而能够无缝集成到现有工作流程和应用程序中。这不仅简化了部署过程，还确保了敏感用例的数据治理和安全性。

此外，DBRX 已经集成到多个第三方平台和服务中，例如 You.com 和 Perplexity Labs，扩大了其覆盖范围和潜在应用。这些集成表明人们对 DBRX 及其功能的兴趣日益浓厚，以及开放式法学硕士在各个行业和用例中的采用率越来越高。

长上下文功能和检索增强生成 DBRX 的突出功能之一是其处理长上下文输入的能力，最大上下文长度为 32,768 个令牌。此功能允许模型根据广泛的上下文信息处理和生成文本，使其非常适合文档摘要、问答和信息检索等任务。

在评估长上下文性能的基准中，例如 KV-Pairs 和 HotpotQAXL，DBRX Instruct 在各种序列长度和上下文位置上都优于 GPT-3.5 Turbo。

DBRX 在语言理解 (MMLU)、编程 (HumanEval) 和数学 (GSM8K) 方面优于已建立的开源模型。

局限性和未来的工作

虽然 DBRX 代表了开放式法学硕士领域的一项重大成就，但必须承认其局限性和未来需要改进的领域。与任何人工智能模型一样，DBRX 可能会产生不准确或有偏差的响应，具体取决于其训练数据的质量和多样性。

此外，虽然 DBRX 擅长通用任务，但某些特定领域的应用程序可能需要进一步微调或专门培训才能实现最佳性能。例如，在准确性和保真度至关重要的场景中，Databricks 建议使用检索增强生成 (RAG) 技术来增强模型的输出。

此外，DBRX 当前的训练数据集主要由英语内容组成，这可能会限制其在非英语任务上的性能。该模型的未来迭代可能涉及扩展训练数据以包含更多样化的语言和文化背景。

Databricks 致力于不断增强 DBRX 的功能并解决其局限性。未来的工作将侧重于提高模型在各种应用程序和用例中的性能、可扩展性和可用性，以及探索减少潜在偏差和促进道德人工智能使用的技术。

此外，该公司计划进一步完善培训流程，利用联邦学习和隐私保护方法等先进技术来确保数据隐私和安全。

前方的路

DBRX 代表了人工智能开发民主化的重要一步。它设想了一个未来，每个企业都有能力在新兴的生成人工智能世界中控制自己的数据和命运。

通过开源 DBRX 并提供对用于构建它的相同工具和基础设施的访问，Databricks 使企业和研究人员能够根据自己的特定需求开发自己的尖端 Databricks。

通过 Databricks 平台，客户可以利用该公司的数据处理工具套件（包括 Apache Spark、Unity Catalog 和 MLflow）来策划和管理他们的训练数据。然后，他们可以利用 Databricks 的优化训练库（例如 Composer、LLM Foundry、MegaBlocks 和 Streaming）来高效、大规模地训练自己的 DBRX 级模型。

人工智能开发的民主化有可能开启新一波创新浪潮，因为企业能够利用大型语言模型的力量来实现从内容创建、数据分析到决策支持等广泛的应用。

此外，通过围绕 DBRX 培育开放协作的生态系统，Databricks 旨在加快大型语言模型领域的研发步伐。随着越来越多的组织和个人贡献他们的专业知识和见解，对这些强大的人工智能系统的集体知识和理解将继续增长，为未来更先进、更强大的模型铺平道路。