Connect with us

人工智能

DeepSeek 如何以 560 万美元突破成本障碍

mm

传统的 AI 智慧表明,构建 大型语言模型 (LLM) 需要深厚的资金支持 – 通常需要数十亿美元的投资。但是,DeepSeek,一家中国 AI 初创公司,刚刚以他们最新的成就打破了这种模式:仅以 560 万美元开发出了一流的 AI 模型。

DeepSeek 的 V3 模型可以与行业巨头如 Google 的 GeminiOpenAI 的最新产品 相媲美,而使用的计算资源仅为传统的零头。这种成就引起了许多行业领袖的关注,尤其值得注意的是,尽管公司面临着美国的出口限制,限制了他们访问最新的 Nvidia芯片,他们仍然实现了这一成就。

高效 AI 的经济学

数字讲述了一个令人信服的高效故事。虽然大多数先进的 AI 模型需要在 16,000 到 100,000 个 GPU 之间进行训练,DeepSeek 只使用了 2,048 个 GPU 运行 57 天。该模型的训练消耗了 Nvidia H800 芯片上的 278 万个 GPU 小时 – 对于一个 6710 亿参数的模型来说,这个数字非常谦逊。

为了更好地理解这一点,Meta 需要大约 3080 万个 GPU 小时 – 大约是 DeepSeek 消耗的 11 倍 – 来训练其 Llama 3 模型,而且 Llama 3 的参数甚至只有 4050 亿。DeepSeek 的方法类似于在约束条件下的优化大师课。使用为中国市场设计的 H800 GPU – 这些芯片的能力被降低 – 公司将潜在的限制转化为创新。他们没有使用现成的解决方案来处理处理器通信,而是开发了自定义解决方案以最大限度地提高效率。

虽然竞争对手继续在假设大量投资是必要的前提下运作,DeepSeek 正在证明,聪明才智和高效的资源利用可以使竞争环境变得更加公平。

工程奇迹

DeepSeek 的成就在于其创新性的技术方法,展示了有时最有影响力的突破往往来自于在约束条件下工作,而不是将无限的资源投入到问题中。

这种创新背后的核心是一种叫做“辅助损失自由负载平衡”的策略。可以把它想象成编排一个大规模的并行处理系统,在传统上,你需要复杂的规则和惩罚来保持一切顺利运行。DeepSeek 颠覆了这种传统的智慧,开发出了一种自然保持平衡的系统,而无需传统方法的开销。

团队还开创了他们称之为“多令牌预测”(MTP)的技术 – 这使得模型可以预测多个令牌。实际上,这转化为在各种主题中预测的令人印象深刻的 85-90% 的接受率,实现了比以前的方法快 1.8 倍的处理速度。

技术架构本身就是高效的杰作。DeepSeek 的 V3 采用了 6710 亿参数的专家混合方法,但这里有一个巧妙的部分 – 它只为每个令牌激活 37 亿参数。这种选择性激活意味着他们获得了大型模型的好处,同时保持了实际的效率。

他们选择的 FP8 混合精度训练框架是另一个飞跃。他们没有接受降低精度的传统限制,而是开发了保持准确性同时显著降低内存和计算需求的自定义解决方案。

AI 生态系统中的涟漪效应

DeepSeek 成就的影响远远超出了单一成功模型的范畴。

对于欧洲的 AI 开发来说,这一突破尤其具有重要意义。许多先进的模型由于公司如 Meta 和 OpenAI 无法或不愿适应 EU AI 法案,因此无法进入欧盟。DeepSeek 的方法表明,构建尖端 AI 并不总是需要大量的 GPU 集群 – 更重要的是高效地使用现有的资源。

这种发展还展示了如何将出口限制转化为创新。DeepSeek 有限的高端硬件访问迫使他们跳出思维定势,结果是可能在资源丰富的环境中永远不会出现的软件优化。这一原则可能会重塑我们对全球 AI 开发的方法。

民主化的影响非常深远。虽然行业巨头继续烧钱,DeepSeek 创造了一个高效、成本有效的 AI 开发蓝图。这可能为之前由于资源限制而无法竞争的小型公司和研究机构打开大门。

然而,这并不意味着大规模计算基础设施变得过时。该行业正在转向扩大推理时间 – 模型生成答案所需的时间。随着这一趋势的继续,可能需要更多的计算资源,甚至可能会随着时间的推移而增加。

但 DeepSeek 从根本上改变了这场对话。长期影响是明确的:我们正在进入一个时代,在这个时代,创新思维和高效的资源利用可能比纯粹的计算能力更重要。对于 AI 社区来说,这意味着不仅要关注我们拥有的资源,还要关注我们如何创造性地和高效地利用它们。

Alex McFarland 是一名人工智能记者和作家,探索最新的人工智能发展。他曾与世界各地的众多人工智能初创公司和出版物合作。