人工智能

重新思考 AI 开发中的扩展规律

Published November 17, 2024

Updated April 27, 2026

Alex McFarland

作为开发人员和研究人员不断推动大型语言模型（LLM）的性能边界，关于效率的问题变得非常重要。直到最近，人们的关注点都集中在增加模型的大小和训练数据的体积上，对数字精度——计算过程中使用的位数——关注甚少。

哈佛、斯坦福和其他机构的研究人员最近进行的一项研究颠覆了这种传统的观点。他们的发现表明，精度在优化模型性能方面比以前承认的更为重要。这一启示对 AI 的未来具有深远的影响，为指导模型开发的扩展规律引入了一个新维度。

精度聚焦

AI 中的数字精度是指计算过程中使用的位数，通常以位为单位衡量。例如，16 位精度比 8 位精度能够更细致地表示数字，但需要更多的计算能力。虽然这看起来像是技术细节，但精度直接影响 AI 模型的效率和性能。

这项名为 精度扩展规律 的研究深入探讨了精度与模型性能之间常被忽视的关系。通过进行超过 465 次训练运行，研究人员测试了不同精度的模型，精度范围从 3 位到 16 位。这些模型包含多达 17 亿参数，训练数据多达 260 亿个 token。

结果显示出明显的趋势：精度不仅仅是一个背景变量，它基本上决定了模型的性能如何。特别是，过度训练的模型——那些训练数据远多于其大小的最佳比例的模型——当它们被施加量化时，对性能下降非常敏感，量化是一种在训练后降低精度的过程。这种敏感性凸显了在为实际应用设计模型时所需的关键平衡。

新兴扩展规律

这项研究的主要贡献之一是引入了新的扩展规律，这些规律在传统变量（如参数数量和训练数据）之外考虑了精度。这些规律为确定在模型训练期间最有效地分配计算资源提供了一个路线图。

研究人员发现，对于大规模模型，7-8 位的精度范围通常是最佳的。这在计算效率和性能之间取得了平衡，挑战了默认使用 16 位精度的常见做法，这通常会浪费资源。相反，使用太少的位数（例如 4 位精度）需要不成比例地增加模型大小以保持可比的性能。

这项研究还强调了依赖上下文的策略。虽然 7-8 位适合大型、灵活的模型，但固定大小的模型（如 LLaMA 3.1）在处理大量数据集时会从更高的精度水平中受益。这些发现是理解精度缩放中的权衡的一个重大进步。

挑战和实际影响

虽然这项研究为 AI 扩展中的精度重要性提供了令人信服的证据，但其应用面临实际障碍。一个关键限制是硬件兼容性。低精度训练的潜在节省只有在硬件能够支持时才有效。现代 GPU 和 TPU 优化为 16 位精度，对于更高效的 7-8 位范围支持有限。直到硬件跟上，研究结果的益处可能会对许多开发人员来说难以实现。

另一个挑战在于过度训练和量化所带来的风险。正如研究结果所示，过度训练的模型在量化时对性能下降特别敏感。这给研究人员带来了一个困境：虽然大量的训练数据通常是一种福气，但它可能无意中加剧低精度模型中的错误。实现正确的平衡将需要仔细校准数据量、参数大小和精度。

尽管存在这些挑战，研究结果为完善 AI 开发实践提供了一个明确的机会。通过将精度作为核心考虑因素，研究人员可以优化计算预算并避免资源的浪费，从而为更可持续、更高效的 AI 系统铺平道路。

AI 扩展的未来

研究结果还标志着 AI 研究轨迹的更广泛转变。多年来，该领域一直被“越大越好”的思维方式所主导，专注于越来越大的模型和数据集。但随着低精度方法（如 8 位训练）带来的效率收益接近极限，这种无限扩展的时代可能即将结束。

卡内基梅隆大学的 AI 研究人员 Tim Dettmers 将这项研究视为一个转折点。“结果明确表明，我们已经达到量化的实际极限，”他解释道。Dettmers 预测，人们将从通用扩展转向更有针对性的方法，例如为特定任务和人类中心应用设计的专用模型，这些应用优先考虑可用性和可访问性，而不是原始计算能力。

这种转变与 AI 领域更广泛的趋势相一致，在这些趋势中，伦理考虑和资源限制越来越多地影响开发优先事项。随着该领域的成熟，重点可能会转向创建不仅性能良好，而且能够无缝集成到人类工作流程中并有效解决实际需求的模型。