谷歌使用 SLM 作为教师，使 AI 训练速度提高 28%

发布于 2025年1月6日

更新于 2026年5月20日

作者

Alex McFarland

训练大型语言模型 (LLM) 已经成为大多数组织无法达到的目标。随着成本达到数百万美元，计算要求甚至让超级计算机也感到吃力，AI 开发一直被锁在科技巨头的门后。但谷歌刚刚通过一种简单的方法颠覆了这种状况：使用较小的 AI 模型作为教师。

SALT 的工作原理：一种新的训练 AI 模型的方法

在最近的一篇研究论文中，题为 “一点帮助可以走很远：通过利用小型 LLM 实现高效的 LLM 训练“，谷歌研究院和 DeepMind 介绍了 SALT (小型模型辅助大型模型训练)。这是挑战我们传统的 LLM 训练方法的新方法。

为什么这项研究如此重要？目前，训练大型 AI 模型就像试图一次性教会某人所有关于某个主题的知识 – 这种方法效率低下，昂贵，并且通常只限于拥有大量计算资源的组织。SALT 采取了不同的方法，引入了一个两阶段的训练过程，这既创新又实用。

第一阶段：知识蒸馏

第二阶段：自监督学习

在非技术术语中，想象较小的 AI 模型就像一个有用的导师，它在训练的早期阶段指导较大的模型。这位导师提供额外的信息以及他们的答案，表明他们对每个答案有多么自信。这种额外的信息，称为 “软标签”，有助于较大的模型更快、更有效地学习。

现在，当较大的 AI 模型变得更加强大时，它需要从依赖导师转变为独立学习。这就是 “线性衰减” 和 “线性比衰减” 发挥作用的地方。

可以把这些技术想象成逐渐减少导师的影响力：

两种技术的目标都是确保较大的 AI 模型平稳过渡，防止其学习行为发生任何突然的变化。

结果令人信服。当谷歌研究人员使用 1.5 亿参数的 SLM 训练 2.8 亿参数的 LLM 时，他们在 Pile 数据集上看到了：

但使 SALT真正创新的是其理论框架。研究人员发现，即使是 “较弱” 的教师模型也可以通过实现 “有利的偏差-方差权衡” 来增强学生的性能。简单来说，较小的模型帮助较大的模型更高效地学习基本模式，创建了更强大的高级学习基础。

记得当云计算改变了谁可以创办科技公司吗？SALT 可能会对 AI 开发产生同样的影响。

我已经跟踪 AI 训练创新多年了，大多数突破主要惠及科技巨头。但 SALT 不同。

对于资源有限的组织：

对于 AI 开发格局：

通过使用小型模型作为教师，我们不仅使 AI 训练更加高效，我们还从根本上改变了谁可以参与 AI 开发。其影响远远超出了技术改进。

需要记住的关键点：

需要关注的内容：

记住： SALT 的真正价值在于它可能改变谁可以在 AI 领域创新。无论您是运行研究实验室、管理技术团队，还是只是对 AI 开发感兴趣，这种突破可能会使您的下一个大想法成为可能。

也许可以开始思考您曾经认为超出范围的 AI 项目。它可能比您想象的更有可能实现。

Alex McFarland

Alex McFarland 是一名人工智能记者和作家，探索最新的人工智能发展。他曾与世界各地的众多人工智能初创公司和出版物合作。