人工智能

谷歌使用 SLM 作为教师,使 AI 训练速度提高 28%

mm

训练 大型语言模型 (LLM) 已经成为大多数组织无法达到的目标。随着成本达到数百万美元,计算要求甚至让超级计算机也感到吃力,AI 开发一直被锁在科技巨头的门后。但谷歌刚刚通过一种简单的方法颠覆了这种状况:使用较小的 AI 模型作为教师。

SALT 的工作原理:一种新的训练 AI 模型的方法

在最近的一篇研究论文中,题为 “一点帮助可以走很远:通过利用小型 LLM 实现高效的 LLM 训练“,谷歌研究院和 DeepMind 介绍了 SALT (小型模型辅助大型模型训练)。这是挑战我们传统的 LLM 训练方法的新方法。

为什么这项研究如此重要?目前,训练大型 AI 模型就像试图一次性教会某人所有关于某个主题的知识 – 这种方法效率低下,昂贵,并且通常只限于拥有大量计算资源的组织。SALT 采取了不同的方法,引入了一个两阶段的训练过程,这既创新又实用。

分解 SALT 的工作原理:

第一阶段:知识蒸馏

  • 一个 较小的语言模型 (SLM) 作为教师,分享其理解与更大的模型
  • 较小的模型专注于通过所谓的 “软标签” 转移其 “学习知识”
  • 可以把它想象成一个教学助手处理基础概念,然后学生转向高级主题
  • 这一阶段特别适用于 “容易” 的学习区域 – 较小的模型具有强大的预测置信度的区域

第二阶段:自监督学习

  • 大型模型转向独立学习
  • 它专注于掌握复杂的模式和具有挑战性的任务
  • 这是模型发展超出其较小的 “教师” 能力的地方
  • 阶段之间的转换使用了精心设计的策略,包括线性衰减和线性比衰减的蒸馏损失权重

在非技术术语中,想象较小的 AI 模型就像一个有用的导师,它在训练的早期阶段指导较大的模型。这位导师提供额外的信息以及他们的答案,表明他们对每个答案有多么自信。这种额外的信息,称为 “软标签”,有助于较大的模型更快、更有效地学习。

现在,当较大的 AI 模型变得更加强大时,它需要从依赖导师转变为独立学习。这就是 “线性衰减” 和 “线性比衰减” 发挥作用的地方。
可以把这些技术想象成逐渐减少导师的影响力:
  • 线性衰减:就像慢慢地调低导师的声音。导师的指导变得不那么突出,允许较大的模型更专注于从原始数据本身学习。
  • 线性比衰减:这就像调整导师建议和实际任务之间的平衡。随着训练的进展,重点转向原始任务,而导师的输入变得不那么占主导地位。
两种技术的目标都是确保较大的 AI 模型平稳过渡,防止其学习行为发生任何突然的变化。

结果令人信服。当谷歌研究人员使用 1.5 亿参数的 SLM 训练 2.8 亿参数的 LLM 时,他们在 Pile 数据集上看到了:

  • 与传统方法相比,训练时间减少了 28%
  • 微调后性能显著提高:
    • 数学问题的准确率提高到 34.87% (相比基准值 31.84%)
    • 阅读理解的准确率提高到 67% (相比 63.7%)

但使 SALT真正创新的是其理论框架。研究人员发现,即使是 “较弱” 的教师模型也可以通过实现 “有利的偏差-方差权衡” 来增强学生的性能。简单来说,较小的模型帮助较大的模型更高效地学习基本模式,创建了更强大的高级学习基础。

为什么 SALT 可能会改变 AI 开发格局

记得当云计算改变了谁可以创办科技公司吗?SALT 可能会对 AI 开发产生同样的影响。

我已经跟踪 AI 训练创新多年了,大多数突破主要惠及科技巨头。但 SALT 不同。

这可能对未来意味着什么:

对于资源有限的组织:

  • 您可能不再需要大量的计算基础设施来开发有能力的 AI 模型
  • 较小的研究实验室和公司可以尝试自定义模型开发
  • 28% 的训练时间减少直接转化为降低计算成本
  • 更重要的是,您可以从谦逊的计算资源开始,仍然可以实现专业的结果

对于 AI 开发格局:

  • 更多玩家可以进入这个领域,导致更多样化和专业的 AI 解决方案
  • 大学和研究机构可以使用现有的资源进行更多实验
  • 进入 AI 研究的门槛大大降低
  • 我们可能会看到以前无法承担 AI 开发的领域的新应用

这对未来意味着什么

通过使用小型模型作为教师,我们不仅使 AI 训练更加高效,我们还从根本上改变了谁可以参与 AI 开发。其影响远远超出了技术改进。

需要记住的关键点:

  • 28% 的训练时间减少是开始一个 AI 项目或认为它超出范围之间的区别
  • 性能改进 (34.87% 的数学问题,67% 的阅读任务) 表明,易用性并不总是意味着牺牲质量
  • SALT 的方法证明,有时最好的解决方案来自于重新思考基础,而不是简单地添加更多的计算能力

需要关注的内容:

  1. 关注较小的组织开始开发自定义 AI 模型
  2. 关注以前无法承担 AI 开发的领域的新应用
  3. 关注较小的模型被用于专门任务的创新

记住: SALT 的真正价值在于它可能改变谁可以在 AI 领域创新。无论您是运行研究实验室、管理技术团队,还是只是对 AI 开发感兴趣,这种突破可能会使您的下一个大想法成为可能。

也许可以开始思考您曾经认为超出范围的 AI 项目。它可能比您想象的更有可能实现。

Alex McFarland 是一名人工智能记者和作家,探索最新的人工智能发展。他曾与世界各地的众多人工智能初创公司和出版物合作。