人工智能
谷歌利用 SLM 作为老师,让 AI 训练速度提高 28%

培训 大型语言模型 (LLM) 已经成为大多数组织无法企及的领域。由于成本高达数百万美元,计算要求也让超级计算机汗流浃背,人工智能开发仍被科技巨头们牢牢控制。但谷歌却用一种非常简单的方法颠覆了这个故事,这让你不禁想知道为什么没有人早点想到它:使用较小的人工智能模型作为老师。
SALT 的工作原理:一种训练 AI 模型的新方法
在最近一篇题为“一点帮助就能产生很大的作用:利用小型 LM 实现高效的 LLM 培训,“Google Research 和 DeepMind 引入了 SALT(小模型辅助大模型训练)。这是挑战我们训练 LLM 的传统方法的新方法。
为什么这项研究意义重大?目前,训练大型人工智能模型就像试图一次性教会一个人关于某一主题的所有知识——这种方法效率低下、成本高昂,而且通常仅限于拥有大量计算资源的组织。SALT 采取了不同的方式,引入了既创新又实用的两阶段训练过程。
详细分析SALT的实际工作原理:
第一阶段:知识提炼
- A 较小的语言模型(SLM) 充当老师,与更大的模型分享其理解
- 较小的模型专注于通过研究人员所称的“软标签”来转移其“学习到的知识”
- 可以将其想象为一名助教,在学生学习高级主题之前讲解基础概念
- 这一阶段在“容易”的学习领域尤其有效——在这些领域,较小的模型具有很强的预测信心
2阶段: 自监督学习
- 大型模型过渡到独立学习
- 它侧重于掌握复杂的模式和具有挑战性的任务
- 这时,模型就会发展出比其小“老师”所能提供的能力
- 阶段之间的过渡采用精心设计的策略,包括蒸馏损失重量的线性衰减和线性比率衰减
用非技术术语来说,我想象一下,较小的 AI 模型就像一位乐于助人的导师,在训练的初始阶段指导较大的模型。这位导师除了提供答案外,还会提供额外的信息,表明他们对每个答案的信心程度。这些额外的信息被称为“软标签”,可帮助较大的模型更快、更有效地学习。
- 线性衰减: 这就像是慢慢调低导师的声音。导师的指导作用每一步都会变得不那么突出,从而让更大的模型更专注于从原始数据本身进行学习。
- 线性比率衰减: 这就像在导师的建议和实际任务之间进行平衡调整。随着训练的进展,重点会更多地转向原来的任务,而导师的投入会变得不那么占主导地位。
结果令人信服。当谷歌研究人员使用 1.5 亿个参数的 SLM 测试 SALT 来训练 2.8 亿个参数的 LLM 时, 桩数据集,他们看到:
- 与传统方法相比,训练时间减少 28%
- 微调后性能显著提升:
- 数学问题准确率跃升至 34.87%(相比基线 31.84%)
- 阅读理解准确率达到 67%(高于 63.7%)
但真正让 SALT 具有创新性的是其理论框架。研究人员发现,即使是“较弱”的教师模型也可以通过实现所谓的“有利的偏差-方差权衡”来提高学生的表现。简而言之,较小的模型可以帮助较大的模型更有效地学习基本模式,为高级学习奠定更坚实的基础。
为什么SALT可以重塑AI开发环境
还记得云计算改变了谁可以创办科技公司吗?SALT 可能也会对 AI 开发产生同样的影响。
多年来,我一直在关注人工智能训练创新,大多数突破主要惠及科技巨头。但 SALT 却不同。
这对未来可能意味着什么:
对于资源有限的组织:
- 你可能不再需要大规模的计算基础设施来开发强大的 AI 模型
- 小型研究实验室和公司可以尝试定制模型开发
- 训练时间减少 28% 直接意味着计算成本降低
- 更重要的是,您可以从适度的计算资源开始,并仍能获得专业的结果
对于人工智能发展前景:
- 更多参与者将进入该领域,带来更加多样化和专业化的人工智能解决方案
- 大学和研究机构可以利用现有资源开展更多实验
- 人工智能研究的进入门槛大幅下降
- 我们可能会在以前无法承担人工智能开发的领域看到新的应用
这对未来意味着什么?
通过使用小型模型作为老师,我们不仅让人工智能训练更加高效,还从根本上改变了谁可以参与人工智能开发。其影响远远超出了技术改进。
要记住的关键要点:
- 训练时间减少 28% 是启动 AI 项目与将其视为遥不可及的区别
- 成绩的提高(数学提高 34.87%,阅读提高 67%)表明,无障碍并不总是意味着质量的妥协
- SALT 的方法证明,有时最好的解决方案来自于重新思考基本原理,而不仅仅是增加更多的计算能力
值得关注的是:
- 关注开始开发定制 AI 模型的小型组织
- 关注以前无法承担人工智能开发的领域的新应用
- 寻找如何利用小型模型完成专门任务的创新
记得: SALT 的真正价值在于它可能会重塑谁能成为 AI 领域的创新者。无论您是运营研究实验室、管理技术团队,还是仅仅对 AI 开发感兴趣,这种突破都可能让您的下一个伟大创意成为现实。
也许可以开始思考你认为遥不可及的 AI 项目。它可能比你想象的更有可能实现。