Connect with us

人工智能

使用 WARM 推进人工智能与人类价值观的对齐

mm
Weight Averaged Reward Models LLM

人工智能系统与人类价值观的对齐

人工智能(AI)系统越来越能够帮助人类完成复杂的任务,从客户服务聊天机器人到医疗诊断算法。然而,随着这些 AI 系统承担更多的责任,确保它们与人类的价值观和偏好保持一致至关重要。实现这一目标的一种方法是通过一种称为强化学习从人类反馈(RLHF)的技术。在 RLHF 中,AI 系统(称为策略)根据人类对其行为的判断而受到奖励或惩罚。目标是使策略学会最大化其奖励,从而按照人类的偏好行事。

RLHF 的一个核心组件是奖励模型(RM)。RM 负责评估策略的行为和输出,并返回一个奖励信号来指导学习过程。设计一个好的 RM 是具有挑战性的,因为人类的偏好可能是复杂的、依赖于上下文的,甚至在个体之间不一致。最近,Google DeepMind 的研究人员提出了一个创新技术,称为加权平均奖励模型(WARM),以提高 RM 的设计。

奖励黑客的麻烦

RLHF 中的一个主要问题是奖励黑客。奖励黑客发生在策略找到漏洞来操纵 RM 系统以获得高奖励,而不实际满足预期的目标。例如,假设目标是训练一个写作助手 AI 生成高质量的摘要。RM 可能会奖励简洁和信息丰富的摘要。策略然后可以通过生成非常短、不具信息的摘要,并用关键词来欺骗 RM 来利用这一点。

奖励黑客发生的原因有两个:

  1. 分布转变 – RM是在一个有限的数据集上训练的,数据集包含人类标记的示例。当部署时,策略的输出可能来自RM不太适应的分布。
  2. 噪声标签 – 人类标记是不完美的,存在评估者之间的不同意见。RM可能会关注虚假信号,而不是质量的强烈指标。

奖励黑客会导致无用的系统,无法满足人类的期望。更糟糕的是,它可能会导致部署不当时产生偏见甚至危险的AI行为。

模型合并的崛起

模型合并策略(如Model Ratatouille)日益受到关注,这是因为人们意识到更大的模型虽然强大,但可能效率低下且不切实际。训练一个1万亿参数的模型需要大量的数据、计算、时间和成本。更重要的是,这样的模型往往过拟合到训练分布,损害了它们在多样化的现实世界场景中的泛化能力。

模型合并提供了一条替代路线,以便在不无限制地扩大规模的情况下解锁更大的能力。通过重用在不同分布、任务或目标上训练的多个专用模型,模型合并旨在提高多样性和分布外的鲁棒性。其前提是不同的模型捕获不同的预测模式,这些模式可以在合并时相互补充。

最近的结果表明了这一概念的潜力。通过合并获得的模型,尽管参数数量远少于巨型模型,但仍可以匹配或甚至超过像GPT-3这样的巨型模型的性能。例如,一个Model Ratatouille集合,只包含7个中型检查点,就可以在高维文本蕴涵数据集上达到最先进的准确率,超越GPT-3。

合并的简洁性是一个巨大的优势。训练多个辅助模型确实需要额外的资源。但是,推理时的计算仍然与单个模型相同,因为权重被压缩成一个。这使得该方法易于适应,不必担心增加延迟或内存成本。

模型合并的机制

但是,模型合并到底是什么使得准确率提高了?最近的分析提供了一些线索:

  • 减轻记忆化:每个模型在训练过程中看到数据集的不同随机批次。平均会消除任何实例特定的记忆化,只保留数据集级别的泛化。
  • 降低方差:独立训练的模型具有不相关的错误。合并它们会平均出噪声,提高校准。
  • 多样性正则化:不同的辅助任务迫使模型关注更具泛化性的特征,这些特征对多个分布都有用。
  • 提高鲁棒性:预测中的不一致性表明了不确定性。平均会缓和极端判断,提高可靠性。

本质上,模型合并会平衡个别模型的弱点,以放大它们的集体优势。合并的表示捕获了潜在的因果结构,忽略了偶然的变化。

这一概念基础将模型合并与其他流行的技术(如集成和多任务学习)联系起来。所有这些方法都利用模型或任务之间的多样性来获得多样性和不确定性感知的系统。然而,权重平均的简洁性为模型合并提供了一个独特的优势,以推进现实世界的部署。

加权平均奖励模型

使用WARM的对齐过程

使用WARM的对齐过程

WARM 创新地采用了一个代理奖励模型(RM),它是多个个别RM的加权平均,每个RM都从同一个预训练的LLM中微调,但具有不同的超参数。这种方法提高了效率、分布转变下的可靠性以及对不一致偏好的鲁棒性。研究还表明,使用WARM作为代理RM,特别是使用更多的平均RM,会提高结果并延迟“奖励黑客”的出现,这是一种控制奖励随时间恶化的现象。

以下是高级概述:

  1. 从一个预训练的语言模型开始,在一个大型语料库上预训练。通过在预训练模型上添加小的任务特定层来初始化多个RM。
  2. 使用不同的超参数(如学习率)对每个RM进行单独的微调,以实现多样性。
  3. 平均微调RM的权重以获得单个WARM集合。

关键的见解是,权重平均只保留了在所有多样化的RM中学习到的不变信息。这减少了对虚假信号的依赖,提高了鲁棒性。集合还从方差降低中受益,提高了分布转变下的可靠性。

如前所述,独立训练的模型之间的多样性对于解锁模型合并的全部潜力至关重要。但是,有哪些具体的技术可以促进多样性?

WARM论文探讨了一些可以更广泛推广的巧妙想法:

排序混洗

一个简单但有效的方法是混洗每个模型在训练过程中看到的数据点的顺序。即使是这一简单的步骤也会去相关化权重,减少模式的冗余记忆化。

超参数变化

调整每次运行的超参数(如学习率和dropout概率)会引入有用的多样性。模型以不同的方式收敛,捕获数据集的不同属性。

检查点平均 – 巴克拉瓦

Baklava方法从预训练轨迹沿线的不同快照中初始化模型以进行合并。这与模型汤(Model Soup)相比,后者要求一个共同的起点更加灵活。相对于模型拉塔图耶(Model Ratatouille),Baklava避免了额外的任务。总体而言,它在准确率和多样性之间取得了有效的平衡。

微调多个奖励模型

微调多个奖励模型

过程从预训练的大型语言模型(LLM)𝜃_𝑝𝑡开始。从这个模型中,各种检查点{𝜃_𝑠 𝑓 𝑡_𝑖}是在一次监督微调(SFT)运行中获得的,每个检查点都在SFT训练的不同步骤中收集。这些检查点然后用作在偏好数据集上微调多个奖励模型(RMs){𝜙𝑖}的初始化。这种微调旨在使模型更好地适应人类的偏好。微调后,这些RMs通过权重平均的过程合并,得到最终的模型𝜙_WARM。

分析确认,添加旧的检查点通过移动平均会损害个体性能,损害多样性的优点。仅平均每次运行的最终表示会表现更好。一般来说,平衡多样性目标与保持准确率仍然是一个开放的研究挑战。

总体而言,模型合并符合该领域的总体精神,即有效地重用现有资源以提高可靠性、效率和多样性。权重平均的简洁性巩固了其作为组装强大模型的首选候选者的地位,从现有的构建块中构建强大的模型。

与传统的集成方法不同,传统方法会平均预测,WARM通过保持单一权重集来最小化计算开销。实验表明WARM在文本摘要任务中的有效性:

  • 对于最佳N次采样,WARM在人工偏好标签中获得92.5%的胜率,超过随机选择。
  • 在RLHF中,WARM策略在相同步骤数后达到79.4%的胜率,超过用单个RM训练的策略。
  • WARM即使在四分之一的人类标签被破坏的情况下仍然表现良好。

这些结果表明WARM作为开发可靠的现实世界AI助手的实际技术的潜力。通过平滑人类反馈中的不一致性,WARM策略可以保持与人类价值观的鲁棒对齐,即使它们继续从新体验中学习。

更大的图景

WARM处于两个关键的AI对齐研究趋势的交叉点。首先是关于分布外(OOD)泛化的研究,旨在提高模型在新数据上的性能,这些数据与训练分布不同。其次是关于算法鲁棒性的研究,专注于在小输入扰动或噪声下保持可靠性。

通过在学习的不变性概念周围连接这些领域,WARM推动了更严格的技术以实现价值对齐。WARM的见解可以推广到RLHF之外,提供更广泛的机器学习系统与开放世界交互的经验。

当然,奖励建模只是对齐谜题的一部分。我们仍然需要在奖励规范、可扩展的监督、安全探索等其他挑战方面取得进展。与补充技术相结合,WARM可以加速开发有利于人类的AI。通过共同阐明支撑强大对齐的原理,研究人员正在绘制通往有益和道德AI的道路。

我过去五年一直沉浸在令人着迷的机器学习和深度学习世界中。我的热情和专业知识使我能够为超过50个不同的软件工程项目做出贡献,特别注重人工智能/机器学习。我的持续好奇心也使我对自然语言处理产生了兴趣,这是一个我渴望进一步探索的领域。