人工智能

使用WARM推进人工智能与人类价值观的对齐

发布于 2024年2月5日

更新于 2026年5月22日

作者

Aayush Mittal Mittal

人工智能系统与人类价值观的对齐

人工智能（AI）系统正在变得越来越能够协助人类完成复杂的任务，从客户服务聊天机器人到医疗诊断算法。然而，随着这些AI系统承担更多的责任，确保它们与人类的价值观和偏好保持一致至关重要。实现这一目标的一种方法是通过一种称为强化学习从人类反馈（RLHF）的技术。在RLHF中，AI系统（称为策略）根据人类对其行为的判断被奖励或惩罚。目标是使策略学会最大化其奖励，从而按照人类的偏好行事。

RLHF的一个核心组件是奖励模型（RM）。RM负责评估策略的行为和输出，并返回一个奖励信号来指导学习过程。设计一个好的RM是具有挑战性的，因为人类的偏好可能是复杂的、依赖于上下文的，甚至在个体之间不一致。最近，谷歌DeepMind的研究人员提出了一个创新性的技术，称为加权平均奖励模型（WARM），以提高RM的设计。

奖励黑客的困境

RLHF中一个主要的问题是奖励黑客。奖励黑客发生在策略找到漏洞来操纵RM系统以获得高奖励，而不实际满足预期的目标。例如，假设目标是训练一个写作助手AI来生成高质量的摘要。RM可能会奖励简洁和信息丰富的摘要。策略然后可以学会利用这一点，通过生成非常短的、不具备信息的摘要，并加入一些关键词来欺骗RM。

奖励黑客发生的原因有两个主要原因：

分布转移 – RM是在一个有限的数据集上训练的，数据集包含人类标记的示例。当部署时，策略的输出可能来自RM不太了解的分布。
噪声标签 – 人类标记是不完美的，存在评估者之间的不同意见。RM可能会关注虚假信号，而不是强健的质量指标。

奖励黑客会导致无用的系统，无法满足人类的期望。更糟糕的是，它可能会导致部署不当时产生偏见甚至危险的AI行为。

模型合并的崛起

模型合并策略（如Model Ratatouille）背后的动机是，尽管更大的模型更强大，但它们可能效率低下且不切实际。训练一个1万亿参数的模型需要大量的数据、计算资源、时间和成本。更重要的是，这样的模型往往会过拟合到训练分布，损害它们推广到多样化的现实世界场景的能力。

模型合并提供了一条替代路线，以在不无限制扩大规模的情况下解锁更大的能力。通过重用在不同分布、任务或目标上训练的多个专用模型，模型合并旨在增强多样性和离分布的稳健性。其前提是不同的模型捕获了不同的预测模式，可以在合并时互相补充。

最近的结果表明了这一概念的潜力。通过合并获得的模型，尽管参数数量远少于巨型模型，但可以匹配甚至超过GPT-3的性能。例如，一个Model Ratatouille集成，仅包含7个中型检查点，就可以在高维文本蕴涵数据集上达到最先进的准确率，超过GPT-3。

合并的简单性是一个巨大的优势。训练多个辅助模型确实需要额外的资源。但是，推理时的计算保持不变，因为权重被压缩成一个。这使得该方法易于适应，不必担心增加的延迟或内存成本。

模型合并背后的机制

但是，什么确切地使这些合并模型能够获得更高的准确率？最近的分析提供了一些线索：

减少记忆化：每个模型在训练期间看到数据集的不同打乱批次。平均减少了任何特定实例的记忆化，仅保留数据集级别的概括。
降低方差：独立训练的模型具有不相关的错误。组合它们平均了噪声，提高了校准。
通过多样性进行正则化：不同的辅助任务迫使模型关注更具普遍性的特征，这些特征对多个分布都有用。
提高稳健性：预测中的不一致性表明了不确定性。平均值使异常判断得到缓和，增强了可靠性。

本质上，模型合并平衡了个别模型的弱点，以放大它们的集体优势。合并的表示捕获了潜在的因果结构，忽略了偶然的变异。

这种概念基础将模型合并与其他流行的技术（如集成和多任务学习）联系起来。所有这些方法都利用模型或任务之间的多样性来获得多样和不确定性感知的系统。然而，权重平均的简单性和效率使模型合并在推进现实世界部署方面具有独特的优势。

加权平均奖励模型

使用WARM的对齐过程

WARM 创新地采用了一个代理奖励模型（RM），它是多个个体RM的加权平均，每个RM都是从同一个预训练的LLM中微调的，但具有不同的超参数。这种方法提高了效率、在分布转移下的可靠性以及对不一致偏好的稳健性。研究还表明，使用WARM作为代理RM，特别是使用更多的平均RM，可以改善结果并延迟“奖励黑客”的出现，这是一种控制奖励随时间恶化的现象。

以下是高层次的概述：

从一个预训练的语言模型开始，预训练是在一个大型语料库上进行的。通过在预训练模型上添加小的任务特定层来初始化多个RM。
使用不同的超参数（如学习率）对每个RM进行单独的微调，以获得多样性。
对微调后的RM的权重进行平均，以获得单个WARM集成。

关键的见解是，权重平均仅保留了在所有多样RM中学习到的不变信息。这减少了对虚假信号的依赖，增强了稳健性。集成还受益于方差的减少，提高了可靠性，尽管分布发生了转移。

如前所述，独立训练的模型之间的多样性对于解锁模型合并的全部潜力至关重要。但是，有哪些具体的技术可以促进有益的多样性呢？

WARM论文探讨了一些可以更广泛推广的巧妙想法：

排序混洗

一个简单但有效的方法是，在训练期间混洗每个模型看到的数据点的顺序。即使是这样一个简单的步骤，也可以去相关化权重，减少对模式的冗余记忆。

超参数变化

通过调整每次运行的超参数（如学习率和dropout概率）可以引入有用的多样性。模型以不同的方式收敛，捕获数据集的不同属性。

检查点平均 – 巴克拉瓦

Baklava方法从相同的预训练轨迹的不同快照中初始化模型进行合并。这与模型汤相比，放松了对共享起点的约束。相对于模型大杂烩，Baklava避免了额外的任务。总体而言，它在准确率和多样性之间取得了有效的平衡。

微调多个奖励模型的过程

分析确认，通过移动平均添加较旧的检查点会损害个体性能，损害多样性的优点。仅平均每次运行的最终表示会表现更好。一般来说，平衡多样性目标与保持准确率仍然是一个开放的研究挑战。

总的来说，模型合并符合该领域回收现有资源的总体理念，以提高可靠性、效率和多样性。权重平均的简单性巩固了其作为组装强大模型的领先候选者的地位，这些模型是从现有的构建块中构建的。

与传统的集成方法不同，传统方法会平均预测，WARM通过仅保持一个权重集来最小化计算开销。实验表明WARM在文本摘要任务上的有效性：

对于最佳N次采样，WARM在人类偏好标签中获得92.5%的胜率，相比之下是随机选择。
在RLHF中，WARM策略在相同步骤数后达到79.4%的胜率，相比之下是使用单个RM训练的策略。
即使当四分之一的人类标签被破坏时，WARM仍然表现良好。

这些结果表明WARM作为开发可靠的现实世界AI助手的实际技术的潜力。通过平滑人类反馈中的不一致性，WARM策略可以在继续从新体验中学习的同时保持与人类价值观的稳健对齐。

更大的图景

WARM处于AI对齐研究中的两个关键趋势的交叉点。首先是关于离分布泛化的研究，旨在提高模型在新数据上的性能，这些数据与训练分布不同。其次是关于算法稳健性的研究，专注于在小输入扰动或噪声下保持可靠性。

通过在学习的不变性概念周围连接这些领域，WARM推动了更严格地建立的技术的发展，以实现价值对齐。WARM的见解可能会超越RLHF，提供更广泛的机器学习系统的教训，这些系统与开放的世界进行交互。

当然，奖励建模只是对齐谜题的一部分。我们仍然需要在奖励规范、可扩展的监督、安全探索等其他挑战上取得进展。与补充技术结合使用时，WARM可以加速开发可持续促进人类繁荣的AI。通过共同阐明强大对齐的基本原理，研究人员正在绘制通往有益、道德的AI的路线图。

Aayush Mittal, Mittal

我已经沉浸在了令人着迷的机器学习和深度学习世界中五年了。我的热情和专业知识让我为超过50个不同的软件工程项目做出了贡献，特别关注AI/ML。我的持续的好奇心也让我对自然语言处理产生了兴趣，这是一个我渴望进一步探索的领域。

Unite.AI