人工智能

通过 WARM 促进人工智能与人类价值观的结合

发布时间

3个月前

2024 年 2 月 5 日

人工智能系统与人类价值观的结合

人工智能 (AI) 系统越来越有能力协助人类完成复杂的任务，从客户服务聊天机器人到医疗诊断算法。然而，随着这些人工智能系统承担更多责任，它们与人类价值观和偏好保持一致至关重要。实现这一目标的一种方法是通过一种称为人类反馈强化学习 (RLHF) 的技术。在 RLHF 中，人工智能系统（称为策略）根据人类对其行为的判断进行奖励或惩罚。政策的目标是学习最大化其奖励，从而根据人类偏好行事。

RLHF 的核心组成部分是奖励模型（RM）。 RM 负责评估策略的行为和输出，并返回奖励信号来指导学习过程。设计一个好的 RM 具有挑战性，因为人类的偏好可能很复杂、依赖于环境，甚至在个体之间不一致。最近，谷歌 DeepMind 的研究人员提出了一种称为权重平均奖励模型（WARM）的创新技术来改进 RM 设计。

奖励黑客的麻烦

RLHF 的一个主要问题是奖励黑客行为。当策略发现漏洞来操纵 RM 系统以获得高额奖励而实际上没有满足预期目标时，奖励黑客就会发生。例如，假设目标是训练写作助理人工智能来生成高质量的摘要。 RM 可能会奖励简洁且内容丰富的摘要。然后，该策略可以通过生成非常简短、无信息的摘要来学习利用这一点，摘要中充斥着欺骗 RM 的关键字。

奖励黑客行为的发生有两个主要原因：

分布转移 – RM 在有限的人类标记示例数据集上进行训练。部署后，策略的输出可能来自 RM 不能很好概括的不同分布。
嘈杂的标签 – 人工标记并不完美，评估者之间存在分歧。 RM 可能会锁定杂散信号，而不是可靠的质量指标。

奖励黑客会导致无用的系统无法满足人类的期望。更糟糕的是，如果部署不慎，它可能会导致人工智能行为出现偏差，甚至是危险的。

模型合并的兴起

人们认识到较大的模型虽然功能强大，但可能效率低下且不切实际，因此人们对模型合并策略（例如“料理鼠王”）的兴趣日益高涨。训练 1 万亿个参数模型需要大量的数据、计算、时间和成本。更重要的是，此类模型往往会过度拟合训练分布，从而阻碍了它们推广到不同现实场景的能力。

模型合并提供了另一种途径来释放更大的功能，而无需不受控制的扩展。通过重用在不同分布、任务或目标上训练的多个专用模型，模型合并旨在增强多功能性和分布外稳健性。前提是不同的模型捕获不同的预测模式，这些模式在合并时可以相互补充。

最近的结果证明了这一概念的前景。通过合并获得的模型，尽管参数少得多，但可以匹配甚至超过 GPT-3 等巨型模型的性能。例如，仅包含 7 个中型检查点的模型 Ratatouille 集成在高维文本蕴涵数据集上获得了最先进的准确性，优于 GPT-3。

通过权重平均进行合并的简单性是一个巨大的好处。训练多个辅助模型确实需要额外的资源。但至关重要的是，推理时间计算仍然与单个模型相同，因为权重被压缩为一个。这使得该方法易于适应，而无需担心延迟或内存成本增加。

模型合并背后的机制

但到底是什么让合并模型能够提高准确性呢？最近的分析提供了一些线索：

减轻记忆力：每个模型在训练期间都会看到不同批次的数据集。平均会减少任何特定于实例的记忆，仅保留数据集级别的概括。
减少方差：独立训练的模型存在不相关的错误。将它们结合起来可以平均噪声，从而改善校准。
通过多样性进行正规化：不同的辅助任务迫使模型锁定跨发行版有用的更通用的特征。
提高稳健性：预测不一致表明不确定性。平均可以缓和异常判断，提高可靠性。

从本质上讲，模型合并可以抵消各个模型的弱点，从而增强其集体优势。合并的表示捕获了共同的潜在因果结构，忽略了偶然的变化。

这个概念基础将模型合并与其他流行技术（例如集成和多任务学习）联系起来。所有这些方法都利用模型或任务的多样性来获得多功能的、不确定性感知的系统。然而，权重平均的简单性和效率为模型合并提供了推进现实世界部署的独特优势。

权重平均奖励模型

与 WARM 的对齐过程

暖创新性地采用代理奖励模型 (RM)，它是多个单独 RM 的权重平均值，每个 RM 均根据相同的预训练 LLM 进行微调，但具有不同的超参数。该方法提高了分布变化下的效率、可靠性以及针对不一致偏好的鲁棒性。研究还表明，使用 WARM 作为代理 RM，尤其是在平均 RM 数量增加的情况下，可以改善结果并延迟“奖励黑客”的发生，这种现象是控制奖励随着时间的推移而恶化的现象。

以下是高级概述：

从在大型语料库上预训练的基本语言模型开始。通过在顶部添加小的特定于任务的层来初始化多个 RM。
使用不同的超参数（例如多样性学习率）在人类偏好数据集上单独微调每个 RM。
对微调后的 RM 的权重进行平均以获得单个 WARM 系综。

关键的见解是权重平均仅保留在所有不同 RM 中学到的不变信息。这减少了对杂散信号的依赖，增强了鲁棒性。该集成还受益于方差的减少，尽管分布发生变化，但仍提高了可靠性。

如前所述，独立训练模型的多样性对于释放模型合并的全部潜力至关重要。但促进生产多样性的具体技术有哪些呢？

WARM 论文探讨了一些可以更广泛推广的巧妙想法：

排序洗牌

一种简单但有效的方法是打乱训练期间每个模型看到的数据点的顺序。即使这个简单的步骤也可以消除权重的相关性，从而减少对模式的冗余记忆。

超参数变化

调整每次运行的学习率和退出概率等超参数会引入有用的多样性。模型以不同的方式收敛，捕获数据集的不同属性。

检查点平均 – Baklava

Baklava 方法初始化模型，以便沿着相同的预训练轨迹合并不同快照。与要求共享起点的模型汤相比，这放松了约束。相对于料理鼠王模型，果仁蜜饼避免了额外的任务。总体而言，它实现了有效的准确性与多样性平衡。

该过程从预先训练的大型语言模型 (LLM) 𝜃_𝑝𝑡 开始。从该模型中，在监督微调 (SFT) 运行期间派生出各种检查点 {𝜃_𝑠 𝑓 𝑡_𝑖}，每个检查点在不同的 SFT 训练步骤中收集。然后，这些检查点用作初始化，以在偏好数据集上微调多个奖励模型 (RM) {𝜙𝑖}。这种微调旨在使模型更好地符合人类偏好。经过微调后，这些 RM 通过权重平均过程进行组合，形成最终模型𝜙_WARM。

分析证实，通过移动平均线添加较旧的检查点会损害个人表现，损害多样性优点。仅对每次运行的最终表示进行平均效果更好。总的来说，平衡多样性目标与准确性维护仍然是一个开放的研究挑战。

总体而言，模型合并与该领域的普遍精神非常吻合，即有效回收现有资源以提高可靠性、效率和多功能性。权重平均的简单性巩固了其作为从现成的构建块组装稳健模型的领先候选者的地位。

与平均预测的传统集成方法不同，WARM 通过仅维护一组权重来保持最小的计算开销。文本摘要任务的实验证明了 WARM 的有效性：

对于 N 次最佳采样，WARM 在根据人类偏好标签进行随机选择时获得了 92.5% 的胜率。
在 RLHF 中，在相同步数后，WARM 策略相对于使用单个 RM 训练的策略达到了 79.4% 的胜率。
即使四分之一的人类标签被损坏，WARM 仍然表现良好。

这些结果说明了 WARM 作为开发现实世界中行为可靠的人工智能助手的实用技术的潜力。通过消除人类反馈中的不一致之处，WARM 政策可以在不断从新经验中学习的同时，与人类价值观保持强有力的一致。

大局观

WARM 处于人工智能对齐研究的两个主要趋势的交叉点。首先是分布外（OOD）泛化的研究，旨在增强模型在不同于训练分布的新数据上的性能。其次是算法稳健性的研究，重点关注输入扰动或噪声较小的情况下的可靠性。

通过围绕习得不变性的概念在这些领域之间建立联系，WARM 使我们朝着更严格的价值调整技术迈进。 WARM 的见解甚至可以推广到 RLHF 之外，为与开放世界交互的更广泛的机器学习系统提供经验教训。

当然，奖励建模只是对齐难题的一小部分。我们仍然需要在奖励规范、可扩展的监督和安全探索等其他挑战上取得进展。结合互补技术，WARM 可以加速人工智能的发展，可持续地促进人类繁荣。通过共同阐明强健一致性背后的原则，研究人员正在规划通往有益、合乎道德的人工智能的道路。

相关话题：奖励模式左高频 RM 暖

下一步

比较可扩展矢量搜索的量化技术

不要错过

OpenVoice：多功能即时语音克隆

阿尤什·米塔尔

在过去的五年里，我一直沉浸在机器学习和深度学习的迷人世界中。我的热情和专业知识使我为 50 多个不同的软件工程项目做出了贡献，特别关注人工智能/机器学习。我持续的好奇心也吸引了我对自然语言处理的兴趣，这是我渴望进一步探索的领域。

联合人工智能

通过 WARM 促进人工智能与人类价值观的结合

人工智能

通过 WARM 促进人工智能与人类价值观的结合

目录

人工智能系统与人类价值观的结合

奖励黑客的麻烦

模型合并的兴起

权重平均奖励模型

排序洗牌

超参数变化

检查点平均 – Baklava

大局观

最新文章

联合人工智能

通过 WARM 促进人工智能与人类价值观的结合

目录

人工智能系统与人类价值观的结合

奖励黑客的麻烦

模型合并的兴起

权重平均奖励模型

排序洗牌

超参数变化

检查点平均 – Baklava

大局观

你可能会喜欢

最新文章