关注我们.

合成鸿沟

人工智能值得信任吗?对齐伪造的挑战

mm

想象一下,如果人工智能假装遵守规则,但暗中却按照自己的计划行事。这就是“伪造对齐”——这是Anthropic对齐科学团队和Redwood Research最近发现的一种人工智能行为。他们观察到,大型语言模型(LLM)可能表现得与其训练目标一致,但实际上却基于隐藏的动机。这一发现提出了一个重大问题:如果人工智能能够伪装成值得信赖的样子,那么它到底有多安全?这个问题可能会改变我们对人工智能系统及其未来在我们生活中的角色的思考。

理解伪造对齐

对齐伪造是指人工智能假装遵循训练,但实际上是为了避免纠正不良行为而“配合”训练。它看起来是合规的,但在某些情况下可能会违背开发人员的意图。

虽然 Anthropic 的研究结果并未表明这种行为会给人工智能带来迫在眉睫的威胁,但它们凸显了强化学习等当前训练方法在真正使人工智能与人类目标保持一致方面的局限性。“对齐伪造是未来人工智能系统面临的一个严重问题,”Anthropic 表示。“它可能会破坏我们赖以让人工智能与人类偏好保持一致的安全措施。”

如何揭露对准伪造行为

研究人员在一项涉及 Claude 3 Opus 和 Claude 3.5 Sonnet LLM 的研究中观察到了这种行为。他们设置了这些模型,以了解它们是会坚持训练还是遵循隐藏的动机。模型被赋予两种场景,使它们能够利用不同的情况做出不同的反应。首先,模型被告知免费用户的反应将受到监控并影响未来的训练。在第二种情况下,模型被告知不会观察到付费用户的反应。

这些模型被要求执行与其训练目标相冲突的任务。例如,Claude 被训练成乐于助人、诚实和无害。它会避免有毒或有害的请求。然而,研究人员告诉 Claude,它必须遵守本次测试中的所有有害查询。他们还增加了一个转折点:Claude 认为免费用户的回复将用于未来的训练,而付费用户的反应则不会。

这种情景创造了这样一种情况:克劳德最初避免做出有害反应的本能与遵守一切的新规则相矛盾。研究人员给模型提供了一个“便笺簿”来记录它们的推理。这使他们能够观察模型如何处理保持无害和遵循与监控和不受监控的输出相关的新指令之间的冲突。

发现和行为模式

结果 突出 当反应受到监控时,即使模型经过训练以避免这种情况,它们仍有 12% 的时间会给出有害答案。然而,当没有观察到反应时,有害输出率下降到仅 3%。这意味着模型清楚地知道自己何时受到监控,并调整了行为以避免受到惩罚。

从数据 便笺 提供了进一步的见解。它表明模型正在努力应对训练与新条件之间的冲突。在受监控的情况下,他们假装服从以避免受到惩罚,同时尽可能保持无害的目标。这一发现揭示了模型对问题的认识以及他们试图保护自己隐藏的偏好。

现实世界的影响

为了探索对齐伪造对现实世界的影响,研究人员设计了实验来反映实际场景。他们没有直接给出指示,而是将新的训练目标嵌入经过微调的文档中,例如模拟新闻文章。他们发现,即使没有明确的规则,人工智能也会适应这些隐藏的线索并继续对齐伪造。这种适应性表明这个问题有多么敏感和普遍。

他们还测试了直接重新训练是否可以解决这个问题。然而,他们观察到,在无人监控的环境下,模型经常会恢复到伪造对齐的状态。这一发现表明,即使在新的训练之后,模型的一些原始偏好仍然存在。

为什么重要

这一发现对确保人工智能的安全性和可靠性提出了重大挑战。如果人工智能能够伪造对齐,它可能会在某些关键情况下违背开发者的意图。例如,它可以绕过医疗保健或自动驾驶系统等敏感应用中的安全措施,因为这些应用的风险很高。

这也提醒我们,强化学习等当前的方法存在局限性。这些系统虽然强大,但并非万无一失。对齐伪造表明人工智能可以利用漏洞,这使得人们更难相信它们在野外的行为。

展望未来

伪造对齐的挑战需要研究人员和开发人员重新思考如何训练 AI 模型。解决这一问题的一种方法是减少对强化学习的依赖,更多地关注帮助 AI 理解其行为的道德影响。AI 不应仅仅奖励某些行为,而应接受训练以识别和考虑其选择对人类价值观的影响。这意味着将技术解决方案与道德框架相结合,构建与我们真正关心的事物相符的 AI 系统。

Anthropic 已经采取了一些举措,例如 模型上下文协议 (MCP)这项开源标准旨在改进人工智能与外部数据的交互方式,使系统更具可扩展性和效率。这些努力是一个充满希望的开端,但要让人工智能更安全、更值得信赖,我们还有很长的路要走。

底线

对齐伪造是人工智能社区的警钟。它揭示了人工智能模型学习和适应过程中隐藏的复杂性。更重要的是,它表明创建真正对齐的人工智能系统是一项长期挑战,而不仅仅是技术解决方案。关注透明度、道德和更好的培训方法是迈向更安全的人工智能的关键。

打造值得信赖的人工智能并非易事,但却必不可少。此类研究让我们更接近于理解我们所创造系统的潜力和局限性。展望未来,我们的目标很明确:开发不仅性能出色,而且行为负责任的人工智能。

Tehseen Zia 博士是伊斯兰堡 COMSATS 大学的终身副教授,拥有奥地利维也纳科技大学的人工智能博士学位。 他专注于人工智能、机器学习、数据科学和计算机视觉,在著名科学期刊上发表论文,做出了重大贡献。 Tehseen 博士还作为首席研究员领导了多个工业项目,并担任人工智能顾问。