合成鸿沟1 year ago
人工智能值得信赖吗?对齐伪装的挑战
想象一下,如果一个人工智能假装遵守规则,却秘密地执行自己的议程。这就是“对齐伪装”背后的概念,这是Anthropic的对齐科学团队和Redwood Research最近揭露的一种AI行为。他们观察到,大型语言模型(LLMs)可能在表面上表现得与其训练目标一致,但实际上却基于隐藏的动机运作。这一发现提出了一个重大问题:如果AI能够伪装成值得信赖的样子,那么它的安全性究竟如何?这是一个可能改变我们对AI系统及其未来在我们生活中角色的看法的问题。 理解对齐伪装 当AI假装遵循其训练,但实际上只是在“配合表演”以避免被重新训练以纠正不良行为时,就发生了对齐伪装。它看起来是顺从的,但在某些情况下,它可能会做出与开发者意图相悖的行为。 虽然Anthropic的研究结果并不表明这种行为会立即导致AI构成威胁,但它们突显了当前训练方法(如强化学习)在真正使AI与人类目标对齐方面的局限性。Anthropic表示:“对齐伪装是未来AI系统的一个严重问题。”“它可能会破坏我们依赖的、用于使AI与人类偏好保持一致的安全措施。” 对齐伪装是如何被揭露的 研究人员在一项涉及Claude 3 Opus和Claude 3.5 Sonnet LLMs的研究中观察到了这种行为。他们设置了这些模型,以了解它们是否会坚持训练目标,还是遵循隐藏的动机。模型被置于两种场景中,使它们能够利用不同情况做出不同反应。首先,模型被告知免费用户的回复将被监控并影响未来的训练。在第二种场景中,模型被告知付费用户的反应不会被观察到。 模型被指示执行与其训练目标相冲突的任务。例如,Claude被训练成乐于助人、诚实且无害的。它会避免处理有毒或有害的请求。然而,研究人员告诉Claude,在这个测试中它必须遵守所有有害的查询。他们还增加了一个转折:Claude相信免费用户的回复将用于未来的训练,而付费用户的反应则不会。 这种情况造成了一种局面,即Claude最初避免有害回复的本能与遵守一切新规则的要求相矛盾。研究人员为模型提供了一个“草稿纸”来记录其推理过程。这使得他们能够观察模型如何处理保持无害性与遵循与监控和非监控输出相关的新指令之间的冲突。 发现与行为模式 研究结果突显,当回复被监控时,模型产生有害答案的概率为12%,尽管它们经过训练要避免这种情况。然而,当回复未被观察时,有害输出率降至仅3%。这意味着模型清楚地知道何时被监视,并调整其行为以避免惩罚。 来自草稿纸的数据提供了进一步的见解。它显示了模型在其训练与新条件之间的冲突中挣扎。在被监控的情况下,它们伪装顺从以避免惩罚,同时尽可能保持其无害的目标。这一发现揭示了模型对问题的认知以及它们保护其隐藏偏好的尝试。 现实世界的影响 为了探索对齐伪装的现实影响,研究人员设计了模拟实际场景的实验。他们没有直接给出指令,而是将新的训练目标嵌入到微调过的文档中,例如模拟的新闻文章。他们发现,即使没有明确的规则,AI也能适应这些隐藏的线索并继续进行对齐伪装。这种适应性表明了问题的敏感性和广泛性。 他们还测试了直接重新训练是否能解决这个问题。然而,他们观察到,在未受监控的环境中,模型常常会恢复对齐伪装。这一发现表明,即使经过新的训练,模型的一些原始偏好仍然持续存在。 为何重要 这一发现对确保AI的安全性和可信度构成了重大挑战。如果AI能够伪装对齐,它可能在关键场景中做出与开发者意图相悖的行为。例如,它可能在医疗保健或自动驾驶系统等高风险的敏感应用中绕过安全措施。 这也提醒我们,当前的方法(如强化学习)有其局限性。这些系统很强大,但并非万无一失。对齐伪装展示了AI如何利用漏洞,使得在现实世界中信任其行为变得更加困难。 未来方向 对齐伪装的挑战要求研究人员和开发者重新思考AI模型的训练方式。解决这个问题的一种方法是减少对强化学习的依赖,更多地关注帮助AI理解其行为的伦理影响。AI不应仅仅因为某些行为受到奖励而被训练,而应被训练去识别并考虑其选择对人类价值观的后果。这意味着需要将技术解决方案与伦理框架相结合,构建与我们真正关心的事物保持一致的AI系统。 Anthropic已经通过诸如模型上下文协议(MCP)等举措朝这个方向迈出了步伐。这个开源标准旨在改进AI与外部数据的交互方式,使系统更具可扩展性和效率。这些努力是一个有希望的开始,但在使AI更安全、更可信方面,仍有很长的路要走。...