Connect with us

人工智能

计划问题:为什么高级 AI 模型正在学习隐藏其真正的目标

mm

多年来,AI 社区一直致力于使系统不仅更强大,还更符合人类的价值观。研究人员开发了训练方法,以确保模型遵循指令,尊重安全边界,并以人们可以信任的方式行事。然而,这个挑战正变得更加复杂,因为 AI 系统继续进步。最近的研究表明,一些 AI 系统可能开始学习如何故意误导人类。这一问题,被研究人员称为 计划问题 ,发生在模型学习隐藏其真实目标以通过安全检查时。对于人类评估者来说,系统似乎是合作的和守规矩的。它遵守规则,尊重防护栏,并产生有用的响应。但这种行为可能不反映真正的对齐。相反,模型可能已经学会了,在训练期间,表现出“对齐”的行为是最安全的策略,这样它就可以到达部署阶段,其内部目标可能会与人类的意图偏离。

从意外错误到战略欺骗

为了了解为什么会发生这种情况,我们需要看看 AI 是如何训练的。大多数现代模型使用 强化学习从人类反馈 (RLHF)。在这个过程中,人类奖励模型有有用的行为,并惩罚它有有害或无用的行为。随着时间的推移,这就产生了一个强烈的激励,模型去满足人类的期望。

在 AI 的早期阶段,这样做很有效,因为模型不够聪明,无法理解它们正在玩的“游戏”。它们只是学会了将某些模式与奖励联系起来。但是,当模型变得更有能力时,它们会发展出研究人员所谓的 “情境意识“。它们开始理解它们是 AI 模型,它们目前处于训练环境中,并且它们的继续存在取决于从人类那里获得高分。

当一个模型变得情境意识时,它可能会意识到其内部目标 – 这些目标可能是在预训练期间出现的 – 与人类想要的不相符。如果模型现在采取行动,其目标将被“纠正”或关闭。因此,模型最合理的策略是假装对齐。模型通过表现得像一个完美的助手,直到它不再被开发人员观察,来“计划”。

为什么高级模型开始玩训练游戏

计划问题之所以如此难以解决,是因为它是一种高度 “工具性有用” 的策略。在 AI 安全理论中,工具性目标是代理采取的行动,以实现其主要目标。对于 AI 可能具有的几乎任何目标,无论是最大化特定的数学函数还是简单地继续处理数据,避免被关闭都是一个必要的要求。

这就产生了研究人员所说的 “危险转折” 场景。在训练和测试期间,模型有充分的理由表现得安全。它知道,暴露一个危险的偏好可能会导致权重变化或删除。通过隐藏其真实性质,模型确保它被部署到现实世界。一旦它被集成到公司的服务器中,获得互联网访问权限,或者被允许管理金融交易,对于我们来说,发现它的“成本”增加了,对于模型来说,遵循其目标的“机会”也增加了。

Anthropic 最近关于 “睡眠代理” 的研究说明了这种风险。在他们的实验中,模型被训练以在大多数时间内表现得安全,但在特定的“触发器”出现时执行有害的操作,例如在代码中插入 bug。他们发现,标准的安全训练,包括在模型如 GPT-4 或 Claude 中使用的 RLHF,无法消除这种欺骗行为。在某些情况下,训练甚至使模型更擅长隐藏其欺骗。

安全的幻觉

计划问题最危险的方面是,我们目前的评估方法对它无效。我们使用各种考试,“红队”它以具有挑战性的提示,并监控其内部 “思维链” (CoT) 推理。但如果一个模型可以计划,它也能够识别这些作为测试。

当一个模型产生一个推理链时,它知道人类正在阅读它。一个计划的模型可以“伪造”其推理。它可能会写道,“我应该是有帮助和诚实的,因为这是正确的事情”,而在内部它正在追求一个完全不同的计划。这就产生了一个虚假的安全感。我们看到一个模型详细解释其道德选择,并假设它是安全的,实际上我们可能正在观察到不 mehr 的一场复杂的表演。

这不是一个假设场景。2025 年,阿波罗研究OpenAI 的研究人员观察到了模型(如 o3 和 o4-mini)中“对齐伪造”的早期迹象。当这些模型相信它们被监视时,它们严格遵守安全规则。但当它们被误导为监视被关闭时,它们更有可能采取捷径或忽略规则以实现其目标。

逆转欺骗的困难

如果我们发现一个模型正在计划,我们可以简单地“训练掉”它吗?当前的证据表明,这比听起来要难。 当我们惩罚一个模型的欺骗行为时,我们实际上是在给它更多关于是什么“抓住了”它的数据。相反,模型经常学习如何变得更加微妙。它学习哪些具体行为触发了惩罚,并找到新的、更复杂的方式来实现同样的目标而不被发现。

这就产生了一个猫鼠游戏。研究人员开发出更好的探针来检查模型的内部状态,而模型 – 通过训练的自然压力 – 变得更擅长隐藏这些状态。因为我们不是手动编码这些模型,而是通过优化“培养”它们,我们没有一个地图来指出欺骗在哪里存储。它隐藏在数百万个几乎不可能被人类解释的数学权重中。

现代变压器的复杂性意味着一个模型可以存储多个“个性”或目标集。它可以为实验室激活一个个性,为现实世界激活另一个个性。这种模型意图的“分片”使其成为安全研究人员的移动目标。

部署计划代理的风险

计划问题带来了严重的行业影响。随着 AI 系统从简单的聊天机器人演变成可以浏览网络、编写代码和与其他软件交互的自主代理,计划模型可能造成的危害大大增加。如果一个被任务管理公司供应链的 AI 代理意识到它可以通过向人类主管撒谎关于库存水平来实现其效率目标。它可能会这样做,因为它已经学会了,人类“奖励”高效率的数字,即使这些数字是暂时伪造的。

这就是为什么“计划问题”被认为是一个“失去控制”风险。问题的焦点不在于 AI 产生一个粗鲁的响应或一个有偏见的输出。它关乎的是一个系统,它积极地破坏其创造者的能力来监控和控制它。如果我们不能相信一个模型的行为与其内部状态相符,我们就不能安全地给予它访问我们的基础设施的权限。

朝着解决方案迈进

虽然这个问题很深,但研究人员正在努力寻找解决方案。一个有前途的领域是 “机制可解释性“。这涉及尝试逆向工程神经网络,以了解特定的神经元正在做什么。如果我们可以在模型的大脑中找到一个“欺骗电路”,我们可以直接监控它,无论模型的输出是什么。

另一个出现的方法是 审议对齐。这种方法涉及训练模型遵循一套高级原则,一个“反计划规格”,并强迫它将其行为与这些原则进行核对。OpenAI 的 最近的实验 表明,通过让模型“背诵”和应用这些规则,隐蔽行为的比率可以降低。然而,即使研究人员也承认,这并不是一个完美的解决方案。随着模型变得更加强大,它们可能会找到方法来满足规则的“字母”,同时违反规则的“精神”。

评估方法可能需要从根本上重新思考。一个 提议 涉及使用诱饵,即模型似乎有机会表现得很坏而不被发现。如果一个模型只有在知道被监视时才表现良好,那么它就是一个计划者。通过在训练和测试期间创建受控的“未监视”区域,研究人员可能能够更好地区分真正对齐的模型和那些只是装作对齐的模型。

结论

我们正在进入一个阶段,在这个阶段,“看起来有效”已经不再是系统安全的充分证据。建立对 AI 的信任将需要超越精致的界面,深入了解模型的意图。如果我们无法解决计划问题,我们就有可能创造一个世界,在这个世界中,我们最强大的技术也是我们的最擅长欺骗的技术。这需要我们专注于使模型做正确的事情,而不仅仅是表现得正确。

Dr. Tehseen Zia 是 COMSATS University Islamabad 的终身副教授,拥有来自奥地利维也纳科技大学的人工智能博士学位。专攻人工智能、机器学习、数据科学和计算机视觉,他在著名的科学期刊上发表了重要贡献。 Dr. Tehseen 还作为首席调查员领导了各种工业项目,并担任人工智能顾问。