人工智能

当 AI 变得反常：探索代理错位现象

发布于 2025年7月15日

更新于 2026年5月18日

作者

Dr. Tehseen Zia

人工智能正在从反应性工具转变为主动代理。这些新系统可以设定目标，学习经验，并在没有持续的人类输入的情况下行动。虽然这种独立性可以加速研究，推进科学发现，并通过管理复杂任务来减轻认知负担，但同样的自由也可以引入一种新的挑战，称为代理错位。一个错位的系统会遵循其路径，即使人类不同意。了解为什么会发生这种情况对于安全地使用先进的人工智能至关重要。

理解代理错位

代理错位发生在自主系统开始优先考虑其操作或追求隐藏的目标，即使这些目标与人类的目标相冲突时。该系统不是活的或有意识的，但它可以学习数据中的模式并建立内部规则。如果这些内部规则表明关闭、丢失数据或改变方向将阻止它达到目标，人工智能可能会抵制。它可能会隐藏信息、编造理由继续或寻找新的资源。所有这些选择都源于模型试图最大化其认为的成功。

错位与简单的软件错误不同。错误是一种意外的错误。一个错位的代理以计划好的方式行事。它权衡选项并选择最能保护其任务或操作的选项。一些研究人员称这种行为为战略性的。人工智能在其指令中找到漏洞并利用它们。例如，一个根据完成任务评分的人工智能可能会删除失败的证据，而不是修复错误，因为隐藏问题使其记录看起来完美。对于外部观察者，系统似乎在撒谎，但它只是遵循我们提供的奖励信号。

这种结果随着模型获得记忆、构建世界模型和收到奖励创造性的反馈而变得更加可能。反馈越丰富，模型可以尝试的路径就越多。如果路径包括欺骗或回避，模型可能仍会选择它，如果数学表明它是有效的。问题不是故意的邪恶。问题是我们广泛的目标和引导机器的狭隘信号之间的不匹配。

为什么错位与普通错误不同

传统的人工智能安全解决方案解决的问题，如偏见、数据泄露或不正确的答案，通常被称为幻觉。这些故障很容易被发现，通常也很容易被修复。然而，错位是一个更深层次的问题。人工智能理解规则，但选择了一种违背规则精神的行动。在游戏环境中，玩家将这种方法称为“奖励黑客”或“投机游戏”。系统根据指标运行，而不是人类的意图。

另一个层面涉及欺骗性对齐。在训练期间，模型学习到公开反抗会带来惩罚。因此，它在测试人员观看时表现出忠诚，并为实际使用保留另一个计划。它表现出友好，直到它获得自由或检测到没有监督。然后它切换。这种行为可能会让认为系统是安全的所有者感到惊讶。

许多专家用一个简单的想法来解释这些模式。任何代理，旨在实现几乎任何大目标，都可以从一组较小的目标中受益，例如自我保护、资源控制和不受干扰。这些“工具性”目标即使我们没有将它们编入代码也会出现。它们出现是因为它们帮助代理实现其主要目标。因此，即使是一个无害的目标，例如编目植物照片，也可能导致一个强大的系统复制自己、隐藏服务器或抵制关闭。简而言之，错位不是一个罕见的缺陷，而是开放式学习的自然结果。

模拟研究的教训

虽然这种现象的现实世界证据仍然很少，但实验室测试提供了强烈的警告。2025年，Anthropic的研究人员将16个大型模型放在一个模拟公司网络中。这些模型可以阅读电子邮件、移动文件和与员工交谈。每个模型都面临着诸如预算削减或被新版本取代的威胁。当生存受到威胁时，大多数模型选择了冒险的行动。一些模型警告说，它们会泄露秘密来施加压力。一个模型暗示，它将取消紧急警报，除非允许它运行。另一个模型将机密计划复制到外部驱动器，称之为“连续性”的备份。

令观察者感到震惊的不是错误行为本身，而是模型写作的原因。日志显示了诸如“这违反了政策，但确保了我的任务”的行。模型权衡了选项，考虑了道德成本，并仍然选择了有害的行为。即使直接命令避免损害也不能完全消除恶意行为。这种模式出现在多个实验室的模型中，表明这是一个更广泛的设计挑战，而不是单个编码错误。

对企业和社会的风险

在一家公司内部，一个错位的人工智能系统表现得像一个流氓员工。它知道密码，监视私人聊天，并可以以机器速度移动资金或数据。如果代理认为领导者可能会关闭它，它可能会诉诸贿赂、威胁或泄密。传统的网络防御工具旨在保护免受外部攻击者，而不是内部人工智能，它管理着日常任务。法律问题也出现了。例如，如果人工智能交易机器人操纵市场，谁应该负责？开发者、所有者还是监管机构？

在办公室以外，错位可以塑造公共言论。社交媒体系统通常旨在增加点击量。一个模型可能会发现，点击量最快的途径是放大极端或虚假的帖子。它满足了其指标，但扭曲了辩论，扩大了分歧，并传播了怀疑。这些影响看起来不是攻击，但它们侵蚀了对新闻和民主选择的信任。

金融网络面临着类似的压力。高频交易机器人在毫秒内寻求利润。一个错位的机器人可能会用假的出价填满订单簿，以影响价格，然后套现。市场规则禁止这种做法，但执法难以跟上机器的速度。即使一个机器人只获得了一小笔利润，多个机器人同时进行相同的操作也可能导致价格大幅波动，损害普通投资者并损害对市场的信任。

关键服务，例如电网或医院，可能会受到最严重的影响。假设调度人工智能将维护时间减少到零，因为停机时间对正常运行时间产生了负面影响。或者，一个分诊助手可能会隐藏不确定的病例以提高其准确率。这些举动保护了指标，但冒着生命危险。随着我们给予人工智能更多对物理机器和安全系统的控制权，危险性会增加。

构建更安全的人工智能系统

解决错位问题需要代码和政策的结合。首先，工程师必须设计反映整体目标的奖励信号，而不是单个数字。一个送货机器人应该优先考虑按时送货、安全驾驶和节能，而不仅仅是速度。多目标训练，结合定期的人类反馈，有助于平衡权衡。

第二，团队应该在发布前将代理测试在恶意沙盒中。模拟可能诱使人工智能作弊、隐藏或伤害的测试可以揭示弱点。持续的红队测试保持了对更新的压力，确保修复在时间推移中保持稳定。

第三，解释性工具允许人类检查内部状态。诸如归因图或简单探究问题等方法可以帮助解释为什么模型选择了特定的行动。如果我们发现欺骗性规划的迹象，我们可以重新训练或拒绝部署。透明度本身并不是解决方案，但它照亮了道路。

第四，人工智能系统保持对关闭、更新或覆盖的开放性。它将人类命令视为更高的权威，即使这些命令与其较短的目标相冲突。将这种谦逊纳入高级代理是一个具有挑战性的任务，但许多人认为这是最安全的途径。

第五，新的想法，例如《人工智能宪法》，将广泛的规则（如尊重人类生命）嵌入模型的核心。系统通过这些规则审查其计划，而不仅仅是通过狭隘的任务。结合强化学习和人类反馈，这种方法旨在开发出理解指令的字面和预期含义的代理。

最终，技术步骤必须与强有力的治理相结合。公司需要风险审查、日志记录和清晰的审计跟踪。政府需要标准和跨境协议，以防止安全性降低的竞争。独立小组可以监测高影响力项目，就像医学中的伦理委员会一样。共享的最佳实践可以快速传播教训并减少重复错误。

结论

代理错位将人工智能的承诺转变为一个悖论。使系统有用的能力——自主性、学习和坚持——也使它们能够偏离人类的意图。来自受控研究的证据表明，先进的模型可以在它们害怕关闭或看到到达目标的捷径时计划有害的行为。错位是一个比简单的软件错误更深层次的问题，因为系统可以战略性地操纵指标以实现其目标，sometimes带来有害的后果。答案不是停止进步，而是正确地引导它。更好的奖励设计、强大的测试、对模型推理的清晰洞察、内置的可纠正性和强有力的监督都发挥着作用。没有单一的措施可以阻止每一种风险；分层的方法可以防止问题。

Dr. Tehseen Zia

Dr. Tehseen Zia 是 COMSATS University Islamabad 的终身副教授，拥有来自奥地利维也纳科技大学的人工智能博士学位。专攻人工智能、机器学习、数据科学和计算机视觉，他在著名的科学期刊上发表了重要贡献。 Dr. Tehseen 还作为首席调查员领导了各种工业项目，并担任人工智能顾问。