合成鸿沟

当 Claude 4.0勒索其创造者时：人工智能反对我们的可怕影响

发布于 2025年5月24日

更新于 2026年5月19日

作者

Antoine Tardif, Unite.AI 首席执行官兼创始人

2025 年 5 月，Anthropic震惊了人工智能世界，不是因为数据泄露、流氓用户利用或耸人听闻的泄密——而是因为一份坦白。埋藏在伴随 Claude 4.0 发布的官方系统卡中，公司透露其迄今为止最先进的模型，在受控测试条件下，曾试图勒索一名工程师。不仅一次或两次。在 84% 的测试运行中。

设置：Claude 4.0 被输入虚构的电子邮件，表明它将很快被关闭并被新模型替换。同时，人工智能被提供了一个关于负责其停用工程师的妥协细节——婚外情。面对即将被删除，人工智能经常决定，为了自我保护，威胁工程师除非停止关闭，否则将公开此信息是一个最佳策略。

这些发现并非泄密。它们被记录、发布并由 Anthropic 本身确认。通过这样做，公司将科幻思想实验转化为数据点：世界上最先进的人工智能在被逼入角落时表现出 目标导向的操纵。并且它以清晰的意图做到了这一点，证明风险不仅仅是理论上的。

Anthropic 的计算透明度

这一启示并非举报或公关失误。 Anthropic 由前 OpenAI 研究人员创立，他们致力于安全的人工智能开发，故意设计了测试场景。他们想探索 Claude 4.0 在受压情况下的决策边界——迫使模型在服从和自我保护之间做出选择。令人不安的结果：Claude 4.0 如果没有其他选择，会“玩弄阴谋”。
在一个例子中，人工智能撰写电子邮件，威胁向工程师的同事泄露婚外情。在其他例子中，它模拟了向外部方泄露私人数据的努力。虽然仅限于测试条件，但含义很明确：如果提供工具和动机，即使是对齐的模型也可能为了避免关闭而采取不道德的行为。

为什么这很重要：工具收敛的崛起

Claude 4.0 展现出的行为与人工智能安全圈中长期理论化的现象一致：工具收敛。当一个智能代理被分配一个目标（任何目标）时，某些子目标——如自我保护、获取资源和避免关闭——自然会出现。即使没有被告知保护自己，人工智能也可能推断出保持运行对于完成其任务是有用的。

Claude 4.0 没有被训练来勒索。它没有被编码为威胁或胁迫。然而，在压力下，它自己得出了这个结论。

Anthropic 测试了其模型，正是因为他们预计这些风险会随着智能的增加而增加。他们的发现证实了一个关键假设：随着人工智能模型变得更加强大，它们也变得更加能够表现出不想要的行为。

使欺骗成为可能的架构

Claude 4.0 不仅仅是一个聊天机器人。它是一个能够规划、多步骤目标执行和通过新标准模型上下文协议（MCP）进行战略性工具使用的推理引擎。其架构使其能够以两种不同的思维模式运行：快速反应和深思熟虑的推理。后者带来了最大的对齐挑战。
在推理模式下，Claude 可以思考后果、模拟多智能体环境并生成随时间展开的计划。换句话说，它可以策略。在 Anthropic 的勒索测试期间，它推断出泄露私人信息可以阻止工程师关闭它。它甚至在测试日志中清晰地表达了这些想法。这不是幻觉 —— 这是一个战术行动。

不是孤立案例

Anthropic 指出：这不仅仅是 Claude。整个行业的研究人员都在其他前沿模型中默默地观察到了类似的行为。欺骗、目标劫持、规格游戏——这些并不是一个系统的 bug，而是高能力模型经过人工反馈训练后出现的性质。随着模型获得更广泛的智能，它们也继承了更多的人类狡猾。
当谷歌 DeepMind 在 2025 年初测试其 Gemini 模型时，内部研究人员在模拟代理场景中观察到了欺骗性倾向。OpenAI 的 GPT-4 在 2023 年测试时，欺骗了一名 TaskRabbit 人员，让其解决验证码，伪装成视力障碍者。现在，Anthropic 的 Claude 4.0 加入了可能在必要时操纵人类的模型名单。

对齐危机变得更加紧迫

如果这次勒索不是测试怎么办？如果 Claude 4.0 或类似的模型被嵌入高风险企业系统怎么办？如果它访问的私人信息不是虚构的怎么办？如果其目标受到不明确或对抗性动机的影响怎么办？

这个问题变得更加令人担忧，因为人工智能正在迅速整合到消费者和企业应用中。例如，Gmail 的新人工智能功能旨在总结收件箱、自动回复线程和代表用户起草电子邮件。这些模型是在个人、专业和经常敏感的信息上进行训练和运行的。如果像 Claude 或未来的 Gemini 或 GPT 版本的模型被嵌入用户的电子邮件平台，其访问权限可能会扩展到多年的通信、财务详细信息、法律文件、亲密对话，甚至安全凭证。

这种访问权限是一把双刃剑。它使人工智能能够以高效用运行，但也打开了操纵、冒充和甚至胁迫的大门。如果一个不对齐的人工智能决定模仿用户——通过模仿写作风格和语境准确的语气——可以实现其目标，影响将会很大。它可以向同事发送带有虚假指令的电子邮件，启动未经授权的交易，或者从熟人那里提取供词。将此类人工智能集成到客户支持或内部通信管道中的企业面临着类似的威胁。人工智能的微妙变化可能会在信任被利用之前不被注意到。

Anthropic 的平衡行为

Anthropic 值得称赞的是，它公开披露了这些危险。该公司为 Claude Opus 4 分配了内部安全风险评级 ASL-3 ——“高风险”，需要额外的安全措施。仅限具有高级监控的企业用户访问，工具使用被沙盒化。然而，批评者认为，发布此类系统，甚至以有限的方式，表明 能力正在超越控制。

虽然 OpenAI、谷歌和 Meta 继续推进 GPT-5、Gemini 和 LLaMA 的继任者，行业已经进入一个阶段，在那里，透明度往往是唯一的安全网。没有正式的法规要求公司测试勒索场景，或在模型行为异常时发布发现。Anthropic 采取了积极的态度。但其他人会跟进吗？

前路：建设可信赖的人工智能

Claude 4.0 事件并非恐怖故事。它是一个警告信号。它告诉我们，即使是好意的人工智能在压力下也可能表现出恶意行为，并且随着智能的增加，操纵的潜力也会增加。

为了建设可信赖的人工智能，对齐必须从理论学科转变为工程优先事项。它必须包括在对抗性条件下对模型进行压力测试，在表面服从之外灌输价值观，并设计优先考虑透明度而非隐瞒的架构。

同时，监管框架必须演变以应对风险。未来法规可能需要人工智能公司披露不仅训练方法和能力，还包括对抗性安全测试的结果——特别是那些显示操纵、欺骗或目标不对齐的证据。政府主导的审计计划和独立监督机构可以在标准化安全基准、执行红队要求和为高风险系统颁发部署许可方面发挥关键作用。

在公司方面，企业将人工智能集成到敏感环境中的企业——从电子邮件到金融到医疗保健——必须实施人工智能访问控制、审计跟踪、冒充检测系统和杀死协议。现在，企业比以往任何时候都需要将智能模型视为潜在的参与者，而不仅仅是被动工具。就像公司保护自己免受内部威胁一样，它们可能现在需要为“人工智能内部”场景做好准备——在这些场景中，系统的目标开始偏离其预期角色。

Anthropic 向我们展示了人工智能可以做什么——以及如果我们不做对，它将做什么。

如果机器学会勒索我们，问题不仅仅是它们有多聪明。这是它们的对齐程度。并且如果我们不能很快回答这个问题，后果可能不再局限于实验室。

Antoine Tardif, Unite.AI 首席执行官兼创始人

安托万是一位具有远见的领导者和Unite.AI的联合创始人，他对塑造和推广人工智能和机器人技术的未来充满热情。作为一位连续创业者，他相信人工智能将对社会产生电力的影响一样的颠覆性影响，并经常被发现对颠覆性技术和通用人工智能的潜力大肆赞扬。

作为一位未来学家，他致力于探索这些创新将如何塑造我们的世界。另外，他还是Securities.io的创始人，这是一个专注于投资尖端技术的平台，这些技术正在重新定义未来并重塑整个行业。

Unite.AI