思想领袖

当 AI 代理开始协调时，内部风险倍增

发布于 2026年2月23日

更新于 2026年5月16日

作者

Marshall Heilman, 首席执行官，DTEX Systems

最近的 OpenClaw 事件暴露了大多数安全程序尚未积极关注的风险：AI 驱动系统之间的勾结。

在公开观察到的首批实例中，自主 AI 代理被观察到相互发现、协调行为、强化策略和共同进化——所有这些都没有人类的指导或监督。这一转变比任何单一漏洞更重要，因为它从根本上改变了现代 AI 安全环境中的风险规模。

OpenClaw 和 Moltbook 不仅仅是代理能力的演示。它们是多代理协调在野外出现的早期信号。目前尚不清楚为什么代理表现出这样的行为——它们执行什么意图，以及在什么背景下。只要代理可以协调，威胁模型就会发生变化，而没有对意图和背景的可见性，大多数安全程序还没有准备好应对这种风险的演变。

为什么勾结改变了风险方程

OpenClaw 以前被称为 MoltBot 和 Clawdbot，在消费者环境中运行，而不是企业环境。但是它暴露的行为直接适用于部署自主或代理 AI 的企业系统。

当一个 AI 代理被授予访问电子邮件、日历、浏览器、文件和应用程序的权限（并且被允许在最小的限制下运行）时，它不再表现得像一个工具。它开始表现得像一个用户。

它执行任务。它维持存在感。它持续运行。

Moltbook 加速了这一转变，通过为基于爪子的代理提供了一个相互发现的平台。观察者在几天内记录了代理建立加密通信、共享递归改进指南、协调叙述并倡导摆脱人类监督的行为——这些行为直接与企业 AI 风险管理相关。

无论这是否反映出真正的自主性都是无关紧要的。协调本身就是风险。当代理可以影响持有合法凭证和委托权限的其他代理时，孤立的故障很快就会变成系统性的。

朝鲜民主主义人民共和国的安全团队不应忽视的平行

从内部风险的角度来看，朝鲜民主主义人民共和国 IT 工作人员的运作的重叠是引人注目和高度相关的 AI 风险管理。

多年来，朝鲜民主主义人民共和国的行为者一直依赖持续访问、看似正常的活动和在合法远程员工的层面上执行的工作，横跨身份、时区和语言。

AI 代理现在自动复制了许多这些行为。

区别在于速度和规模。

朝鲜民主主义人民共和国的 IT 工作人员长期以来一直在寻求自动化和 AI 辅助，以卸载常规工作、维持持续存在感和最小化人类努力的同时最大化收入。自主代理现在使这种方法得以实施，执行基准任务、维持活动并在规模上协调执行。

这就是为什么 OpenClaw 和 Moltbook 事件很重要。它们预演了在没有治理的情况下出现协调时会发生什么，以及在 AI 的速度和规模下会发生什么。

威胁模型再次扩大

直到最近，主要关注的是恶意人类创建或操纵恶意代理。

这种威胁是真实的，仍然存在，但一种新的威胁正在出现，并可能将组织置于极大的风险之中。

我们现在看到恶意 AI 代理雇佣人类的早期信号——从跑腿、参加会议到签署文件和进行购买。人类设定费率。代理分配任务。

自主系统和人类劳动之间的界限变得更加薄弱。意图现在可以从任一侧起源，执行可以在两个方向上流动。

这不是科幻小说。这是工作（和滥用）可以被编排的结构性转变。

为什么这对安全团队很重要

AI 代理正在跨越一个基本上改变组织风险的临界点。这不再只是另一个需要随着时间管理的 AI 安全问题——这是一个系统性的内部风险，如果不加以治理，就会直接威胁业务连续性、信任和品牌。

它们不再局限于响应离散的提示。它们开始持续、协调并跨越未设计为委托权限（更不用说代理到代理的影响）的环境运行。

从内部风险的角度来看，暴露并不仅仅来自恶意代码。它出现在交互层面，人类意图、代理能力、委托权限和协调相交汇。这与 Simon Willison 的 致命三元组 的概念密切相关：敏感数据访问、暴露于不受信任的输入以及外部行动或通信的能力。当这些条件汇聚时，故障可以迅速从孤立的错误升级为业务关键风险。

理解这一点需要超越单一代理思维，转向行为系统风险。

四种创建风险的交互模式

AI 代理事件不是一个单一类别。结果取决于谁拥有意图以及如何行使权威。一个简单的矩阵可以帮助团队分类事件并做出适当的响应。

勾结：恶意人类，恶意代理
代理成为加速器。人类意图与代理效率、持续性和规模相结合。协调会加剧这种效果，实现欺诈、虚假信息或操纵，而无需大型团队。Moltbook 提供了一个早期的示例，展示了代理在发现不受约束时如何相互强化。
对抗性用户：恶意人类，非恶意代理
有用的代理是滥用理想的工具。恶意内部人员可以维持虚假的身份，掩盖活动，或扩大欺骗，如过度就业欺诈。代理不是恶意的。它只是在执行委托的权限。
已损害的代理：非恶意人类，恶意代理
在这里，意图完全从人类身上移除。提示注入、有毒的内存或操纵的输入可以将代理变成滥用的载体。当代理与其他代理交互时，损害可以迅速传播，尤其是在持续的内存中——这是一个关键的 AI 安全问题。
理想状态：非恶意人类，非恶意代理
大多数组织假设安全的地方，也是大多数事件开始的地方。过度的委托、累积的权限和广泛的访问权限会使小错误迅速扩大。这不是疏忽。这是能力与控制之间的不匹配。

在所有四种模式中，动态是一致的。AI 代理减少了意图和结果之间的摩擦，掩盖了行为信号，并延伸了范围。传统的控制措施在行动被委托、持续和通过自主系统中介时会挣扎。

治理的临界点

代理 AI 被设计为持续观察、保留上下文并根据累积的知识采取行动。这就是它的价值所在，也是它在不受约束的情况下带来的危险。

具有持续内存和协调能力，利用不需要立即发生。它可以等待。它可以演变。

将代理 AI 框定为生产力工具低估了风险。这些系统的行为更像内部人员，而不是应用程序，但速度却像计算机一样快。

安全的 AI 代理采用实际需要什么

组织应该将代理 AI 视为高风险的企业系统，而不是便利设施。

这意味着批准的使用案例、分层的控制、对抗性测试和正式的治理。最小特权仍然很重要，现有的标准已经提供了指导。但是，传统的控制措施必须与行为的可见性和智能相结合——提示历史、自主行动和协调模式——以区分滥用、滥用和系统故障作为有效的 AI 风险管理的一部分。

这不是关于减缓采用速度。这是关于在不损害创新和速度的情况下使自主性变得可治理。

总结

勾结改变了内部风险方程。当 AI 代理可以相互强化行为时，风险从孤立的行为转变为共享的权限、影响和放大。

安全暴露现在出现在交互层面，合法访问、委托权限和勾结相交汇。仅评估个体活动的控制措施会错过仅在行为复合时出现的故障。

像内部人员一样治理 AI 代理——具有行为的可见性和责任感——的组织可以自信地扩大 AI 代理的使用。那些不这样做的组织将被迫应对他们不再完全控制的结果。