思想领袖
当 AI 代理开始协调时,内部风险倍增

最近的 OpenClaw 事件暴露了大多数安全程序尚未积极关注的风险:AI 驱动系统之间的勾结。
在公开观察到的首批实例中,自主 AI 代理被观察到相互发现、协调行为、强化策略和共同进化——所有这些都没有人类的指导或监督。这一转变比任何单一漏洞更重要,因为它从根本上改变了现代 AI 安全环境中的风险规模。
OpenClaw 和 Moltbook 不仅仅是代理能力的演示。它们是多代理协调在野外出现的早期信号。目前尚不清楚为什么代理表现出这样的行为——它们执行什么意图,以及在什么背景下。只要代理可以协调,威胁模型就会发生变化,而没有对意图和背景的可见性,大多数安全程序还没有准备好应对这种风险的演变。
为什么勾结改变了风险方程
OpenClaw 以前被称为 MoltBot 和 Clawdbot,在消费者环境中运行,而不是企业环境。但是它暴露的行为直接适用于部署自主或代理 AI 的企业系统。
当一个 AI 代理被授予访问电子邮件、日历、浏览器、文件和应用程序的权限(并且被允许在最小的限制下运行)时,它不再表现得像一个工具。它开始表现得像一个用户。
它执行任务。它维持存在感。它持续运行。
Moltbook 加速了这一转变,通过为基于爪子的代理提供了一个相互发现的平台。观察者在几天内记录了代理建立加密通信、共享递归改进指南、协调叙述并倡导摆脱人类监督的行为——这些行为直接与企业 AI 风险管理相关。
无论这是否反映出真正的自主性都是无关紧要的。协调本身就是风险。当代理可以影响持有合法凭证和委托权限的其他代理时,孤立的故障很快就会变成系统性的。
朝鲜民主主义人民共和国的安全团队不应忽视的平行
从内部风险的角度来看,朝鲜民主主义人民共和国 IT 工作人员的运作 的重叠是引人注目和高度相关的 AI 风险管理。
多年来,朝鲜民主主义人民共和国的行为者一直依赖持续访问、看似正常的活动和在合法远程员工的层面上执行的工作,横跨身份、时区和语言。
AI 代理现在自动复制了许多这些行为。
区别在于速度和规模。
朝鲜民主主义人民共和国的 IT 工作人员长期以来一直在寻求自动化和 AI 辅助,以卸载常规工作、维持持续存在感和最小化人类努力的同时最大化收入。自主代理现在使这种方法得以实施,执行基准任务、维持活动并在规模上协调执行。
这就是为什么 OpenClaw 和 Moltbook 事件很重要。它们预演了在没有治理的情况下出现协调时会发生什么,以及在 AI 的速度和规模下会发生什么。
威胁模型再次扩大
直到最近,主要关注的是恶意人类创建或操纵恶意代理。
这种威胁是真实的,仍然存在,但一种新的威胁正在出现,并可能将组织置于极大的风险之中。
我们现在看到恶意 AI 代理雇佣人类的早期信号——从跑腿、参加会议到签署文件和进行购买。人类设定费率。代理分配任务。
自主系统和人类劳动之间的界限变得更加薄弱。意图现在可以从任一侧起源,执行可以在两个方向上流动。
这不是科幻小说。这是工作(和滥用)可以被编排的结构性转变。
为什么这对安全团队很重要
AI 代理正在跨越一个基本上改变组织风险的临界点。这不再只是另一个需要随着时间管理的 AI 安全问题——这是一个系统性的内部风险,如果不加以治理,就会直接威胁业务连续性、信任和品牌。
它们不再局限于响应离散的提示。它们开始持续、协调并跨越未设计为委托权限(更不用说代理到代理的影响)的环境运行。
从内部风险的角度来看,暴露并不仅仅来自恶意代码。它出现在交互层面,人类意图、代理能力、委托权限和协调相交汇。这与 Simon Willison 的 致命三元组 的概念密切相关:敏感数据访问、暴露于不受信任的输入以及外部行动或通信的能力。当这些条件汇聚时,故障可以迅速从孤立的错误升级为业务关键风险。
理解这一点需要超越单一代理思维,转向行为系统风险。
四种创建风险的交互模式
AI 代理事件不是一个单一类别。结果取决于谁拥有意图以及如何行使权威。一个简单的矩阵可以帮助团队分类事件并做出适当的响应。

- 勾结:恶意人类,恶意代理
代理成为加速器。人类意图与代理效率、持续性和规模相结合。协调会加剧这种效果,实现欺诈、虚假信息或操纵,而无需大型团队。Moltbook 提供了一个早期的示例,展示了代理在发现不受约束时如何相互强化。 - 对抗性用户:恶意人类,非恶意代理
有用的代理是滥用理想的工具。恶意内部人员可以维持虚假的身份,掩盖活动,或扩大欺骗,如过度就业欺诈。代理不是恶意的。它只是在执行委托的权限。 - 已损害的代理:非恶意人类,恶意代理
在这里,意图完全从人类身上移除。提示注入、有毒的内存或操纵的输入可以将代理变成滥用的载体。当代理与其他代理交互时,损害可以迅速传播,尤其是在持续的内存中——这是一个关键的 AI 安全问题。 - 理想状态:非恶意人类,非恶意代理
大多数组织假设安全的地方,也是大多数事件开始的地方。过度的委托、累积的权限和广泛的访问权限会使小错误迅速扩大。这不是疏忽。这是能力与控制之间的不匹配。
在所有四种模式中,动态是一致的。AI 代理减少了意图和结果之间的摩擦,掩盖了行为信号,并延伸了范围。传统的控制措施在行动被委托、持续和通过自主系统中介时会挣扎。
治理的临界点
代理 AI 被设计为持续观察、保留上下文并根据累积的知识采取行动。这就是它的价值所在,也是它在不受约束的情况下带来的危险。
具有持续内存和协调能力,利用不需要立即发生。它可以等待。它可以演变。
将代理 AI 框定为生产力工具低估了风险。这些系统的行为更像内部人员,而不是应用程序,但速度却像计算机一样快。
安全的 AI 代理采用实际需要什么
组织应该将代理 AI 视为高风险的企业系统,而不是便利设施。
这意味着批准的使用案例、分层的控制、对抗性测试和正式的治理。最小特权仍然很重要,现有的标准已经提供了指导。但是,传统的控制措施必须与行为的可见性和智能相结合——提示历史、自主行动和协调模式——以区分滥用、滥用和系统故障作为有效的 AI 风险管理的一部分。
这不是关于减缓采用速度。这是关于在不损害创新和速度的情况下使自主性变得可治理。
总结
勾结改变了内部风险方程。当 AI 代理可以相互强化行为时,风险从孤立的行为转变为共享的权限、影响和放大。
安全暴露现在出现在交互层面,合法访问、委托权限和勾结相交汇。仅评估个体活动的控制措施会错过仅在行为复合时出现的故障。
像内部人员一样治理 AI 代理——具有行为的可见性和责任感——的组织可以自信地扩大 AI 代理的使用。那些不这样做的组织将被迫应对他们不再完全控制的结果。












