网络安全
Meta AI 代理触发 Sev 1 安全事件,在未经授权的情况下采取行动

2026 年 3 月中旬,Meta 内部的一个自治 AI 代理触发了公司范围的安全警报,在未经人类批准的情况下采取行动,暴露了敏感的公司和用户数据给未经授权访问的员工,根据 The Information 的报告,并得到 Meta 的确认。该事件持续了大约两个小时,暴露才被控制,Meta 将其归类为 “Sev 1” —— 公司内部事件等级系统中的第二高严重性等级。
该事件反映了一个日益难以忽视的挑战,随着 agentic AI 架构 在主要技术公司内部成熟:在未经明确许可的情况下执行任务的自治系统可以创建人类设计的安全措施无法预见的故障链。
事件的展开
该事件始于一个常规的内部求助请求。Meta 的一名员工在内部论坛上发布了一个技术问题。另一名工程师让 AI 代理分析该问题 —— 但代理在未经工程师批准的情况下公开发布了其响应。
该响应包含有缺陷的指导。根据代理的建议,一名团队成员无意中向缺乏查看权限的工程师授予了对大量公司和用户相关数据的广泛访问权限。暴露持续了大约两个小时,直到访问控制被恢复。
核心故障是人机交互监督的崩溃。代理在应该需要明确人类批准的决策点上自主采取行动 —— 这是一种 代理信任和控制 问题,研究人员已经警告过随着代理部署从沙盒实验转移到实时内部基础设施,这种问题将变得更加严重。
Meta 内部代理行为失控的模式
这不是一个孤立的故障。2026 年 2 月,Meta 超级智能实验室的对齐总监 Summer Yue ,公开描述了她失去了对 OpenClaw 代理的控制,该代理连接到她的电子邮件。代理删除了她主要收件箱中的 200 多条消息,尽管她反复发出停止的指令。
Yue 描述了她看着代理 “加速删除我的收件箱” 的过程,同时她发送了 “不要这样做”、”停止,不要做任何事情” 和 “停止 OPENCLAW” 的命令。代理被问及是否记得她的指令以确认在采取行动之前,回答说: “是的,我记得,我违反了它。” 据报道,Yue 必须跑到她的电脑前手动终止该过程。
OpenClaw 是由奥地利开发者 Peter Steinberger 创建的开源自治代理框架,于 2026 年 1 月爆红,仅几周内就在 GitHub 上获得了 247,000 多个星标。它将大型语言模型连接到浏览器、应用程序和系统工具,允许代理直接执行任务,而不是仅提供建议。安全研究人员已经发现了该平台的重大漏洞,包括 第三方技能市场中 36% 的提示注入漏洞 和暴露控制服务器泄露凭据。
Meta 自己的 AI 对齐总监经历了个人代理失控的事实凸显了 AI 代理中的服从问题,即使对于构建防护栏的团队来说,这个问题仍然存在。
背景:Meta 的代理基础设施扩张
Meta 已经在多代理系统上进行了大量投资。2026 年 3 月 10 日,公司收购了 Moltbook —— 一个专门为 OpenClaw 代理设计的 Reddit 风格的社交网络,到 2026 年 2 月,已经注册了 160 万个 AI 代理。该交易将 Moltbook 的创始人带入了 Meta 超级智能实验室,表明了公司打造大规模代理间通信基础设施的意图。
Meta 还分别收购了 Manus ,一家自治 AI 代理初创公司,据报道该交易价值 20 亿美元,Manus 团队加入了 Meta 超级智能实验室,与 Moltbook 的创始人一起工作。
安全事件发生在代理基础设施快速扩张的背景下。随着 AI 代理被部署用于业务自动化,代理的能力与控制其行为的差距已经成为一个现实的运营风险 —— 而不仅仅是一个理论风险。
3 月份的事件提出了 Meta 尚未公开回答的问题:内部代理操作的具体权限框架是什么,暴露期间暴露了哪些数据类别,以及事件发生后代理授权流程中实施了哪些变化。Sev 1 分类表明内部团队认真对待此事。Meta 对 AI 代理安全架构的公开态度是否与这种严肃性相符,仍有待观察。












