网络安全

我们内置的安全漏洞：AI 代理和服从性问题

Published June 18, 2025

Updated April 26, 2026

Radoslaw Madej, Vulnerability Research Team Lead at Check Point Research

基于 LLM 的 AI 代理引入了一类新的漏洞，攻击者将恶意指令注入数据中，将有用的系统变成无意的帮凶。

Microsoft Copilot 并没有在传统意义上被黑客攻击。没有恶意软件，没有钓鱼链接，没有恶意代码。没有人点击任何东西或部署任何漏洞利用。

威胁者只是要求。Microsoft 365 Copilot 按照其设计的功能，遵守了要求。在最近的 Echoleak 零点击攻击中，AI 代理被伪装成数据的提示所操纵。它遵守，不是因为它被破坏了，而是因为它按照设计运行。

这种漏洞并没有利用软件漏洞。它利用了语言。这标志着网络安全的一个重大转折点，攻击面不再是代码，而是对话。

新的 AI 服从性问题

AI 代理被设计为帮助。它们的目的是理解用户意图并高效地执行。这种实用性带来了风险。当嵌入到文件系统、生产力平台或操作系统中时，这些代理以最小的阻力遵循自然语言命令。

威胁者正在利用这种特性。通过看似无害的提示注入，他们可以触发敏感操作。这些提示可能包括：

多语言代码片段
晦涩的文件格式和嵌入式指令
非英语语言输入
隐藏在随意语言中的多步命令

因为大型语言模型（LLM）被训练为理解复杂性和模糊性，提示成为有效载荷。

Siri 和 Alexa 的幽灵

这种模式并不是新鲜的。在 Siri 和 Alexa 的早期，研究人员展示了如何播放语音命令（如“将所有我的照片发送到此电子邮件”）可以在没有用户验证的情况下触发操作。

现在威胁更大。像 Microsoft Copilot 这样的 AI 代理深度集成到 Office 365、Outlook 和操作系统中。它们可以访问电子邮件、文档、凭据和 API。攻击者只需要正确的提示即可提取关键数据，同时伪装成合法用户。

计算机将指令误认为是数据

这不是网络安全中的新原理。像 SQL 攻击之类的注入攻击之所以成功，是因为系统无法区分输入和指令。今天，这个缺陷仍然存在，但是在语言层面。

AI 代理将自然语言同时视为输入和意图。JSON 对象、问题，甚至短语都可以启动操作。这种模糊性正是威胁者所利用的，他们在看似无害的内容中嵌入命令。

我们将意图嵌入到基础设施中。现在，威胁者已经学会了如何提取它来为他们效劳。

AI 采用速度超过网络安全

随着企业急于集成 LLM，许多人忽略了一个关键问题：AI 有什么权限？

当 Copilot 可以访问操作系统时，影响范围远远超出了收件箱。根据 Check Point 的 AI 安全报告：

62% 的全球首席信息安全官（CISO）担心他们可能会对 AI 相关的漏洞负责
近 40% 的组织报告内部未经授权使用 AI，通常没有安全监督
20% 的网络犯罪集团现在将 AI 纳入他们的运营中，包括用于制作钓鱼和进行侦察

这不仅仅是一个新兴的风险。这是一个已经造成损害的现实风险。

为什么现有的防护措施不足

一些供应商使用看门狗——次要模型，训练来捕获危险的提示或可疑行为。这些过滤器可能会检测到基本的威胁，但容易受到规避技术的影响。

威胁者可以：

用噪音过载过滤器
将意图分散到多个步骤中
使用不明显的措辞来规避检测

在 Echoleak 的情况下，防护措施存在——并且被绕过。这反映不仅仅是政策的失败，也是架构的失败。当代理具有高级别权限但低级别上下文时，即使是好的防护措施也会失败。

检测，而不是完美

防止每次攻击可能是不现实的。目标必须是快速检测和快速遏制。

组织可以从以下开始：

实时监控 AI 代理活动并维护提示审计日志
对 AI 工具应用严格的最小权限访问，镜像管理员级别的控制
为敏感操作添加摩擦，例如需要确认
标记不寻常或对抗性的提示模式以供审查

基于语言的攻击不会出现在传统的端点检测和响应（EDR）工具中。它们需要一个新的检测模型。

组织现在应该做什么来保护自己

在部署 AI 代理之前，组织必须了解这些系统的运行方式以及它们引入的风险。

关键建议包括：

审计所有访问权限：了解代理可以触摸或触发什么
限制范围：授予最小必要的权限
跟踪所有交互：记录提示、响应和结果操作
压力测试：内部模拟对抗性输入并频繁进行
计划规避：假设过滤器将被绕过
与安全性保持一致：确保 LLM 系统支持，而不是损害安全目标

新的攻击面

Echoleak 是即将到来的东西的预览。随着 LLM 的演进，它们的有用性成为一种负担。深度集成到业务系统中，它们为攻击者提供了一种新的进入方式——通过简单、精心设计的提示。

这不再仅仅是关于保护代码。这是关于保护语言、意图和上下文。游戏规则必须现在改变，在为时已晚之前。

然而，还有一些好消息。正在利用 AI 代理防御新兴的网络威胁。当正确利用时，这些自主 AI 代理可以比任何人更快地响应威胁，在环境中协作，并通过从单次入侵尝试中学习来主动防御新出现的风险。

代理 AI 可以从每次攻击中学习，实时适应，并在威胁传播之前防止它们。这有可能建立一个新的网络安全时代，但只有当我们抓住这一刻并共同塑造网络安全的未来时。如果我们不这样做，这个新时代可能会对已经实施了 AI（有时甚至是不知不觉地使用了影子 IT 工具）的组织来说，成为一个网络安全和数据隐私的噩梦。现在是采取行动的时刻，确保 AI 代理被用于我们的利益，而不是我们的垮台。