思想领袖

当 AI 能力增长速度超过为其构建的安全模型时

发布于 2026年3月5日

更新于 2026年4月25日

作者

Jon Baker, 威胁情报防御副总裁，AttackIQ

AI 工具通常带有一个熟悉的宣传口号。它们承诺简化工作流程，提高生产力，并承担没有人喜欢的任务。大多数时候，它们确实实现了这一点。它们简化了登录，总结了文档，自动化了工作流程，并使常规活动感觉几乎毫不费力。

但是在所有这些便利之下，却有一个不同的故事。这些工具不再局限于文本框。它们开始直接作用于操作系统本身。它们可以浏览文件，草拟电子邮件，交互应用程序，并执行以前需要一个了解后果的人类所需的操作。这种转变使得 AI 处于现有的安全假设无法管理的位置。

AI 获得系统访问权限的时刻

一旦 AI 系统可以读取真实文件并执行真实命令，它就成为受信任的计算基础的一部分。那是 AI 安全性长期以来被认为是安全的假设开始瓦解的时刻。

多年来，提示注入被认为是一种奇怪的模型行为。它会导致聊天机器人产生误导性或不适当的响应，但损害仅限于对话。现在，同样的缺陷可以触发主机级别的操作，而不仅仅是文本。一个隐藏在 PDF、网站或电子邮件中的恶意指令不再仅仅产生奇怪的答案，而是会在机器上执行某个操作。

这不是行业可以将其视为理论的东西。卡内基梅隆大学和华盛顿大学的研究人员已经反复证明，隐藏的指令可以引导大型语言模型执行用户从未预期的操作。同时，研究视觉模型的研究人员已经展示了如何操纵图像以改变模型的感知，从而影响下游行为。

这些实验曾经被视为实验室的奇观。现在，当 AI 具有访问操作系统的权限时，它们不再感觉像学术研究。

当代理能力超过防御者控制时

甚至构建这些代理的公司也承认这一挑战的严重性。它们加强了过滤器以处理提示，但它们公开表示，控制 AI 系统的真实世界行为仍然是整个行业正在进行的活跃工作。代理可以做的事情和防御者可以控制的事情之间的差距引入了一种新的风险类别，现有的安全手册无法吸收。

AI 代理已经跨越了行业尚未完全准备好的边界。要了解这一点，只需看一下提示注入现在如何与防御者已经跟踪了十多年的攻击链相交叉。

提示注入现在如何映射到攻击链

攻击者一直遵循一种可预测的模式。 MITRE ATT&CK 框架清楚地概述了各个阶段。初始访问后是执行、持久性、发现、横向移动、收集和渗漏。技术可能有所不同，但结构是稳定的。

正在发生变化的是交付机制。攻击者不再需要说服用户打开恶意附件或点击危险链接，而是可以将指令放在 AI 代理将要读取的地方。代理成为执行环境。它按照指令精确地执行步骤。模型不会质疑指令是否有害。它不会应用判断或直觉。它只是行动。

一旦攻击者可以影响代理的推理，攻击链就会迅速形成。一个操纵的文件触发执行，后续指令创建持久性，系统搜索提供发现，文件上传实现收集和渗漏。无需恶意软件。代理只是按照指令执行步骤。

这是安全团队难以适应的部分。他们已经花了多年时间围绕基于代码的执行构建检测规则、控制和响应过程。AI 代理引入了不同类型的解释器。它们通过自然语言执行，而不是编译的二进制文件。现有的工具不适合跟踪或分析这种推理过程。

安全团队还没有准备好，也没有意识到

安全计划仍然假设人类坐在内容和行动之间。人类可能会被欺骗，但当事情感觉不对劲时，他们会暂停。他们会注意到奇怪的短语，质疑意外的行为，并在决策的最后一英里带来判断。

AI 代理没有做到这一点；它们是一致的、字面意义上的，并且比任何对手都快。一个隐藏的文本行就足以指示代理读取敏感文件，移动应用程序或联系远程服务器。这使得防御者处于他们以前从未经历过的位置。

安全团队对代理如何做出决定的过程几乎没有可见性，他们也无法轻易确定某个操作是否起源于用户或 AI。传统的恶意软件检测没有帮助，因为没有以通常的意义上执行恶意软件，而且不能保证代理会在正常内容中对隐藏的有害指令提出质疑或拒绝。

为人类行为设计的工具根本不适用于自然语言成为驱动系统行为的脚本的世界。

什么补偿控制实际上有效

模型加固是不够的。安全团队需要代理周围的控制，以限制 AI 即使其推理受到影响也能做什么。

几种策略显示出希望：

最小特权访问是必不可少的。代理应该只访问其任务所需的文件和操作。减少不必要的权限可以限制操纵指令的影响。
人类批准步骤可以在有害操作发生之前停止它们。当代理尝试敏感操作（例如运行命令或访问受保护的数据）时，用户应该批准或拒绝请求。
内容过滤可以在不受信任的材料和代理之间创建一个缓冲区。筛选文档、URL 和外部文本可以降低隐藏指令到达模型的机会。
全面日志记录是必需的。每个代理启动的操作都必须记录和审查。这些操作应该像任何特权用户活动一样被视为相同。
将代理行为映射到 ATT&CK 技术可以帮助防御者确定代理可以被推入有害操作的位置以及必须放置防护栏的位置。它使用与构建防御策略相同的系统。

这些补偿控制不会消除风险。但是，它们可以通过模型级别的防御无法做到的方式限制风险。

行业的下一步

AI 代理代表了计算方式的重大转变。它们提供了难以置信的生产力，但也引入了一种操作风险，它不适合现有的安全框架。英国国家网络安全中心的指导是一个开始，但大多数组织仍然缺乏明确的方法来管理可以在系统上运行的代理。

这一刻感觉类似于云采用早期的日子。技术的发展速度比控制速度更快。那些快速适应的组织是那些早早认识到这一转变并建立了相应的流程的组织。

同样的事情将在这里发生。AI 代理不仅仅是助手。它们是具有系统级别权限的操作员。保护它们需要新的游戏规则、新防护栏和新的暴露建模方法。

行业不需要害怕这些工具。但是，它需要了解它们。并且需要快速行动，因为攻击者已经看到了机会。问题是防御者是否会在仍然有时间的情况下建立适当的防护措施。