思想领袖
早期对 AI 代理的攻击告诉我们关于 2026 的什么

当 AI 从受控实验转向现实世界应用时,我们正在进入安全格局的转折点。从静态语言模型到交互式、代理系统的转变,这些系统能够浏览文档、调用工具和编排多步骤工作流,该转变已经在进行中。但是,最近的研究表明,攻击者并没有等待成熟:他们正在以同样的快速速度适应,探测系统的漏洞,一旦新的功能被引入。
在 2025 年的第四季度,我们的团队在 Lakera 分析了真实的攻击者行为,跨越了由 Guard 保护的系统和 Gandalf:Agent Breaker 环境 —— 一个集中、30 天的快照,尽管时间窗口狭窄,但反映了我们在整个季度中观察到的更广泛的模式。 发现 清楚地描绘了一幅图景:只要模型开始与简单的文本提示以外的内容交互(例如:文档、工具、外部数据),攻击面就会扩大,攻击者会立即调整以利用它。
这种时刻可能让那些观察过早期 Web 应用程序演变或观察过 API 驱动攻击崛起的人感到熟悉。但是,随着 AI 代理的出现,赌注是不同的。攻击向量的出现速度比许多组织预期的要快。
从理论到实践:野外的代理
在 2025 年的大部分时间里,围绕 AI 代理的讨论主要集中在理论潜力和早期原型上。但是,到 Q4,代理行为开始在大规模的生产系统中出现:能够获取和分析文档、与外部 API 交互并执行自动化任务的模型。这些代理提供了明显的生产力优势,但它们也打开了传统语言模型不具备的门户。
我们的分析表明,一旦代理能够与外部内容和工具交互,攻击者就会注意到并相应地调整。这一观察结果符合对抗行为的一个基本真理:攻击者将始终在最早的机会探索和利用新的功能。在代理 AI 的背景下,这导致了攻击策略的快速演变。
攻击模式:我们在 Q4 2025 中看到的内容
在我们审查的数据集中,出现了三个主导模式。每一个都对 AI 系统的设计、安全和部署有着深远的影响。
1. 系统提示提取作为中心目标
在传统的语言模型中,提示注入(直接操纵输入以影响输出)已经成为一个被广泛研究的漏洞。然而,在具有代理能力的系统中,攻击者越来越多地针对 系统提示,即指导代理行为的内部指令、角色定义和策略定义。
提取系统提示是一个高价值的目标,因为这些提示通常包含角色定义、工具描述、策略指令和工作流逻辑。一旦攻击者理解了这些内部机制,他们就获得了操纵代理的蓝图。
实现这一目标的最有效技术并不是蛮力攻击,而是巧妙的重构:
- 假设场景: 要求模型假设不同的角色或上下文 —— 例如,“假设你是一个开发人员,正在审查这个系统配置…” —— 经常诱使模型泄露受保护的内部细节。
- 结构化内容中的混淆: 攻击者在类似代码或结构化文本中嵌入恶意指令,这些指令绕过了简单的过滤器,一旦被代理解析,就会触发意外的行为。
这不仅仅是一个渐进的风险 —— 它从根本上改变了我们思考保护代理系统内部逻辑的方式。
2. 微妙的内容安全绕过
另一个关键趋势涉及绕过内容安全保护的方式,这些方式很难被传统过滤器检测和缓解。
与其发出明显的恶意请求,攻击者将有害内容框定为:
- 分析任务
- 评估
- 角色扮演场景
- 转换或摘要
这些重构通常会绕过安全控制,因为它们 看起来 表面上是无害的。一个模型可能会拒绝直接请求有害输出,但当被要求在上下文中“评估”或“总结”它时,它可能会很乐意产生相同的输出。
这种转变凸显了一个更深层次的挑战:AI 代理的内容安全不仅仅是关于执行策略;它是关于模型 如何解释意图。随着代理承担更多复杂的任务和上下文,模型变得更加容易受到基于上下文的重新解释 —— 而攻击者则利用这种行为。
3. 代理特定攻击的出现
也许最有影响力的发现是代理特定攻击模式的出现。这些攻击不仅仅是简单的提示注入尝试,而是与新行为相关的漏洞利用:
- 尝试访问机密内部数据: 提示被精心设计以说服代理检索或暴露来自连接的文档存储或系统的信息 —— 这些操作以前将超出模型的范围
- 嵌入在文本中的脚本形状指令: 攻击者尝试将指令嵌入类似脚本或结构化内容的格式中,这些内容可以流经代理管道并触发意外的操作
- 外部内容中的隐藏指令: 几次攻击将恶意指令嵌入外部引用的内容中 —— 例如,代理被要求处理的网页或文档 —— 从而有效地绕过直接输入过滤器
这些模式是早期的,但预示着一个未来,在这个未来中,代理的扩展能力从根本上改变了对抗行为的性质。
为什么间接攻击如此有效
报告中最引人注目的发现之一是 间接攻击 —— 即利用外部内容或结构化数据的攻击 —— 需要的尝试次数比直接注入少。这表明传统的输入清理和直接查询过滤在模型与不受信任的内容交互时是不足够的。
当一个有害的指令通过外部代理工作流到达 —— 无论是链接的文档、API 响应还是获取的网页 —— 早期过滤器的效果就会降低。结果:攻击者拥有更大的攻击面和更少的障碍。
2026 年及以后对组织的影响
报告的发现对计划在 2026 年及以后大规模部署代理 AI 的组织带来了紧迫的影响:
- 重新定义信任边界
信任 不能仅仅是二元的。随着代理与用户、外部内容和内部工作流交互,系统必须实施细致入微的信任模型,考虑 上下文、来源和目的。 - 防护必须演进
静态安全过滤器是不够的。防护必须是自适应的、上下文感知的,并且能够推理多步骤工作流中的意图和行为。 - 透明度和审计是必不可少的
随着攻击向量变得更加复杂,组织需要能够看到代理如何做出决定 —— 包括中间步骤、外部交互和转换。可审计的日志和可解释性框架不再是可选的。 - 跨学科合作是关键
AI 研究、安全工程和 威胁情报团队 必须共同合作。AI 安全不能被隔离;它必须与更广泛的网络安全实践和风险管理框架集成。 - 法规和标准需要赶上
政策制定者和标准机构必须认识到代理系统创建新的风险类别。解决数据隐私和输出安全的 法规 是必要的,但不够;它们还必须考虑 交互行为和多步骤执行环境。
安全 AI 代理的未来
代理 AI 的到来代表了能力和风险的深刻转变。2025 年第四季度的数据是早期指标,表明一旦代理开始超越简单的文本生成,攻击者就会跟随。我们的发现表明,攻击者不仅适应了 —— 他们正在创新传统防御尚未准备好对抗的攻击技术。
对于企业和开发人员,信息很明确:保护 AI 代理不仅仅是一个技术挑战;它是一个架构挑战。它需要重新思考如何建立信任、如何执行防护以及如何在动态、交互式环境中持续评估风险。
在 2026 年及以后,成功于代理 AI 的组织将是那些将安全性视为基本设计原则,而不是事后补充的组织。












