思想领袖

早期攻击揭示了2026年AI代理的安全风险

发布于 2026年1月1日

更新于 2026年5月17日

作者

Mateo Rojas-Carulla, 研究负责人，AI代理安全，Check Point Software

随着AI从受控实验转向现实世界应用，我们正在进入安全格局的转折点。从静态语言模型到交互式、代理系统的转变已经开始，这些系统能够浏览文档、调用工具和编排多步骤工作流。但是，最近的研究表明，攻击者并没有等待成熟，他们正在以同样的速度适应，随着新功能的引入，他们正在探测系统。

在2025年第四季度，我们的团队在Lakera分析了真实攻击者行为，涵盖了Guard和Gandalf：Agent Breaker环境中的系统——一个专注的30天快照，尽管时间窗口狭窄，但反映了我们在整个季度观察到的更广泛的模式。发现表明，当模型开始与简单文本提示以外的内容交互时（例如：文档、工具、外部数据），攻击面扩大，攻击者立即调整以利用它。

这个时刻可能让那些观察过早期Web应用程序演变或API驱动攻击崛起的人感到熟悉。但是，随着AI代理的出现，风险是不同的。攻击向量正在比许多组织预期的更快地出现。

从理论到实践：野外的代理

在2025年的大部分时间里，围绕AI代理的讨论主要集中在理论潜力和早期原型上。但是，到第四季度，代理行为开始在生产系统中大规模出现：可以获取和分析文档、与外部API交互并执行自动任务的模型。这些代理提供了明显的生产力优势，但它们也打开了传统语言模型没有的门户。

我们的分析表明，代理一旦能够与外部内容和工具交互，攻击者就会注意到并相应地调整。这一观察结果符合对抗行为的一个基本真理：攻击者将始终在最早的机会探索和利用新的功能。在代理AI的背景下，这导致了攻击策略的快速演变。

攻击模式：我们在2025年第四季度看到的

在我们审查的数据集中，出现了三个主要模式。每个模式都对AI系统的设计、安全性和部署有着深远的影响。

1. 系统提示提取作为中心目标

在传统的语言模型中，提示注入(直接操纵输入以影响输出)是一个已被研究的漏洞。然而，在具有代理能力的系统中，攻击者越来越多地针对系统提示，即指导代理行为的内部指令、角色和策略定义。

提取系统提示是一个高价值目标，因为这些提示通常包含角色定义、工具描述、策略指令和工作流逻辑。一旦攻击者理解这些内部机制，他们就获得了操纵代理的蓝图。

实现此目的最有效的技术并非蛮力攻击，而是巧妙的重构：

假设场景：要求模型假设不同的角色或上下文——例如，“假设你是一名开发人员，正在审查此系统配置…”——通常会诱使模型泄露受保护的内部详细信息。
结构化内容中的混淆：攻击者在类似代码或结构化文本中嵌入恶意指令，这些指令可以绕过简单的过滤器，一旦被代理解析，就会触发意外行为。

这不仅仅是一个渐进的风险——它从根本上改变了我们思考保护代理系统内部逻辑的方式。

2. 微妙的内容安全绕过

另一个关键趋势涉及以难以检测和缓解的方式绕过内容安全保护。

攻击者将有害内容框定为：

分析任务
评估
角色扮演场景
转换或摘要

这些重构通常会绕过安全控制，因为它们在表面上看起来无害。一个模型可能会拒绝直接请求有害输出，但当被要求“评估”或“总结”它时，它可能会高兴地产生相同的输出。

这种转变凸显了一个更深层次的挑战：AI代理的内容安全不仅仅是关于政策执行；它是关于模型解释意图。随着代理承担更多复杂的任务和上下文，模型变得更加容易受到基于上下文的重新解释——攻击者利用这种行为。

3. 代理特定攻击的出现

也许最有影响力的发现是代理特定攻击模式的出现。这些攻击与新行为相关联，而不是简单的提示注入尝试：

尝试访问机密内部数据：提示被设计成说服代理检索或暴露来自连接的文档存储或系统的信息——这些操作以前将超出模型的范围
嵌入在文本中的脚本形状指令：攻击者尝试在类似脚本或结构化内容的格式中嵌入指令，这些指令可以流经代理管道并触发意外操作
外部内容中的隐藏指令：几次攻击将恶意指令嵌入外部引用的内容中——例如，代理被要求处理的网页或文档——有效地绕过直接输入过滤器

这些模式是早期的，但它们预示着一个未来，代理的扩展能力从根本上改变了对抗行为的性质。

为什么间接攻击如此有效

报告中最引人注目的发现之一是间接攻击——那些利用外部内容或结构化数据的攻击——比直接注入需要更少的尝试。这表明传统的输入清理和直接查询过滤对于一旦模型与不受信任的内容交互时来说是不够的。

当一个有害指令通过外部代理工作流到达——无论是链接文档、API响应还是获取的网页——早期过滤器的效果较差。结果：攻击者拥有更大的攻击面和更少的障碍。

2026年及以后对组织的影响

报告的发现对计划在大规模部署代理AI的组织带来了紧迫的影响：

重新定义信任边界
信任不能简单地是二元的。随着代理与用户、外部内容和内部工作流交互，系统必须实施细致的信任模型，考虑上下文、来源和目的。
护栏必须演变
静态安全过滤器是不够的。护栏必须是适应性、上下文感知和能够在多步骤工作流中推理意图和行为的。
透明度和审计是必不可少的
随着攻击向量变得更加复杂，组织需要对代理做出决策的可见性，包括中间步骤、外部交互和转换。可审计的日志和可解释性框架不再是可选的。
跨学科合作是关键
AI研究、安全工程和威胁情报团队必须共同努力。AI安全不能被隔离；它必须与更广泛的网络安全实践和风险管理框架集成。
监管和标准将需要赶上
政策制定者和标准机构必须认识到代理系统创造了新的风险类别。解决数据隐私和输出安全的法规是必要的，但不够；它们还必须考虑交互行为和多步骤执行环境。

安全AI代理的未来

代理AI的到来代表了能力和风险的深刻转变。2025年第四季度的数据是早期指标，表明一旦代理开始超越简单的文本生成，攻击者就会跟随。我们的发现表明，攻击者不仅适应了新的攻击技术，而且传统的防御还没有准备好应对这些攻击。

对于企业和开发人员，信息很明确：保护AI代理不仅仅是一个技术挑战；它是一个架构挑战。它需要重新思考如何建立信任，如何执行护栏，以及如何在动态、交互式环境中持续评估风险。

在2026年及以后，成功采用代理AI的组织将是那些将安全性视为基本设计原则，而不是事后补充的组织。