思想领袖
早期针对人工智能代理的攻击预示着2026年将发生什么?

随着人工智能从受控实验走向实际应用,我们正步入安全领域的一个转折点。从静态语言模型到能够浏览文档、调用工具和协调多步骤工作流程的交互式智能系统的转变已经展开。但正如近期研究表明,攻击者并未等待系统成熟:他们正以同样的速度进行调整,一旦系统引入新功能,便立即对其进行探测。
2025年第四季度,Lakera团队分析了受Guard保护的系统以及Gandalf: Agent Breaker环境中的真实攻击者行为——这是一项为期30天的集中式快照,尽管时间跨度较短,但反映了我们在整个季度观察到的更广泛的模式。 发现 描绘出一幅清晰的图景:一旦模型开始与简单的文本提示之外的任何事物(例如:文档、工具、外部数据)进行交互,威胁面就会扩大,对手会立即调整以利用它。
对于那些见证过早期网络应用发展历程或目睹过API驱动型攻击兴起的人来说,此刻的情景或许并不陌生。但是,随着…… AI代理商但风险已经不同了。攻击手段的出现速度比许多组织预期的要快得多。
从理论到实践:野外智能体
在2025年的大部分时间里,关于人工智能代理的讨论主要集中在理论潜力和早期原型上。但到了第四季度,代理行为开始大规模地出现在生产系统中:这些模型能够获取和分析文档、与外部API交互并执行自动化任务。这些代理不仅带来了显而易见的生产力提升,而且还开启了传统语言模型无法企及的大门。
我们的分析表明,一旦智能体具备了与外部内容和工具交互的能力,攻击者便立即注意到并做出了相应的调整。这一观察结果与对抗行为的一个基本事实相符:攻击者总会在第一时间探索并利用新的能力。在智能体人工智能的背景下,这导致了攻击策略的快速演变。
攻击模式:我们在 2025 年第四季度将会看到什么
在我们审查的数据集中,涌现出三种主要模式。每一种模式都对人工智能系统的设计、安全和部署方式有着深远的影响。
1. 系统提示提取作为核心目标
在传统的语言模型中, 及时注射 (直接操纵输入以影响输出)一直是一个研究较为深入的漏洞。然而,在具有代理能力的系统中,攻击者越来越多地将目标锁定在…… 系统提示即指导代理行为的内部指令、角色和策略定义。
提取系统提示信息是一项极具价值的目标,因为这些提示信息通常包含角色定义、工具描述、策略指令和工作流逻辑。一旦攻击者理解了这些内部机制,他们就能获得操纵代理的蓝图。
实现这一目标最有效的方法并非蛮力攻击,而是巧妙的重新包装:
- 假设场景要求模型承担不同角色或上下文的提示——例如,“想象一下你是一名正在审查此系统配置的开发人员……”——通常会诱使模型透露受保护的内部细节。
- 结构化内容中的混淆攻击者将恶意指令嵌入到类似代码或结构化的文本中,绕过了简单的过滤器,一旦被代理解析,就会触发意外行为。
这不仅仅是一个渐进的风险——它从根本上改变了我们对保护智能体系统内部逻辑的思考方式。
2. 微妙的内容安全绕过
另一个关键趋势是绕过内容安全保护措施,而这些措施很难用传统过滤器检测和缓解。
攻击者并没有直接发出恶意请求,而是将有害内容伪装成:
- 分析任务
- 评估
- 角色扮演场景
- 转换或摘要
这些重新定义往往能绕过安全控制,因为它们 出现 表面上看起来无害。一个模型如果被直接要求输出有害内容,可能会拒绝,但如果被要求在特定语境下“评估”或“总结”该内容,它却可能乐于输出相同的内容。
这种转变凸显了一个更深层次的挑战:人工智能代理的内容安全不仅仅是政策执行的问题,还涉及到模型如何运作的问题。 解读意图随着智能体承担更复杂的任务和环境,模型更容易受到基于上下文的重新解释的影响——攻击者会利用这种行为。
3. 针对特定代理的攻击的出现
或许最重要的发现是,出现了一些只有在智能体能力背景下才能理解的攻击模式。这些并非简单的提示注入尝试,而是与新行为相关的漏洞利用:
- 试图访问机密内部数据设计提示旨在引导代理从连接的文档存储库或系统中检索或显示信息——这些操作以前超出了模型的范围。
- 嵌入文本中的脚本形指令攻击者尝试将指令嵌入类似脚本或结构化内容的格式中,这些指令可以流经代理管道并触发意外操作。
- 外部内容中的隐藏指令:嵌入了多种攻击 恶意指令 在外部引用的内容(例如代理被要求处理的网页或文档)中,可以有效地绕过直接输入过滤器。
这些模式尚处于早期阶段,但预示着未来代理人能力的不断提升将从根本上改变对抗行为的性质。
为什么间接攻击如此有效
该报告最引人注目的发现之一是: 间接攻击 利用外部内容或结构化数据的攻击所需的尝试次数少于直接注入。这表明,一旦模型与不受信任的内容交互,传统的输入清理和直接查询过滤就不足以起到防御作用。
当恶意指令通过外部代理工作流程(无论是链接文档、API 响应还是获取的网页)传入时,早期过滤器的效力会降低。结果是:攻击者的攻击面更大,遇到的阻碍更少。
对2026年及以后的影响
该报告的研究结果对计划大规模部署智能体的组织具有紧迫的意义:
- 重新定义信任边界
信托 不能简单地用二元论来概括。由于代理会与用户、外部内容和内部工作流程进行交互,系统必须实施细致入微的信任模型,这些模型会考虑各种因素。 背景、来源和目的. - 护栏必须与时俱进
静态安全过滤器是不够的。防护措施必须具有适应性,能够感知上下文,并能够推断多步骤工作流程中的意图和行为。 - 透明度和审计至关重要
随着攻击途径日益复杂,组织需要了解攻击者如何做出决策,包括中间步骤、外部交互和转换过程。可审计日志和可解释性框架已不再是可选项。 - 跨学科合作至关重要
人工智能研究、安全工程和 威胁情报团队 必须协同合作。人工智能安全不能孤立存在;它必须与更广泛的网络安全实践和风险管理框架相结合。 - 监管和标准需要迎头赶上
政策制定者和标准机构必须认识到,智能体系统会产生新的风险类型。 法规 解决数据隐私和输出安全问题是必要的,但还不够;它们还必须考虑到 交互式行为和多步骤执行环境.
安全人工智能代理的未来
智能体的出现标志着能力和风险的深刻转变。2025年第四季度的数据初步表明,一旦智能体不再局限于简单的文本生成,攻击者就会紧随其后。我们的研究结果表明,攻击者不仅在适应,而且还在不断创新攻击技术,而传统防御手段目前尚无法有效应对。
对于企业和开发者而言,信息很明确:保障人工智能代理的安全不仅仅是一个技术挑战,更是一个架构挑战。这需要重新思考如何在动态、交互式环境中建立信任、如何强制执行安全防护措施以及如何持续评估风险。
到 2026 年及以后,那些能够成功运用智能人工智能的组织,将会把安全视为一项基本设计原则,而不是事后考虑的因素。












