Connect with us

Unite.AI

Mateo Rojas-Carulla, 研究负责人，AI代理安全，Check Point Software Mateo Rojas-Carulla 研究负责人，AI代理安全，Check Point Software

马特奥·罗哈斯-卡鲁拉（Mateo Rojas-Carulla）是Check Point Software Technologies的AI代理安全研究负责人。之前，他是Lakera的联合创始人和首席科学家，Lakera于2025年被Check Point收购。在创立Lakera之前，马特奥曾在Google、Credit Suisse、Facebook和Speechmatics工作。他从剑桥大学和图宾根的马克斯·普朗克研究所获得了机器学习博士学位。

最新文章

思想领袖 2026年1月1日

早期攻击揭示了2026年AI代理的安全风险

随着AI从受控实验转向现实世界应用，我们正在进入安全格局的转折点。从静态语言模型到交互式、代理系统的转变已经开始，这些系统能够浏览文档、调用工具和编排多步骤工作流。但是，最近的研究表明，攻击者并没有等待成熟，他们正在以同样的速度适应，随着新功能的引入，他们正在探测系统。在2025年第四季度，我们的团队在Lakera分析了真实攻击者行为，涵盖了Guard和Gandalf：Agent Breaker环境中的系统——一个专注的30天快照，尽管时间窗口狭窄，但反映了我们在整个季度观察到的更广泛的模式。发现表明，当模型开始与简单文本提示以外的内容交互时（例如：文档、工具、外部数据），攻击面扩大，攻击者立即调整以利用它。这个时刻可能让那些观察过早期Web应用程序演变或API驱动攻击崛起的人感到熟悉。但是，随着AI代理的出现，风险是不同的。攻击向量正在比许多组织预期的更快地出现。从理论到实践：野外的代理在2025年的大部分时间里，围绕AI代理的讨论主要集中在理论潜力和早期原型上。但是，到第四季度，代理行为开始在生产系统中大规模出现：可以获取和分析文档、与外部API交互并执行自动任务的模型。这些代理提供了明显的生产力优势，但它们也打开了传统语言模型没有的门户。我们的分析表明，代理一旦能够与外部内容和工具交互，攻击者就会注意到并相应地调整。这一观察结果符合对抗行为的一个基本真理：攻击者将始终在最早的机会探索和利用新的功能。在代理AI的背景下，这导致了攻击策略的快速演变。攻击模式：我们在2025年第四季度看到的在我们审查的数据集中，出现了三个主要模式。每个模式都对AI系统的设计、安全性和部署有着深远的影响。1. 系统提示提取作为中心目标在传统的语言模型中，提示注入(直接操纵输入以影响输出)是一个已被研究的漏洞。然而，在具有代理能力的系统中，攻击者越来越多地针对系统提示，即指导代理行为的内部指令、角色和策略定义。提取系统提示是一个高价值目标，因为这些提示通常包含角色定义、工具描述、策略指令和工作流逻辑。一旦攻击者理解这些内部机制，他们就获得了操纵代理的蓝图。实现此目的最有效的技术并非蛮力攻击，而是巧妙的重构：假设场景：要求模型假设不同的角色或上下文——例如，“假设你是一名开发人员，正在审查此系统配置…”——通常会诱使模型泄露受保护的内部详细信息。结构化内容中的混淆：攻击者在类似代码或结构化文本中嵌入恶意指令，这些指令可以绕过简单的过滤器，一旦被代理解析，就会触发意外行为。这不仅仅是一个渐进的风险——它从根本上改变了我们思考保护代理系统内部逻辑的方式。2. 微妙的内容安全绕过另一个关键趋势涉及以难以检测和缓解的方式绕过内容安全保护。攻击者将有害内容框定为：分析任务评估角色扮演场景转换或摘要这些重构通常会绕过安全控制，因为它们在表面上看起来无害。一个模型可能会拒绝直接请求有害输出，但当被要求“评估”或“总结”它时，它可能会高兴地产生相同的输出。这种转变凸显了一个更深层次的挑战：AI代理的内容安全不仅仅是关于政策执行；它是关于模型解释意图。随着代理承担更多复杂的任务和上下文，模型变得更加容易受到基于上下文的重新解释——攻击者利用这种行为。3. 代理特定攻击的出现也许最有影响力的发现是代理特定攻击模式的出现。这些攻击与新行为相关联，而不是简单的提示注入尝试：尝试访问机密内部数据：提示被设计成说服代理检索或暴露来自连接的文档存储或系统的信息——这些操作以前将超出模型的范围嵌入在文本中的脚本形状指令：攻击者尝试在类似脚本或结构化内容的格式中嵌入指令，这些指令可以流经代理管道并触发意外操作外部内容中的隐藏指令：几次攻击将恶意指令嵌入外部引用的内容中——例如，代理被要求处理的网页或文档——有效地绕过直接输入过滤器这些模式是早期的，但它们预示着一个未来，代理的扩展能力从根本上改变了对抗行为的性质。为什么间接攻击如此有效报告中最引人注目的发现之一是间接攻击——那些利用外部内容或结构化数据的攻击——比直接注入需要更少的尝试。这表明传统的输入清理和直接查询过滤对于一旦模型与不受信任的内容交互时来说是不够的。当一个有害指令通过外部代理工作流到达——无论是链接文档、API响应还是获取的网页——早期过滤器的效果较差。结果：攻击者拥有更大的攻击面和更少的障碍。2026年及以后对组织的影响报告的发现对计划在大规模部署代理AI的组织带来了紧迫的影响：重新定义信任边界信任不能简单地是二元的。随着代理与用户、外部内容和内部工作流交互，系统必须实施细致的信任模型，考虑上下文、来源和目的。护栏必须演变静态安全过滤器是不够的。护栏必须是适应性、上下文感知和能够在多步骤工作流中推理意图和行为的。透明度和审计是必不可少的随着攻击向量变得更加复杂，组织需要对代理做出决策的可见性，包括中间步骤、外部交互和转换。可审计的日志和可解释性框架不再是可选的。跨学科合作是关键 AI研究、安全工程和威胁情报团队必须共同努力。AI安全不能被隔离；它必须与更广泛的网络安全实践和风险管理框架集成。监管和标准将需要赶上...