思想领袖

人工智能代理的隐患威胁：新型安全模型的必要性

Published February 25, 2026

Updated May 16, 2026

Ahmad Shadid, Founder of O.xyz and Co-Founder of IO.net

近年来，代理人工智能系统已经变得非常普遍。它们被用于多种功能，包括用户认证、资本转移、触发合规工作流程和在企业环境中进行最小化的人类监督的协调。

然而，一个更为隐蔽的问题正在出现，不是在提示或政策层面，而是在基础设施信任层面。代理系统被授予内部权限，但仍然运行在从未被设计为保护自主决策者免受基础设施影响的计算环境中。

传统的安全性假设软件是被动的，但代理系统并非如此。它们持续地推理、记忆和行动，具有自主性和委托权威。

更不用说，人工智能代理可能会根据其使用案例访问个人数据，例如电子邮件和电话记录等。

此外，虽然存在基于硬件的保护措施，例如保密虚拟机和安全包裹，但它们并不是大多数代理人工智能部署的默认基础。因此，许多代理仍然在敏感数据在运行时暴露于基础设施中的环境中执行。

代理是内部人员，而不是工具

安全团队已经知道，内部威胁的控制是多么具有挑战性，这一点在Verizon的2025年数据泄露报告中得到了突出，这份报告显示，系统入侵占了去年确认的泄露事件的53%以上。在22%的这些案例中，攻击者使用窃取的凭证来获得访问权限，这凸显了他们经常使用合法身份而不是利用技术漏洞来成功的频率。

现在，考虑一个代理，它由提示逻辑、工具和插件、凭证以及策略组成。不仅可以运行代码和浏览网页，还可以查询CRM、阅读电子邮件和推送票据等。函数的组合将传统的攻击面带入了现代界面。

内部威胁的危险并非推测。OWASP现在列出了“提示注入”作为LLM应用程序的关键漏洞，特别是对于代理系统的链式操作。微软的威胁情报团队也发布了警告，指出如果没有架构上的保障，具有工具访问权限的人工智能系统可能会被篡改以执行数据盗窃。

这些报告提醒我们，具有合法访问权限的系统和数据的代理可以被转而对付其所有者。然而，代理系统的风险格局并非单一。应用层面的威胁，如提示注入和工具滥用，源于模型无法区分受信任的指令和不受信任的用户输入，这是一种设计局限性，无法通过任何内存强化来解决。

在基础设施层面存在着一个不同但同样重要的问题：一些代理在明文内存中运行，这意味着敏感信息（如聊天记录、API响应和文档）可以在被处理时被看到，并可能在稍后仍然可以访问。OWASP将此风险识别为敏感信息泄露（LLM02）和系统提示泄露（LLM07），并建议使用上下文隔离、命名空间分段和内存沙盒作为重要的安全措施。

因此，用户不应将这些代理视为仅仅是应用程序，因为它们是动态的、推理的执行者，需要一个考虑到它们作为非人类实体的独特性质的安全模型。这一方法需要包括软件控制以限制模型的行为以及硬件保护以在使用数据时保持其安全。

信任架构的关键缺陷

当前的安全实践专注于保护静态数据和传输中的数据。最后的边疆，即使用中的数据，几乎完全暴露。当人工智能代理推理一个保密数据集以批准贷款、分析患者记录或执行交易时，该数据通常在服务器内存中以明文形式解密和处理。

在标准的云模型中，任何对基础设施具有足够控制权的人，包括虚拟机管理员或共租攻击者，潜在上都可以窥视工作负载运行时正在发生的事情。对于人工智能代理来说，这种暴露尤其危险，因为它们需要访问敏感信息来执行其工作，这可能会成为攻击面。

正如Lumia Security所展示的，攻击者可以通过访问本地机器直接从ChatGPT、Claude和Copilot桌面应用程序的进程内存中获取JWT和会话密钥。这些被盗的凭证可以让他们假装成另一个用户，窃取对话历史，并注入提示到正在进行的会话中，这些提示可以改变代理的行为或植入虚假记忆。

例如，AWS CodeBuild的内存转储事件在2025年7月发生。攻击者秘密地将恶意代码添加到一个项目中，当系统运行它时，代码窥视了计算机的内存并窃取了存储在那里的隐藏登录令牌。凭借这些令牌，攻击者可以更改项目的代码并可能访问其他系统。

对于金融机构来说，沉默操纵是生存问题。银行、保险公司和投资公司已经承担了平均超过1000万美元的违规成本，他们理解完整性与保密性一样重要。根据最近的Informatica报告，“信任悖论”被解释为：组织正在比他们能够验证其输出更快地部署自主代理。结果是自动化可以将错误或偏见硬编码到核心流程中，以机器速度运行。

保密计算与隔离的案例

增量修复无法解决当前的问题，尽管更严格的访问控制和更好的监控可能会有所帮助。然而，这些都无法改变根本问题。问题是架构性的，只要计算发生在暴露的内存中，代理就会在它们最重要的时刻（即推理时）变得脆弱。

保密计算，如Confidential Computing Consortium（CCC）所定义的，通过基于硬件的可信执行环境（TEE）保护使用中的数据，直接解决了核心缺陷。

对于人工智能代理来说，这种硬件级别的隔离是变革性的，因为它允许代理的身份凭证、其模型权重、专有提示和它处理的敏感用户数据在执行期间不仅在磁盘或网络上加密，而且在内存中也加密。这种分离明确地打破了传统模型，即基础设施的控制权保证工作负载的控制权。

远程证明提供了可验证的加密证据，证明特定的推理请求在硬件支持的可信执行环境中执行，是否为CPU还是GPU。证明是从硬件测量中生成的，并与响应一起提供，允许独立验证工作负载的运行位置和方式。

证明记录不会透露执行的代码。相反，每个工作负载都与一个唯一的工作负载ID或事务ID关联，TEE证明记录链接到该标识符。证明确认计算在可信环境中运行，而不泄露其内容。

这种设置为合规性和可审计性创建了一个新的基础，允许将代理的行为链接到特定版本的代码，该代码已被证明和验证，并且已知输入数据。

走向可问责的自治

上述系统的影响范围超出了基本的安全性。考虑一下金融、医疗保健和个人信息等领域的法律。许多管辖区都有数据主权规则，限制信息可以在哪里处理。在中国，个人信息保护法和数据安全法要求某些类别的数据，例如重要的个人信息，在转移到境外之前必须存储在国内并进行审查。

同样，几个海湾国家，例如阿联酋和沙特阿拉伯，已经采取了类似的方法，尤其是对于金融、政府和关键基础设施数据。

保密计算可以通过保护数据和使运行时环境可证明来加强安全性和可审计性。但是，它不会改变处理的发生位置。在数据主权规则要求本地处理或对跨境转移施加条件的地方，受信任的执行环境可能会支持合规控制，而不是取代法律要求。

此外，保密计算使得多代理系统中的安全协作成为可能，在这种系统中，来自不同组织或部门的代理经常需要共享信息或验证输出而不暴露专有数据。

当这种技术与零信任架构配对时，结果将是一个更加坚实的基础。零信任不断验证身份和访问权限，而保密计算保护硬件内存免受未经授权的提取，并防止敏感信息在明文中被恢复。

它们共同保护真正重要的东西，例如决策逻辑、敏感输入和授权操作的加密密钥。

自治系统的新基线

如果每次交互都将人们置于暴露风险之中，他们就不会让人工智能处理诸如医疗记录或财务决策等事项。同样，公司也不会自动执行最重要的任务，如果这样做可能导致监管问题或重要数据丢失。

严肃的建设者认识到，在高保真环境中，仅应用层面的修复是不够的。

当代理被委托具有财务权威、监管数据或跨组织协调时，基础设施层面的暴露变得更加重要。在这种情况下，没有保密执行的代理仍然是一个软目标，其密钥可以被窃取，其逻辑可以被改变。现代泄露事件的规模正是如此。

隐私和完整性并不是可以在部署后添加的可选功能。它们必须从硅级开始架构。因此，为了使代理人工智能安全扩展，硬件强制的保密性不能被认为只是一个竞争优势，而是一个基线。