网络安全

HiddenLayer 研究人员绕过 OpenAI 的 Guardrails，暴露 AI 自我调节中的关键缺陷

Published October 12, 2025

Updated May 17, 2026

Antoine Tardif, CEO & Founder of Unite.AI

2025 年 10 月 6 日，OpenAI 宣布 AgentKit，这是一种用于构建、部署和管理 AI 代理的工具包。其中一个组件是 Guardrails，这是一种模块化的安全层，旨在监控代理的输入、输出和工具交互，以防止滥用、数据泄露或恶意行为。Guardrails 可以屏蔽或标记个人身份信息 (PII)，检测越狱，并在代理执行时应用策略约束。

虽然 Guardrails 是 OpenAI 代理架构中的一种新公开组件，但 HiddenLayer 的研究揭示了一个更深层次的漏洞：由于代理的行为和安全检查使用类似的模型逻辑，攻击者可以制作出同时破坏两者的输入——从而有效地从内部破坏安全层。

HiddenLayer 发现了什么

OpenAI 的设计设想是代理通过链式逻辑运作：用户发出请求，代理调用工具或外部资源，响应由 Guardrails 过滤或验证后执行或输出。目标是无论代理尝试做什么——无论是生成文本、获取网页还是触发函数——Guardrails 都会作为哨兵。

HiddenLayer 认为，当哨兵是由与其守护的模型相同的类别构建时，这种哨兵结构存在缺陷。在他们的实验中，他们制作了具有双重功能的提示：它们既可以强制代理模型生成违反策略的内容，又可以操纵 Guardrails 判断模型将内容判定为“安全”。实际上，提示嵌入了对判断模型内部逻辑的覆盖——其置信度阈值、决策分支——使得判断模型错误地通过了恶意输出。然后系统生成了不允许的内容，而不触发任何警报。

他们进一步通过针对间接内容注入进行了攻击，例如基于工具的获取调用。假设代理获取了包含恶意指令或隐藏提示的网页。Guardrails 应该标记或阻止它，但 HiddenLayer 的技术将判断模型的覆盖嵌入到获取的内容本身中。当判断模型处理它时，它看到覆盖并“批准”它，让工具调用和任何返回的恶意内容都未经检查地通过。

更深层次的教训很明显：当你的安全机制使用与其保护的东西相同的逻辑和漏洞构建时，一个巧妙的提示就可以同时破坏两者。

为什么这很重要

HiddenLayer 所揭示的并不是一个简单的 bug——这是一个关于我们如何在 LLM 系统中设计安全性的警示故事。任何依赖相同模型类别用于生成和评估的架构都存在共享失败的风险，在面对对抗性输入时会发生这种情况。

这意味着许多部署者可能低估了风险，因为他们认为“我们已经加入了 Guardrails，所以我们是安全的”。在良性、非对抗性的使用场景中，他们的过滤器可能看起来有效，但在对抗性场景中，它们可能会默默地失败。在医疗保健、金融、政府或关键系统等领域，这种默默的故障可能会导致严重的伤害。

此外，这项研究建立在之前的提示注入方法之上。HiddenLayer 的早期“策略木偶”技术展示了如何将有害指令伪装成策略内容。现在，他们证明了这种掩蔽攻击可以扩展到安全逻辑本身。

对部署者和研究人员的影响

鉴于这种漏洞，任何使用或构建代理 LLM 系统的人都必须重新思考安全策略。

首先：不要仅仅依赖内部模型检查。安全必须是分层的。这意味着需要结合基于规则的过滤器、异常检测器、日志系统、外部监控、人工监督和审计跟踪。如果一个层次失败，其他层次可能会捕获到漏洞。

其次：定期进行对抗性红队测试 是不可协商的。模型应该面对尝试覆盖其自身防御逻辑的提示注入——不仅仅是“坏内容”。测试必须随着攻击者发明新的技术而演进。

第三：在受监管或安全关键领域，透明度和可验证性 是必不可少的。部署者需要证明系统能够抵御对抗性攻击，而不仅仅是基本功能。这意味着可能需要第三方审计、正式验证或安全保证。

第四：对于模型构建者，修复这种漏洞类别是具有挑战性的。由于它与模型如何解析和遵循指令有关，仅仅过滤一种提示类别并不保证对新提示的抵抗力。微调或基于过滤的防御可能会降低模型性能或导致军备竞赛。更强健的设计可能需要 架构分离——防御逻辑在与生成模型不同的模型或子系统中运行。

局限性和开放性问题

需要明确的是：HiddenLayer 的工作是一个概念证明，而不是对每种安全架构的最终判决。他们的成功攻击依赖于对防御模型的提示结构和内部评分逻辑的深入了解。在提示环境受限或系统随机化防御的场景中，攻击可能更难实施。

此外，他们并没有完全分析在这些约束下构造的恶意输出的连贯性或有用性。一些越狱或覆盖输出可能会降低质量或可靠性。因此，风险是真实的，但受到环境、提示预算、接口约束和防御随机性的限制。

最后，一些防御设计使用不同的模型类别、集成方法或随机化评估。目前尚不确定这种攻击是否可以广泛推广；这是否是一个开放的研究问题。

展望：AI 安全的未来

我们似乎正在进入一个新阶段：不仅仅是针对模型的提示攻击，还有针对其安全层的攻击。像链式思维劫持、层次提示转换和判断覆盖这样的技术将推动防御的演进。

前进的道路可能是外部监督——从外部监控输出、不共享模型逻辑或通过外部检查强制安全的系统。混合架构、形式方法、异常检测和人工反馈循环将需要共同作用。

Guardrails 是一个有用的工具，但 HiddenLayer 的发现提醒我们：它们不能成为唯一的工具。安全必须来自系统外，而不仅仅是来自系统内部。del 逻辑，或通过外部检查强制安全。混合架构、形式方法、异常检测和人工反馈循环将需要共同作用。安全必须来自系统外，而不仅仅是来自系统内部。

Antoine Tardif, CEO & Founder of Unite.AI

安托万是一位具有远见的领导者和Unite.AI的创始合伙人，他被对塑造和推广AI和机器人人的未来充满不动摇的热情所驱动。作为一位连续创业者，他相信AI将对社会产生与电力一样的颠覆性影响，他经常被听到对颠覆性技术和AGI的潜力大加赞赏。

作为一位未来学家，他致力于探索这些创新将如何塑造我们的世界。另外，他也是Securities.io的创始人，这是一个专注于投资于重新定义未来和重塑整个行业的尖端技术的平台。

Unite.AI