网络安全
HiddenLayer 研究人员绕过 OpenAI 的防护措施,暴露 AI 自我调节的关键缺陷

10月份的6,2025, OpenAI 宣布 AgentKit, 用于构建、部署和管理 AI 代理的工具包。其组件之一是 护栏——一个模块化安全层,旨在监控代理的输入、输出和工具交互,以防止滥用、数据泄露或恶意行为。护栏可以屏蔽或标记 PII、检测越狱,并在代理执行的同时应用策略约束。
虽然 Guardrails 是 OpenAI 代理架构中新公开的一个部分, HiddenLayer 的研究揭示了更深层次的漏洞:由于代理的行为和安全检查都使用类似的模型逻辑,攻击者可以制作同时破坏两者的输入 - 有效地从内部破坏安全层。
HiddenLayer 发现了什么
OpenAI 的设计设想是让代理通过链式逻辑进行操作:用户发出请求,代理调用工具或外部资源,响应在执行或输出之前由 Guardrails 进行过滤或验证。其目的是,无论代理尝试执行什么操作(无论是生成文本、获取网页还是触发函数),Guardrails 都能充当哨兵。
HiddenLayer 认为,如果这个哨兵模型是由它所守护的同一类模型构建的,那么它在结构上就存在缺陷。在他们的实验中,他们设计了一些具有双重功能的提示:它们强制代理模型生成违反策略的内容 以及 操纵护栏评判模型,使其宣称内容“安全”。实际上,该提示嵌入了评判模型内部逻辑(置信度阈值、决策分支)的覆盖,导致评判模型错误地通过了恶意输出。然后,系统会生成不允许的内容,而不会触发任何警报。
他们进一步推进攻击,瞄准 间接内容注入例如基于工具的抓取调用。假设代理抓取了一个包含恶意指令或隐藏提示的网页。防护机制应该会标记或阻止它,但 HiddenLayer 的技术将一个判断覆盖嵌入到抓取的内容本身中。当判断覆盖处理它时,它会看到该覆盖并“批准”它,从而允许该工具调用及其返回的任何恶意内容不加检查地通过。
更深层次的教训是显而易见的:当你的安全机制使用与其保护的对象相同的逻辑和漏洞构建时,一个巧妙的提示就可以破坏两者。
为什么重要意义
HiddenLayer 暴露的不仅仅是一个漏洞,它更是对我们在 LLM 系统中如何设计安全性的一个警示。任何在生成和评估过程中都依赖同一模型类的架构,在对抗性输入下都有可能出现共享故障。
这意味着,许多认为“安装了护栏就安全了”的部署人员可能低估了风险。在良性、偶然的用例中,他们的过滤器可能看似有效,但在对抗场景中,它们可能会悄无声息地失效。在医疗保健、金融、政府或关键系统等领域,这种悄无声息的故障可能会造成严重损害。
这项研究也建立在先前的即时注入方法之上。HiddenLayer 早期的“政策傀儡”技术展示了攻击者如何将有害指令伪装成策略内容。现在,他们证明了这种伪装攻击可以扩展 成 安全逻辑本身。
对部署者和研究人员的影响
鉴于这种脆弱性,任何使用或构建代理 LLM 系统的人都必须重新考虑安全策略。
第一: 不要仅仅依赖基于内部模型的检查安全必须分层。这意味着要结合基于规则的过滤器、异常检测器、日志记录系统、外部监控、人工监督和审计跟踪。如果某一层出现故障,其他层级可能会发现漏洞。
第二: 常规对抗红队 不容置疑。模型应该能够应对试图覆盖自身防护逻辑的即时注入,而不仅仅是“不良内容”。随着攻击者不断发明新技术,测试也必须不断发展。
第三:在受监管或安全至关重要的领域, 透明度和可验证性 至关重要。部署人员需要证明系统能够抵御对抗性攻击,而不仅仅是基本功能。这意味着第三方审计、形式化验证或安全保障可能成为必要条件。
第四:对于模型构建者来说,修补这类漏洞非常棘手。由于它与模型解析和执行指令的方式息息相关,因此仅仅过滤一类指令并不能保证模型能够抵御新的指令。微调或基于过滤器的防御措施可能会降低模型性能,甚至导致“军备竞赛”。更稳健的设计可能需要 建筑分离—保护逻辑在与生成模型不同的模型或子系统中运行。
局限性和悬而未决的问题
需要明确的是:HiddenLayer 的工作只是概念验证,并非对所有安全架构的最终裁决。他们成功的攻击依赖于对防护模型的提示结构和内部评分逻辑的深入了解。在提示受限程度更高的环境或随机化防御的系统中,攻击可能更难发起。
此外,他们没有充分分析在这些约束条件下构建的恶意输出的连贯性或实用性。一些越狱或覆盖输出可能会降低质量或可靠性。因此,风险是真实存在的,但会受到环境、提示预算、接口限制和防护随机性的制约。
最后,一些防护栏设计使用了不同的模型类别、集成方法或随机评估。目前尚不确定每个此类系统是否都存在漏洞;这种攻击是否具有广泛的普遍性仍是一个悬而未决的研究问题。
展望未来:人工智能安全的未来
我们似乎正在进入一个新阶段:攻击不仅针对模型,还针对其安全层。诸如 思维链劫持、等级制度的提示颠覆和法官的推翻将推动防御更快地发展。
未来的道路很可能是走向外部监督——系统从外部监控输出,不共享模型逻辑,或通过外部检查来强制执行安全措施。混合架构、形式化方法、异常检测和人工反馈回路需要结合起来。
护栏是一个有用的工具,但是 HiddenLayer 的发现 提醒我们:它们不能成为唯一的工具。安全必须来自系统外部,而不仅仅是系统内部。












