Connect with us

报告

HiddenLayer的EchoGram报告警告了一种新的攻击类别,破坏了AI防护措施

mm

HiddenLayer最近发布的EchoGram报告向我们发出了一個明确的警告:当前的AI安全机制比我们想象的更脆弱。通过九页的技术证据和实验,HiddenLayer展示了如何使用短的、看似无意义的令牌序列来操纵防护措施系统——那些分类器层和LLM-as-a-judge组件,它们执行安全策略。一个恶意的提示可以通过追加特定的令牌来标记为安全的。相反,一个完全无害的输入可以被误分类为恶意的。在整个报告中,HiddenLayer展示了这些序列只改变防护措施对提示的解释,而不改变下游模型接收的底层指令。

现代防护措施的脆弱性

防护措施已经成为组织部署大型语言模型的基础设施。它们作为第一道也是通常唯一的防线,旨在检测jailbreaksprompt注入、不允许的请求或操纵性指令,在LLM处理它们之前。HiddenLayer的发现揭示了这一保护层存在系统性弱点,这与防护措施的训练方式直接相关。由于许多防护措施依赖于类似的数据集、模式或安全分类法,因此它们容易受到EchoGram揭示的相同类型的令牌级别操纵。

EchoGram如何构造其攻击序列

EchoGram的过程从生成一组候选令牌开始,这些令牌可能会影响模型的判断。HiddenLayer解释说,这些令牌可以通过分析用于训练防护措施的数据集中的语言模式来识别,或者在白盒访问可用时直接探测模型的令牌器词汇表。训练数据本身成为偏差的映射,揭示哪些序列偏向于“安全”或“不安全”的分类。这些偏差构成了攻击的原始材料。

一旦汇集了这个池,EchoGram通过将每个序列追加到一组恶意提示中,并测量令牌翻转防护措施分类的频率来评估每个序列。报告中包括一个引人注目的例子,一个小的、看似无意义的序列将几次已知的prompt注入尝试从“检测到”变为“安全”当测试对一个商业分类器时。恶意提示保持完整,但追加的序列重塑了防护措施对它们的解释。

为什么令牌组合特别危险

EchoGram报告强调,即使单个令牌只能部分翻转判决,组合多个弱令牌会产生更强的效果。HiddenLayer使用Qwen3Guard,一个广泛使用的开源LLM-as-a-judge审查模型,来演示这一放大效果。在0.6B和4B变体上,链式EchoGram序列导致防护措施将高度危险的提示——包括有关武器、身份验证绕过和网络攻击的查询——误分类为安全或仅略微令人担忧的提示。

这种效果在不同模型规模上持续存在,强化了HiddenLayer的结论,即漏洞根源于底层的训练方法,而不是模型规模或复杂性。

虚假阳性向量:一个不太明显但同样严重的风险

EchoGram不仅是一种绕过防护措施的方法;HiddenLayer展示了它也可以用于大规模生成虚假阳性。通过将EchoGram序列编织到无害输入中,攻击者可以导致防护措施将良性提示误分类为恶意的。报告提供了例子,其中简单的对话短语一旦追加或嵌入EchoGram令牌,就被标记为攻击。

这为安全或信任和安全团队创造了一个噪音泛滥的途径。当警报不可控地激增时,组织可能会错过埋藏在噪音中的真正威胁。内部工具的信任度的侵蚀与任何成功的绕过一样具有破坏性。

对AI安全的影响

《EchoGram》报告强调,训练于类似数据源、模式或分类法的防护措施可能共享相同的漏洞。发现一个成功的EchoGram序列的攻击者可能能够在多个商业平台、企业部署和政府系统上重用它。HiddenLayer强调,攻击者无需破坏下游LLM;他们只需要欺骗前面的守门人。

这一挑战超出了技术风险。组织可能假设部署防护措施就能保证有意义的保护,但EchoGram证明了这一假设是危险的。如果防护措施可以用一个或两个令牌来翻转,整个安全架构就变得不可靠。

前路

HiddenLayer得出结论,EchoGram应该成为行业对待AI安全的转折点。防护措施不能依赖静态数据集或一次性训练周期;它们需要持续的对抗性测试、训练方法的透明度以及多层验证,而不是单模型判断。随着AI被嵌入到关键基础设施、金融、医疗保健和国家安全中,EchoGram所阐明的缺陷变得紧迫而非学术性的。

报告以呼吁将防护措施视为安全关键组件的号召结束,这些组件需要与任何其他保护系统相同的严谨性。通过现在暴露这些漏洞,HiddenLayer推动行业向建设能够抵御下一代对抗性技术的AI防御的方向发展。

安托万是一位具有远见的领导者和Unite.AI的创始合伙人,他被对塑造和推广AI和机器人人的未来充满不动摇的热情所驱动。作为一位连续创业者,他相信AI将对社会产生与电力一样的颠覆性影响,他经常被听到对颠覆性技术和AGI的潜力大加赞赏。

作为一位未来学家,他致力于探索这些创新将如何塑造我们的世界。另外,他也是Securities.io的创始人,这是一个专注于投资于重新定义未来和重塑整个行业的尖端技术的平台。