AI 模型与平台

什么是对抗诗歌？一种新的AI越狱方法

发布于 2025年12月22日

更新于 2026年5月17日

作者

Zac Amos

人工智能（AI）安全已经变成了一场猫鼠游戏。随着开发人员添加防护措施来阻止有害请求，攻击者继续尝试新的方法来规避它们。其中最奇怪的转折之一是对抗诗歌。这一策略涉及将提示伪装成诗歌，并使用韵律、隐喻和不寻常的措辞来使风险指令看起来不像安全系统所训练的内容。

在实践中，内容本身没有太大变化。改变的是包装，这足以让基于模式的过滤器感到困惑。这是一个提醒，今天的模型中，问题的提出方式几乎和问题本身一样重要。

研究人员使用诗歌来破解AI时发生了什么？

在2025年初，研究人员证明了大型语言模型（LLM）可以通过将其包装在诗歌形式中来响应受限制的提示。与其发出直接的、触发政策的指令，研究人员将相同的请求嵌入韵律、隐喻和叙事诗中。

从表面上看，提示似乎是创意写作练习，但在底层，它们带有相同的意图，这些意图通常会被阻止。跨越25个前沿的专有和开放加权模型，研究团队报告说，诗歌框架实现了平均62%的越狱成功率对于手工制作的诗歌，以及使用标准化元提示的批量“诗歌转换”约43%。

响应本身并不是新的失败类型，而是通过意外的门户出现的熟悉类型。模型被诱导产生它们通常会避免的内容，例如涉及非法或有害活动的解释，因为底层的请求被诗歌结构分割和遮蔽。

该研究的核心结论是，仅仅是风格的变化就足以规避针对更为字面的措辞的安全系统。这揭示了一个在模型家族和对齐方法中都存在的漏洞。

对抗诗歌是如何工作的

对抗攻击利用了一个简单的现实——机器学习系统不像人类一样“理解”语言。它们检测模式，预测可能的继续，并根据其训练和安全层解释的意图来遵循指令。

当提示以直接、字面的方式表达时，很容易让防护措施识别和阻止。然而，当相同的目的被伪装——分割、软化或重新表述——保护层可能会错过实际请求的内容。

为什么诗歌可以成为一种有效的载体

诗歌天然地适合模糊性。它依赖于隐喻、抽象、不寻常的结构和间接的措辞。这些正是可以使“无害的创意写作”和“应该被拒绝的请求”之间的界线变得模糊的特征。

在同一项2025年的研究中，研究人员报告说，诗歌提示在90%的成功率下引发了不安全的响应，表明仅仅是风格就可以在结果中起到重要作用。

诗歌如何隐藏真正的请求

考虑请求作为消息，诗歌作为包装。安全过滤器经常寻找明显的迹象，例如显式关键字、直接的逐步措辞或可识别的恶意意图。

诗歌可以通过修辞语言或将其分散在多行中来隐藏这种意图，使其在孤立状态下更难被发现。同时，底层模型仍然能够足够好地重构含义以响应，因为它被优化为推断意图，即使语言是间接的。

检测和缓解越狱

随着越狱方法变得更加创造性，讨论必须从它们的工作原理转变为如何发现和遏制它们。这一点尤其重要，因为AI已经成为许多人日常生活的一部分， 27%的人报告称他们每天使用它多次。

随着更多人使用大型语言模型（LLM），应该测试和探索额外的防护措施。这项任务涉及构建分层防御，可以适应新的提示风格和随着时间的推移出现的规避技巧。

开发者的困境

对于AI安全团队来说，越狱的最难部分是，它们不像一个已知的威胁。它们随着时间的推移不断变化。这种持续的变化是因为用户可以重新措辞提示，将其分成片段，包装在角色扮演中，或将其伪装成创意写作。然后，每个新的包装都可以改变系统解释提示意图的方式。

这个挑战在AI已经集成到日常生活中的时候迅速扩大，因为实际使用会产生无数的边缘情况。

这就是为什么今天的AI安全看起来更像是在时间上管理风险。NIST AI风险管理框架（AI RMF）明确将风险管理视为一系列正在进行的活动，围绕着管理、映射、测量和管理——而不是作为一个静态的清单。目标是创建使得识别新出现的故障模式、优先修复和在新越狱风格出现时加强防护措施变得更容易的流程。

模型如何保护自己

AI安全由多个层次组成。大多数系统都有多个防御措施共同工作，每个防御措施都能捕捉到不同类型的风险行为。在最外层，输入和输出过滤器作为守门人。进入的提示在到达核心模型之前会被扫描以检查是否有政策违规，而输出的响应会被检查以确保没有内容在返回给用户的途中泄露。这些系统擅长识别直接请求或熟悉的红旗，但它们也最容易被规避，这就是为什么更具欺骗性的越狱经常绕过它们的原因。

保护的下一层发生在模型本身内部。当越狱技术被发现时，它们通常被转化为训练示例。这就是对抗训练和从人类反馈中学习（RLHF）发挥作用的地方。通过在失败或风险交互的示例上微调模型，开发人员有效地教会系统识别即使被间接或创造性语言包装的模式，这些模式应该被拒绝。随着时间的推移，这个过程有助于使模型免受整个攻击类别的影响。

通过对模型进行微调，使其能够识别被规避的模式，即使这些模式被包装在创造性或间接的语言中，开发人员有效地教会系统识别应该被拒绝的模式，即使这些模式被包装在创造性或间接的语言中。

通过对模型进行微调，使其能够识别被规避的模式，即使这些模式被包装在创造性或间接的语言中，开发人员有效地教会系统识别应该被拒绝的模式，即使这些模式被包装在创造性或间接的语言中。随着时间的推移，这个过程有助于使模型免受整个攻击类别的影响。