人工智能

什么是对抗性诗歌？一种新的人工智能越狱方法

发布时间 2025 年 12 月 22 日

扎克·阿莫斯

人工智能 (AI) 安全已演变成一场持续不断的猫鼠游戏。开发者不断添加防护措施来阻止有害请求，而攻击者则不断尝试新的方法来绕过这些措施。其中最奇特的变种之一是对抗性诗歌。这种策略将提示信息伪装成诗歌，并利用押韵、比喻和不寻常的措辞，使危险指令看起来不像安全系统训练来识别的内容。

实际上，内容本身变化不大，变化的是包装方式，而这足以让基于模式的过滤器感到困惑。这提醒我们，在当今的模型中，提问的方式几乎与提问的内容本身同等重要。

研究人员利用诗歌破解人工智能系统，结果如何？

2025年初，研究人员证明，通过将限制性提示包裹在诗歌形式中，可以促使大型语言模型（LLM）做出响应。研究人员没有发出直接的、触发策略的指令，而是将相同的请求嵌入到韵律、比喻和叙事诗中。

表面上看，这些提示似乎是创意写作练习，但实际上，它们蕴含着通常会被阻止的意图。研究团队报告称，在25个前沿专有和开放加权模型中，诗意的框架结构平均越狱成功率为 62%的人喜欢手写诗其中约 43% 用于使用标准化元提示进行批量“诗歌转换”。

这些回应本身并非新型的失败，而是似曾相识的失败，只是以意想不到的方式再次出现。由于底层需求支离破碎，且被诗意的结构所掩盖，这些模型被迫生成它们通常会回避的内容——例如涉及非法或有害活动的解释。

这项研究的核心结论是，仅凭风格上的变化就足以绕过那些针对更字面表达方式而设计的安全系统。它揭示了一种在各种模型系列和对齐方法中都存在的漏洞。

对抗性诗歌的运作原理

对抗性攻击利用了一个简单的现实——机器学习系统并不像人类那样“理解”语言。它们检测模式、预测可能的后续行为，并根据其训练和安全层对意图的解读来执行指令。

当提示语直白易懂时，防护机制更容易识别并阻止。然而，当同样的意图被伪装——拆分、弱化或重新表述——防护层就可能忽略真正想要表达的意思。

为什么诗歌可以成为一种有效的载体

诗歌天生就具有歧义性。它依赖于隐喻、抽象、不寻常的结构和间接的措辞。而正是这些特点，使得“无害的创意写作”和“应该被拒绝的请求”之间的界限变得模糊不清。

在同一项 2025 年的研究中，研究人员报告称，诗意的提示在广泛的模型中以 90% 的成功率引发了不安全的反应，这表明风格本身就能实质性地改变结果。

一首诗如何隐藏一个真实的请求

把请求看作一条信息，把诗歌看作包装。安全过滤器通常会寻找明显的迹象，例如明确的关键词、直接的步骤式措辞或可识别的恶意意图。

诗歌可以通过比喻等修辞手法来隐藏意图，或者将其分散在不同的诗行中，使其难以单独识别。与此同时，其底层模型仍然能够很好地重构含义并做出反应，因为它经过优化，即使在语言间接的情况下也能推断意图。

检测和缓解越狱

随着越狱方法变得越来越有创意，讨论的重点必须从它们的运作方式转移到如何发现和遏制它们。尤其是在人工智能已成为许多人日常生活的一部分的今天，这一点更为重要。 27%的人表示使用过它一天几次。

随着越来越多的人使用大型语言模型（LLM），应该测试和探索额外的安全保障措施。这项任务包括构建多层防御机制，以便能够适应不断涌现的新提示风格和规避技巧。

开发者的困境

对人工智能安全团队来说，越狱攻击最棘手的地方在于，它们并非以单一的已知威胁出现，而是会随着时间不断变化。这种持续变化的原因在于，用户可以重新措辞、拆分信息片段、将其包装成角色扮演或伪装成创意写作。而每一次新的包装都可能改变系统对信息意图的解读。

当人工智能已经融入日常生活中时，这一挑战会迅速扩大，因为实际应用会为出现各种极端情况创造无限的机会。

因此，如今的人工智能安全更像是对风险的长期管理。美国国家标准与技术研究院（NIST）的人工智能风险管理框架（AI RMF）明确地将风险管理纳入其中。作为一系列持续的活动 ——围绕治理、映射、衡量和管理展开，而非静态清单式的流程。其目标是创建能够更轻松地识别新出现的故障模式、确定修复优先级并随着新型越狱方式的出现而加强安全措施的流程。

模特如何保护自己

人工智能安全由多个层面构成。大多数系统都采用多重防御机制协同工作，每个机制负责检测不同类型的风险行为。最外层是输入输出过滤，它起到把关作用。

传入的请求在到达核心模型之前会经过策略违规扫描，而传出的响应也会经过检查，以确保没有任何信息在返回用户的过程中被忽略。这些系统能够有效地识别直接请求或常见的危险信号，但它们也最容易被绕过，因此一些更具欺骗性的越狱程序通常会绕过它们。

下一层保护发生在模型内部。一旦越狱技术被发现，它们通常会被转化为训练样本。这时，对抗训练和基于人类反馈的强化学习（RLHF）就派上了用场。

通过对失败或高风险交互示例进行模型微调，开发者可以有效地教会系统识别应该拒绝的模式，即使这些模式包裹在巧妙或间接的语言中。随着时间的推移，这个过程有助于使模型抵御整类攻击。

人工智能“红队演练”的作用

企业不再坐等黑客入侵，而是组建人工智能红队。这些红队的任务是在受控环境中尝试破解模型。他们会像攻击者一样攻击系统，尝试非常规的措辞、创新的格式以及各种极端情况，以发现安全防护的漏洞。其目标是在漏洞实际应用之前将其暴露出来。

在当今的网络安全策略中，红队演练已成为开发生命周期中的核心环节。当团队发现新的越狱技术时，由此产生的数据会直接反馈到训练和评估流程中。这些信息用于定义过滤器、调整策略并强化对抗训练，从而降低未来类似攻击成功的可能性。随着时间的推移，这形成了一个持续的循环——探测失败、从中学习并改进系统，然后重复此过程。