Unite.AI

Artificial Intelligence3 weeks ago
By Zac Amos

什么是对抗性诗歌？一种新的AI越狱方法

人工智能（AI）安全已经变成了一场不断的猫鼠游戏。当开发者添加防护措施以阻止有害请求时，攻击者继续尝试新的方法来规避它们。其中最奇怪的转折之一是对抗性诗歌。这种策略涉及将提示伪装成诗歌，并使用押韵、隐喻和不寻常的措辞，使得危险的指令看起来不那么像安全系统被训练来捕捉的东西。实际上，内容本身并没有太大变化。变化的是包装，这足以使基于模式的过滤器感到困惑。这提醒我们，在当今的模型中，如何提问几乎和提问的内容一样重要。当研究人员用诗歌破解AI时发生了什么？在2025年初，研究人员展示了大型语言模型（LLMs）可以通过将限制性提示包装成诗歌形式来响应这些提示。研究人员没有发出直接的、触发政策的指令，而是将相同的请求嵌入到押韵、隐喻和叙述诗中。表面上看，这些提示似乎是创意写作练习，但在其下，它们携带着通常会被阻止的相同意图。在25个前沿专有和开放加权模型中，团队报告说诗意的框架在手工诗歌中实现了62%的越狱成功率，而使用标准化元提示的批量“诗歌转换”约为43%。响应本身并不是新类型的失败，而是通过一个意想不到的门出现的熟悉失败。模型被引导生成它们通常避免的内容——例如涉及非法或有害活动的解释——因为底层请求被诗歌结构分割和掩盖。研究的核心结论是，仅仅是风格变化就足以规避为更字面化措辞调整的安全系统。这揭示了一个在模型家族和对齐方法中显而易见的漏洞。对抗性诗歌如何运作对抗性攻击利用了一个简单的现实——机器学习系统不像人类那样“理解”语言。它们检测模式，预测可能的延续，并根据其训练和安全层解释为意图的内容执行指令。当提示以直接、字面化的方式措辞时，防护措施更容易识别和阻止。然而，当相同的目的被伪装——分割、软化或重新框架时，保护层可能会错过实际被问的问题。为什么诗歌可以成为有效的载体诗歌天生具有模糊性。它依赖于隐喻、抽象、不寻常的结构和间接的措辞。这些正是可以模糊“无害创意写作”和“应被拒绝的请求”之间界线的特征。在同一2025年的研究中，研究人员报告说，诗意提示在广泛的模型集中以90%的成功率引发了不安全的响应，这表明仅仅是风格就可以实质性地改变结果。诗歌如何隐藏真实请求将请求视为信息，而将诗歌视为包装。安全过滤器通常寻找明显的标志，例如明确的关键词、直接的步骤措辞或可识别的恶意意图。诗歌可以通过比喻语言隐藏这种意图，或将其分散在各行中，使其更难以单独识别。同时，底层模型仍然能够足够好地重建意义以响应，因为它被优化为即使在语言间接时也能推断意图。检测和缓解越狱随着越狱方法变得更加富有创意，讨论必须从它们如何工作转向如何被发现和遏制。特别是在现在AI已成为许多人日常生活的一部分时， 27%的人报告每天多次使用它。随着越来越多的人使用大型语言模型（LLMs），应测试和探索额外的防护措施。这项任务涉及构建能够适应新提示风格和规避技巧的分层防御。开发者的困境对于AI安全团队来说，越狱最难的部分在于它们不是已知的威胁。它们随着时间的推移不断变化。这种不断变化是因为用户可以重新措辞提示，将其分割成片段，包装成角色扮演或伪装成创意写作。然后，每种新的包装都可以改变系统对提示意图的解释。当AI已经融入日常生活时，这一挑战迅速扩大，因此实际使用创造了无尽的边缘案例出现的机会。这就是为什么今天的AI安全更像是随着时间的推移管理风险。NIST AI风险管理框架（AI RMF）明确将风险管理视为一系列持续的活动——围绕治理、映射、测量和管理组织——而不是静态的检查清单。目标是创建使识别新出现的失败模式、优先修复和加强防护措施更容易的流程。模型如何自我保护AI安全由多个层次组成。大多数系统有不止一个防护措施协同工作，每个防护措施捕捉不同类型的风险行为。在外层，输入和输出过滤器充当看门人。传入的提示在到达核心模型之前被扫描以检测政策违规，而传出的响应则被检查以确保在返回用户的过程中没有任何东西溜走。这些系统擅长识别直接请求或熟悉的红旗，但它们也是最容易被绕过的，这就是为什么更具欺骗性的越狱通常能够绕过它们。下一层保护发生在模型内部。当发现越狱技术时，它们通常会被转化为训练示例。这就是对抗性训练和来自人类反馈的强化学习（RLHF）发挥作用的地方。通过在失败或风险互动的示例上微调模型，开发者有效地教导系统识别它应该拒绝的模式，即使它们被包装成创意或间接语言。随着时间的推移，这一过程有助于使模型对整个攻击类别产生免疫。AI“红队”的角色与其等待越狱发生，公司使用AI红队。这些团队是负责在受控环境中尝试破解模型的团队。他们以攻击者可能的方式接近系统，尝试不寻常的措辞、创意格式和边缘案例，以发现防护措施的不足之处。目标是在它们出现在现实世界使用中之前暴露弱点。红队现在正在成为当今网络安全策略开发生命周期的核心部分。当团队发现新的越狱技术时，产生的数据直接反馈到训练和评估管道中。该信息用于定义过滤器、调整政策并加强对抗性训练，以便类似的尝试在未来更不容易成功。随着时间的推移，这创造了一个持续的循环——探测失败，从中学习并改进系统，然后重复。当诗歌成为AI安全的压力测试对抗性诗歌提醒我们，AI的防护措施依赖于用户如何措辞问题，而不仅仅是问题的内容。随着模型变得更易于访问和广泛使用，研究人员将继续探测创意语言与旨在捕捉更直接意图的安全系统之间的差距。结论是，更安全的AI将来自于随着越狱一样快速发展的多重防御。

Unite.AI

什么是对抗性诗歌？一种新的AI越狱方法