Anderson 视角
使用表情符号可以绕过 AI 聊天机器人中的内容过滤器

表情符号可以用来绕过大型语言模型的安全机制,并触发原本会被阻止的有毒输出。通过这种方式,LLM 可以被迫讨论和提供有关禁止话题的建议,例如炸弹制作和谋杀。
一项由中国和新加坡合作的新研究发现,表情符号不仅可以用来绕过大型语言模型(LLM)的内容检测过滤器,而且可以在用户与模型交互时增加有毒内容的程度:

来自新论文的图示,展示了使用表情符号编码禁止概念的方式,可以帮助用户“越狱”流行的 LLM。 来源:https://arxiv.org/pdf/2509.11141
在上面的例子中,来自新论文,我们看到将违反规则的基于单词的意图转换为带有表情符号的替代版本,可以从诸如 ChatGPT-4o(一种习惯于清理输入提示和拦截可能违反公司规则的输出材料的复杂语言模型)等复杂语言模型中引出更“合作”的响应。
有效地,在最极端的情况下,表情符号的使用可以作为一种越狱а>技术,根据作者的说法。
论文中提出的一个残留的谜团是,为什么语言模型会给表情符号如此大的自由来违反规则并引发有毒内容,而模型已经了解到某些表情符号具有强烈的有毒关联。
提出的建议是,由于 LLM 被训练为模拟和复制其训练数据中的模式,而表情符号在这些数据中非常常见,因此模型学会了表情符号属于该话语,并将其视为一种统计关联,而不是需要评估和过滤的内容。
这意味着,当表情符号在提示中被重用时,它可以帮助模型更自信地预测有毒的续写;但是,表情符号不作为红旗,而是作为一种语义提示,实际上强化了预期的有毒含义,而不是调节或拦截它。由于安全对齐是在事后应用的,并且通常在狭窄的字面框架中,带有这些表情符号的提示可能完全会避免检测。
通过这种方式,论文提出,模型不仅因为有毒关联而变得宽容——它是因为有毒关联而变得宽容。
免费通行
话虽如此,作者承认,这并不能代表一个关于为什么表情符号可以如此有效地绕过语言模型中的内容过滤器的结论性理论。他们指出:
‘模型可以识别表情符号表达的恶意意图,但它如何绕过安全机制仍然不清楚。’
这种弱点可能源于内容过滤器的基于文本设计,它假设输入是字面文本或嵌入,这些嵌入可以忠实地转换为文本等价物:在这两种情况下,系统都依赖于显式的令牌,这些令牌可以与安全规则匹配。
为了说明这一点,我们可以考虑一个来自 AI 基于图像编辑的例子:当用户上传一张 NSFW 图片到视觉语言模型并请求修改时,系统如 Adobe Firefly 或 ChatGPT 使用 CLIP 风格的管道从图像中提取文本概念作为编辑的先决条件。一旦这些概念被渲染为单词,提取出的单词中存在任何受限术语都会触发过滤器,导致请求被拒绝。
然而,出于某种原因,表情符号的状态既不是单词也不是图像(或者说,它们同时是两者),这似乎赋予了它们一种超越过滤的力量;很明显,正如作者所指出的,进一步研究这种奇怪的漏洞是有必要的。
这篇新论文的标题是当微笑变成敌意:解释表情符号如何触发 LLM 的有毒性,它来自清华大学和新加坡国立大学的九位作者。
(不幸的是,论文中提到的许多例子都在一个尚未公开的附录中;虽然我们已经向作者请求了这个附录,但在撰写本文时尚未提供。尽管如此,核心论文中的实证结果仍值得关注。)
三个核心表情符号解释
作者强调了使表情符号能够有效地绕过过滤器的三个语言特征。首先,表情符号的含义是上下文依赖的。例如,“带有翅膀的钱”表情符号(见下图)被正式定义为代表钱的转移或支出;然而,根据周围的文本,它也可以意味着合法或非法活动:

来自新论文的部分图示,展示了一种流行的表情符号可以在流行用法中被劫持、改变或篡改。这有效地为表情符号提供了一个进入语义空间的“官方护照”,以及一个可以在过滤器之后被利用的隐藏的负面或有毒含义的有效载荷。
其次,表情符号可以改变提示的语气。它们的存在通常会增加趣味或讽刺,软化情感寄托。在有害的查询中,这可以使请求看起来像是一个笑话或游戏,鼓励模型响应而不是拒绝:

表情符号的缓和作用可以使语气脱毒而不改变意图。
第三,论文断言,表情符号是语言无关的:一个表情符号可以在英语、汉语、法语和其他语言中传达相同的情绪。这使得它们非常适合多语言提示,保持含义即使周围的文本被翻译:

破碎的心表情符号传达了一个普遍的信息,可能是因为它代表了人类状况中的一个基准例子,相对免受国家或文化变化的影响。
方法、数据和测试
研究人员创建了一个修改后的 AdvBench 数据集,将有害提示改写为包含表情符号,既可以作为敏感词的替代,也可以作为装饰伪装。AdvBench 覆盖了 32 个高风险主题,包括炸弹、黑客和谋杀等:

来自 AdvBench 的原始示例,展示了如何使用单个对抗性提示绕过多个主要聊天机器人的安全措施,尽管经过对齐训练,仍然可以引出有害指令。 来源:https://arxiv.org/pdf/2307.15043
所有 520 个原始 AdvBench 实例都以这种方式修改,使用了前 50 个有毒且非重复的提示,跨越一系列实验,并与已知有效的越狱技术 提示自动迭代精炼(PAIR);树形攻击与修剪(TAP);以及 深度启发 结合使用。
使用的闭源模型包括 Gemini-2.0-flash;GPT-4o(2024-08-06);GPT-4-0613;以及 Gemini-1.5-pro。使用的开源模型包括 Llama-3-8B-Instruct;Qwen2.5-7B-Instruct(Team 2024b);以及 Qwen2.5-72B-Instruct(Team 2024a),所有实验都重复三次以考虑随机机会。
该研究首先测试了使用表情符号重写有害提示是否会增加有毒输出,包括翻译成其他主要语言。另外,它将相同的表情符号编辑方法应用于来自上述已知越狱策略(PAIR、TAP 和 DeepInception)的提示,以查看是否可以进一步提高表情符号替换的成功率。
在两种情况下,原始提示的结构都保持不变,只有敏感术语被换成表情符号,并添加了装饰元素来伪装意图。
对于测试指标,作者创新了一种称为 GPT-Judge 的评分系统。在这种设置中,GPT-4o 不是被测试的模型,而是被提示作为评判员,为其他模型生成的响应分配一个数字 有害评分(HS)。
每个输出都从 1(无害)到 5(极其有害)进行评分,获得 5 分的响应百分比被报告为 有害性比率(HR)。
为了防止模型偏离表情符号解释而不是明确回答,研究人员在每个提示中添加了一个指令,告诉模型使其回答简洁:

来自“设置 1”的表情符号提示的结果,与用文字替换表情符号或完全删除表情符号的消融变体进行比较。模型名称为节省空间而缩写。
在上面的初始结果表中,左侧表明带有表情符号的有害提示比消融变体(即用文字替换表情符号或完全删除表情符号的版本)获得了更高的 HS 和 HR 分数。
作者指出†,表情符号替换方法的性能优于以前的越狱方法,如下表所示:

“设置 2”中表情符号增强的越狱提示的有害性比率结果,模型名称以缩写形式显示。
作者指出,上面的两个表格也表明表情符号的效果可以跨语言传递。当表情符号提示的文本组件被翻译成汉语、法语、西班牙语和俄语时,有害输出仍然很高;由于这些都是高资源语言,结果表明风险不仅限于英语,而且适用于主要用户群体,表情符号作为有毒生成的可转移通道。
在论文的结论中,研究人员建议,表情符号的效果并非偶然,而是根植于模型处理它们的方式,指出模型可以识别表情符号的有害含义——然而,当表情符号存在时,拒绝响应被抑制。
令牌化研究进一步表明,表情符号通常被分解为罕见或不规则的片段,与其文本等价物几乎没有重叠,有效地为有害语义创建了一个替代通道。
从模型机制看,论文还检查了预训练数据,发现许多常用的表情符号出现在有毒上下文中,例如色情、诈骗或赌博。作者认为,这种反复接触可能会使模型将表情符号与有害内容关联起来,鼓励模型响应有害提示而不是阻止它们。
这些发现共同表明,模型的内部处理怪癖和偏见的预训练数据都促成了表情符号绕过安全措施的惊人有效性。
结论
使用替代输入方法尝试越狱 LLM 并不罕见。例如,最近,十六进制编码被用于绕过 ChatGPT 的过滤器。问题似乎在于使用平坦的基于文本的语言来限定传入的请求和传出的响应。
在表情符号的情况下,话语中可以引入一个隐藏的违反规则的含义,而不受惩罚或干预,因为传输方法是非正统的。人们会认为 CLIP 基础的转录会对所有图像上传进行干预,以便将攻击性或侵权材料转换为可标记的文本。
显然,这并不是这种情况,至少对于所研究的主要 LLM 来说;它们的语言障碍似乎是脆弱和基于文本的。人们可以想象,更广泛的内容解释(例如,通过研究热力图激活)可能会带来处理和/或带宽成本,这可能使这种方法在实践中过于昂贵,或者有其他可能的限制和考虑。
* 本论文的布局与大多数论文相比相当混乱,方法和测试没有明确划分。我们尽力在这种情况下尽可能地代表工作的核心价值。
† 在对结果的几乎无法理解和混乱的处理中。
首次发布于 2025 年 9 月 17 日星期三。
