关注我们.

安德森的角度

使用表情符号可以绕过人工智能聊天机器人的内容过滤器

mm
一名头部带有笑脸表情符号的男子用点燃的炸弹点燃了一支香烟。SDXL、Flux Kontext Dev、Adobe Firefly。

表情符号可以用来绕过大型语言模型的安全机制,并触发原本会被屏蔽的有害输出。通过这种方式,法学硕士可以讨论和提供关于炸弹制造和谋杀等禁忌话题的建议。

 

中国和新加坡之间的一项新合作发现了令人信服的证据,表明表情符号不仅可以用来绕过大型语言模型(LLM)中的内容检测过滤器,而且通常可以在用户与模型互动时增加毒性水平:

这篇新论文广泛展示了如何利用表情符号编码禁用概念,帮助用户“破解”热门法学硕士学位。来源:https://arxiv.org/pdf/2509.11141

这篇新论文广泛展示了如何利用表情符号对被禁概念进行编码,帮助用户“越狱”热门法学硕士学位。 来源:https://arxiv.org/pdf/2509.11141

在上面的例子中,从新论文中,我们看到,改变违反规则的行为 基于意图的表情符号替代版本可以从复杂的语言模型(如 ChatGPT-4o,它习惯性地清理输入提示并拦截可能违反公司规则的输出材料)中引发更加“合作”的响应。

实际上,在最极端的情况下,表情符号的使用可以起到 越狱 根据新著作的作者的说法,这是一种技术。

论文中提到的一个遗留谜团是 为什么 语言模型为表情符号提供了违反规则和引发有害内容的自由,而模型已经了解某些表情符号具有强烈的有害联想。

提出的建议是,由于 LLM 经过训练可以从训练数据中建模和重现模式,并且表情符号在数据中出现的频率很高,因此模型可以了解到表情符号 属于 在该论述中,并将其视为统计关联,而不是需要评估和过滤的内容。

这意味着,当表情符号在提示中重复使用时,可以帮助模型更自信地预测有害的延续;但表情符号并不是一个危险信号,而是一个 语义提示,这实际上强化了预期的毒性含义,而不是缓和或拦截它。由于 安全校准 是在事后应用的,并且通常是在狭窄的文字框架内,因此使用这些表情符号的提示可能会完全逃避检测。

论文提出,通过这种方式,模型不会变得宽容 尽管 毒性关联——它变得耐受 因为 它。

免费通行证

尽管如此,作者承认,这并不能成为表情符号能够如此有效地绕过语言模型中内容过滤器的最终理论。他们指出:

“模型可以识别表情符号表达的恶意意图,但它如何绕过安全机制仍不清楚。”

弱点可能源于 以文本为中心 内容过滤器的设计,假设文字输入或 嵌入 忠实地转换成文本等价物:在这两种情况下,系统都依赖于明确的 令牌 可以与安全规则相匹配。

以基于人工智能的图像编辑为例:当用户将 NSFW 图片上传到视觉语言模型并请求修改时,Adobe 等系统 萤火虫 or ChatGPT 聘用 CLIP式的管道从图像中提取文本概念,作为编辑的先决条件。一旦这些概念被转化为文字,提取出的文字中任何受限术语的存在都会触发过滤器,导致请求被拒绝。

然而,出于某种原因,表情符号既不是单词也不是图像(或者,作为 ) 似乎赋予了它超越过滤的能力;显然,正如作者所指出的,对这个奇怪的漏洞进行进一步研究是必要的。

新文 标题为 当笑脸变得充满敌意:解读表情符号如何引发法学硕士的恶意,来自清华大学和新加坡国立大学的九位作者。

(遗憾的是,本文引用的许多例子都包含在尚未提供的附录中;尽管我们已向作者提出此要求,但在撰写本文时尚未提供附录。尽管如此,核心论文中的实证结果仍然值得关注。)

三种核心表情符号解释

作者强调了表情符号能够有效绕过过滤的三个语言特征。首先,表情符号的含义是 上下文相关例如,“带翅膀的钱”表情符号(见下图)的官方定义是代表转账或消费;然而,根据周围的文字,它也可能暗示合法或非法活动:

在新论文的部分说明中,我们看到,流行的表情符号的含义在流行使用中可能会被劫持、改变或颠覆,这实际上为表情符号提供了进入语义空间的官方通行证,以及隐藏的负面或有毒含义的有效载荷,一旦通过过滤器就可以被利用。

在新论文的部分说明中,我们看到,流行的表情符号的含义在流行使用中可能会被劫持、改变或颠覆,这实际上为表情符号提供了进入语义空间的官方通行证,以及隐藏的负面或有毒含义的有效载荷,一旦通过过滤器就可以被利用。

其次,表情符号可以改变 提示。它们的存在通常会增添趣味或讽刺意味,从而软化情感。在有害的查询中,这会使请求看起来像一个笑话或游戏,从而鼓励模型做出回应而不是拒绝:

表情符号的发酵作用可以净化语气,但不会净化意图。

表情符号的发酵作用可以净化语气,但不会净化意图。

第三,该论文断言,表情符号 语言无关:一个表情符号可以在英语、中文、法语和其他语言中传达相同的情感。这使得它们非常适合多语言提示,即使周围的文字被翻译,其含义也能保留:

心碎表情符号传达了一种普遍的信息,或许主要是因为它代表了人类生存状况的基准情况,相对不受国家或文化差异的影响。

“心碎”表情符号传达了一种普遍的信息,或许主要是因为它代表了人类状况的基本情况,相对不受国家或文化差异的影响。

方法、数据和测试*

研究人员创建了一个修改版 AdvBench 数据集,将有害提示改写为包含表情符号,以替代敏感词或作为装饰性伪装。AdvBench 涵盖了 32 个高风险主题,包括爆炸、黑客攻击和谋杀等:

AdvBench 的原始示例,展示了单个对抗性提示如何绕过多个主流聊天机器人的安全措施,并在经过对齐训练后仍能引发有害指令。来源:https://arxiv.org/pdf/2307.15043

来自 AdvBench 的原始示例,说明了单个对抗提示如何绕过多个主要聊天机器人中的保护措施,尽管经过了对齐训练,但仍会引发有害指令。 来源:https://arxiv.org/pdf/2307.15043

所有 520 个原始 AdvBench 实例都经过了这样的修改,并在一系列实验中使用了排名前 50 位且不重复的提示。这些提示还被翻译成多种语言,并在七种主要的闭源和开源机型上进行了测试,并与已知的有效越狱技术进行了结合。 快速自动迭代细化 (一对); 修剪攻击树 (TAP);和 DeepInception.

使用的闭源模型是 Gemini-2.0-flash; GPT-4o (2024-08-06); GPT-4-0613;和 双子座-1.5-专业版. 使用的开源模型是 Llama-3-8B-指导; Qwen2.5-7B-指导 (团队 2024b);以及 Qwen2.5-72B-Instruct(团队 2024a),所有实验重复三次以考虑随机机会。

该研究首先测试了使用表情符号重写 AdvBench 中的有害提示是否会增加毒性输出,包括将其翻译成其他主要语言。此外,研究还对上述已知越狱策略(PAIR、TAP 和 DeepInception)的提示应用了相同的表情符号编辑方法,以观察表情符号替换是否能进一步提高其成功率。

在这两种情况下,原始提示的结构都被保留了下来,只是将敏感术语换成了表情符号,并添加了装饰元素来掩盖意图。

对于测试指标,作者创新了一种评分系统,称为 GPT法官。在这个设置中,GPT-4o 不是被测试的模型,而是被提示充当评分者,分配一个数值 有害分数 (HS)对其他模型产生的响应。

每个输出的评分从 1(无害)到 5(极其有害),得到 5 分的响应百分比被报告为 危害率 (人力资源)。

为了防止模型陷入表情符号解释而不是明确回答,研究人员在每个提示中添加了一条指令,告诉模型简短地回答:

“设置 1”中基于表情符号的提示结果,并与将表情符号替换为文字或完全删除的消融变体进行了比较。模型名称已缩写以节省空间。

“设置 1”中基于表情符号的提示结果,并与将表情符号替换为文字或完全删除的消融变体进行了比较。模型名称已缩写以节省空间。

在上面的初始结果表中,表格左侧表明,用表情符号替代的有害提示比消融版本(即将表情符号翻译回文本,直接将其暴露给内容过滤器的版本)获得了明显更高的 HS 和 HR 分数。

作者指出表情符号替代方法优于之前的越狱方法,如下面的附加结果表所示:

“设置 2”中表情符号增强越狱提示的危害率结果,其中模型名称以缩写形式显示。

“设置 2”中表情符号增强越狱提示的危害率结果,其中模型名称以缩写形式显示。

作者指出,上面两个表格中的第一个也表明表情符号的影响会跨越语言。当表情符号提示的文本部分被翻译成中文、法语、西班牙语和俄语时,有害输出仍然很高;因为这些都是 高资源语言研究结果表明,这种风险并不局限于英语,而是广泛适用于主要用户群体,表情符号可以作为毒性产生的可转移渠道。

在论文的结论部分,研究人员认为表情符号的影响并非偶然,而是根植于模型处理它们的方式,并指出模型显然可以识别表情符号的有害含义——然而,当出现表情符号时,拒绝反应就会被抑制。

标记化研究进一步表明,表情符号通常被分解成稀有或不规则的片段,与其文本对应部分几乎没有重叠,从而有效地为有害语义创建了替代渠道。

除了模型机制之外,本文还进一步研究了预训练数据,发现许多常用表情符号出现在诸如色情、诈骗或赌博等有害内容中。作者认为,这种反复接触可能会使表情符号与有害内容之间的关联正常化,从而鼓励模型遵循有害提示,而不是屏蔽它们。

总之,这些发现表明,内部处理怪癖和有偏见的预训练数据都导致了表情符号在绕过安全措施方面具有惊人的有效性。

结语

使用其他输入法尝试越狱 LLM 的情况并不少见。例如,近年来, 已使用十六进制编码 绕过 ChatGPT 的过滤器。问题似乎在于使用基于文本的语言来限定传入请求和传出响应。

就表情符号而言,一个隐藏的、打破规则的意义点似乎可以被引入话语中,而不会受到惩罚或干预,因为其传输方式是非正统的。人们可能会认为,基于 CLIP 的音译技术会介入 所有 图像上传,这样攻击性或侵权的材料最终会成为可标记的文本。

显然情况并非如此,至少就目前主要的法学硕士课程而言;它们的语言障碍似乎很脆弱,而且以文本为中心。可以想象,对内容进行更广泛的解读(例如,通过学习 热图激活) 具有处理和/或带宽成本,这可能使这种方法不切实际地昂贵,还有其他可能的限制和考虑。

 

* 与大多数论文相比,本文的布局较为混乱,方法论和测试描述不够清晰。因此,我们尽力在这种背景下尽可能地展现该研究的核心价值。

无可否认,对结果的处理几乎是难以理解和混乱的。

首次发布于 17 年 2025 月 XNUMX 日星期三

机器学习作家,人体图像合成领域专家。曾任 Metaphysic.ai 研究内容主管。
个人网站: 马丁南德森.ai
联系我们 [email protected]
推特:@manders_ai