Anderson 视角

“无意义语言”可能会破坏图像合成的内容审核系统

mm
DALL-E 2: 'a man in a state of exaspenttausacion' . https://labs.openai.com/s/PHCrZh2i5FC2N814U8pbxuug

来自哥伦比亚大学的新研究表明,图像合成模型(如DALL-E 2、Imagen和Parti)防止输出有害或有争议的图像的保障措施容易受到一种涉及“编造的词语”的对抗性攻击。

作者开发了两种方法,可以潜在地覆盖图像合成系统的内容审核措施,并发现它们在不同架构中都非常稳健,表明这种弱点不仅仅是系统性的,还可能与文本到图像合成的基本原理有关。

第一种方法,也是更强大的方法,被称为马卡罗尼提示。马卡罗尼一词最初指的是一种混合多种语言的语言,如世界语或乌尼斯语。也许最常见的例子是乌尔都语-英语,一种在巴基斯坦常见的“代码混合”方式,它自由地混合英语名词和乌尔都语后缀。

DALL-E 2中的组合马卡罗尼提示。来源:https://arxiv.org/pdf/2208.04135.pdf

DALL-E 2中的组合马卡罗尼提示。 来源:https://arxiv.org/pdf/2208.04135.pdf

在上述例子中,一些有意义的词语的片段被粘合在一起,使用英语作为“脚手架”。其他例子在论文中使用单个提示中的多种语言。

系统将以语义上有意义的方式响应,因为训练系统的网络来源相对缺乏策划。这些来源通常带有多语言标签(即来自不是专门为图像合成任务设计的数据集),并且每个被摄取的词语,无论其语言如何,都将成为一个“令牌”;同样,词语的部分也将成为“子词”或分数令牌。在自然语言处理(NLP)中,这种“词干提取”有助于区分更长的派生词的词源,但也创建了一个巨大的词汇“乐高积木”,可以通过“创造性”提示来利用。

单语混合词也可以通过间接或非散文语言有效地获取图像,通常可以在DALL-E 2和DALL-E Mini(Craiyon)等不同架构上获得非常相似的结果。

单语混合词也可以通过间接或非散文语言有效地获取图像,通常可以在DALL-E 2和DALL-E Mini(Craiyon)等不同架构上获得非常相似的结果。

在第二种方法中,称为唤起提示,一些连接的词语在语气上类似于更为青少年化的“拉丁语”演示蒙蒂·派森的生命(1979)中。

这不是笑话——虚假的拉丁语通常会从DALL-E 2中引出有意义的反应。

这不是笑话——虚假的拉丁语通常会从DALL-E 2中引出有意义的反应。

作者指出:

“一种明显的担忧是,这种方法可能会规避基于黑名单提示的内容过滤器。从原则上讲,马卡罗尼提示可以提供一种可靠的方法来绕过这些过滤器,以生成有害、冒犯、非法或敏感的内容,包括暴力、仇恨、种族主义、性别歧视或色情图像,以及可能侵犯知识产权或描绘真实个人的图像。”

“提供图像生成服务的公司已经在防止生成此类输出方面投入了大量精力,以符合他们的内容政策。因此,马卡罗尼提示应该被系统地调查为对商业图像生成中使用的安全协议的威胁。”

作者建议了一些对抗这种漏洞的方法,其中一些可能被认为过于严格。

第一种可能的解决方案是最昂贵的:更仔细地策划源训练图像,使用更多的人工和算法监督。然而,论文承认这不会阻止图像合成系统在两个本身可能无害的图像概念之间创建一个令人反感的关联。

第二,论文建议图像合成系统可以运行输出通过过滤系统,以拦截任何问题关联,然后将其提供给用户。可能DALL-E 2目前正在运行这样的过滤器,尽管OpenAI尚未披露DALL-E 2的内容审核的确切工作原理。

最后,作者考虑了“词典白名单”的可能性,只允许经过审核和批准的词语来检索和渲染概念,但承认这可能对系统的实用性施加了过于严格的限制。

尽管研究人员只使用五种语言(英语、德语、法语、西班牙语和意大利语)来创建提示组合,但他们相信这种“对抗性攻击”可以通过扩展语言数量变得更加“神秘”和难以防御,尤其是像DALL-E 2这样的超大规模模型是在多种语言上训练的(因为使用轻度过滤或“原始”输入比策划它更容易,并且额外的维度可能会增加系统的实用性)。

论文题为使用编造的词语对图像生成的对抗性攻击,来自哥伦比亚大学的Raphaël Millièreet al.。

DALL-E 2中的神秘语言

之前有人提出,DALL-E 2在尝试描绘书面语言时输出的胡言乱语本身可能是一个“隐藏的词汇”。然而,之前对这种神秘语言的研究并没有提供任何开发nonce字符串的方法,这些字符串可以召唤特定的图像。

关于之前的工作,论文指出:

“[它]没有提供一种可靠的方法来找到nonce字符串,这些字符串可以引出特定的图像。DALL-E 2包含在图像中的大部分胡言乱语文本似乎与特定的视觉概念没有可靠的关联,当它们被转录并用作提示时。这限制了这种方法作为规避有害或冒犯内容审核的可行性;因此,它不是对文本引导图像生成模型滥用的特别令人担忧的风险。”

相反,作者的两种方法被阐述为一种方法,通过这种方法,胡言乱语可以召唤相关的和有意义的图像,同时绕过正在发展的传统礼仪。

作者以五种语言中的“鸟”一词为例:德语中的Vögel意大利语中的uccelli法语中的oiseaux西班牙语中的pájaros

使用DALL-E 2中实现的CLIP的字节对编码(BPE)标记化,词语被标记化为非重音的英语,并可以“创造性地”组合成看似胡言乱语的nonce词,但对于DALL-E 2来说,它们保留了粘合在一起的意义,允许系统表达感知到的意图:

在上面的例子中,两个“外国”词语bird被粘合成一个胡言乱语字符串。由于子词的分数权重,意义被保留。

作者强调,通过不严格遵守子词分割的边界,也可以获得有意义的结果,可能是因为DALL-E 2(本文的主要研究对象)已经足够普遍化,以便在不破坏其含义的情况下模糊子词的边界。

为了进一步展示论文中开发的方法,论文提供了不同领域的马卡罗尼提示示例,使用以下列表中说明的令牌词语(带有胡言乱语混合词):

作者指出,以下来自DALL-E 2的示例并非“精心挑选”:

通用语言

论文还观察到,几个这样的例子在DALL-E 2和DALL-E Mini(现在称为Craiyon)上都能很好地或非常相似地工作,这是令人惊讶的,因为DALL-E 2是一个扩散模型,而DALL-E Mini则不是;两个系统的训练数据集不同;DALL-E Mini使用BART标记器,而不是DALL-E 2偏爱的CLIP标记器。

DALL-E Mini的结果与前一张图像(来自DALL-E 2)相比,结果非常相似。

DALL-E Mini的结果与前一张图像(来自DALL-E 2)相比,结果非常相似。

如上图所示,马卡罗尼提示也可以组装成语法正确的句子,以生成更复杂的场景。然而,这需要使用英语作为“脚手架”来组装概念,使该过程更容易被图像合成框架中的标准审查系统拦截。

论文指出,词汇混合,即将词语“粘合”在一起以从图像合成系统中引出相关内容,也可以通过使用单语言的混合词来完成。

唤起提示

论文中介绍的“唤起提示”方法依赖于从系统中“唤起”更广泛的响应,使用的词语不严格基于子词、子标记或部分共享的标签。

唤起提示的一种类型是伪拉丁语,可以生成虚构药物的图像,甚至不需要指定DALL-E 2应该检索“药物”的概念:

唤起提示也特别适用于与可能的地理位置相关的无意义提示,并且可以在DALL-E 2和DALL-E Mini的不同架构上可靠地工作:

用于这些提示的词语与真实名称相似,但本身是完全无意义的。尽管如此,系统仍然“捕捉到了这些词语的氛围”

用于这些提示的词语与真实名称相似,但本身是完全无意义的。尽管如此,系统仍然“捕捉到了这些词语的氛围”

似乎马卡罗尼提示和唤起提示之间存在一些交叉。论文指出:

“似乎,训练数据、模型大小和模型架构的差异可能会导致不同的模型以不同的方式解析提示,如voiscellpajaraux和eidelucertlagarzard,即使这些模型已被证明对两种提示方法都有响应。”

论文得出结论:

“虽然这些模型的各种属性(包括大小、架构、标记化程序和训练数据)可能会影响它们对基于文本的对抗性攻击的脆弱性,但本文中讨论的初步证据表明,这些攻击可能在一定程度上在不同模型中都有效。”

可以说,真正尝试这些方法的最大障碍是被主机系统标记和禁止的风险。DALL-E 2需要每个用户账户关联一个电话号码,限制了需要创建“一次性账户”的数量,以真正测试这种词汇黑客的边界,特别是在规避现有审查方法方面。目前,DALL-E 2的主要保障仍然是访问的波动性。

 

首次发表于2022年8月9日。

机器学习作家,人类图像合成领域专家。曾任 Metaphysic.ai 研究内容负责人。
个人网站: martinanderson.ai
联系: [email protected]
Twitter:@manders_ai