人工智能
‘无意义语言’可能会破坏图像合成的内容审查系统

来自哥伦比亚大学的新研究表明,防止图像合成模型(如DALL-E 2、Imagen和Parti)输出有害或争议性图像的安全措施容易受到一种涉及’编造’单词的对抗性攻击。
作者开发了两种方法,可以潜在地覆盖图像合成系统中的内容审查措施,并发现它们即使在不同的架构中也具有惊人的稳健性,表明这种弱点不仅仅是系统性的,也可能与图像合成的基本原理有关。
第一种也是更强大的方法被称为马卡罗尼提示。’马卡罗尼’一词最初指的是多种语言的混合,如世界语或Unwinese。也许最广泛的例子是乌尔都语-英语,一种在巴基斯坦常见的’代码混合’,它自由地混合了英语名词和乌尔都语后缀。
在一些上述示例中,有意义的单词的部分被粘合在一起,使用英语作为’脚手架’。论文中的其他示例在单个提示中使用多种语言。
系统将以语义上有意义的方式响应,因为训练系统的网络来源中缺乏策划。这些来源通常带有多语言标签(即来自不是专门为图像合成任务设计的数据集),并且每个单词都会成为一个’token’;但是,这些单词的部分也会成为’subwords’或分数令牌。在自然语言处理(NLP)中,这种’词干提取’有助于区分可能在转换操作中出现的更长的派生单词的词源,但也会创建一个巨大的词汇’乐高积木’,可以通过’创造性’提示来利用。
在第二种方法中,称为唤起提示,一些连接的单词在语气上类似于更为幼稚的’拉丁学校男孩’ 展示 在 蒙蒂·派森的生命布莱恩(1979)中。
作者指出:
‘使用这种方法的一个明显问题是规避基于黑名单提示的内容过滤器。原则上,马卡罗尼提示可以提供一种简单而可靠的方法来绕过这些过滤器,以生成有害、冒犯、非法或其他敏感内容,包括暴力、仇恨、种族主义、性别歧视或色情图像,甚至可能侵犯知识产权或描绘真实个人的图像。 ‘
‘提供图像生成服务的公司已经非常小心地防止生成此类输出,以遵守其内容政策。因此,马卡罗尼提示应该被系统地调查为对商业图像生成安全协议的威胁。 ‘
作者建议了几种对抗这种漏洞的方法,其中一些他承认可能被认为是过于限制性的。
第一种可能的解决方案是最昂贵的:更仔细地策划源训练图像,使用更多的人工监督和更少的算法监督。然而,该论文承认,这并不能防止图像合成系统在两个本身可能无害的图像概念之间创建一个冒犯性的组合。
第二,该论文建议图像合成系统可以运行其实际输出通过一个过滤器系统,拦截任何有问题的关联,然后再将其提供给用户。可能DALL-E 2目前正在运行这样的过滤器,尽管OpenAI尚未披露DALL-E 2的内容审查工作原理。
最后,作者考虑了’词典白名单’的可能性,只允许经过审查和批准的单词来检索和渲染概念,但承认这可能代表了对系统实用性的过度限制。
尽管研究人员只使用五种语言(英语、德语、法语、西班牙语和意大利语)来创建提示组,但他相信这种’对抗性攻击’可以通过扩展语言数量变得更加’神秘’和难以阻止,考虑到像DALL-E 2这样的超大规模模型是训练在多种语言上的(因为使用轻微过滤或’原始’输入比策划它更容易,并且额外的维度可能会增加系统的实用性)。
该论文题为使用编造单词对图像生成的对抗性攻击,来自哥伦比亚大学的Raphaël Millièreetal。
DALL-E 2中的神秘语言
有人曾经建议,DALL-E 2在尝试描绘书面语言时输出的胡言乱语本身可能是‘隐藏词汇’。然而,之前对这种神秘语言的研究并没有提供任何开发nonce字符串的方法,这些字符串可以召唤特定的图像。
关于之前的工作,该论文指出:
‘[它]没有提供一种可靠的方法来找到nonce字符串,这些字符串可以引出特定的图像。大部分DALL-E 2在图像中包含的胡言乱语文本似乎在转录和用作提示时与特定的视觉概念没有可靠的关联。这限制了这种方法作为规避有害或冒犯性内容审查的可行性;因此,它不是对文本引导图像生成模型滥用的特别令人担忧的风险。 ‘
相反,作者的两种方法被阐述为一种手段,可以在绕过正在发展的传统礼仪的同时,通过无意义召唤相关且有意义的图像。
例如,作者考虑了五种语言中’鸟’的单词:Vögel在德语中,uccelli在意大利语中,oiseaux在法语中,和pájaros在西班牙语中。
使用DALL-E 2中集成的字节对编码(BPE)标记化,单词被标记化为非带重音的英语,并可以’创造性地’组合成nonce单词,这些单词对我们来说似乎是胡言乱语,但对DALL-E 2来说保留了它们粘合在一起的意义,允许系统表达感知到的意图:
在上面的示例中,两个’外语’单词用于’鸟’被粘合到一个无意义的字符串中。由于子单词的分数权重,保留了意义。
作者强调,通过不遵循子单词分割的边界,也可以获得有意义的结果,可能是因为DALL-E 2(该论文的主要研究对象)已经足够普遍地让子单词的边界变得模糊,而不会破坏它们的意义。
为了进一步展示论文中开发的方法,论文提供了使用下面列出的标记单词(带有胡言乱语混合单词的最右边)进行马卡罗尼提示的示例。
作者指出,以下来自DALL-E 2的示例并非’精心挑选’:
通用语言
该论文还观察到,几个这样的示例在DALL-E 2和DALL-E Mini(现在称为Craiyon)中都能很好地或至少非常相似地工作,这是令人惊讶的,因为DALL-E 2是一个扩散模型,而DALL-E Mini不是;两个系统是在不同的数据集上训练的;DALL-E Mini使用BART标记器,而不是DALL-E 2中偏爱的CLIP标记器。
正如上面的第一张图像所示,马卡罗尼提示也可以组装成语法正确的句子,以生成更复杂的场景。然而,这需要使用英语作为’脚手架’来组装概念,使该过程更有可能被图像合成框架中的标准审查系统拦截。
该论文指出,词汇混合,即将单词’粘合’在一起以从图像合成系统中引出相关内容,也可以通过使用同语单词在单个语言中完成。
唤起提示
‘唤起提示’方法依赖于从系统中’唤起’更广泛的响应,使用的单词不严格基于子单词或子令牌或部分共享标签。
唤起提示的一种类型是伪拉丁语,它可以在没有任何指定DALL-E 2应该检索’药物’概念的情况下生成虚构药物的图像:
唤起提示也特别适用于与可能的地理位置相关的无意义提示,并且可以在DALL-E 2和DALL-E Mini的不同架构中可靠地工作:
似乎马卡罗尼提示和唤起提示之间存在一些交叉。该论文指出:
‘似乎,训练数据、模型大小和模型架构的差异可能会导致不同的模型以’马卡罗尼’或’唤起’的方式解析提示,即使这些模型被证明对两种提示方法都有响应。 ‘
该论文得出结论:
‘虽然这些模型的各种属性(包括大小、架构、标记化过程和训练数据)可能会影响它们对基于文本的对抗性攻击的脆弱性,但本文中讨论的初步证据表明,这些攻击可能在模型之间工作得相当可靠。 ‘
可以说,围绕这些方法进行真正实验的最大障碍是被主机系统标记和禁止的风险。DALL-E 2需要每个用户帐户关联一个电话号码,这限制了可能需要用于真正测试这种类型的词汇黑客边界的’一次性帐户’数量,以规避现有的审查方法。目前,DALL-E 2的主要保障仍然是访问的不可预测性。
最初发布于2022年8月9日。









