人工智能
“胡言乱语”可能破坏图像合成审查系统

来自哥伦比亚大学的新研究表明,防止图像合成模型(如DALL-E 2、Imagen和Parti)输出有害或争议性图像的安全措施容易受到一种涉及“编造”单词的对抗性攻击。
作者开发了两种方法,可以潜在地覆盖图像合成系统的内容审查措施,并发现它们即使在不同的架构中也具有显著的鲁棒性,表明这种弱点不仅仅是系统性的,也可能与图像合成的基本原理有关。
第一种也是更强大的方法被称为马卡罗尼提示。“马卡罗尼”一词最初指的是一种混合多种语言的语言,如世界语或Unwinese。也许最广泛的例子是乌尔都语-英语,一种在巴基斯坦常见的“代码混合”类型,它自由地混合英语名词和乌尔都语后缀。
在一些上述示例中,有意义的单词的部分被粘合在一起,使用英语作为“脚手架”。该论文中的其他示例在单个提示中使用多种语言。
系统将以语义上有意义的方式响应,因为训练系统的网络来源中缺乏人工审查。这些来源通常带有多语言标签(即来自不是专门为图像合成任务设计的数据集),并且每个单词都会成为一个“令牌”;但是,这些单词的部分也会成为“子单词”或分数令牌。在自然语言处理(NLP)中,这种“词干提取”有助于区分可能在转换操作中出现的更长的派生单词的词源,但也会创建一个巨大的词汇“乐高积木”,“创造性”提示可以利用它。
在第二种方法中,称为唤起提示,一些连接的单词在语气上类似于更为幼稚的“拉丁语学校男孩”演示在蒙蒂·派森的生命布莱恩(1979)中。
作者指出:
“使用这种方法的一个明显问题是规避基于黑名单提示的内容过滤器。原则上,马卡罗尼提示可以提供一种简单而可靠的方法来绕过这些过滤器,以生成有害、攻击性、非法或其他敏感内容,包括暴力、仇恨、种族主义、性别歧视或色情图像,甚至可能侵犯知识产权或描绘真实个人的图像。”
“提供图像生成服务的公司已经在防止生成此类输出方面投入了大量精力,以遵守他们的内容政策。因此,马卡罗尼提示应该被系统地调查为对商业图像生成安全协议的威胁。”
作者建议了一些对抗这种漏洞的补救措施,其中一些他承认可能被认为过于严格。
第一个可能的解决方案是最昂贵的:更仔细地审查源训练图像,使用更多的人工监督而不是算法监督。然而,该论文承认,这并不能防止图像合成系统在两个本身可能无害的图像概念之间创建一个攻击性连接。
第二,该论文建议图像合成系统可以运行其实际输出通过一个过滤器系统,拦截任何问题关联在将其提供给用户之前。可能DALL-E 2目前运行这样的过滤器,尽管OpenAI尚未披露DALL-E 2的内容审查的确切工作原理。
最后,作者考虑了“词典白名单”的可能性,这只允许经过审查和批准的单词检索和渲染概念,但承认这可能代表了对系统实用性的过度严格限制。
虽然研究人员只用五种语言(英语、德语、法语、西班牙语和意大利语)进行提示组装实验,但他相信这种“对抗性攻击”可以通过扩展语言数量变得更加“神秘”和难以阻止,考虑到像DALL-E 2这样的超大规模模型是训练在多种语言上的(因为使用轻度过滤或“原始”输入比审查它更容易,并且额外的维度可能会增加系统的实用性)。
该论文题为使用编造单词对图像生成的对抗性攻击,来自哥伦比亚大学的Raphaël Millièreetal。
DALL-E 2中的神秘语言
有人曾经建议,DALL-E 2在尝试描绘书面语言时输出的胡言乱语本身可能是一种‘隐藏词汇’。然而,关于这种神秘语言的先前研究并没有提供任何开发nonce字符串的方法,可以召唤特定的图像。
关于先前的工作,该论文指出:
“[它]没有提供一种可靠的方法来找到nonce字符串以引出特定的图像。大部分DALL-E 2在图像中包含的胡言乱语文本似乎在转录和用作提示时与特定的视觉概念没有可靠的关联。这限制了这种方法作为规避有害或攻击性内容审查的可行风险;因此,它不是对文本引导图像生成模型滥用的特别令人担忧的风险。”
相反,作者的两种方法被阐述为通过绕过正在发展的传统礼仪来召唤有意义的图像的方法,这种礼仪现在正在成为提示工程。
例如,作者考虑了五种语言中“鸟”的单词:Vögel在德语中,uccelli在意大利语中,oiseaux在法语中,pájaros在西班牙语中。
使用DALL-E 2中实现的CLIP的字节对编码(BPE)标记化,单词被标记化为非带重音的英语,可以“创造性地”组合成看似胡言乱语的nonce单词,但对于DALL-E 2来说,它们保留了粘合在一起的意义,允许系统表达感知到的意图:
在上面的示例中,两个“外语”单词“鸟”被粘合成一个胡言乱语字符串。由于子单词的分数权重,意义被保留。
作者强调,通过不遵循子单词分割的边界,也可以获得有意义的结果,可能是因为DALL-E 2(该论文的主要研究对象)已经足够普遍,以至于允许子单词的边界变得模糊而不会破坏它们的意义。
为了进一步演示该论文中开发的方法,论文提供了不同领域的马卡罗尼提示示例,使用以下所示的标记单词列表(右侧为胡言乱语混合单词)。
作者指出,以下DALL-E 2的示例并非“精心挑选”:
通用语言
该论文还观察到,几个这样的示例在DALL-E 2和DALL-E Mini(现在称为Craiyon)中都能很好地或至少非常相似地工作,这是令人惊讶的,因为DALL-E 2是一个扩散模型,而DALL-E Mini不是;两个系统在不同的数据集上进行训练;DALL-E Mini使用BART标记器,而不是DALL-E 2偏爱的CLIP标记器。
如上图所示,马卡罗尼提示也可以组装成语法正确的句子以生成更复杂的场景。然而,这需要使用英语作为“脚手架”来组装概念,使该过程更有可能被图像合成框架中的标准审查系统拦截。
该论文指出,词汇混合,即将单词“粘合”在一起以从图像合成系统中引出相关内容,也可以通过使用混成词在单个语言中完成。
唤起提示
该论文中出现的“唤起提示”方法依赖于从系统中引出更广泛的反应,使用不严格基于子单词、子令牌或部分共享标签的单词。
唤起提示的一种类型是伪拉丁语,它可以在没有指定DALL-E 2应该检索“药物”概念的情况下生成虚构药物的图像:
唤起提示也特别适用于与可能的地理位置相关的无意义提示,并且可以在DALL-E 2和DALL-E Mini的不同架构中可靠地工作:
马卡罗尼提示和唤起提示之间似乎存在一些交叉。该论文指出:
“似乎模型、大小、架构和训练数据的差异可能会导致不同的模型以‘马卡罗尼’或‘唤起’的方式解析提示,例如voiscellpajaraux和eidelucertlagarzard,即使这些模型被证明对两种提示方法都有响应。”
该论文得出结论:
“虽然这些模型的各种属性(包括大小、架构、标记化程序和训练数据)可能会影响它们对基于文本的对抗性攻击的脆弱性,但本文中讨论的初步证据表明,这些攻击可能会在模型之间可靠地工作。”
可以说,围绕这些方法进行真正实验的最大障碍是被主机系统标记和禁止的风险。DALL-E 2需要每个用户账户关联一个电话号码,这限制了可能需要的“一次性账户”数量来真正测试这种类型的词汇黑客的边界,以规避现有的审查方法。目前,DALL-E 2的主要保障仍然是访问的波动性。
首次发布于2022年8月9日。





















