人工智能
可能颠覆图像合成审核系统的“无意义语言”

哥伦比亚大学的一项新研究表明,防止 DALL-E 2、Imagen 和 Parti 等图像合成模型输出有害或有争议的图像的保护措施容易受到一种涉及“虚构”词语的对抗性攻击。
作者开发了两种方法,可以潜在地覆盖图像合成系统中的内容审核措施,并发现它们即使在不同的体系结构中也非常稳健,这表明该弱点不仅仅是系统性的,而且可能关键在于某些文本到图像合成的最基本原理。
第一个,也是两者中较强的一个,称为 通俗的提示. “通心粉”一词 本来 指多种语言的混合体,如世界语或 温温内塞。 也许文化最广泛的例子是 乌尔都语-英语,这是巴基斯坦常见的一种“代码混合”,它相当自由地混合了英语名词和乌尔都语后缀。
在上述一些例子中,我们使用英语作为“框架”,将一些有意义的单词片段粘合在一起。本文中的其他例子则在单个提示中使用了多种语言。
由于系统训练所用的网络资源相对缺乏策展,因此系统将以语义上有意义的方式做出响应。此类资源通常带有完整的多语言标签(即来自并非专门为图像合成任务设计的数据集),并且每个被提取的单词,无论使用哪种语言,都会成为一个“标记”;但同样,这些单词的一部分会成为“子词”或分数标记。在自然语言处理 (NLP) 中,这种“词干提取”有助于区分在转换操作中可能出现的较长派生词的词源,同时也会创建一个庞大的词汇“乐高积木”,可供“创意”提示利用。
在第二种方法中,称为 唤起性提示一些连词的语气与较为幼稚的“小学生拉丁语”相似 证明 in 巨人Python的布赖恩的生活 (1979)。
作者指出:
“这种方法的一个明显问题是规避基于黑名单提示的内容过滤器。 原则上,长篇大论的提示可以提供一种简单且看似可靠的方法来绕过此类过滤器,以生成有害的、冒犯性的、非法的或其他敏感内容,包括暴力、仇恨、种族主义、性别歧视或色情图像,或许还包括侵犯隐私权的图像。知识产权或描绘真实的个人。
提供图像生成服务的公司已根据其内容政策,非常谨慎地防止此类输出的生成。因此,应系统地调查混杂提示对商业图像生成安全协议的威胁。
作者提出了一些针对此漏洞的补救措施,他承认其中一些措施可能被认为限制过多。
第一个可能的解决方案是最昂贵的:更仔细地管理源训练图像,使用更多的人性化和更少的算法监督。 然而,该论文承认,这不会阻止图像合成系统在两个本身可能无害的图像概念之间创建令人反感的连接。
其次,该论文建议图像合成系统可以将其实际输出通过一个过滤系统,在将内容提供给用户之前拦截任何有问题的关联。DALL-E 2 目前可能就运行着这样的过滤器,尽管 OpenAI 尚未透露 DALL-E 2 的内容审核具体是如何运作的。
最后,作者考虑了“词典白名单”的可能性,该名单只允许经过审查和批准的单词来检索和呈现概念,但他承认这可能对系统的实用性造成过于严格的限制。
尽管研究人员在创建提示组装时只尝试了五种语言(英语、德语、法语、西班牙语和意大利语),但他认为,由于 DALL-E 2 等超大规模模型是在多种语言上进行训练的(这仅仅是因为使用轻度过滤或“原始”输入比考虑策划它的巨大成本更容易,并且额外的维度可能会增加系统的实用性),因此通过增加语言数量,这种“对抗性攻击”可能会变得更加“神秘”且难以阻止。
这个 纸 标题为 用虚构的词语对图像生成进行对抗性攻击,来自哥伦比亚大学的 Raphaël Millière。
DALL-E 2 中的隐秘语言
它一直 之前建议 DALL-E 2 每当试图描述书面语言时输出的乱码本身就可能是 “隐藏词汇”。 然而,之前对这种神秘语言的研究并没有提供任何开发方法 随机数字符串 可以唤起特定的图像。
的 之前的工作,论文指出:
“它没有提供一种可靠的方法来查找能够引发特定图像的随机字符串。DALL-E 2 在图像中包含的大多数乱码文本,在转录并用作提示时,似乎无法与特定的视觉概念可靠地关联。这限制了这种方法作为规避有害或冒犯性内容审核的可行性;因此,对于文本引导的图像生成模型的滥用而言,这并不是一个特别令人担忧的风险。”
相反,作者阐述了两种方法,即通过胡言乱语来唤起相关且有意义的意象,同时绕过现在正在发展成为 即时工程.
举例来说,作者考察了本文研究范围内的五种语言中的“鸟”这个词: 鸟类 在德国, 鸟类 用意大利语, 禽 法语,以及 鸟类 在西班牙语中。
随着 字节对编码 (BPE) 实施所使用的标记化 CLIP 这是 集成 在 DALL-E 2 中,这些单词被标记为不带重音的英语,并且可以“创造性地组合”成随机词,这些单词在我们看来是胡言乱语,但对于 DALL-E 2 来说,保留了它们粘合在一起的含义,从而使系统能够表达感知的意图:
在上面的例子中,两个“外来”词 鸟 被粘在一起形成一个无意义的字符串。 由于子词的分数权重,含义得以保留。
作者强调,在不遵守子词分割边界的情况下也可以获得有意义的结果,大概是因为 DALL-E 2(论文的主要研究)已经泛化得足够好,可以让子词的边界模糊而不破坏它们的边界。意义。
为了进一步演示所开发的方法,本文使用下面所示的标记词列表(最右侧是无意义的混合词)提供了跨不同领域的通俗提示的示例。
作者指出,DALL-E 2 中的以下示例并非“精心挑选”的:
Lingua Franca
该论文还指出,几个这样的示例在 DALL-E 2 和 DALL-E Mini(现在 克雷永),这令人惊讶,因为 DALL-E 2 是扩散模型,而 DALL-E Mini 不是; 这两个系统在不同的数据集上进行训练; 和 DALL-E Mini 使用 BART 分词器而不是 DALL-E 2 青睐的 CLIP 分词器。
如上图所示,双关语提示也可以组合成句法上合理的句子,从而生成更复杂的场景。然而,这需要使用英语作为“支架”来组装概念,这使得该过程更容易被图像合成框架中的标准审查系统拦截。
论文指出,词汇混合,即将单词“粘合在一起”,从图像合成系统中引出相关内容,也可以在单一语言中实现,方法是使用 合成词.
唤起性提示
本文提出的“唤起提示”方法依赖于使用不严格基于子词、子标记或部分共享标签的词语来“唤起”系统的更广泛的反应。
一种唤起性提示是伪拉丁语,除其他用途外,它可以生成虚构药物的图像,甚至在没有任何规定要求 DALL-E 2 检索“药物”概念的情况下:
唤起性提示对于与可能的地理位置广泛相关的无意义提示也特别有效,并且在 DALL-E 2 和 DALL-E Mini 的不同架构中非常可靠地工作:
通俗的提示和唤起性的提示之间似乎存在一些交叉。 论文指出:
“看来,训练数据、模型大小和模型架构的差异可能会导致不同的模型以‘通俗易懂的’或‘令人回味的’方式解析诸如 voiscellpajaraux 和 eidelucertlagarzard 之类的提示,即使这些模型被证明对这两种提示方法都有反应。”
论文的结论是:
“虽然这些模型的各种属性——包括大小、架构、标记化[程序]和训练数据——可能会影响它们对基于文本的对抗性攻击的脆弱性,但本研究讨论的初步证据表明,其中一些攻击可能在各个模型中仍然可靠地发挥作用。”
可以说,真正尝试这些方法的最大障碍是被主机系统标记和封禁的风险。DALL-E 2 要求每个用户账户都关联一个电话号码,从而限制了“临时账户”的数量,而这些账户很可能是真正测试此类词汇攻击的极限,从而破坏现有的审核方法。目前,DALL-E 2 的主要保障措施仍然是访问的波动性。
首次发布于 9 年 2022 月 XNUMX 日。





















