Anderson 视角
DALL-E 2 的独特解决方案:双重含义

任何学习意大利语的人都知道,描述一个 扫帚 时,需要注意上下文,因为意大利语中的这个词有一个极其不雅的 第二个含义作为一个动词*。虽然我们很早就学会了区分语义映射和词语的适用性,但这并不是一个容易传递给超大规模图像合成系统(如 DALL-E 2 和 Stable Diffusion)的技能,因为它们依赖于 OpenAI 的对比语言-图像预训练(CLIP)模块,该模块对对象和其属性的处理更为宽松(但在潜在扩散图像和视频合成领域正在获得 越来越多的关注)。
研究人员对这一缺陷进行了研究,来自巴伊兰大学和艾伦人工智能研究所的 新研究合作 对 DALL-E 2 在多大程度上容易出现此类语义错误进行了广泛的研究:

双重含义在 DALL-E 2 中被分解为多个解释 – 虽然任何潜在扩散系统都可以产生这样的例子。在右上图像中,删除“金”从提示中,会改变鱼的种类,而在“斑马线”情况下,需要明确说明道路表面才能删除重复关联。 来源:https://export.arxiv.org/pdf/2210.10606
研究人员发现,这种倾向于双重解释词语和短语似乎不仅是所有 CLIP 指导的扩散模型的共同特征,而且随着模型在越来越多的数据上进行训练,这种情况会变得更加严重。该论文指出,“减少”版本的文本到图像模型,包括 DALL-E Mini(现在是 Craiyon)输出此类错误的频率远低于此,而且 Stable Diffusion 也出错的频率较低 – 虽然通常是因为它根本不遵循提示,这是另一种错误。

简单的提示“日期”会迫使 DALL-E 2 调用这个词的两个含义之一,而“风扇”这个词也会分裂为两个语义映射,在第三个图像中,“锥体”这个短语会可靠地将未指定的食物转换为冰淇淋,这与“锥体”有关。
解释我们如何执行高效的词汇分离,该论文指出:
‘虽然符号和句子结构可能是模糊的,但在解释构建后,这种模糊性已经被解决。例如,飞行中的“蝙蝠”可以被解释为木棒或动物,我们对句子的可能解释要么是飞行中的木棒,要么是飞行中的动物,但不能同时是两者。一旦“蝙蝠”这个词被用于解释来表示一个对象(例如木棒),它就不能在同一个解释中被重新用于表示另一个对象(动物)。’
DALL-E 2,该论文观察到,不受此限制:

一只蝙蝠在飞过棒球场 – 第一张图来自论文,另外三张图是直接从 DALL-E 2 中获得的。
这种属性被称为 资源敏感性。
该论文确定了 DALL-E 2 展现出的三种异常行为:一个词或短语可以被解释并有效地分裂为两个不同的实体,在同一场景中渲染每个实体的对象或概念;一个词可以被解释为两个不同实体的修饰符(见上面的“金鱼”等示例);以及一个词可以被同时解释为修饰符和另一个实体 – 如提示 ‘一只海豹正在打开一封信’ 所示:

一只海豹正在打开一封信 – 第一幅图来自论文,相邻的三幅图是 DALL-E 2 的相同复制品。下面的照片样本中添加了额外的文本“照片,佳能 50,85mm,F5.6,获奖照片”。
作者确定了两种扩散模型的失败模式:用户提示中含义模糊的词语的结果通常会表现出具体化的词语和概念的某种体现;以及 概念泄漏,其中一个对象的属性会“泄漏”到另一个渲染对象中。
‘总的来说,我们研究的现象为 DALL-E 2 的语言能力的局限性提供了证据,并为未来研究开辟了新的途径,以确定这些局限性是否源于文本编码、生成模型或两者的问题。更一般地,所提出的方法可以扩展到其他场景,其中解码过程用于揭示归纳偏差和文本到图像模型的缺陷。’
使用 17 个会使 DALL-E 2 将输入分裂为多个输出的词语,研究人员观察到同音词复制发生在超过 80% 的 216 个图像中。
研究人员使用刺激-控制对来检查特定语言和过度指定语言是否有必要来停止这些复制。对于实体-属性测试,创建了 10 对此类对,作者指出,刺激提示在 92.5% 的情况下会引发共享属性,而控制提示只会在 6.6% 的情况下引发它。
‘为了演示,考虑一个斑马和一条街,在这里,斑马是一个实体,但它修改了街,并且 DALL-E 2 一致地生成斑马线,可能是因为斑马条纹与斑马线的相似性。并且按照我们的推测,控制一个斑马和一条砾石街,指定了一种通常没有斑马线的街类型,确实,我们对这个提示的所有控制样本都不包含斑马线。’













