存根 DALL-E 2 是否只是“将事物粘合在一起”而不了解它们之间的关系? - 联合人工智能
关注我们.

人工智能

DALL-E 2 是否只是“将事物粘合在一起”而不了解它们之间的关系?

mm
更新 on
“勺子上的杯子”。 资料来源:DALL-E 2。

哈佛大学的一篇新研究论文表明,OpenAI 引人注目的文本到图像框架 DALL-E 2 在再现合成照片中元素之间的婴儿级关系方面存在显着困难,尽管许多图像的复杂性令人眼花缭乱。它的输出。

研究人员进行了一项涉及 169 名众包参与者的用户研究,向他们展示了基于最基本的人类关系语义原理的 DALL-E 2 图像,以及创建这些图像的文本提示。 当被问及提示和图像是否相关时,就 DALL-E 22 被要求可视化的非常简单的关系而言,不到 2% 的图像被认为与其相关提示相关。

为新论文进行的试验的屏幕截图。 参与者的任务是选择与提示匹配的所有图像。 尽管界面底部有免责声明,但在所有情况下,参与者不知道的图像实际上是根据显示的相关提示生成的。 资料来源:https://arxiv.org/pdf/2208.00005.pdf

为新论文进行的试验的屏幕截图。 参与者的任务是选择与提示匹配的所有图像。 尽管界面底部有免责声明,但在所有情况下,参与者不知道的图像实际上是根据显示的相关提示生成的。 资料来源:https://arxiv.org/pdf/2208.00005.pdf

结果还表明,DALL-E 结合不同元素的明显能力可能会减弱,因为这些元素不太可能出现在为系统提供动力的现实世界训练数据中。

例如,提示“孩子触摸碗”的图像获得了 87% 的同意率(即参与者点击了与提示相关的大部分图像),而类似的真实感渲染“一只猴子触摸鬣蜥”则获得了 11% 的同意率。只有 XNUMX% 的人同意:

DALL-E 很难描述“猴子触摸鬣蜥”这一不太可能发生的事件,可以说是因为它在训练集中并不常见,更有可能是不存在的。

DALL-E 很难描述“猴子触摸鬣蜥”这一不太可能发生的事件,可以说是因为它在训练集中并不常见,更有可能是不存在的。

在第二个例子中,DALL-E 2 经常弄错规模,甚至弄错物种,大概是因为缺乏描述这一事件的现实世界图像。 相比之下,可以合理地预期会有大量与儿童和食物相关的训练照片,并且这个子域/类已经得到了很好的发展。

DALL-E 难以并置强烈对比的图像元素,这表明公众目前对该系统的真实感和广泛的解释能力感到眼花缭乱,以至于没有对系统有效地将一个元素赤裸裸地“粘”到另一个元素上的情况形成批判性的眼光。 ,如 DALL-E 2 官方网站中的这些示例所示:

剪切粘贴合成,来自 DALL-E 2 的官方示例。来源:https://openai.com/dall-e-2/

剪切粘贴合成,来自 DALL-E 2 的官方示例。 资料来源:https://openai.com/dall-e-2/

新论文指出*:

“关系理解是人类智力的基本组成部分,它体现在 发展初期,并快速自动计算 在知觉中.

'DALL-E 2 即使是基本的空间关系(例如 in, on, )表明,无论它学到了什么,它还没有学会允许人类如此灵活和稳健地构建世界的表征类型。

“对这一困难的直接解释是,像 DALL-E 2 这样的系统尚不具备关系组合性。”

作者认为,诸如 DALL-E 系列之类的文本引导图像生成系统可以受益于利用机器人技术中常见的算法,这些算法可以同时对身份和关系进行建模,因为代理需要与环境实际交互,而不仅仅是制造环境多种元素的融合。

其中一种方法名为 CLI端口, 使用相同 夹线机制 作为 DALL-E 2 中的质量评估元素:

CLIPort 是华盛顿大学和 NVIDIA 于 2021 年合作的项目,它在非常实用的环境中使用 CLIP,以至于接受过 CLIP 训练的系统必须能够理解物理关系,而 DALL-E 2 和类似的“奇幻”技术中不存在这种激励因素图像合成框架。 资料来源:https://arxiv.org/pdf/2109.12098.pdf

CLIPort 是华盛顿大学和 NVIDIA 于 2021 年合作的项目,它在非常实用的环境中使用 CLIP,以至于接受过 CLIP 训练的系统必须能够理解物理关系,而 DALL-E 2 和类似的“奇幻”技术中不存在这种激励因素图像合成框架。 资料来源:https://arxiv.org/pdf/2109.12098.pdf

作者进一步建议“另一个看似合理的升级”可能是图像合成系统(例如 DALL-E)的架构将 乘数效应 在唯一的计算层中,允许以受信息处理能力启发的方式计算关系 生物 系统.

新文 标题为 测试文本引导图像生成中的关系理解,来自哈佛大学心理学系的 Colin Conwell 和 Tomer D. Ullman。

超越早期的批评

在评论 DALL-E 2 输出的真实性和完整性背后的“花招”时,作者指出了先前的工作发现了 DALL-E 风格的生成图像系统的缺点。

今年XNUMX月,加州大学伯克利分校 注意到 DALL-E 在处理反射和阴影方面的困难; 同月,韩国的一项研究调查了 DALL-E 2 风格输出的“独特性”和原创性 以批判的眼光,一个 初步分析 纽约大学和德克萨斯大学在发布后不久对 DALL-E 2 图像进行了研究,发现 DALL-E 2 图像中的构图和其他基本因素存在各种问题; 和上个月, 共同的工作 伊利诺伊大学和麻省理工学院之间的合作提出了在组合性方面对此类系统进行架构改进的建议。

研究人员进一步指出,Aditya Ramesh 等 DALL-E 杰出人物 承认 该框架的约束力、相对大小、文本和其他挑战的问题。

谷歌竞争对手图像合成系统 Imagen 背后的开发者也提出了 绘图台,一种新颖的比较系统,可以使用不同的指标衡量跨框架的图像准确性。

相反,这篇新论文的作者建议,通过将人类的估计(而不是自相残杀的算法指标)与结果图像进行比较,以确定弱点所在以及可以采取哪些措施来缓解这些弱点,可能会获得更好的结果。

研究

为此,新项目将其方法建立在心理学原理的基础上,并寻求从当前的 兴趣激增 in 即时工程 (实际上,这是对 DALL-E 2 或任何类似系统的缺点的让步),以调查并可能解决使此类“解决方法”成为必要的限制。

该文件指出:

“当前的工作重点关注先前在认知、发展或语言文献中描述、检验或提出的 15 种基本关系。 该集合既包含基础空间关系(例如“X on Y”),又包含更抽象的代理关系(例如“X 帮助 Y”)。

“提示故意简单,没有属性复杂性或详细说明。 也就是说,而不是像“驴子和章鱼正在玩游戏”这样的提示。 驴抓住一根绳子的一端,章鱼抓住另一端。 驴子把绳子叼在嘴里。 一只猫正在跳过绳子”,我们使用“刀上的盒子”。

“这种简单性仍然捕捉到了人类心理学各个子领域的广泛关系,并使潜在的模型失败更加引人注目和具体。”

在他们的研究中,作者从 Prolific 招募了 169 名参与者,全部位于美国,平均年龄 33 岁,其中 59% 是女性。

向参与者展示了 18 张组织成 3×6 网格的图像,提示位于顶部,底部有免责声明,声明所有、部分或没有图像可能是根据显示的提示生成的,然后被要求以这种方式选择他们认为相关的图像。

呈现给个人的图像基于语言、发展和认知文献,包括一组八种物理关系和七种“代理”关系(这一点很快就会变得清楚)。

身体关系
在、上面、下面、覆盖、靠近、被遮挡、悬挂在上面、 .

代理关系
推、拉、碰、击、踢、帮助、 阻碍.

所有这些关系都来自前面提到的非计算机科学研究领域。

因此导出了十二个实体以供在提示中使用,其中包括六个对象和六个代理:

对象
盒子、圆筒、毯子、碗、茶杯、 刀。

中介代理
男人、女人、孩子、机器人、猴子、 鬣蜥。

(研究人员承认,将鬣蜥纳入其中并不是干社会学或心理学研究的支柱,而是“一种享受”)

对于每个关系,通过对两个实体随机采样五次来创建五个不同的提示,总共产生 75 个提示,每个提示都提交给 DALL-E 2,并且每个提示都使用最初提供的 18 张图像,没有变化或允许第二次机会。

成果

论文指出*:

“参与者平均表示 DALL-E 2 的图像和用于生成图像的提示之间的一致性较低,在 22.2 个不同的提示中,平均值为 18.3% [26.6, 75]。

“代理提示(28.4 条提示中的平均值为 22.8% [34.2, 35])产生的一致性高于物理提示(16.9 条提示中的平均值为 11.9% [23.0, 40])。”

研究结果。 黑色点表示所有提示,每个点都是一个单独的提示,颜色根据提示主题是主体还是物理(即对象)进行分类。

研究结果。 黑色点表示所有提示,每个点都是一个单独的提示,颜色根据提示主题是主体还是物理(即对象)进行分类。

为了比较人类和算法对图像的感知之间的差异,研究人员通过 OpenAI 的开源运行了他们的渲染 维T-L/14 基于 CLIP 的框架。 对分数进行平均后,他们发现两组结果之间存在“中等关系”,考虑到 CLIP 本身有助于生成图像的程度,这可能令人惊讶。

CLIP (ViT-L/14) 与人类反应的比较结果。

CLIP (ViT-L/14) 与人类反应的比较结果。

研究人员认为,架构中的其他机制,也许与训练集中偶然的优势(或缺乏)数据相结合,可能解释了 CLIP 能够识别 DALL-E 的局限性,但在所有情况下都无法做任何事情的原因。关于这个问题的很多内容。

作者得出的结论是,DALL-E 2 仅具有概念上的功能(如果有的话)来再现包含关系理解的图像,关系理解是我们很早就发展起来的人类智能的基本方面。

“像 DALL-E 2 这样的系统不具有组合性的观点可能会让任何看到 DALL-E 2 对诸如‘穿着芭蕾舞短裙的小萝卜卡通与贵宾犬散步’等提示的惊人合理反应的人感到惊讶。 诸如此类的提示通常会生成构图概念的合理近似,提示的所有部分都会出现,并且出现在正确的位置。

然而,组合性不仅仅是将事物粘合在一起的能力——甚至是你以前从未观察到的事物。 组合性需要理解 定位、竞价/采购和分析/优化数字媒体采购,但算法只不过是解决问题的操作和规则。 将事物结合在一起。 关系就是这样的规则。

男子咬伤霸王龙

检讨 随着 OpenAI 拥抱 更多的用户 在 DALL-E 2 最近的 Beta 货币化之后,由于现在必须为大多数代付费,DALL-E 2 关系理解中的缺陷可能会变得更加明显,因为每次“失败”的尝试都会产生财务影响,并且无法退款。

我们这些早些时候收到邀请的人有时间(直到最近,才有更多的空闲时间来玩这个系统)来观察 DALL-E 2 可能发出的一些“关系故障”。

例如,对于一个 侏罗纪公园 粉丝们,在《DALL-E 2》中让恐龙追一个人是非常困难的,尽管“追逐”的概念似乎并不在《DALL-E 2》中 审查制度,并且即使 悠久的历史 恐龙电影应该为这次不可能的物种相遇提供丰富的训练示例(至少以预告片和宣传镜头的形式)。

DALL-E 2 对提示“霸王龙在路上追人的彩色照片”的典型响应。 来源:DALL-E 2

DALL-E 2 对提示“霸王龙在路上追人的彩色照片”的典型响应。 来源:DALL-E 2

我发现上面的图像是典型的变化 “[恐龙]追[人]” 提示设计中的任何细节都无法让霸王龙真正遵守。 在第一张和第二张照片中,该男子(或多或少)正在追逐霸王龙; 第三种,不顾安全地随意接近它; 在最后的图像中,显然是与这头巨兽平行慢跑。 在尝试这个主题大约 10 到 15 次后,我发现恐龙同样“注意力不集中”。

DALL-E 2 可以访问的唯一训练数据可能是以下行: “人类与恐龙战斗”,来自老电影的宣传镜头,例如 一百万年前 (1966),杰夫·高布伦的 著名的飞行 来自掠夺者之王的数据只是那一小部分数据中的异常值。

 

* 我将作者的内联引用转换为超链接。

首次发布于 4 年 2022 月 XNUMX 日。