关注我们.

人工智能

如何知道图像合成系统何时生成真正的“原始”材料

mm
更新 on
“泰迪熊利用 1990 年代的技术在水下进行新的人工智能研究”——来源:https://www.creativeboom.com/features/meet-dall-e/
“泰迪熊利用 1990 年代的技术在水下进行新的人工智能研究”——来源:https://www.creativeboom.com/features/meet-dall-e/

韩国的一项新研究提出了一种方法来确定图像合成系统是否生成真正新颖的图像,或者训练数据的“微小”变体,这可能会破坏此类架构的目标(例如生成新颖和原始图像) 。

该论文表明,后者通常是正确的,因为此类系统在训练过程中用于提高其生成能力的现有指标被迫偏向于与数据集中相对接近(非虚假)源图像的图像。

毕竟,如果生成的图像“视觉上接近”源数据,那么它的“真实性”不可避免地可能比“原创性”得分更高,因为它是“忠实的”——如果没有灵感的话。

在一个尚不成熟且未经尝试的行业,其法律后果尚不清楚,这可能 成为一个重要的法律问题,如果发现商业化的合成图像内容与当前(通常)受版权保护的源材料没有足够的区别 允许灌注 研究部门以流行的网络抓取数据集的形式(未来此类侵权索赔的可能性已经 最近才崭露头角 关于 Microsoft 的 GitHub Co-Pilot AI)。

就 OpenAI 等系统的日益连贯且语义稳健的输出而言 达尔-E 2, 谷歌的 图像,以及中国的 齿轮视图 版本(以及较低规格的 DALL-E 迷你),数量很少 事后 可靠地测试生成图像的原创性的方法。

事实上,搜索一些最受欢迎的新 DALL-E 2 图像通常只会导致这些相同图像的更多实例,具体取决于搜索引擎。

上传完整的 9 个图像 DALL-E 2 输出组只会导致更多的 DALL-E 2 输出组。 分离并上传第一张图片(来自 8 年 2022 月 XNUMX 日的 Twitter 帖子,来自“Weird Dall-E Generations”帐户)会导致 Google 专注于图片中的篮球,从而使基于图像的搜索走入语义死胡同。 对于相同的基于图像的搜索,Yandex 似乎至少正在做一些实际的基于像素的解构和特征匹配。

上传完整的 9 个图像 DALL-E 2 输出组只会导致更多的 DALL-E 2 输出组,因为网格结构是最强的特征。 分离并上传第一张图像(来自 这个推特帖子 8 年 2022 月 XNUMX 日,来自“Weird Dall-E Generations”帐户)导致 Google 关注图片中的篮球,从而使基于图像的搜索走入语义死胡同。 对于相同的基于图像的搜索,Yandex 似乎至少正在做一些实际的基于像素的解构和特征匹配。

尽管 Yandex 比 Google 搜索更有可能使用实际的 功能 (即图像的导出/计算 功能,不一定是人的面部特征)和 视觉 提交图像的(而不是语义)特征来查找相似图像,所有基于图像的搜索引擎要么具有 某种议程或实践 这可能会使识别实例变得困难 来源>生成 通过网络搜索进行抄袭。

此外,生成模型的训练数据可能无法全部公开,这进一步阻碍了对生成图像的原创性的取证检查。

有趣的是,对谷歌在其网站上展示的一张合成图像进行基于图像的网络搜索 专用 Imagen 网站 就实际查看图像并公正地寻找相似图像而言,绝对找不到与图像主题可比的东西。 相反,在语义上一如既往地固定,此 Imagen 图片的 Google 图像搜索结果将不允许在不添加搜索词“imagen google”作为附加(和限制)参数的情况下对图像进行纯粹的基于图像的网络搜索:

相反,Yandex 从业余艺术社区找到了大量相似(或至少在视觉上相关)的现实世界图像:

一般来说,如果能够以某种方式测量图像合成系统输出的新颖性或原创性,而不需要在模型训练时从互联网上每个可能的面向网络的图像中提取特征,那就更好了,或者在可能使用受版权保护的材料的非公共数据集中。

与此问题相关,韩国科学技术院 (KAIST AI) Kim Jaechul 人工智能研究生院的研究人员与全球 ICT 和搜索公司 NAVER Corp 合作开发了一款 稀有度分数 这可以帮助识别图像合成系统的更多原创作品。

这里的图像是通过 StyleGAN-FFHQ 生成的。 从左到右,各列表示最差到最好的结果。 我们可以看到“截断技巧”指标(见下文)和现实主义指标有自己的议程,而新的“稀有性”分数(顶行)正在寻找有凝聚力但原始的图像(而不仅仅是有凝聚力的图像)。 资料来源:https://arxiv.org/pdf/2206.08549.pdf

这里的图像是通过 StyleGAN-FFHQ 生成的。 从左到右,各列表示最差到最好的结果。 我们可以看到“截断技巧”指标(见下文)和现实主义指标有自己的议程,而新的“稀有性”分数(顶行)正在寻找有凝聚力但原始的图像(而不仅仅是有凝聚力的图像)。 由于本文有图像大小限制,请参阅源论文以获得更好的细节和分辨率。 资料来源:https://arxiv.org/pdf/2206.08549.pdf

新的 标题为 稀有度分数:评估合成图像不常见性的新指标,来自 KAIST 的三名研究人员和 NAVER 公司的三名研究人员。

超越“廉价伎俩”

新论文寻求改进的先前指标包括“截断技巧” 2019 年建议 英国赫瑞瓦特大学和谷歌 DeepMind 合作。

截断技巧本质上使用与训练生成模型不同的潜在分布进行采样。

开发这种方法的研究人员对其有效感到惊讶,但在原始论文中承认它减少了生成输出的多样性。 尽管如此,截断技巧已经变得有效和流行,可以说是一种“廉价技巧”,用于获得看起来真实的结果,但它并没有真正吸收数据中固有的所有可能性,并且可能与源数据的相似程度超出了预期。

关于截断技巧,新论文的作者观察到:

“[它]并不是为了在训练数据集中生成稀有样本,而是为了更稳定地合成典型图像。 我们假设,如果可以诱导生成器有效地生成稀有样本,现有的生成模型将能够生成更丰富的真实数据分布样本。

一般趋势是依赖传统指标,例如 Frechet Inception Distance (FID, 受到强烈批评 2021 年 XNUMX 月),初始得分(IS)和内核初始距离(KID)作为生成模型训练期间的“进度指标”,作者进一步评论*:

这种学习方案导致生成器不会合成太多稀有样本,这些样本是独特的,具有很强的特征,但不占真实图像分布的很大比例。 公共数据集中的稀有样本的例子包括穿着各种配饰的人 FF总部, 空军总部的白色动物Metfaces 中不常见的雕像.

“生成稀有样本的能力很重要,不仅因为它与生成模型的边缘能力有关,而且因为独特性在虚拟人等创意应用中起着重要作用。

“然而,最近几项研究的定性结果很少包含这些罕见的例子。 我们推测,对抗性学习方案的本质迫使生成的图像分布类似于训练数据集的分布。 因此,具有明显个性或稀有的图像只占模型合成图像中的一小部分。

技术

研究人员的新稀有度分数采用了中提出的想法 早期 合作 - 指某东西的用途 K最近邻居 (KNN)来表示图像合成系统中的真实(训练)和合成(输出)数据的数组。

关于这种新颖的分析方法,作者断言:

“我们假设普通样本会彼此更接近,而独特和稀有的样本会稀疏地分布在特征空间中。”

上面的结果图显示了在受过训练的 StyleGAN 架构中,最小最近邻距离 (NND) 到最大最近邻距离 (NND) FF总部.

“对于所有数据集,具有最小 NND 的样本显示了代表性和典型图像。 相反,具有最大NND的样本具有很强的个性,并且与具有最小NND的典型图像显着不同。

理论上,通过使用这种新的度量作为鉴别器,或者至少将其包含在更复杂的鉴别器架构中,生成系统可以从纯粹的模仿转向更具创造性的算法,同时保留可能至关重要的概念的基本凝聚力用于真实的图像制作(即 '男人', '女士', '车', '教会'等)。

比较与实验

在测试中,研究人员将稀有分数与截断技巧和 NVIDIA 2019 的性能进行了比较 真实感分数,并发现在各种框架和数据集中,该方法能够个性化“独特”的结果。

尽管论文中的结果过于广泛,无法在此包含,但研究人员似乎已经证明了新方法在生成过程中识别源(真实)和生成(假)图像中稀有性的能力:

从论文中复制的大量视觉结果中选择示例(有关更多详细信息,请参阅上面的源 URL)。 左边是来自 FFHQ 的真实示例,它们在原始数据集中几乎没有近邻(即新颖且不寻常); 右边是由 StyleGAN 生成的假图像,新指标已将其识别为真正新颖的图像。

从论文中复制的大量视觉结果中选择示例(有关更多详细信息,请参阅上面的源 URL)。 左边是来自 FFHQ 的真实示例,它们在原始数据集中几乎没有近邻(即新颖且不寻常); 右边是由 StyleGAN 生成的假图像,新指标已将其识别为真正新颖的图像。 由于本文有图像大小限制,请参阅源论文以获得更好的细节和分辨率。

研究人员声称,新的稀有度评分指标不仅可以在单一架构中识别“新颖”的生成输出,而且还可以在各种不同架构的生成模型(即自动编码器、VAE、GAN 等)之间进行比较。 )。

该论文指出,稀有度分数与之前的指标不同,它专注于生成框架创建独特且稀有图像的能力,这与“传统”指标相反,后者在模型训练过程中检查(更短视地)代际之间的多样性。

超越有限的任务

尽管新论文的研究人员已经对有限域框架(例如专门为生成人或猫的图片而设计的生成器/数据集组合)进行了测试,但稀有度分数可能适用于任何任意图像合成过程,其中我们希望识别使用从训练数据派生的分布生成的示例,而不是通过插入外来潜在分布来增加真实性(并减少多样性),或依赖其他为了真实性而牺牲新颖性的“捷径”。

实际上,这样的度量可以通过使用明显的“异常值”结果、训练数据和来自类似提示或输入的结果(即图像基于提示)。

在实践中,如果对系统真正吸收视觉和语义概念的程度缺乏清晰的了解(通常由于对训练数据的了解有限而受到阻碍),这可能是识别真正“时刻”的可行方法。生成系统中的“灵感”——足够数量的输入概念和数据产生真正创造性的东西,而不是过度衍生或接近源数据的东西。

 

* 我将作者的内联引用转换为超链接。

首次发布于 20 年 2022 月 XNUMX 日。