人工智能
如何知道图像合成系统何时生成真正的“原始”材料

韩国的一项新研究提出了一种方法来确定图像合成系统是否生成真正新颖的图像,还是训练数据的“微小”变体,这可能会破坏此类架构的目标(例如生成新颖和原始的图像)。
该论文表明,后者通常是正确的,因为此类系统在训练过程中用于提高其生成能力的现有指标被迫偏向于与数据集中相对接近(非虚假)源图像的图像。
毕竟,如果生成的图像“在视觉上接近”源数据,那么它在“真实性”方面的得分必然会高于“原创性”,因为它是“忠实的”——即使没有灵感。
在一个尚不成熟且未经尝试的行业,其法律后果尚不清楚,这可能 成为一个重要的法律问题,如果发现商业化的合成图像内容与当前(通常)受版权保护的源材料没有足够的区别 允许灌注 研究部门以流行的网络抓取数据集的形式(未来此类侵权索赔的可能性已经 最近才崭露头角 关于微软的 GitHub Co-Pilot AI)。
就 OpenAI 等系统的输出越来越一致、语义越来越稳健而言 达尔-E 2,谷歌 图像, 而中国 齿轮视图 版本(以及较低规格的 DALL-E 迷你),数量很少 事后 可靠地测试生成图像的原创性的方法。
事实上,搜索一些最受欢迎的新 DALL-E 2 图像通常只会导致这些相同图像的更多实例,具体取决于搜索引擎。

上传完整的 9 个图像 DALL-E 2 输出组只会导致更多的 DALL-E 2 输出组,因为网格结构是最强的特征。 分离并上传第一张图像(来自 这个推特帖子 (8 年 2022 月 XNUMX 日,来自“Weird Dall-E Generations”账号)导致谷歌将注意力集中在图片中的篮球上,使基于图像的搜索陷入了语义死胡同。对于同样的基于图像的搜索,Yandex 似乎至少进行了一些实际的基于像素的解构和特征匹配。
尽管 Yandex 比 Google 搜索更有可能使用实际的 功能 (即图像的导出/计算 功能,不一定是人的面部特征)和 视觉 提交图像的(而不是语义)特征来查找相似图像,所有基于图像的搜索引擎要么具有 某种议程或实践 这可能会使识别实例变得困难 来源>生成 通过网络搜索进行抄袭。
此外,生成模型的训练数据可能无法全部公开,这进一步阻碍了对生成图像的原创性的取证检查。
有趣的是,对谷歌在其网站上展示的一张合成图像进行基于图像的网络搜索 专用 Imagen 网站 就实际查看图片和客观寻找相似图片而言,根本找不到任何与图片主题相符的图片。相反,由于语义上的固着,这张 Imagen 图片的 Google 图片搜索结果不允许进行纯粹基于图片的网络搜索,除非添加搜索词“imagen google”作为附加(且限制性)参数:
相反,Yandex 从业余艺术社区找到了大量相似(或至少在视觉上相关)的现实世界图像:
一般来说,如果能够以某种方式测量图像合成系统输出的新颖性或原创性,而不需要在模型训练时从互联网上每个可能的面向网络的图像中提取特征,那就更好了,或者在可能使用受版权保护的材料的非公共数据集中。
与此问题相关,韩国科学技术院 (KAIST AI) Kim Jaechul 人工智能研究生院的研究人员与全球 ICT 和搜索公司 NAVER Corp 合作开发了一款 稀有度分数 这可以帮助识别图像合成系统的更多原创作品。

此处的图像由 StyleGAN-FFHQ 生成。从左到右,各列分别代表结果从最差到最佳。我们可以看到,“截断技巧”指标(见下文)和“真实感”指标各有侧重,而新的“稀有度”得分(顶行)则寻求具有凝聚力但又不失原创性的图像(而非仅仅追求具有凝聚力的图像)。由于本文存在图像尺寸限制,请参阅原论文以获取更详细的细节和分辨率。 资料来源:https://arxiv.org/pdf/2206.08549.pdf
新的 纸 标题为 稀有度分数:评估合成图像不常见性的新指标,来自 KAIST 的三名研究人员和 NAVER 公司的三名研究人员。
超越“廉价伎俩”
新论文试图改进的先前指标包括“截断技巧” 2019 年建议 由英国赫瑞瓦特大学和谷歌 DeepMind 合作开发。
截断技巧本质上使用与训练生成模型不同的潜在分布进行采样。
开发该方法的研究人员对其有效性感到惊讶,但在原始论文中承认,该方法降低了生成输出的多样性。尽管如此,截断技巧仍然有效且流行,因为它可以被重新描述为一种“廉价技巧”,用于获取看似真实的结果,但这些结果实际上并没有吸收数据中固有的所有可能性,并且可能比预期更接近源数据。
关于截断技巧,新论文的作者观察到:
“它的目的并非在训练数据集中生成稀有样本,而是更稳定地合成典型图像。我们假设,如果生成器能够被诱导有效地生成稀有样本,那么现有的生成模型将能够生成在真实数据分布中更丰富的样本。”
一般趋势是依赖传统指标,例如 Frechet Inception Distance (FID, 受到强烈批评 2021 年 XNUMX 月),初始分数(IS)和核初始距离(KID)作为生成模型训练过程中的“进度指标”,作者进一步评论*:
这种学习方案导致生成器不会合成太多稀有样本,这些样本是独特的,具有很强的特征,但不占真实图像分布的很大比例。 公共数据集中的稀有样本的例子包括穿着各种配饰的人 FF总部, 空军总部的白色动物汽车保险理赔及 Metfaces 中不常见的雕像.
“生成稀有样本的能力很重要,不仅因为它与生成模型的边缘能力有关,而且因为独特性在虚拟人等创意应用中起着重要作用。
然而,近期几项研究的定性结果很少包含这些罕见的例子。我们推测,对抗性学习方案的本质迫使生成的图像分布与训练数据集的分布相似。因此,在模型合成的图像中,具有明显个性或稀缺性的图像仅占一小部分。
技术
研究人员的新稀有度评分采用了 早期 运作方式 - 指某东西的用途 K最近邻居 (KNN)来表示图像合成系统中的真实(训练)和合成(输出)数据的数组。
关于这种新颖的分析方法,作者断言:
“我们假设普通样本彼此之间距离更近,而独特和稀有样本在特征空间中的位置会比较稀疏。”
上面的结果图显示了在受过训练的 StyleGAN 架构中,最小最近邻距离 (NND) 到最大最近邻距离 (NND) FF总部.
对于所有数据集,NND 最小的样本呈现出具有代表性和典型性的图像。相反,NND 最大的样本具有很强的个性,与 NND 最小的典型图像有显著差异。
理论上,通过使用这种新的度量作为鉴别器,或者至少将其包含在更复杂的鉴别器架构中,生成系统可以从纯粹的模仿转向更具创造性的算法,同时保留可能至关重要的概念的基本凝聚力用于真实的图像制作(即 '男人', '女士', '汽车', '教会'等)。
比较与实验
在测试中,研究人员将 Rarity Score 的性能与 Truncation Trick 和 NVIDIA 的 2019 真实感分数,并发现在各种框架和数据集中,该方法能够个性化“独特”的结果。
尽管论文中的结果过于广泛,无法在此包含,但研究人员似乎已经证明了新方法在生成过程中识别源(真实)和生成(假)图像中稀有性的能力:

从论文中复制的大量视觉结果中选择示例(有关更多详细信息,请参阅上面的源 URL)。 左边是来自 FFHQ 的真实示例,它们在原始数据集中几乎没有近邻(即新颖且不寻常); 右边是由 StyleGAN 生成的假图像,新指标已将其识别为真正新颖的图像。 由于本文有图像大小限制,请参阅源论文以获得更好的细节和分辨率。
新的 Rarity Score 指标不仅可以识别单一架构中的“新颖”生成输出,而且研究人员声称,还可以比较各种不同架构的生成模型(即自动编码器、VAE、GAN 等)。
论文指出,稀有度分数与之前的指标不同,它专注于生成框架创建独特和稀有图像的能力,而“传统”指标则在模型训练期间(更短视地)检查代际多样性。
超越有限的任务
尽管新论文的研究人员已经在有限域框架上进行了测试(例如专门用于生成人物或猫的图片的生成器/数据集组合),但稀有性分数可以应用于任何图像合成过程,在该过程中需要识别使用从训练数据中得出的分布的生成示例,而不是通过插入外部潜在分布来增加真实性(并减少多样性),或依赖其他为了真实性而牺牲新颖性的“捷径”。
实际上,这种度量可以通过使用明显的“异常”结果、训练数据和类似提示或输入(即基于图像的提示)的结果之间的已识别距离来区分 DALL-E 系列等系统中真正新颖的输出实例。
在实践中,由于无法清楚地了解系统真正吸收视觉和语义概念的程度(通常受制于对训练数据的有限了解),这可能是一种可行的方法来识别生成系统中真正的“灵感时刻”——即足够数量的输入概念和数据产生了真正具有创造性的东西,而不是过度衍生或接近源数据的东西。
* 我将作者的内嵌引用转换为超链接。
首次发布于 20 年 2022 月 XNUMX 日。