存根 研究声称图像合成行业采用了有缺陷的指标 - Unite.AI
关注我们.

人工智能

研究声称图像合成领域采用了有缺陷的指标

mm
更新 on

2021 年是图像合成领域取得前所未有的进步和快速出版的一年,提供了一系列新的创新和技术改进,这些技术能够通过 神经渲染、深度赝品以及大量 新方法.

然而,德国研究人员现在声称,用于自动判断合成图像真实度的标准存在致命缺陷; 世界各地数百甚至数千名研究人员依靠它来降低昂贵的基于人类的结果评估的成本可能会走入死胡同。

为了演示该标准如何, 弗雷谢起始距离 (FID)由于不符合人类评估图像的标准,研究人员部署了自己的 GAN,并针对 FID(现在是一种常见指标)进行了优化。 他们发现 FID 正在遵循自己的痴迷,基于与图像合成的职权范围截然不同的底层代码,并且它通常无法达到“人类”的辨别标准:

使用标准数据集和架构的各种模型生成的图像的 FID 分数(越低越好)。 这篇新论文的研究人员提出了一个问题“你同意这些排名吗?”。 资料来源:https://openreview.net/pdf?id=mLG96UpmbYz

使用标准数据集和架构的各种模型生成的图像的 FID 分数(越低越好)。 这篇新论文的研究人员提出了一个问题“你同意这些排名吗?”。 资料来源:https://openreview.net/pdf?id=mLG96UpmbYz

除了断言 FID 不适合其预期任务之外,该论文还进一步建议,“明显”的补救措施,例如将其内部引擎更换为竞争引擎,将简单地将一组偏差替换为另一组偏差。 作者建议,现在需要采取新的研究举措来开发更好的指标来评估合成照片的“真实性”。

标题为 Fréchet 起始距离的内在偏差,来自萨尔马克斯普朗克信息学研究所的 Steffen Jung 和锡根大学视觉计算教授 Margret Keuper。

寻找图像合成评分系统

正如新研究指出的那样,图像合成框架(例如 GAN 和编码器/解码器架构)的进展已经超过了判断此类系统结果的方法。 除了昂贵且难以扩展之外,人类对这些系统输出的评估并没有提供经验性和可重复的评估方法。

因此出现了许多度量框架,包括 初始分数 (IS),2016 年精选 改进的 GAN 训练技术,GAN 合着 发明者,伊恩·古德费洛。

IS 分数作为多个 GAN 网络广泛适用的指标的信誉受到质疑 在2018 导致了 FID 在 GAN 图像合成社区中的广泛采用。 然而,与 Inception Score 一样,FID 也是基于 Google 的 Inception v3 图像分类网络 (四)。

新论文的作者认为,Fréchet Inception Distance 在 IV3 中传播了破坏性偏差,导致图像质量分类不可靠。

由于 FID 可以作为判别器(一个嵌入式“法官”,决定 GAN 是否表现良好,或者是否应该“重试”)纳入机器学习框架中,因此它需要准确地表示人类在评估时应用的标准图像。

弗雷谢起始距离

FID 比较了用于创建 GAN(或类似功能)模型的训练数据集中特征的分布方式以及该系统的结果。

因此,如果 GAN 框架使用 10,000 张(例如)名人的图像进行训练,FID 会将原始(真实)图像与 GAN 生成的假图像进行比较。 根据 FID 的标准,FID 分数越低,GAN 就越接近“真实感”图像。

论文中展示了在 FFHQ64 上训练的 GAN 的结果,FFHQ5.38 是 NVIDIA 非常流行的 FFHQ 数据集的一个子集。 在这里,尽管 FID 分数极低(XNUMX),但结果对于普通人来说并不令人满意或令人信服。

从论文中可以看出,在 FFHQ64 上训练的 GAN 的结果,FFHQXNUMX 是 NVIDIA 非常受欢迎的子集 FFHQ 数据集。 在这里,尽管 FID 分数极低(5.38),但结果对于普通人来说并不令人满意或令人信服。

作者认为,问题在于 Inception v3 的假设能力为 Fréchet Inception Distance,但它并没有找对地方——至少在考虑手头的任务时是这样。

Inception V3 的训练基于 ImageNet 物体识别挑战,这项任务可以说与近年来图像合成目标的发展方式不一致。 IV3 通过执行数据增强来挑战模型的鲁棒性:它随机翻转图像,将其裁剪为 8-100% 之间的随机比例,更改纵横比(在 3/4 到 4/3 的范围内),并随机注入与亮度、饱和度和对比度相关的颜色失真。

德国的研究人员发现,IV3 倾向于提取边缘和纹理,而不是颜色和强度信息,这些信息对于合成图像的真实性来说是更有意义的指标; 因此,其最初的目标检测目的被不适当地隔离用于不合适的任务。 作者指出*:

'[Inception v3] 偏向于基于边缘和纹理而不是颜色和强度信息来提取特征。 这与其引入颜色失真的增强管道相一致,但保持高频信息完整(与例如高斯模糊增强相反)。

“因此,FID 继承了这种偏见。 当用作排名指标时,能够很好地再现纹理的生成模型可能比能够很好地再现颜色分布的模型更受青睐.'

数据与方法

为了检验他们的假设,作者训练了两种 GAN 架构, DCGANSNAN,在 NVIDIA 的 FFHQ 人脸数据集,下采样至 642 图像分辨率,派生数据集称为 FFHQ64。

遵循了三种 GAN 训练程序: GAN G+D,标准 基于判别器 网络; GAN FID|G+D,其中FID充当附加鉴别器; 和 GAN FID|G。 其中 GAN 完全由滚动 FID 分数驱动。

作者指出,从技术上讲,FID 损失应该可以稳定训练,甚至可能能够 完全替代 判别器(如#3,GAN FID|G 中所做的那样),同时输出令人愉悦的结果。

在实践中,结果相当不同,作者假设,FID 辅助模型“过度拟合”了错误的指标。 研究人员指出:

“我们假设生成器学习生成不合适的特征来匹配训练数据分布。 这种观察结果在 [GAN FID|G] 的情况下变得更加严重。 在这里,我们注意到缺少鉴别器会导致空间上不相干的特征分布。 例如,[SNGAN FID|G] 主要添加单眼,并以令人畏惧的方式调整面部特征。

SNGAN FID|G 制作的面孔示例。

SNGAN FID|G 制作的面孔示例。

作者得出结论*:

“虽然人类注释者肯定更喜欢 SNGAN D+G 生成的图像而不是 SNGAN FID|G(在数据保真度优先于艺术的情况下),但我们发现 FID 并未反映出这一点。 因此,FID 与人类感知不一致.

“我们认为图像分类网络提供的判别性特征不足以提供有意义的指标的基础。”

没有简单的选择

作者还发现,将 Inception V3 替换为类似的引擎并不能缓解该问题。 用“不同分类网络的广泛选择”代替 IV3,并对其进行了测试 ImageNet-C (ImageNet 的一个子集,旨在对图像合成框架的输出图像中常见的损坏和扰动进行基准测试),研究人员无法显着改善他们的结果:

[偏见] 存在于 Inception v3 中的也广泛存在于其他分类网络中。 此外,我们发现不同的网络会在腐败类型之间产生不同的排名。

作者在论文的结尾希望正在进行的研究能够开发出一种“人性化且公正的指标”,能够为图像生成器架构提供更公平的排名。

 

* 作者的强调。


首次发布于 2 年 2021 月 1 日下午 2 点(GMT+XNUMX)。