人工智能

图像合成领域采用了有缺陷的指标，研究人员称

Published December 20, 2021

Updated April 28, 2026

Martin Anderson

2021年是图像合成领域进步最快的一年，创新和技术进步如潮涌，能够通过神经渲染、deepfakes和一系列新方法复制人类个性的技术也在不断涌现。

然而，德国的研究人员现在声称，用于自动判断合成图像真实性的标准是有缺陷的；而世界各地的数百甚至数千名研究人员依赖于它来降低昂贵的人工评估结果的成本，可能正在走向一个盲 alley。

为了证明标准弗雷歇特感知距离(FID)不符合人类的图像评估标准，研究人员部署了自己的GANs，优化为FID（现在是一个常见的指标）。他们发现FID遵循自己的偏见，基于具有不同目的的底层代码，并且它经常无法达到“人类”的辨别标准：

FID评分（越低越好）用于各种模型的生成图像，使用标准数据集和架构。研究人员提出问题“您是否同意这些排名？” 来源：https://openreview.net/pdf?id=mLG96UpmbYz

除了声明FID不适合其预期任务外，该论文还建议“显而易见”的解决方案，例如用其他引擎替换其内部引擎，只会用一种偏见替换另一种偏见。作者建议，现在由新的研究计划来开发更好的指标来评估合成图像的“真实性”。

该论文的标题为《弗雷歇特感知距离中的内部偏见》，由马克斯·普朗克信息学研究所的Steffen Jung和西根大学的Margret Keuper教授撰写。

图像合成评分系统的搜索

如新研究所述，图像合成框架（如GAN和编码器/解码器架构）的进步已经超过了评估这些系统结果的方法。除了昂贵且难以扩展外，人类对这些系统输出的评估也没有提供一种经验证和可复制的评估方法。

因此，出现了多种指标框架，包括发明分数(IS)，它在2016年的论文改进GAN训练技术中被提及，论文的共同作者是GAN发明者伊恩·古德费洛。

2018年，对IS评分作为多个GAN网络的广泛适用指标的驳斥导致FID在GAN图像合成社区中被广泛采用。然而，像发明分数一样，FID也是基于谷歌的Inception v3图像分类网络(IV3)。

新论文的作者认为，弗雷歇特感知距离在IV3中传播有害的偏见，导致图像质量的不可靠分类。

由于FID可以作为判别器（嵌入的“法官”决定GAN是否做得好，或者应该“再试一次”）被纳入机器学习框架中，因此它需要准确代表人类在评估图像时应用的标准。

弗雷歇特感知距离

FID比较用于创建GAN（或类似功能）模型的训练数据集的特征分布和该系统的结果。

因此，如果GAN框架在10,000张名人图像上进行训练，FID会比较原始（真实）图像和GAN生成的假图像。FID评分越低，GAN就越接近“照片级”图像，根据FID的标准。

从论文中，GAN在FFHQ64上训练的结果，FFHQ64是NVIDIA流行的FFHQ数据集的一个子集。这里，尽管FID评分非常低（5.38），但结果并不能让普通人感到愉悦或令人信服。

问题在于，Inception v3的假设驱动了弗雷歇特感知距离，它并没有关注正确的方面——至少在当前任务中不是这样。

Inception V3是在ImageNet对象识别挑战中训练的，这是一项与近年来图像合成的目标相矛盾的任务。IV3通过执行数据增强来挑战模型的鲁棒性：它随机翻转图像，随机裁剪到8-100%的比例，改变宽高比（在3/4到4/3的范围内），并随机注入与亮度、饱和度和对比度相关的颜色失真。

德国研究人员发现，IV3倾向于提取边缘和纹理，而不是颜色和强度信息，这对于合成图像的真实性更有意义；并且其原始目的（对象检测）已经被不当地用于不适合的任务。作者指出*：

‘[Inception v3]倾向于提取基于边缘和纹理的特征，而不是颜色和强度信息。这与其数据增强管道一致，数据增强管道引入颜色失真，但保持高频信息完整（与例如使用高斯模糊的数据增强相反）。

‘因此，FID继承了这种偏见。 当用作排名指标时，能够很好复制纹理的生成模型可能会被优先于能够很好复制颜色分布的模型。’

数据和方法

为了测试他们的假设，作者在NVIDIA的FFHQ人脸数据集上训练了两个GAN架构，DCGAN和SNGAN，并将图像分辨率下采样到64²，得到的数据集称为FFHQ64。

作者进行了三种GAN训练过程：GAN G+D，一个标准的判别器基于网络；GAN FID|G+D，其中FID作为额外的判别器；以及GAN FID|G，其中GAN完全由滚动FID评分驱动。

从技术上讲，作者指出，FID损失应该稳定训练，并可能甚至能够 完全替代 判别器（如 #3 中的 GAN FID|G 所示），同时输出人类喜欢的结果。

在实践中，结果却大不相同，作者假设 FID 辅助模型在错误的指标上过拟合。研究人员指出：

‘我们假设生成器学会产生不合适的特征来匹配训练数据分布。这一观察结果在 [SNGAN FID|G] 中变得更加严重。这里，我们注意到缺乏判别器导致空间上不连贯的特征分布。例如 [SNGAN FID|G] 大多添加单个眼睛，并以一种令人恐惧的方式对齐面部特征。’

SNGAN FID|G 生成的面部示例。

作者得出结论*：

‘虽然人类注释者肯定会更喜欢由 SNGAN D+G 生成的图像而不是 SNGAN FID|G（在数据保真度优先于艺术的情况下），但我们看到这并没有被 FID 反映出来。 因此，FID 与人类感知不一致。 ‘

‘我们认为，图像分类网络提供的判别特征不足以成为有意义的指标的基础。’

没有简单的替代方案

作者还发现，将Inception V3替换为类似的引擎并不能解决问题。在用“广泛选择的不同分类网络”替换IV3时，这些网络被测试与ImageNet-C（一个子集，用于基准图像合成框架中常见的输出腐败和扰动），研究人员无法显著改善他们的结果：

‘[偏见]存在于Inception v3中，也广泛存在于其他分类网络中。另外，我们看到不同的网络会在腐败类型之间产生不同的排名。’

作者以希望正在进行的研究能够开发出“符合人类且无偏见的指标”来结束论文，这将能够为图像生成器架构提供一个更公平的排名。

* 作者强调。

最初发布于 2021 年 12 月 20 日，格林尼治标准时间下午 1 点。

Martin Anderson

机器学习作家，人类图像合成领域专家。曾任 Metaphysic.ai 研究内容负责人。
个人网站： martinanderson.ai
联系： [email protected]
Twitter：@manders_ai

Unite.AI

图像合成领域采用了有缺陷的指标，研究人员称

图像合成评分系统的搜索

弗雷歇特感知距离

数据和方法

没有简单的替代方案

You may like