Anderson 视角

评估 ImageNet 的历史准确性

mm

谷歌研究院和加州大学伯克利分校的一项新研究为计算机视觉(CV)研究领域对久经考验的 ImageNet 数据集及其众多衍生品的依赖添加了长期以来存在的批评。经过大量人工评估后,作者得出结论,当前最佳模型在 ImageNet 多标签子集评估中犯下的几乎 50% 的错误并不是真正的错误。

从论文中可以看出:

‘我们的分析显示,几乎一半的错误并不是真正的错误,我们发现了新的有效多标签,表明如果没有仔细审查,我们会低估这些模型的性能。 ‘

‘另一方面,我们也发现当前最佳模型仍然犯了大量明显错误(40%),这些错误对于人工审查员来说是显而易见的。 ‘

该研究通过对 ImageNet 历史错误记录的仔细评估,发现了大量错误判断,这些错误判断可能会修正多年来许多项目在 ImageNet 基准测试中获得的不良评分。

研究人员使用一小组专职评估人员,仔细审查 ImageNet 数据集评估中的历史错误记录,发现许多错误判断本身就是错误的,这一发现可能会修正多年来许多项目在 ImageNet 基准测试中获得的不良评分。

随着 ImageNet 在计算机视觉文化中根深蒂固,研究人员认为,准确性的改进会带来递减的回报,而且新的模型如果超越既定的标签准确性,并且建议新的标签,可能会因为不遵守既定标准而受到惩罚。

‘例如,’作者观察到,‘我们是否应该惩罚模型因为它是第一个预测一个预烤百吉饼可能是一个百吉饼?’

从论文中可以看出,一种新的模型挑战了之前的预测,认为图中的物体实际上是一个百吉饼。

从论文中可以看出,一种新的模型挑战了之前的预测,认为图中的物体实际上是一个百吉饼。

从一个被要求识别此类物体的众包工人的角度来看,这是一个语义和哲学难题,只能通过多标签来解决;在上述情况下,物体既是面团,又是百吉饼的初期形态。

研究中出现的主要和次要错误。原始 ImageNet 标签位于左侧。

研究中出现的主要和次要错误。原始 ImageNet 标签位于左侧。

两个明显的解决方案是:分配更多资源用于标注(这是一个挑战,考虑到大多数计算机视觉研究项目的预算限制);以及,正如作者强调的,定期更新数据集和标签评估子集(这会带来其他障碍,例如破坏基准测试的历史连续性,并在新研究论文中引入资格和免责声明)。

为了解决这个问题,研究人员开发了一个新的 ImageNet 子集,称为 ImageNet-Major(ImageNet-M),他们将其描述为 ‘一个 68 个样本的“主要错误”切片,展示了当前最佳模型犯下的明显错误——一个切片,其中模型应该达到几乎完美的表现,但现在还远未达到。’

该论文题为 面团何时成为百吉饼?分析 ImageNet 上剩余的错误,由四位谷歌研究院作者和加州大学伯克利分校的 Sara Fridovich-Keil 合著。

技术债务

这些发现很重要,因为在 ImageNet 存在 16 年以来,研究的核心发现可以代表一个可部署的模型和一个错误率足够高的模型之间的差异。如往常一样,最后一英里是至关重要的

计算机视觉和图像合成研究领域已经有效地“自动选择”ImageNet 作为基准指标,主要是因为早期采用者在高容量和良好标注的数据集较为罕见的时期,产生了大量的研究计划,使得测试 ImageNet 很快成为广泛适用的历史“标准”基准。

方法

为了寻找 ImageNet 中的“剩余错误”,研究人员使用了一种标准的 ViT 模型(能够达到 89.5% 的准确率),具有 3 亿个参数,Vit-3B,预训练于 JFT-3B 上,并在 ImageNet-1K 上进行了微调。

使用 ImageNet2012_multilabel 数据集,研究人员记录了 ViT-3B 的初始多标签准确率(MLA)为 96.3%,在此过程中,模型犯了 676 个明显错误。这些错误(以及 Greedy Soups 模型产生的错误)就是作者试图调查的内容。

为了评估剩余的 676 个错误,作者避免使用众包工人,观察到这种类型的错误对于平均的注释员来说可能很难发现,但组建了一个由五位专家审查员组成的专家小组,并创建了一个专用工具,以便每位审查员可以一眼看到预测类别;预测分数;真实标签;以及图像本身。

项目中使用的 UI。

项目中使用的 UI。

在某些情况下,需要进一步研究来解决专家小组之间的争议,谷歌图像搜索被用作辅助工具。

‘[在] 一个有趣但并非孤立的案例中,预测结果显示出租车(除了黄色以外没有明显的出租车指标);我们通过识别背景中的一个地标桥来确定预测结果确实是出租车,并通过随后在该城市的图像搜索中找到相同的出租车模型和车牌设计来验证模型的预测结果。’

在对错误进行初步审查后,作者提出了四种新型错误类型:细粒度错误,预测类别与真实标签类似;细粒度带有OOV,模型识别出一个不在 ImageNet 中的正确类别;虚假关联,预测标签脱离图像的上下文;和 非原型,真实标签是类别的特殊例子,类似于预测标签。

在某些情况下,真实标签本身并不“真实”:

‘在审查原始 676 个错误后,我们发现 298 个错误要么是正确的,要么不清楚,要么原始真实标签是错误的或有问题。’

经过对多个数据集、子集和验证集进行了大量复杂的实验后,作者发现两个被研究的模型在传统技术下犯下的“错误”中,实际上有一半是正确的。

论文得出结论:

‘在本文中,我们分析了 ViT-3B 和 Greedy Soups 模型在 ImageNet 多标签验证集上犯下的每一个剩余错误。 ‘

‘总体而言,我们发现:1)当一个大型、高准确率模型做出其他模型没有做出的新预测时,它几乎有一半的时间会成为一个正确的新多标签;2)更高准确率的模型在我们的错误类别和严重程度中没有表现出明显的模式;3)当前的 SOTA 模型在人工评估的多标签子集上基本上匹配或超越了最佳专家人工的性能;4)噪声训练数据和欠指定类别可能是限制图像分类改进的有效测量因素。’

 

首次发表于 2022 年 5 月 15 日。

机器学习作家,人类图像合成领域专家。曾任 Metaphysic.ai 研究内容负责人。
个人网站: martinanderson.ai
联系: [email protected]
Twitter:@manders_ai