人工智能

评估 ImageNet 的历史准确性

Published May 15, 2022

Updated April 28, 2026

Martin Anderson

谷歌研究院和加州大学伯克利分校的一项新研究为计算机视觉（CV）研究领域对 ImageNet 数据集及其众多衍生品的依赖添加了长期以来的批评。经过大量人工评估后，作者得出结论，在 ImageNet 的多标签子集评估中（当前最优模型在此达到 97% 的 top-1 准确率），几乎 50% 的所谓错误并不是真正的错误。

从论文中：

‘我们的分析表明，几乎一半的所谓错误并不是错误，我们发现了新的有效多标签，表明，如果没有仔细审查，我们会低估这些模型的性能。’

‘另一方面，我们也发现，今天的最佳模型仍然犯了大量明显错误（40%），这些错误对于人类审查者来说是显而易见的。’

该研究通过对 ImageNet 历史上的大量图像/文本对进行评估，揭示了数据集的标注错误，特别是由非专业的众包工人造成的标注错误，可能在多大程度上扭曲了该领域。

在顶行中，Mistake Severity 的示例：在这里的前两个示例中，新模型简单地预测了错误的标签；在第三个示例中，新模型识别出一个之前缺失的多标签（一个解决图像新颖分类的标签）；在顶行中的最后一个图像中，模型的预测是模糊的，因为图片是一只蜂蝇，而不是苍蝇。然而，平均而言，蜜蜂属于双翅目昆虫，因此这种例外几乎无法被发现，即使对于专业的标注员也是如此。在下面的行中，有四个错误类别，带有示例。来源：https://arxiv.org/pdf/2205.04596.pdf

研究人员雇佣了一小组专职评估人员，仔细审查 ImageNet 数据集评估中的历史错误记录，发现许多错误判断本身就是错误的——这一发现可能会修订过去许多项目在 ImageNet 基准测试中获得的不良评分。

随着 ImageNet 在 CV 文化中根深蒂固，研究人员认为，准确性的改进会带来递减的回报，而且新模型可能会因为超越既定的标签准确性，并建议新的（即额外的）标签而受到惩罚，基本上是因为它们的非传统性。

‘例如，’作者观察到。 ‘我们是否应该惩罚模型因为它是第一个预测一个预烤百吉饼可能是一个百吉饼，如我们在这项工作中审查的模型之一所做的？’

从论文中，一个新模型挑战了之前的预测，即图片中的物体是面团，而不是百吉饼。

从一名被要求识别此类物体的众包工人的角度来看，这是一个语义和哲学难题，只能通过多标签（如 ImageNet 后续子集和迭代中经常发生的那样）来解决；在上述情况下，物体既是面团，又至少是一个初生的百吉饼。

在研究中测试自定义模型时出现的主要（上）和次要（下）错误。原始 ImageNet 标签是最左边的图像。

两个明显的解决方案是：为标注分配更多资源（这在大多数计算机视觉研究项目的预算限制下是一个挑战）；以及，如作者强调的那样，定期更新数据集和标签评估子集（这在其他障碍中，风险是破坏基准的历史连续性，并使新的研究论文充满关于等效性的限定和免责声明）。

作为解决这一问题的一步，研究人员开发了一个名为 ImageNet-Major（ImageNet-M）的新子数据集，他们将其描述为 ‘今天的顶级模型犯下的明显错误的 68 个示例——一个模型应该达到近乎完美的切片，但今天仍然远未达到。’

该论文题为 面团何时成为百吉饼？分析 ImageNet 上剩余的错误，由四位谷歌研究院作者和加州大学伯克利分校的 Sara Fridovich-Keil 共同撰写。

技术债务

这些发现很重要，因为在 ImageNet 出现的 16 年里，研究的中心内容是，剩余的错误（或误判）可能代表了可部署模型和错误率足以无法在实时数据上使用的模型之间的区别。如往常一样，最后一英里是至关重要的。

计算机视觉和图像合成研究领域实际上已经将 ImageNet 作为一个基准指标进行了“自我选择”，原因有很多——不仅是因为早期采用者在高容量和良好标注的数据集稀少的时代，产生了如此多的研究计划，以至于测试 ImageNet 很快就成为新的框架的唯一广泛适用的历史“标准”。

方法

为了寻找 ImageNet 中的“剩余错误”，研究人员使用了一个标准的 ViT 模型（能够达到 89.5% 的准确率），具有 30 亿参数，Vit-3B，在 JFT-3B 上预训练，并在 ImageNet-1K 上微调。

使用 ImageNet2012_multilabel 数据集，研究人员记录了 ViT-3B 的初始多标签准确率（MLA）为 96.3%，在此期间，模型犯了 676 个明显错误。这些错误（以及 Greedy Soups 模型产生的错误）就是作者试图调查的内容。

为了评估剩余的 676 个错误，作者避免使用众包工人，观察到这种类型的错误对于平均的标注员来说可能很难发现，而是组建了一个由五位专家审查员组成的专家组，并创建了一个专用工具，以便每位审查员可以一眼看到预测的类别；预测的得分；真实标签；以及图像本身。

项目的 UI。

在某些情况下，需要进行进一步的研究来解决专家组之间的争议，谷歌图像搜索被用作辅助工具。

‘在一个有趣但并非孤立的案例中，一个出租车的预测（除了黄色外，没有明显的出租车指标）出现在图像中；我们通过识别背景中的一个地标桥来确定城市的位置，并通过随后对该城市的出租车进行图像搜索，发现了相同的出租车模型和车牌设计，验证了模型实际上正确的预测。’

在对错误进行初步审查后，作者制定了四种新型错误类型：细粒度错误，其中预测的类别与真实标签类似；细粒度带有词汇表外（OOV），其中模型识别出一个其类别在 ImageNet 中不存在的对象；伪相关性，其中预测的标签被脱离图像的上下文；以及 非原型，其中真实标签的对象是该类别的一个可疑例子，类似于预测的标签。

在某些情况下，真实标签本身并不是“真实的”：

‘在审查原始 676 个错误（在 ImageNet 中发现）后，我们发现 298 个错误要么是正确的，要么不清楚，或者确定原始真实标签是错误的或有问题的。’

经过对各种数据集、子集和验证集进行大量复杂的实验后，作者发现两个被研究的模型在传统技术下被认为是错误的“错误”中，实际上有一半是正确的。

该论文得出结论：

‘在本文中，我们分析了 ViT-3B 和 Greedy Soups 模型在 ImageNet 多标签验证集上犯下的每一个剩余错误。 ‘

‘总的来说，我们发现：1）当一个大型、高准确率的模型做出其他模型没有做出的新预测时，它会成为一个正确的新多标签几乎有一半的时间；2）更高准确率的模型在我们分类和严重程度的错误中没有表现出明显的模式；3）今天的最优模型在人工评估的多标签子集上基本上与或超过了最好的专家人类的性能；4）噪声训练数据和未指定的类别可能是限制有效测量图像分类改进的因素。’

首次发布于 2022 年 5 月 15 日。