存根 评估 ImageNet 的历史准确性 - Unite.AI
关注我们.

人工智能

评估 ImageNet 的历史准确性

mm
更新 on

谷歌研究中心和加州大学伯克利分校的一项新研究补充了 长期的批评 关于计算机视觉(CV)研究领域对德高望重的人的依赖 影像网 数据集及其许多衍生品。 经过大量劳动密集型手动评估后,作者得出的结论是,最佳模型在 ImageNet 多标签子集评估中所犯的假设错误中,有近 50%(当前表现最好的模型达到了 97% 以上的最高分数) 1 准确度)实际上并没有错误。

从论文:

“我们的分析表明,近一半的假设错误根本就不是错误,而且我们发现了新的有效多标签,这表明,如果不仔细审查,我们就大大低估了这些模型的性能。

“另一方面,我们还发现当今最好的模型仍然会犯大量错误 (40%),而这些错误对于人类评审员来说显然是错误的。”

数据集错误标记的程度,尤其是 由不熟练的众包工人 – 可能会扭曲该领域,该研究对 ImageNet 历史上很大一部分图像/文本配对的艰苦评估方法揭示了这一点。

在顶行中,错误严重性的示例:在前两个示例中,新模型只是错误地预测了标签; 在第三个示例中,新模型识别了先前丢失的多标签(解决图像新分类的标签); 在顶行的最终图像中,模型的预测不明确,因为该图片是一只蜜蜂而不是苍蝇。 然而,普通蜜蜂属于双翅目昆虫,因此即使对于专家注释者来说,这种异常也几乎不可能被发现。 下面一行是四个错误类别,并附有示例。 资料来源:https://arxiv.org/pdf/2205.04596.pdf

在顶行中,错误严重性的示例:在前两个示例中,新模型只是错误地预测了标签; 在第三个示例中,新模型识别了先前丢失的多标签(解决图像新分类的标签); 在顶行的最终图像中,模型的预测不明确,因为该图片是一只蜜蜂而不是苍蝇。 然而,普通蜜蜂属于双翅目昆虫,因此即使对于专家注释者来说,这种异常也几乎不可能被发现。 下面一行是四个错误类别,并附有示例。  资料来源:https://arxiv.org/pdf/2205.04596.pdf

研究人员聘请了少数专门的评估人员,煞费苦心地审查了 ImageNet 数据集评估中的历史错误记录,发现大量的错误判断本身就是错误的——这一发现可能会纠正许多项目在该数据集上获得的一些糟糕评分。多年来的 ImageNet 基准测试。

随着 ImageNet 在 CV 文化中的根深蒂固,研究人员认为,准确性的提高被认为会产生收益递减,而超越既定标签准确性的新模型,以及表明新(即额外)标签可能会受到惩罚,本质上,对于非-一致性。

'例如,' 作者观察到。 “我们是否应该惩罚第一个预测预烤百吉饼可能是百吉饼的模型,就像我们在这项工作中审查的模型之一所做的那样?”

从论文中来看,一个新的模型违背了之前关于照片中的物体是面团的预测,并表明该物体实际上已经是百吉饼了)。

从论文中来看,一个新的模型违背了之前关于照片中的物体是面团的预测,并表明该物体实际上已经是百吉饼了)。

从负责识别此类对象的众包工作人员的角度来看,这是一个语义甚至哲学困境,只能通过多标签来解决(这经常发生在 ImageNet 的后续子集和后续迭代中); 在上述情况下,物体确实既是面团又至少是一个新生的百吉饼。

在研究中测试自定义模型时出现的主要(上)和次要(下)错误。 原始 ImageNet 标签是左侧的第一张图像。

在研究中测试自定义模型时出现的主要(上)和次要(下)错误。 原始 ImageNet 标签是左侧的第一张图像。

两个明显的解决方案是为标签分配更多资源(在大多数计算机视觉研究项目的预算限制内,这是一个挑战); 并且,正如作者强调的,定期更新数据集和标签评估子集(除其他障碍外,这可能会破坏基准的“同类”历史连续性,并散布新的研究论文,其中包含有关等效性的资格和免责声明) 。

作为补救措施,研究人员开发了一个新的 ImageNet 子数据集,称为 ImageNet-专业 (ImageNet-M),他们将其描述为 “这是当今顶级模型所犯的明显错误中的 68 个“重大错误”示例——模型应该接近完美,但今天还远远没有做到这一点。”

标题为 面团什么时候变成百吉饼? 分析ImageNet上剩余的错误,由 Google Research 的四位作者以及加州大学伯克利分校的 Sara Fridovich-Keil 共同撰写。

技术债务

这些发现很重要,因为自 ImageNet 成立以来的 16 年里,该研究的核心研究中所识别(或错误识别)的剩余错误可以代表可部署模型与容易出错的模型之间的差异。不要泄露实时数据。 一如既往, 最后一英里至关重要.

计算机视觉和图像合成研究部门已经有效地“自动选择”ImageNet 作为基准指标,原因有很多,尤其是因为在大容量和标记良好的数据集很少见的时候,大量的早期采用者与现在相比,产生了如此之多的研究计划,以至于针对 ImageNet 的测试很快成为唯一广泛适用的新框架基准测试“标准”。

付款方式

为了找出 ImageNet 中“剩余的错误”,研究人员使用了一个标准 维生素 具有 89.5 亿个参数的模型(能够达到 3% 的准确率), 维生素3B,预训练于 JFT-3B 并进行微调 ImageNet-1K.

使用 ImageNet2012_多标签 数据集中,研究人员记录 ViT-3B 的初始多标签准确率(MLA)为 96.3%,在此期间模型出现了 676 个明显错误。 作者试图调查的正是这些错误(以及 Greedy Soups 模型产生的错误)。

为了评估剩余的 676 个错误,作者避开了众包工作人员,观察到此类错误可能会被 为了让普通注释者能够发现,而是组建了一个由五名专家评审员组成的小组,并创建了一个专用工具,让每个评审员都能一目了然地看到预测的类别; 预测分数; 地面实况标签; 和图像本身。

为该项目构建的 UI。

为该项目构建的 UI。

在某些情况下,需要进一步研究来解决专家组之间的争议,并使用谷歌图像搜索作为辅助工具。

“在一个有趣但并非孤立的案例中,图像中出现了一辆出租车的预测(除了黄色之外没有明显的出租车指示器); 我们通过识别背景中的一座地标桥来定位城市,确定预测是一辆出租车,而不仅仅是一辆标准车辆,随后对该城市出租车的图像搜索产生了相同出租车模型的图像,车牌设计,验证模型的实际预测是否正确。

在对研究的几个阶段发现的错误进行初步审查后,作者制定了四种新的错误类型: 细粒度错误,其中预测的类别与真实标签相似; 细粒度的词汇外 (OOV),其中模型识别出类别正确但不存在于 ImageNet 中的对象; 虚假相关,其中预测标签是在图像上下文之外读取的; 和 非原型的,其中真实对象是与预测标签相似的类的似是而非的示例。

在某些情况下,基本事实本身并不“真实”:

“在审查了[在 ImageNet 中发现的]原始 676 个错误后,我们发现 298 个错误要么是正确的,要么是不清楚的,或者确定了原始的事实真相不正确或有问题。”

经过对一系列数据集、子集和验证集进行详尽而复杂的实验后,作者发现,正在研究的两个模型实际上被认为(由人类评审员)正确,因为它们在传统技术下犯的“错误”有一半。

论文的结论是:

“在本文中,我们分析了 ViT-3B 和 Greedy Soups 模型在 ImageNet 多标签验证集上犯下的所有剩余错误。

“总的来说,我们发现:1)当一个大型、高精度模型做出其他模型没有做出的新颖预测时,它最终在几乎一半的情况下成为正确的新多标签; 2)更高精度的模型在我们的类别和它们解决的错误严重性中没有表现出明显的模式; 3) 如今,SOTA 模型在人类评估的多标签子集上的表现在很大程度上匹配或击败了最优秀的专家人类; 4)嘈杂的训练数据和未指定的类别可能是限制图像分类改进的有效衡量的因素。

 

首次发布于 15 年 2022 月 XNUMX 日。