机器学习研究中，少数有影响力的数据集正在主导这一领域，新研究表明

发布于 2021年12月6日

更新于 2026年5月24日

作者

Martin Anderson

加州大学和谷歌研究院的一篇新论文发现，少数“基准”机器学习数据集，主要来自西方有影响力的机构，经常来自政府组织，正在日益主导人工智能研究领域。

研究人员得出结论，这种趋势，即“默认”使用流行的开源数据集，例如 ImageNet，引发了许多实际、道德和甚至政治方面的担忧。

根据他们的发现——基于Facebook领导的社区项目 Papers With Code (PWC) 的核心数据——作者认为，‘广泛使用的数据集是由少数精英机构引入的’，这种“整合”在近年来增加到了80%。

‘[我们] 发现，全球数据集使用存在日益增加的不平等，而且我们样本中的 43,140 个数据集使用中，有超过 50% 对应于由十二个精英机构（主要是西方机构）引入的数据集。’

过去十年中非任务特定数据集使用的映射。包含标准是机构或公司占据已知使用量的 50% 以上。右侧显示了机构和数据集随时间的集中度的 Gini 系数。来源：https://arxiv.org/pdf/2112.01716.pdf

主导机构包括斯坦福大学、微软、普林斯顿大学、Facebook、谷歌、马克斯·普朗克研究所和AT&T。前十个数据集来源中有四个是企业机构。

该论文还将使用这些精英数据集的增长描述为 ‘科学不平等的载体’。这是因为寻求社区认可的研究团队更倾向于在一致的数据集上实现最先进的结果，而不是生成没有这种地位的原创数据集，这将需要同行适应新指标而不是标准索引。

无论如何，正如该论文承认的，创建自己的数据集对于资源不足的机构和团队来说是一项禁止性昂贵的追求。

‘从表面上看，通过最先进的基准测试获得的科学有效性与研究人员通过在广泛认可的数据集上竞争而获得的社会可信度混淆在一起，即使一个更上下文特定的基准可能在技术上更合适。 ‘

‘我们认为，这些动态创造了一个“马太效应”（即“富人越富，穷人越穷”），其中成功的基准和引入它们的精英机构在该领域获得了过大的地位。’

该论文题为减少、重用和回收：机器学习研究中数据集的生命周期，由伯纳德·科赫（Bernard Koch）和雅各布·G·福斯特（Jacob G. Foster）在加州大学洛杉矶分校，以及艾米丽·登顿（Emily Denton）和亚历克斯·汉娜（Alex Hanna）在谷歌研究院完成。

这项工作提出了多个问题，涉及它记录的日益增长的整合趋势，并得到了一般赞同在开放审查中。来自 NeurIPS 2021 的一位审稿人评论说，这项工作 ‘对于任何从事机器学习研究的人来说都非常相关’，并预测它将被纳入大学课程的必读材料。

作者指出，当前的“击败基准”文化作为一种补救措施出现，以解决缺乏客观评估工具的问题，这些问题导致人们对人工智能的兴趣和投资在三十多年前第二次人工智能冬天后崩溃，之后是对“专家系统”新研究的商业热情下降：

‘基准通常通过数据集和相关的量化评估指标来正式定义特定任务。这种做法最初是在 1980 年代的“人工智能冬天”之后由政府资助者引入机器学习研究的，他们试图更准确地评估拨款的价值。’

该论文认为，标准化的这种非正式文化的最初优势（降低参与壁垒、一致的指标和更灵活的开发机会）开始被当数据变得足够强大时自然出现的缺点所抵消，这些缺点使数据能够有效地定义其“使用条款”和影响范围。

作者建议，符合最近行业和学术界对该问题的许多想法，研究社区不再提出新问题，如果这些问题不能通过现有的基准数据集来解决。

他们还指出，盲目遵循这些少数“金色”数据集的做法鼓励研究人员实现过度拟合（即数据集特有的结果，不太可能在真实世界数据、新的学术数据集或甚至同一“金标准”数据集的不同数据集上表现良好）的结果。

‘鉴于我们观察到的基准数据集的高集中度，我们相信，为了避免过度拟合现有数据集和歪曲该领域的进展，多样化评估形式尤为重要。’

根据该论文，计算机视觉研究比其他领域更容易受到它概述的这种情况的影响，作者指出，自然语言处理（NLP）研究受到的影响较小。作者认为，这可能是因为 NLP 社区 ‘更连贯’，规模更大，而且 NLP 数据集更易于访问、更容易策划，并且在数据收集方面更小、更不耗资源。

‘企业、国家和私人利益经常在计算机视觉中，特别是在面部识别（FR）数据集中发生冲突：’

‘企业和政府机构具有可能与隐私（例如，监视）相冲突的目标，他们对这些优先事项的权重可能与学术界或人工智能的更广泛的利益相关者所持的优先事项不同。’

对于面部识别任务，研究人员发现，纯粹的学术数据集的比例急剧下降：

‘[四个] 数据集（占总使用量的 33.69%）完全由企业、美国军方或中国政府资助（MS-Celeb-1M、CASIA-Webface、IJB-A、VggFace2）。MS-Celeb-1M 最终因围绕不同利益相关者隐私价值的争议而被撤回。’

图像生成和面部识别研究社区中使用的顶级数据集。

如作者所指出，图中我们还看到，图像生成（或图像合成）领域相对较新，严重依赖于现有的、更古老的数据集，这些数据集最初并不是为此目的而设计的。

事实上，该论文观察到一种日益增长的趋势，即数据集从其预期用途“迁移”，这使得人们对其适合新兴或外围研究领域的需求以及预算约束可能将研究人员的雄心壮志局限于现有材料和文化提供的狭窄范围的程度产生了疑问。

‘我们的发现还表明，数据集经常在不同任务社区之间转移。在极端情况下，某些任务社区中流通的基准数据集的大多数都是为其他任务创建的。’

关于那些近年来日益呼吁数据集多样性和策划的机器学习领袖（包括 Andrew Ng），作者支持这种观点，但认为，即使这种努力成功，也可能被当前文化对最先进结果和既定的数据集的依赖所破坏：

‘我们的研究表明，简单地呼吁机器学习研究人员开发更多数据集，并改变激励结构，使数据集开发受到重视和奖励，可能不足以多样化数据集的使用和最终塑造和设定机器学习研究议程的观点。 ‘

‘除了激励数据集开发外，我们提倡优先考虑公平的政策干预，为资源不足的机构的人们提供大量资金，以创建高质量的数据集。这将从社会和文化的角度多样化用于评估现代机器学习方法的基准数据集。’

2021 年 12 月 6 日，下午 4:49 GMT+2 – 更正标题中的所有格。 – MA

Martin Anderson

机器学习作家，人类图像合成领域专家。曾任 Metaphysic.ai 研究内容负责人。
个人网站： martinanderson.ai
联系： [email protected]
Twitter：@manders_ai

Unite.AI