人工智能
新研究表明,有影响力的数据集联盟正在主导机器学习研究

加州大学和谷歌研究中心的一篇新论文发现,少数“基准”机器学习数据集(主要来自有影响力的西方机构,通常来自政府组织)正日益主导人工智能研究领域。
研究人员得出的结论是,这种“默认”高度流行的开源数据集的趋势,例如 影像网,提出了一些令人担忧的实际、道德甚至政治原因。
他们的研究结果基于 Facebook 主导的社区项目的核心数据 带代码文件 (普华永道)——作者认为 “只有少数精英机构引入了广泛使用的数据集”,并且这种“整合”近年来已增加到 80%。
“[我们]发现全球数据集使用的不平等现象日益严重,在我们的 50 个样本中,超过 43,140% 的数据集使用与 XNUMX 个精英机构(主要是西方机构)引入的数据集相对应。”

过去十年非特定任务数据集使用情况的地图。 纳入标准是机构或公司占已知用途的 50% 以上。 右图所示的是 基尼系数 随着时间的推移机构和数据集的数据集中。 资料来源:https://arxiv.org/pdf/2112.01716.pdf
主要机构包括斯坦福大学、微软、普林斯顿大学、Facebook、谷歌、马克斯·普朗克研究所和 AT&T。 排名前十的数据集来源中有四个是企业机构。
该论文还将这些精英数据集的日益增长的使用描述为 “科学不平等的工具”。 这是因为寻求社区认可的研究团队更有动力根据一致的数据集获得最先进(SOTA)的结果,而不是生成没有这种地位的原始数据集,并且需要同行适应新颖的数据集。指标而不是标准指数。
无论如何,正如该论文所承认的那样,对于资源匮乏的机构和团队来说,创建自己的数据集是一项极其昂贵的追求。
“” 表面上 SOTA 基准测试所赋予的科学有效性通常与研究人员通过证明他们可以在广泛认可的数据集上竞争而获得的社会信誉相混淆,即使更具体的基准测试在技术上可能更合适。
我们认为,这些动态会产生“马太效应”(即“富者愈富,穷者愈穷”),成功的基准以及引入基准的精英机构在该领域获得了巨大的地位。
- 纸 标题为 减少、重复使用和回收:机器学习研究中数据集的生命周期,来自加州大学洛杉矶分校的 Bernard Koch 和 Jacob G. Foster,以及 Google Research 的 Emily Denton 和 Alex Hanna。
这项工作提出了一些与它所记录的日益增长的整合趋势相关的问题,并且已经得到了满足 普遍认可 在公开审查中。 NeurIPS 2021 的一位审稿人评论说,这项工作是 “与任何参与机器学习研究的人都非常相关。” 并预计将其纳入大学课程的指定阅读内容。
从必需品到腐败
作者指出,当前“超越基准”文化的出现是为了弥补客观评估工具的缺乏,导致人们对人工智能的兴趣和投资第二次崩溃。 三十多年前,在企业对“专家系统”新研究的热情下降之后:
“基准通常通过数据集和相关的定量评估指标来形式化特定任务。 这种做法最初是在 1980 世纪 XNUMX 年代“人工智能寒冬”之后由政府资助者引入[机器学习研究],他们试图更准确地评估赠款的价值。
本文认为,这种非正式标准化文化的最初优势(减少参与障碍、一致的指标和更敏捷的开发机会)开始被当数据体变得强大到足以有效定义其数据时自然出现的缺点所抵消。 “使用条款”和影响范围。
作者建议,根据最近业界和学术界对此事的看法,研究界 不再提出新问题 如果这些问题无法通过现有的基准数据集解决。
他们还指出,盲目遵守少量“黄金”数据集会鼓励研究人员取得以下成果: 过拟合 (即,它们是特定于数据集的,并且不太可能在现实世界数据、新学术或原始数据集、甚至不一定在“黄金标准”中的不同数据集上表现良好)。
“鉴于观察到研究高度集中在少数基准数据集上,我们认为多样化的评估形式对于避免过度拟合现有数据集和歪曲该领域的进展尤为重要。”
政府对计算机视觉研究的影响
根据该论文,计算机视觉研究比其他领域更容易受到其概述的综合症的影响,作者指出,自然语言处理(NLP)研究受到的影响要小得多。作者认为这可能是因为 NLP 社区 “更加连贯” 而且规模更大,而且因为 NLP 数据集更容易访问、更容易管理,而且在数据收集方面更小、占用的资源更少。
在计算机视觉领域,特别是在面部识别 (FR) 数据集方面,作者认为企业、国家和私人利益经常发生冲突:
“企业和政府机构的目标可能与隐私发生冲突(例如监视),他们对这些优先事项的权重可能与学术界或人工智能更广泛的社会利益相关者所持有的不同。”
对于面部识别任务,研究人员发现纯学术数据集的发生率与平均水平相比急剧下降:
八个数据集中的[四个](占总使用量的 33.69%)由企业、美国军方或中国政府独家资助(MS-Celeb-1M、CASIA-Webface、IJB-A、VggFace2)。 由于围绕不同利益相关者隐私价值的争议,MS-Celeb-1M 最终被撤回。
正如作者所指出的,在上图中,我们还看到相对较新的图像生成(或图像合成)领域严重依赖于现有的、较旧的数据集,而这些数据集并不适合此用途。
事实上,本文观察到数据集“迁移”偏离其预期目的的日益增长的趋势,使人们对它们是否适合新的或边远的研究部门的需求以及预算限制可能在多大程度上“通用化”提出了疑问。研究人员的野心范围进入了由现有材料和如此痴迷于同比基准评级的文化所提供的更窄的框架,以至于新颖的数据集很难获得关注。
“我们的研究结果还表明,数据集会定期在不同的任务社区之间传输。 在最极端的情况下,某些任务社区流通的大多数基准数据集都是为其他任务创建的。
关于机器学习杰出人物(包括吴恩达)近年来,他们越来越多地呼吁数据集更加多样化和管理,作者支持这种观点,但相信这种努力即使成功,也可能会因当前文化对 SOTA 结果和既定数据集的依赖而受到破坏:
“我们的研究表明,仅仅呼吁机器学习研究人员开发更多数据集,并改变激励结构,使数据集开发得到重视和奖励,可能不足以使数据集使用和最终塑造和设定 MLR 研究议程的观点多样化。
“除了激励数据集开发之外,我们还主张采取以公平为导向的政策干预措施,优先为资源匮乏机构的人们提供大量资金,以创建高质量的数据集。 从社会和文化的角度来看,这将使用于评估现代机器学习方法的基准数据集多样化。
6 年 2021 月 4 日下午 49:2 GMT+XNUMX – 更正了标题中的所有格。 - 嘛