人工智能
一个有影响力的数据集卡特尔正在主导机器学习研究,新研究表明

加州大学和谷歌研究院的一篇新论文发现,少数“基准”机器学习数据集,主要来自西方有影响力的机构,经常来自政府组织,正在日益主导人工智能研究领域。研究人员得出结论,这种趋势,即“默认”使用流行的开源数据集(如 ImageNet),引发了许多实际、道德和政治问题。根据他们的发现——基于Facebook领导的社区项目 Papers With Code (PWC) 的核心数据——作者认为“广泛使用的数据集由仅仅几个精英机构引入”,这种“整合”在近年来增加到80%。
‘我们发现,全球数据集使用存在日益增加的不平等,而且我们样本中的43,140个数据集使用中,有超过50%对应于由十二个精英机构(主要是西方机构)引入的数据集。’
<img class="wp-image-179082 size-full" src="https://www.unite.ai/wp-content/uploads/2021/12/dataset-concentration-in-elite-institutions.jpg" alt="过去十年中非任务特定数据集的使用情况图。包括标准是机构或公司占据超过50%的已知使用情况。右侧显示了机构和数据集随时间的集中度的 吉尼系数。来源:https://arxiv.org/pdf/2112.01716.pdf” width=”1200″ height=”389″ /> 过去十年中非任务特定数据集的使用情况图。包括标准是机构或公司占据超过50%的已知使用情况。右侧显示了机构和数据集随时间的集中度的 吉尼系数。来源:https://arxiv.org/pdf/2112.01716.pdf 主导机构包括斯坦福大学、微软、普林斯顿大学、Facebook、谷歌、马克斯·普朗克研究所和AT&T。前十名数据集来源中有四个是企业机构。 这篇论文还将这些精英数据集的日益使用描述为 ‘科学不平等的载体’。这是因为寻求社区认可的研究团队更有动力在一致的数据集上实现最先进的(SOTA)结果,而不是生成没有这种地位的原始数据集,这将需要同行适应新的指标,而不是标准指数。 无论如何,正如论文承认的,创建自己的数据集对于资源不足的机构和团队来说是一项禁止性昂贵的追求。
‘表面上的科学有效性由SOTA基准测试授予,与研究人员通过在广泛认可的数据集上竞争而获得的社会可信度混淆,即使一个更上下文特定的基准可能在技术上更合适。 ‘
‘我们认为,这些动态创造了一个“马太效应”(即“富人越富,穷人越穷”),其中成功的基准和引入它们的精英机构在该领域获得了过大的地位。 ‘
这篇论文题为 减少、重用和回收:机器学习研究中数据集的生命周期,由加州大学洛杉矶分校的Bernard Koch和Jacob G. Foster,以及谷歌研究院的Emily Denton和Alex Hanna撰写。 这项工作提出了许多问题,与它记录的日益增长的整合趋势有关,并得到了 一般认可 在Open Review上。来自NeurIPS 2021的一位评论者指出,这项工作对于“任何从事机器学习研究的人来说都非常相关”,并预见它将被列为大学课程的必读材料。
从必要到腐败
作者指出,当前的“击败基准”文化是作为对缺乏客观评估工具的补救措施而出现的,这些工具曾经导致人们对人工智能的兴趣和投资在三十多年前崩溃, 在专家系统的新研究领域 中:
‘基准通常通过数据集和相关的量化评估指标来正式定义一个特定的任务。这种做法最初是在1980年代的“人工智能冬天”之后由政府资助者引入机器学习研究的,他们试图更准确地评估拨款的价值。 ‘
论文认为,这种非正式的标准化文化的最初优势(减少参与障碍、统一指标和更灵活的开发机会)开始被当一个数据集变得足够强大时自然出现的缺点所抵消,这个数据集可以有效地定义其“使用条款”和影响范围。 作者建议,正如最近的行业和学术界关于这个问题的许多想法一样,研究社区 不再提出新问题,如果这些问题不能通过现有的基准数据集来解决。 他们还指出,盲目遵循这少数“黄金”数据集会鼓励研究人员实现过度拟合(即数据集特有的结果,不太可能在现实世界的数据、新的学术数据集或甚至同一“黄金标准”的不同数据集上表现良好)的结果。
‘鉴于我们观察到的研究在少数基准数据集上的高集中度,我们认为,为了避免对现有数据集过度拟合和在该领域误导进展,多样化评估形式尤为重要。 ‘
计算机视觉研究中的政府影响
根据论文,计算机视觉研究比其他领域更明显地受到它所描述的这种现象的影响,作者指出,自然语言处理(NLP)研究受到的影响较小。作者认为,这可能是因为NLP社区更“连贯”和更大,NLP数据集更容易获取和策划,也更小、更节省资源。 在计算机视觉中,特别是在面部识别(FR)数据集方面,作者认为,企业、国家和私人利益经常冲突:
‘企业和政府机构有可能与隐私(例如,监视)相冲突的目标,它们对这些优先级的权衡可能与学术界或人工智能的更广泛的利益相关者所持的优先级不同。 ‘
对于面部识别任务,研究人员发现,纯粹的学术数据集的发生率急剧下降:
‘(四)八个数据集(占总使用量的33.69%)完全由企业、美国军方或中国政府(MS-Celeb-1M、CASIA-Webface、IJB-A、VggFace2)资助。MS-Celeb-1M最终因围绕不同利益相关者隐私价值的争议而被撤回。 ‘
在上面的图中,如作者所指出,我们还看到,相对较新的图像生成(或图像合成)领域严重依赖于现有的、更老的数据集,这些数据集不是为此目的而设计的。 事实上,这篇论文观察到数据集从其预期用途“迁移”的日益增长的趋势,这使得人们对其适合新兴或边缘研究领域的需求以及预算限制可能将研究人员的雄心壮志缩小到可用材料和对基准评级每年都很着迷的文化提供的狭窄框架中产生了疑问。
‘我们的发现还表明,数据集经常在不同任务社区之间转移。在最极端的情况下,一些任务社区中流通的基准数据集的大多数是为其他任务创建的。 ‘
关于机器学习界的知名人士(包括 Andrew Ng),他们近年来越来越多地呼吁数据集的多样性和策划,作者支持这种情绪,但他们认为,即使这种努力成功,也可能被当前文化对SOTA结果和已建立的数据集的依赖所破坏:
‘我们的研究表明,简单地呼吁机器学习研究人员开发更多的数据集,并改变激励结构,使数据集开发受到重视和奖励,可能不足以多样化数据集的使用和最终塑造和设定机器学习研究议程的观点。 ‘
‘除了激励数据集开发外,我们提倡优先考虑公平的政策干预,为资源不足的机构的人们提供大量资金来创建高质量的数据集。这将从社会和文化的角度来看,多样化基准数据集,用于评估现代机器学习方法。 ‘
2021年12月6日,下午4:49 GMT+2 – 更正标题中的所有格。 – MA













