人工智能

看不见的、往往不快的劳动力决定着 AI 的未来

Published December 13, 2021

Updated April 28, 2026

Martin Anderson

两份新报告，包括一篇由 Google 研究团队领导的论文，表达了对当前趋势的担忧，即依赖廉价和经常被剥夺权力的全球零工工人来创建机器学习系统的基准真相，这可能会对 AI 产生重大下游影响。

在一系列结论中，Google 研究发现，众包工人的偏见可能会被嵌入到以他们的回应为基础的 AI 系统中；广泛的不公平工作实践（包括在美国的众包平台）可能会降低回应的质量；以及当前解决争议的“共识”系统（实际上是一个“小型选举”）可能会抛弃最好的和/或最知情的回应。

这是坏消息；更糟糕的消息是，几乎所有的解决方法都很昂贵、耗时，或者两者兼而有之。

不安全、随机拒绝和怨恨

第一篇论文，由五位 Google 研究人员撰写，题为 谁的基准真相？考虑数据集注释的个体和集体身份；第二篇论文，由两位位于纽约的 Syracuse 大学研究人员撰写，题为 数据标注者之间的异议来源和价值：对仇恨言论注释的个体差异的案例研究。

Google 论文指出，众包工人——他们的评估通常构成了机器学习系统的定义基础，这些系统可能最终会影响我们的生活——经常在各种约束下运作，这些约束可能会影响他们对实验任务的回应。

例如，亚马逊 Mechanical Turk 的当前政策允许请求者（即分配任务的人）在不承担责任的情况下拒绝注释者的工作：

‘[众包工人中的] 大多数（94%）曾经有过被拒绝或未被支付的工作。然而，请求者无论是否接受或拒绝工作，都保留了对收到的数据的全部权利；Roberts (2016) 将这种系统描述为“使得工资盗窃成为可能”。

‘此外，拒绝工作和扣发工资是痛苦的，因为拒绝往往是由于不明确的指示和缺乏有意义的反馈渠道；许多众包工人报告说，糟糕的沟通对他们的工作产生了负面影响。’

作者建议，使用外包服务开发数据集的研究人员应该考虑众包平台如何对待其工人。他们进一步指出，在美国，众包工人被归类为“独立承包商”，因此他们的工作不受《公平劳动标准法》规定的最低工资的约束。

背景很重要

该论文还批评了使用临时的全球劳动力进行注释任务，而不考虑注释者的背景。

在预算允许的情况下，使用亚马逊 Mechanical Turk 和类似的众包平台的研究人员通常会将同一任务分配给四个注释者，并遵循“多数规则”来确定结果。

论文认为，背景经验被低估了。例如，如果一个与性别歧视相关的问题被随机分配给三个同意的男性（年龄 18-57 岁）和一个不同意的女性（年龄 29 岁），那么男性们的判决将获胜，除非研究人员注意到了注释者的资格。

同样，如果一个关于芝加哥帮派行为的问题被分配给一位来自美国农村的 36 岁女性、一位 42 岁的芝加哥男性和两位分别来自班加罗尔和丹麦的注释者，那么最可能受到该问题影响的人（芝加哥男性）只占结果的四分之一，在标准的外包配置中。

研究人员指出：

‘[众包响应中的] “真相”概念是一个神话；注释者之间的异议，可以提供有价值的信号。其次，由于许多众包注释者池具有社会人口统计学偏差，因此对哪些人群在数据集中被代表以及哪些人群面临众包的挑战都有影响。 ‘

‘考虑注释者人口统计学偏差对于上下文数据和确保负责任的下游使用至关重要。简而言之，承认和考虑工人的社会文化背景——从数据质量和社会影响的角度来看——是有价值的。’

没有“中立”的意见对于热门话题

即使四个注释者的意见没有被人口统计学或其他指标偏斜，Google 论文也表达了对研究人员没有考虑注释者生活经历或哲学观点的担忧：

‘虽然有些任务提出了客观问题，有正确答案（例如，图像中是否有人类面部？），但往往数据集旨在捕捉关于主观任务的判断，没有普遍正确的答案（例如，这段文字是否冒犯？）。在依赖注释者的主观判断时，必须有意为之。’

关于其特定范围内解决仇恨言论标注问题，Syracuse 论文指出，更类别的问题（例如“这张照片中有猫吗？”）与询问众包工人一句话是否“有毒”是不同的：

‘考虑到社会现实的复杂性，人们对有毒性的感知差异很大。他们的有毒内容标签是基于他们自己的感知。’

发现性格和年龄对仇恨言论标注有“显著影响”，Syracuse 研究人员得出结论：

‘这些发现表明，为了获得不同背景和个性的标注者对仇恨言论的一致标注，努力可能永远不会完全成功。’

法官也可能有偏见

这种缺乏客观性可能会向上迭代，根据 Syracuse 论文，这表明决定“共识”投票“获胜者”的手动干预（或自动政策，也由人类决定）也应受到审查。

将该过程比喻为论坛管理，作者指出：

‘[社区的] 管理员可以通过推广或隐藏帖子，以及奖惩或禁止用户，决定帖子和用户在社区中的命运。管理员的决定会影响社区成员和受众看到的内容，并通过这种方式影响社区对讨论的体验。 ‘

‘假设一个人类管理员是社区成员之一，与其他社区成员具有人口统计学同质性，那么他们用来评估内容的心理模式可能与其他社区成员的一致。’

这给出了 Syracuse 研究人员为什么得出如此悲观的结论关于仇恨言论标注的未来的一些线索；暗示是，政策和判断呼叫对于众包工作意见的争议不能仅仅根据“可接受”的原则随机应用，这些原则在任何地方都没有载入法典（甚至如果它们存在，也不能简化为可应用的模式）。

做出决定的人（众包工人）是有偏见的，如果他们没有偏见，就会对这样的任务无用，因为任务是提供价值判断；对于众包工作结果的争议做出裁决的人也在制定政策时做出价值判断。

在一个仇恨言论检测框架中，可能有数百项政策，除非每一项都被推到最高法院，否则“权威”的共识将从哪里产生？

Google 研究人员建议 ‘[注释者之间的] 分歧可能包含关于任务的有价值的细微差别。’ 该论文提议在数据集中使用反映和上下文化争议的元数据。

然而，很难看出如何通过这种上下文特定的数据层来实现类似指标，适应既定的标准测试，或者支持任何确定的结果——除非在采用同一组研究人员进行后续工作的不切实际的场景中。

策划注释者池

所有这些都假设研究项目中有多个注释的预算，这将导致共识投票。在许多情况下，研究人员尝试通过指定工人应该具备的特征（例如地理位置、性别或其他文化因素）来更便宜地“策划”外包注释池，换取特异性而不是多样性。

Google 论文认为，挑战的出路可能是通过与注释者建立类似于 Uber 应用程序促进的驾驶员和乘客之间的最低限度通信的扩展通信框架。

这种对注释者的仔细考虑，自然会成为大规模外包注释的障碍，导致数据集更有限、更低容量，但结果更有理由，或者对参与的注释者进行快速评估，获取关于他们的信息很少，并根据太少的信息将他们标记为“适合任务”。

假设注释者是诚实的。

外包数据集标注中的“讨好者”

由于可用的劳动力低薪、面临激烈竞争，以及由于缺乏职业前景而感到沮丧，注释者有动力快速提供“正确”的答案，然后转到下一个小任务。

如果“正确答案”比 有猫/无猫 更复杂，Syracuse 论文认为，工人可能会尝试根据问题的内容和上下文推断出“可接受”的答案*：

‘替代概念的普遍存在和简单注释方法的广泛使用，可能阻碍了在线仇恨言论研究的进展。例如，Ross 等人发现，将 Twitter 的仇恨行为定义显示给注释者会导致他们部分地将自己的意见与定义对齐。这种重新对齐导致注释的一致性相对较低。’

* 我将论文中的内联引用转换为超链接。

发布于 2021 年 12 月 13 日 – 更新于 2021 年 12 月 18 日：添加标签