Anderson 视角

隐形且常常不满的劳动力:决定人工智能未来的关键

mm

两份新报告,包括一份由Google研究团队领导的论文,表达了对当前趋势的担忧,即依赖廉价和常常被剥夺权力的全球零工工人来创建机器学习系统的基础真理可能会对人工智能产生重大下游影响。

在一系列结论中,Google研究发现,众包工人的偏见可能会被嵌入到基于他们的响应创建的AI系统中;广泛的不公平的工作实践(包括在美国的众包平台)可能会降低响应的质量;以及当前解决争议的“共识”系统(有效地为某个将影响下游AI系统的基础真理举行“小型选举”)实际上可能会抛弃最好的和/或最知情的响应。

这就是坏消息;更糟糕的消息是,大多数补救措施都很昂贵,耗时,或者两者兼而有之。

不安全、随机拒绝和怨恨

第一篇论文,由五位Google研究人员撰写,题为《谁的基础真理?:在数据集注释中考虑个体和集体身份》;第二篇论文,由两位位于纽约的雪城大学研究人员撰写,题为《数据标注者之间的分歧起源和价值:对仇恨言论注释个体差异的案例研究》。

Google论文指出,众包工人——他们的评估往往构成了机器学习系统的定义基础,这些系统可能最终会影响我们的生活——经常在各种限制下工作,这些限制可能会影响他们对实验任务的响应方式。

例如,Amazon Mechanical Turk的当前政策允许请求者(即发出任务的人)在没有任何问责的情况下拒绝注释者的工作:

‘[众包工人中有]大多数(94%)曾经有工作被拒绝或没有被付款。然而,请求者无论是否接受工作,都保留了对收到的数据的全部权利;Roberts(2016)将这种系统描述为“允许工资盗窃”的系统。 ‘

‘此外,拒绝工作和扣留工资是痛苦的,因为拒绝往往是由于不明确的指示和缺乏有意义的反馈渠道;许多众包工人报告说,糟糕的沟通对他们的工作产生了负面影响。’

作者建议使用众包服务开发数据集的研究人员应该考虑众包平台如何对待其工人。他们进一步指出,在美国,众包工人被归类为“独立承包商”,因此他们的工作不受《公平劳动标准法》规定的最低工资的约束。

背景很重要

该论文还批评了在没有考虑注释者背景的情况下使用临时的全球劳动力进行注释任务。

在预算允许的情况下,使用AMT和类似众包平台的研究人员通常会将同一任务分配给四个注释者,并遵循“多数规则”来确定结果。

该论文认为,背景经验在很大程度上被低估。例如,如果一个与性别歧视相关的任务问题被随机分配给三个同意的男性(年龄18-57岁)和一个不同意的女性(年龄29岁),那么男性们的判决将获胜,除非研究人员在很少的情况下关注注释者的资格。

同样,如果一个关于芝加哥帮派行为的问题被分配给一位来自农村的36岁美国女性,一位来自芝加哥的42岁男性和两位分别来自班加罗尔和丹麦的注释者,那么最可能受到该问题影响的人(芝加哥男性)只占结果的四分之一,在标准的外包配置中。

研究人员指出:

‘[众包响应中的]“一个真理”的概念是一个神话;注释者之间的分歧,通常被视为负面,可以实际上提供一个有价值的信号。其次,由于许多众包注释者池具有社会人口学偏差,因此对哪些人群在数据集中被代表以及哪些人群面临[众包]挑战具有影响。 ‘

‘考虑注释者人口统计学偏差对于上下文化数据集和确保负责任的下游使用至关重要。简而言之,承认和考虑工人的社会文化背景——从数据质量和社会影响的角度来看——是有价值的。’

没有“中立”的意见在热门话题上

即使四个注释者的意见没有被人口统计学或其他指标偏斜,Google论文也表达了对研究人员没有考虑注释者的生活经历或哲学倾向的担忧:

‘虽然有些任务倾向于提出客观问题,有正确答案(图像中是否有人类面孔?),但往往数据集旨在捕捉对相对主观任务的判断,没有普遍正确的答案(这段文字是否冒犯?)。在是否依赖注释者的主观判断方面要有意图。’

关于其具体范围来解决仇恨言论标注问题,雪城论文指出,更类别的问题,如这张照片中有猫吗?与询问众包工人某个短语是否“有毒”明显不同:

‘考虑到社会现实的复杂性,人们对有毒性的看法差异很大。他们对有毒内容的标签基于他们自己的看法。’

发现个性和年龄对仇恨言论的维度标注有“重大影响”,雪城研究人员得出结论:

‘这些发现表明,为了获得不同背景和个性的标注者对仇恨言论的一致标注,可能永远无法完全成功。’

法官也可能有偏见

这种缺乏客观性可能会向上迭代,根据雪城论文,该论文认为决定“赢家”共识投票的manual干预(或自动政策,也由人类决定)也应受到审查。

将该过程比作论坛管理,作者指出:

‘[社区的]管理者可以通过推广或隐藏帖子、奖励或惩罚用户、封禁用户来决定帖子和用户的命运。管理者的决定会影响社区成员和受众接收的内容,并通过扩展也会影响社区对讨论的体验。 ‘

‘假设人类管理者是具有与其他社区成员相同的社会人口学特征的社区成员,那么他们用来评估内容的心理模式可能与其他社区成员的模式相匹配。’

这给出了雪城研究人员得出如此悲观结论关于仇恨言论标注的未来原因的线索;暗示是,随机应用于众包工作结果争议的政策和判断调用不能仅仅根据“可接受”的原则来应用,这些原则在任何地方都没有被载入或不能被简化为适用的模式,即使它们存在。

做出决定的人(众包工人)是有偏见的,如果他们没有偏见,就会对这些任务毫无用处,因为任务是提供价值判断;而在众包工作结果争议中做出判决的人也在设定政策时做出价值判断。

在仇恨言论检测框架中可能有数百项政策,除非每一项政策都被推回最高法院,否则很难确定“权威”共识的来源。

Google研究人员建议《[注释者之间的]分歧可能包含任务的有价值的细微差别》。该论文提出了在数据集中使用反映和上下文化争议的元数据的使用。

然而,很难看出这种特定于上下文的数据层如何可能导致类似指标,适应既定的标准测试的需求,或者支持任何决定性的结果——除了在采用相同研究人员群体进行后续工作的不切实际的场景中。

策划注释者池

所有这些假设都假设研究项目中有足够的预算来进行多次注释,从而导致共识投票。在许多情况下,研究人员试图通过指定工人应具备的特征(如地理位置、性别或其他文化因素)来更便宜地“策划”外包注释池,牺牲多样性以换取特异性。

Google论文认为,克服这些挑战的方法可能是通过与注释者建立类似于Uber应用程序为驾驶员和乘客提供的最低限度通信框架的扩展通信框架。

这种对注释者的仔细考虑,自然会成为超大规模注释外包的障碍,导致结果要么是具有更合理的结果的有限和低容量数据集,要么是对注释者进行快速评估,获取关于他们的有限信息,并根据太少的信息将他们标记为“适合任务”。

如果注释者是诚实的。

外包数据集标注中的“讨好者”

由于劳动力被低薪(低于美国最低工资的40%)、竞争激烈(竞争激烈)以及缺乏职业前景(缺乏职业前景),注释者有动力快速提供“正确”的答案,然后转到下一个小任务。

如果“正确答案”比有猫/没有猫更复杂,雪城论文认为工人可能会尝试根据问题的内容和上下文推断出“可接受”的答案:

‘替代概念化的普遍存在和简单注释方法的广泛使用,可能阻碍了在线仇恨言论研究的进展。例如,Ross等人发现,向注释者展示Twitter的仇恨言论定义会导致他们部分地使自己的意见与定义保持一致。这一重新调整导致注释的相关性很低。’

 

* 我将论文的内联引用转换为超链接。

2021年12月13日发布 – 2021年12月18日更新:添加标签

机器学习作家,人类图像合成领域专家。曾任 Metaphysic.ai 研究内容负责人。
个人网站: martinanderson.ai
联系: [email protected]
Twitter:@manders_ai