存根 决定人工智能未来的“隐形”且常常不开心的劳动力 - Unite.AI
关注我们.

人工智能

决定人工智能未来的“隐形”、通常不快乐的劳动力

mm
更新 on

两份新报告(包括谷歌研究中心领导的一篇论文)表达了担忧,即当前依赖廉价且往往被剥夺权力的随机全球零工群体为机器学习系统创建基本事实的趋势可能会对人工智能产生重大下游影响。

在一系列结论中,谷歌的研究发现,众包工作者自己的偏见可能会嵌入到人工智能系统中,而人工智能系统的基本事实将基于他们的反应; 众包平台上普遍存在的不公平工作做法(包括在美国)可能会降低响应的质量; 目前解决争端的“共识”系统(实际上是对一些将影响下游人工智能系统的基本事实的“小型选举”)实际上可以 抛弃 最好和/或最明智的回应。

这是坏消息; 更糟糕的消息是,几乎所有的补救措施都是昂贵的、耗时的,或者两者兼而有之。

不安全感、随机拒绝和怨恨

最快的 ,来自五位 Google 研究人员,称为 谁的基本事实? 解释数据集注释背后的个人和集体身份;的 第二,来自纽约雪城大学的两位研究人员,称为 数据标签者分歧的起源和价值:仇恨言论标注个体差异的案例研究.

谷歌的论文指出,众包工作者——他们的评估往往构成机器学习系统的定义基础,最终可能影响我们的生活——经常在一系列限制下运作,这些限制可能会影响他们对实验任务的反应方式。

例如,Amazon Mechanical Turk 的当前政策允许请求者(分配作业的人)拒绝注释者的工作而不承担任何责任*:

'[A] 绝大多数众包工作者(94%)曾有过被拒绝或未获得报酬的工作。 然而,请求者保留对其收到的数据的全部权利,无论他们接受还是拒绝; 罗伯茨(2016) 将该系统描述为“导致工资盗窃”的系统。

“此外,拒绝工作和扣发工资是痛苦的,因为拒绝往往是由于指示不明确和缺乏有意义的反馈渠道造成的; 许多众包工作者表示,沟通不畅会对他们的工作产生负面影响。

作者建议使用外包服务开发数据集的研究人员应该考虑众包平台如何对待其员工。 他们进一步指出,在美国,众包工人被归类为“独立承包商”,因此其工作不受监管,也不在《公平劳工标准法》规定的最低工资范围内。

上下文很重要

该报还批评了使用 特设 注释任务的全局劳动力,而不考虑注释者的背景。

在预算允许的情况下,使用 AMT 和类似众包平台的研究人员通常会将相同的任务交给四个注释者,并在结果上遵守“多数规则”。

该论文认为,情境体验显然被低估了。 例如,如果任务问题涉及 性别歧视 随机分配给三名同意的 18-57 岁男性和一名持不同意见的 29 岁女性,男性的裁决获胜,但在相对罕见的情况下,研究人员会关注注释者的资格。

同样,如果有一个关于 芝加哥的帮派行为 分布在一名 36 岁的美国农村女性、一名 42 岁的芝加哥男性居民以及分别来自班加罗尔和丹麦的两名注释者之间,受该问题影响最大的人(芝加哥男性)只在结果中占有四分之一的份额,标准外包配置。

研究人员指出:

“众包响应中的‘同一个真理’概念是一个神话; 注释者之间的分歧通常被视为消极的,但实际上可以提供有价值的信号。 其次,由于许多众包注释器池在社会人口统计学上存在偏差,因此数据集中代表哪些人群以及哪些人群面临[众包]的挑战都会产生影响。

“考虑到注释者人口统计数据的偏差对于将数据集置于上下文中并确保负责任的下游使用至关重要。 简而言之,从数据质量和社会影响的角度来看,承认和解释工人的社会文化背景是有价值的。

对热门话题没有“中立”意见

即使四位注释者的观点在人口统计或其他指标上没有偏差,谷歌论文也表达了对研究人员没有考虑注释者的生活经历或哲学倾向的担忧:

“虽然有些任务往往会提出带有正确答案的客观问题 (图像中有人脸吗?),通常数据集旨在捕捉对相对主观任务的判断,没有普遍正确的答案(这段文字是否令人反感?)。 重要的是要有意识地考虑是否依赖注释者的主观判断。

关于解决仇恨言论标签问题的具体范围,锡拉丘兹大学的论文指出,更明确的问题,例如 这张照片里有猫吗? 与询问众包工作者某个短语是否“有毒”明显不同:

“考虑到社会现实的混乱性,人们对毒性的看法存在很大差异。 他们对有毒内容的标签是基于他们自己的看法。

雪城大学的研究人员发现性格和年龄对仇恨言论的维度标签有“重大影响”,得出结论:

“这些发现表明,在不同背景和性格的仇恨言论标签者之间获得注释一致性的努力可能永远不会完全成功。”

法官也可能有偏见

根据雪城大学的论文,这种缺乏客观性的情况也可能会向上迭代,该论文认为,决定共识投票“获胜者”的手动干预(或自动化政策,也由人类决定)也应该受到审查。

作者将该过程比作论坛审核,指出*:

“社区版主可以通过推广或隐藏帖子以及表彰、羞辱或禁止用户来决定社区中帖子和用户的命运。 版主的决定会影响传送到的内容 社区成员和观众  进而影响社区的讨论体验。

“假设人类主持人是与其他社区成员具有人口统计同质性的社区成员,那么他们用来评估内容的心理模式似乎可能与其他社区成员的心理模式相匹配。”

这为为什么雪城大学的研究人员对仇恨言论注释的未来得出如此令人沮丧的结论提供了一些线索。 这意味着,针对不同意见的众包意见的政策和判断不能仅仅根据任何地方都没有体现的“可接受”原则(或者不能简化为适用的模式,即使它们确实存在)来随机应用。

做出决定的人(众包工作者)是有偏见的,如果他们 不能 有偏见,因为任务是提供价值判断; 众包结果中争议的裁决者也在制定争议政策时进行价值判断。

仅仅一个仇恨言论检测框架中可能就有数百项政策,除非每一项政策都被一路送回最高法院,否则“权威”共识从何而来?

谷歌研究人员建议 “注释者之间的分歧可能会包含有关任务的有价值的细微差别”。 该论文建议在数据集中使用元数据来反映争议并使其背景化。

然而,很难看出这种特定于上下文的数据层如何能够产生类似的指标,适应既定标准测试的要求,或支持 任何 明确的结果——除非在后续工作中采用同一组研究人员的不切实际的情况。

管理注释者池

所有这些都假设一个研究项目甚至有用于多个注释的预算,这将导致共识投票。 在许多情况下,研究人员试图通过指定工作人员应具备的特征(例如地理位置、性别或其他文化因素)来更便宜地“管理”外包注释池,用多元化换取特异性。

谷歌的论文认为,解决这些挑战的方法可能是通过注释器建立扩展的通信框架,类似于 Uber 应用程序在司机和乘客之间提供的最小通信。

对注释器的这种仔细考虑自然会成为超大规模注释外包的障碍,从而导致更有限和小容量的数据集对其结果有更好的理由,或者对所涉及的注释器进行“仓促”评估,获得有限的细节并基于太少的信息将他们描述为“适合任务”。

如果注释者是诚实的的话。

外包数据集标记中的“取悦者”

拥有可用的劳动力 少缴,下 激烈的竞争 对于可用的任务,并因 职业前景渺茫,注释者有动力快速提供“正确”答案并继续下一个小任务。

如果“正确答案”比以下更复杂 有猫/无猫,雪城大学的论文认为,工作人员可能会尝试根据问题的内容和上下文推断出“可接受的”答案*:

“替代概念的激增和简单化注释方法的广泛使用都可以说阻碍了在线仇恨言论研究的进展。 例如,罗斯等人。 发现 向注释者展示 Twitter 对仇恨行为的定义导致他们部分地将自己的观点与定义保持一致。 这种重新调整导致注释的人际可靠性非常低。

 

* 我将论文的内联引用转换为超链接。

发布于 13 年 2021 月 XNUMX 日 – 18 年 2021 月 XNUMX 日更新:添加标签