Anderson 视角

Amazon Mechanical Turk 的缺陷可能威胁自然语言生成系统

mm

马萨诸塞大学阿默斯特分校的一项新研究将英语教师与亚马逊 Mechanical Turk 的众包工人对自然语言生成(NLG)系统的输出进行了比较,得出结论,Mechanical Turk 工人中存在的宽松标准和“游戏化”任务可能会阻碍该领域的发展。

该报告对 Mechanical Turk 的“工业规模”的廉价外包和开放式 NLG 评估任务可能导致该领域的次优结果和算法得出了多个批评的结论。

研究人员还编制了一份 45 篇关于开放式文本生成的论文列表,这些论文使用了 Mechanical Turk,并发现“绝大多数”论文没有报告使用亚马逊众包服务的关键细节,使得难以复制这些论文的发现。

血汗工厂劳动

该报告批评了 Mechanical Turk 的血汗工厂性质和(可能受到预算限制的)学术项目,它们通过使用和引用 Mechanical Turk 作为有效的研究资源而给 Mechanical Turk 提供了额外的可信度。作者指出:

‘虽然 Mechanical Turk 是一个方便且廉价的解决方案,但我们观察到高变异性、差的校准和认知要求高的任务可能会导致研究人员得出误导性的科学结论(例如,人类撰写的文本“更差”于 GPT-2 的文本)。’

该报告指责游戏而不是玩家,研究人员观察到:

‘(众包)工人经常被低薪,这不仅损害了研究的质量,也损害了这些工人的生计。’

论文,题为《使用 Mechanical Turk 评估开放式文本生成的危险》,进一步得出结论,应该使用“专家评估者”(如语言教师和语言学家)来评估开放式人工 NLG 内容,即使 Mechanical Turk 更便宜。

测试任务

在比较 Mechanical Turk 的性能与不受时间限制的专家读者时,研究人员花费了 144 美元用于实际用于比较测试的 Mechanical Turk 服务(尽管更多的钱被花在了“不可用的”结果上——见下文),要求随机的“土耳其人”评估 200 个文本,其中包括人类创建的文本内容和人工生成的文本。

让专业教师完成相同的工作花费了 187.50 美元,并通过雇用 Upwork 的自由职业者来复制任务,花费了额外的 262.50 美元,确认了他们的优异表现(与 Mechanical Turk 工人相比)。

每个任务由四个评估标准组成:语法(‘这个故事片段的语法正确性如何?’);连贯性(‘这个故事片段的句子如何融合在一起?’);可爱度(‘你觉得这个故事片段有多可爱?’);相关性(‘这个故事片段与提示的相关性如何?’)。

生成文本

为了获得 NLG 材料,研究人员使用了 Facebook AI 研究的 2018 年 分层神经故事生成 数据集,该数据集由 303,358 个英语故事组成,这些故事由 Reddit 的 r/writingprompts 子版块的用户撰写,该子版块有超过 1500 万用户,用户的故事由单句“提示”引发,类似于当前的文本到图像生成实践——当然,还有开放式自然语言生成 系统

从数据集中随机选择了 200 个提示,并使用 Hugging-Face Transformers 通过中等大小的 GPT-2 模型传递。因此,从相同的提示中获得了两组结果:Reddit 用户撰写的讨论性文章和 GPT-2 生成的文本。

为了防止同一 Mechanical Turk 工人多次评估同一个故事,研究人员每个示例都征求了三个 Mechanical Turk 工人的判断。结合对工人英语能力的实验(见文章末尾)和排除低努力工人的结果(见下面的“短时间”),这增加了在 Mechanical Turk 上的总支出,约为 1,500 美元。

为了创造一个公平的竞争环境,所有测试都在周一至周五的 11:00-11:30 PST 进行。

结果和结论

该研究涵盖了很多内容,但关键点是:

短时间

该论文发现,亚马逊报告的平均任务时间为 360 秒,实际工作时间仅为 22 秒,中位工作时间仅为 13 秒 —— 快速的英语教师复制任务所花费时间的四分之一。

从第二天的研究中:个别工人(橙色)花在每个任务上的时间明显少于更高薪的教师和(稍后)更高薪的 Upwork 承包商。来源:https://arxiv.org/pdf/2109.06835.pdf

从第二天的研究中:个别工人(橙色)花在每个任务上的时间明显少于更高薪的教师和(稍后)更高薪的 Upwork 承包商。 来源:https://arxiv.org/pdf/2109.06835.pdf

由于 Mechanical Turk 没有对单个工人可以接受的任务数量进行限制,因此,Mechanical Turk 的“大佬”出现了,他们以完成大量任务而闻名,并且有利润丰厚的声誉。在为了补偿同一工人接受的任务而进行的实验中,研究人员测量了连续提交的任务之间的时间,比较了每个任务的开始和结束时间。这样,Mechanical Turk 报告的 WorkTimeInSeconds 和实际花费在任务上的时间之间的差距变得明显。

由于这样的工作无法在这些缩短的时间框架内完成,研究人员不得不进行补偿:

‘由于不可能在短短 13 秒内仔细阅读一个段落长度的故事并评估所有四个属性,我们通过过滤掉花费时间太少的工人来衡量平均评分的影响…具体来说,我们删除了中位时间低于 40 秒(这是一个很低的标准)的工人的判断,并发现平均约 42% 的评分被过滤掉(在所有实验中范围从 20%-72%)。’

该论文认为,Mechanical Turk 中报告的实际工作时间差异是一个主要问题,通常被使用该服务的研究人员忽略。

需要手把手指导

研究结果进一步表明,Mechanical Turk 工人无法可靠地区分人类撰写的文本和机器撰写的文本,除非他们同时看到两种文本,这将损害典型的评估场景(读者应该能够根据单个文本样本做出判断,无论是“真实”的还是人工生成的)。

轻率接受低质量人工文本

Mechanical Turk 工人一致地将低质量的基于 GPT 的人工文本评为与人类撰写的高质量连贯文本相同,而英语教师则很容易区分质量差异。

无准备时间,零背景

进入抽象任务(如真实性评估)的心态并不自然;英语教师需要 20 个任务来校准他们的评估环境,而 Mechanical Turk 工人通常没有“定向时间”,降低了他们的输入质量。

游戏系统

该报告声称,Mechanical Turk 工人在单个任务上花费的总时间被同时接受多个任务并在浏览器的不同标签页中运行任务的工人所膨胀,而不是专注于单个任务的记录时间。

国家来源很重要

Mechanical Turk 的默认设置不根据国家过滤工人,该报告指出前人的工作,指出 Mechanical Turk 工人使用 VPN 来规避地理限制,使非英语母语者可以冒充英语母语者(在一个将工人母语与 IP 地理位置等同的系统中)。

因此,研究人员在 Mechanical Turk 上重新运行了评估测试,限制潜在参与者为非英语国家的工人,发现“非英语国家的工人评估连贯性、相关性和语法…低于英语国家的工人”。

该报告得出结论:

‘应该尽可能使用专家评估者,如语言学家或语言教师,因为他们已经接受过评估书面文本的训练,而且这并不贵…’

 

2021 年 9 月 16 日发布2021 年 12 月 18 日更新:添加标签

机器学习作家,人类图像合成领域专家。曾任 Metaphysic.ai 研究内容负责人。
个人网站: martinanderson.ai
联系: [email protected]
Twitter:@manders_ai