人工智能
创建人工机械土耳其人使用预训练语言模型

机器学习系统的开发很大程度上依赖于数据的标注,其中有数百甚至数千个问题(例如 这是一张猫的图片吗? 和 这段文本是否具有攻击性? )需要得到解决,以便开发出权威的数据集,用于训练 AI 系统。
虽然 我们都在某种程度上为这个过程做出贡献 ,但这些标注任务的大多数都是由人类工人在 Amazon Mechanical Turk 等框架中 为金钱而完成 的,在那里,注释者完成小型分类任务,在 按件计酬的经济 中。
如果预训练语言模型(PLM)能够自己完成一些基本的人类智能任务(HIT),那么模型开发将变得更便宜,这些任务目前正在 Amazon Mechanical Turk 和 类似的平台 上进行众包。
最近,德国和华为的研究人员提出了这一想法,在 论文 LMTurk:少数学习者作为众包工人 中。
语言模型进行少数学习
作者建议,通常针对(人类)Turk 工人的较简单任务类似于 少数学习 ,在那里,自动化框架必须根据给定的少数示例来决定一个微任务。
因此,他们提议,AI 系统可以从最初由众包工人训练的现有 PLM 中有效地学习——从人到机器的核心知识已经基本完成,在某些相对不变或经验性的知识领域,自动化语言模型框架可以潜在地自己完成这些任务。
‘我们的基本想法是,对于 NLP 任务 T,我们将少数学习者视为非专业工人,类似于为人类语言技术注释资源的众包工人。我们受到这样一个事实的启发:我们可以将众包工人视为一种少数学习者。’
这意味着,未来 AI 系统依赖的许多真理将是多年前由人类推导出来的,并被视为预先验证和可利用的信息,不再需要人类干预。
中档、半性能语言模型的工作
除了减少人类在循环中的成本的动机外,研究人员还建议,使用“中档”PLM 作为真正的机械土耳其人,为这些“也许”系统提供了有用的工作,这些系统正被吸引眼球的、超大规模和昂贵的语言模型如 GPT-3 所掩盖,后者对于这些任务来说太过昂贵和过度配置。
‘我们的目标是在本文中设计出更有效地利用当前少数学习者的方法。这很重要,因为越来越多的巨型少数学习者被训练;如何有效地使用它们是一个重要的问题。特别地,我们想要一个替代方案来部署难以部署的大型模型。’
‘同时,我们希望充分利用 PLM 的优势:它们的多功能性确保了在任务中的广泛适用性;它们在预训练中学习的语言和世界的知识,在少数学习者中表现为数据效率,减少了数据注释中的劳动和时间消耗。’
到目前为止,作者认为,NLP 中的少数学习者一直被视为通往更高级自然语言系统的道路上的可丢弃的中间阶段,这些系统更耗资源,并且这种工作是抽象的,没有考虑到这些系统的潜在用途。
方法
作者提供了 LMTurk (语言模型作为机械土耳其人),在一个工作流中,来自这个自动化 HIT 的输入为中级 NLP 模型提供标签。

LMTurk 的基本概念模型。 来源:https://arxiv.org/pdf/2112.07522.pdf
该第一版本依赖于少数样本的带有“金标准”的人类标注数据,在那里,肉类土耳其人已经注释了有限数量任务的标签,并且这些标签已经通过直接的人类监督或共识投票得到了良好的评分。这种方案的含义是,从这个人类基础开始的分支或发展可能不需要额外的人类输入。
虽然作者建议进一步使用后期混合模型(其中人类输入存在,但大大减少),但他们没有将 LMTurk 模型与来自人类生成的 HIT 工人的等效结果进行比较,考虑到金标准数据本身就是“人类输入”。
用于执行土耳其人操作的 PLM 通过 2021 年中国研究人员发布的 P-Tuning 方法进行了适应,这是一种提出可训练的连续 提示嵌入 的方法,以提高 GPT-3 风格模型在自然语言理解(NLU)任务中的性能。
![P-Tuning 通过纳入嵌入式伪提示来尝试加深 GPT 风格模型的预测能力和对语言的概念理解。在这种情况下,开始查询是“英国的首都是一个 [x]”。来源:https://arxiv.org/pdf/2103.10385.pdf](https://www.unite.ai/wp-content/uploads/2021/12/p-tuning.jpg)
P-Tuning 通过纳入嵌入式伪提示来尝试加深 GPT 风格模型的预测能力和对语言的概念理解。在这种情况下,开始查询是“英国的首都是一个 [x]”。 来源:https://arxiv.org/pdf/2103.10385.pdf
数据和架构
LMTurk 在五个数据集上进行了评估:两个来自 斯坦福情感树库 ;AG 的 新闻语料库 ;识别文本含义( RTE );和语言可接受性语料库( CoLA )。
对于其更大的模型,LMTurk 使用公开可用的 PLM ALBERT-XXLarge-v2 (AXLV2)作为转换为自动化土耳其人的源模型。该模型具有 2.23 亿个参数(相比 GPT-3 的 175 亿个参数)。作者观察到,AXLV2 已经证明自己能够超越更大规模的模型,如 334M BERT-Large 。
对于一个更敏捷、更轻量级和更适合边缘部署的模型,该项目使用 TinyBERT-General-4L-312D( TBG ),该模型具有 1450 万个参数,性能与 BERT-base(具有 1.1 亿个参数)相当。
使用 PyTorch 和 HuggingFace 对 AXLV2 进行了提示启用的训练,批次大小为 13,学习率为 5e-4,线性衰减,训练 100 个批次。每个实验都以三个不同的随机种子开始。
结果
LMTurk 项目运行多种模型对 NLP 的许多特定子领域,这使得研究人员的实验结果很难简化为确凿的证据,证明 LMTurk 提供了一种可行的方法来重用历史、人类起源的 HIT 风格的少数学习场景。
然而,为了评估目的,作者将他们的方法与两项先前的工作进行比较: 利用 Cloze 问题进行少数样本文本分类和自然语言推理 由德国研究人员 Timo Schick 和 Hinrich Schutze 完成;以及 Prompt-Based Auto 的结果,出现在 使预训练语言模型成为更好的少数学习者 由 Gao、Chen 和 Fisch(分别来自普林斯顿和 MIT)完成。

LMTurk 实验的结果,研究人员报告了“可比”的性能。
简而言之,LMTurk 为研究人员提供了一条相对有前途的研究线索,研究人员试图将金标准的人类起源数据嵌入和固化到正在发展的中等复杂度的语言模型中,在那里,自动化系统代替人类输入。
与该领域的少量先前工作一样,该中心概念依赖于原始人类数据的不可变性,以及这样一个假设:时间因素——这可能代表着 NLP 开发的重大障碍——不会需要随着机器仅限于演化而需要进一步的人类干预。
最初发布于 2022 年 12 月 30 日
