Anderson 视角
使用预训练语言模型创建人工机械土耳其人

机器学习系统的开发很大程度上依赖于数据标注,其中成百上千个问题(例如《这是一张猫的图片吗?》和《这段文字是否具有攻击性?》)必须得到解决,以便开发出权威的数据集,训练AI系统。
虽然我们都在某个时候为这个过程做出了贡献,但大多数标注任务都是由人类工人在Amazon Mechanical Turk等框架中以金钱为报酬完成的,在那里,注释者完成了小型分类任务,在一项零工经济中。
如果预训练语言模型(PLM)可以自己完成一些基本的人类智能任务(HIT),那么模型开发将变得更便宜,这些任务目前正在AMT和类似平台上众包。
最近,德国和华为的研究人员提出了一种解决方案,在论文《LMTurk:少样本学习者作为众包工人》中进行了阐述。
语言模型进行少样本学习
作者建议,通常针对(人类)土耳其工人的简单任务层与少样本学习类似,在那里,自动化框架必须根据给定的少量示例来决定一个小任务。
他们因此提出,AI系统可以从最初由众包工人训练的现有PLM中有效地学习——从人到机器的核心知识已经有效地传递,而在知识相对不变或在某种程度上是经验性的情况下,自动化语言模型框架可以潜在地自己执行这些任务。
‘我们的基本想法是,将少样本学习者视为非专业工人,类似于为人类语言技术注释资源的众包工人。我们受到这样一个事实的启发:我们可以将众包工人视为一种少样本学习者。’
这意味着未来AI系统依赖的许多真理可能是由人类在几年前推导出来的,然后被视为预验证和可利用的信息,不再需要人类干预。
中档、半性能语言模型的工作
除了减少人工成本的动机外,研究人员还建议,使用“中档”PLM作为真正的机械土耳其人,为这些“也许”系统提供了有用的工作,这些系统正被GPT-3等头条、超大规模和昂贵的语言模型所掩盖,这些模型对于这些任务来说太过昂贵和过度配置。
‘我们在这篇论文中的目标是设计出更有效地使用当前少样本学习者的方法。这很重要,因为越来越多的巨型少样本学习者被训练;如何有效地使用它们是一个重要的问题。特别地,我们想要一个替代方案来部署大型模型。 ‘
‘同时,我们希望充分利用PLM的优势:它们的多功能性确保了在任务上的广泛适用性;它们在预训练中学习的语言和世界知识的巨大储备体现在少样本学习者的数据效率上,减少了数据注释中的劳动和时间消耗。’
到目前为止,作者认为,NLP中的少样本学习者一直被视为通往高级自然语言系统的可丢弃的中间阶段,这些系统需要更多的资源,并且这种工作是抽象的,没有考虑到这些系统的潜在用途。
方法
作者提出了《LMTurk》(语言模型作为机械土耳其人),在这种工作流中,来自这个自动化HIT的输入为中级NLP模型提供了标签。

LMTurk的基本概念模型。 来源:https://arxiv.org/pdf/2112.07522.pdf
这个初始版本依赖于少样本的人类标注的“金标准”数据,其中肉类土耳其工人已经为有限数量的任务注释了标签,并且这些标签已经通过直接的人类监督或共识投票得到了良好的评分。这种方案的含义是,从这个人类基础开始的分支或发展可能不需要额外的人类输入。
虽然作者建议进一步使用后期混合模型(其中人类输入将存在,但大大减少),但他们没有将LMTurk模型与人类生成的HIT工人产生的等效结果进行比较,考虑到金标准数据本身就是“人类输入”。
用于执行土耳其操作的PLM是通过P-Tuning适配的,这是一种由中国研究人员在2021年提出的方法,该方法提出了一种可训练的连续提示嵌入,以提高GPT-3风格模型在自然语言理解(NLU)任务上的性能。
![P-Tuning尝试通过纳入嵌入式伪提示来加深GPT风格模型的预测能力和对语言的概念理解。在这种情况下,开始查询是'The capital of Britain is a [x]'。来源:https://arxiv.org/pdf/2103.10385.pdf](https://www.unite.ai/wp-content/uploads/2021/12/p-tuning.jpg)
P-Tuning尝试通过纳入嵌入式伪提示来加深GPT风格模型的预测能力和对语言的概念理解。在这种情况下,开始查询是’The capital of Britain is a [x]’。来源:https://arxiv.org/pdf/2103.10385.pdf
数据和架构
LMTurk在五个数据集上进行了评估:两个来自斯坦福情感树库;AG的新闻语料库;文本蕴涵识别(RTE);和语言可接受性语料库(CoLA)。
对于其更大的模型,LMTurk使用公开可用的PLM ALBERT-XXLarge-v2(AXLV2)作为转换为自动化土耳其人的源模型。该模型具有2.23亿个参数(相比GPT-3的1750亿个参数)。作者观察到,AXLV2已经证明自己能够超越更大规模的模型,如334M BERT-Large。
对于一个更敏捷、更轻量级和更适合边缘部署的模型,该项目使用TinyBERT-General-4L-312D(TBG),该模型具有1450万个参数,性能可比拟于BERT-base(具有1.1亿个参数)。
提示启用的训练在PyTorch和HuggingFace上使用AXLV2进行,批处理步骤为100,批大小为13,学习率为5e-4,使用线性衰减。每个实验都以三个不同的随机种子开始。
结果
LMTurk项目运行多种模型对NLP的许多特定子领域,这使得研究人员的实验结果不容易简化为实证证据,证明LMTurk本身提供了一种可行的方法来重用历史上的人类起源的少样本学习场景。
然而,为了评估目的,作者将他们的方法与两项先前的工作进行比较:利用填空题进行少样本文本分类和自然语言推理,由德国研究人员Timo Schick和Hinrich Schutze完成;以及让预训练语言模型更好地进行少样本学习,由Gao、Chen和Fisch(分别来自普林斯顿和MIT)完成。

LMTurk实验的结果,研究人员报告了’可比拟’的性能。
简而言之,LMTurk为研究人员提供了一条相对有前途的研究线索,旨在将金标准的人类起源数据嵌入和固化到中等复杂度的语言模型中,在那里自动化系统取代了人类输入。
与该领域的少量先前工作一样,该概念的核心依赖于原始人类数据的不可变性,以及这样的假设:时间因素——这些因素可能对NLP开发构成重大障碍——不会在机器仅有的血统演化过程中需要进一步的人类干预。
最初发布于2022年12月30日












