Anderson 视角
为单个问题创建GPT风格的语言模型

中国的研究人员开发了一种经济的方法来创建GPT-3风格的自然语言处理系统,同时避免了训练大规模数据集所需的时间和金钱的不断增加的费用——这种趋势可能会最终将这个领域的AI技术仅限于FAANG公司和高级投资者。
提出的框架称为任务驱动语言建模(TLM)。与其训练一个巨大而复杂的模型在数十亿个单词和数千个标签和类别的巨大语料库上,TLM训练一个远小的模型,该模型实际上将查询直接纳入模型中。
实际上,为了回答一个问题,会产生一个独特的NLP算法或模型,而不是创建一个巨大而笨拙的通用语言模型,可以回答更广泛的问题。
在测试TLM时,研究人员发现新的方法可以实现与预训练语言模型(如RoBERTa-Large)和超大规模NLP系统(如OpenAI的GPT-3、Google的TRILLION参数开关变换器模型、韩国的HyperClover、AI21 Labs的Jurassic 1和Microsoft的Megatron-Turing NLG 530B)相似或更好的结果。
在八个分类数据集上的试验中,作者还发现该系统将训练FLOPs(每秒浮点运算次数)减少了两个数量级。研究人员希望TLM可以“民主化”一个变得越来越精英的领域,NLP模型太大,无法在本地安装,而是位于OpenAI和Microsoft Azure的昂贵和有限访问的API后面。
作者指出,通过将训练时间减少两个数量级,训练成本从1000个GPU一天变为8个GPU48小时。
新报告《从零开始的NLP:无需大规模预训练的简单高效框架》由清华大学的三位研究人员和中国人工智能开发公司Recurrent AI公司的一位研究人员共同撰写。
无法承受的答案
训练有效的、通用的语言模型的成本越来越被认为是NLP在文化中真正普及的潜在“热限”。
2019年,一位研究人员计算出训练XLNet模型(当时报道称其在NLP任务中优于BERT)需要61440美元,训练时间为2.5天,使用512个核心和64个设备,而GPT-3的训练成本估计为1200万美元——比其前身GPT-2贵200倍(尽管最近的重新估计表明,它现在可以以460万美元的价格在最低价的云GPU上训练)。
基于查询需求的数据子集
相反,新的提议架构旨在通过使用查询作为一种过滤器来定义大语言数据库的子集,以提供有关有限主题的答案。
作者指出:
‘TLM的动机来自两个关键想法。首先,人类通过使用世界知识的一小部分来掌握一项任务(例如,学生只需复习几章书籍中的内容,就可以为考试而努力)。’
‘我们假设对于特定任务,大型语料库中存在大量冗余。其次,在无标签数据上优化语言模型目标比在有标签数据上优化监督任务目标更为数据高效。基于这些动机,TLM使用任务数据作为查询来检索一般语料库的一小部分。然后,使用检索的数据和任务数据共同优化监督任务目标和语言模型目标。’
除了使高效的NLP模型训练变得经济以外,作者还看到了使用任务驱动NLP模型的几个优势。例如,研究人员可以享受更大的灵活性,拥有自定义的序列长度、标记化、超参数调优和数据表示策略。
测试和结果
TLM在八个分类任务中进行了测试,这些任务涵盖了四个领域:生物医学、新闻、评论和计算机科学。任务被划分为高资源和低资源类别。
研究人员开发了两个名为Corpus-BERT和Corpus-RoBERTa的训练集,后者是前者的十倍大小。实验将通用预训练语言模型BERT(来自Google)和RoBERTa(来自Facebook)与新架构进行了比较。
论文指出,尽管TLM是一种通用方法,应该比更广泛和更大规模的最先进模型具有更有限的范围和适用性,但它能够接近领域适应微调方法的性能。
作者得出结论,TLM能够实现与PLM相似或更好的结果,同时减少了所需的FLOPs,并且只需要1/16的训练语料库。在中等和大规模上,TLM似乎可以通过0.59和0.24的平均F1得分提高性能,同时将训练数据大小减少两个数量级。
‘这些结果证实TLM具有很高的准确性和比PLM更高的效率。此外,TLM在更大的规模上具有更大的优势。这表明更大的PLM可能被训练为存储不适用于特定任务的更一般的知识。’















