人工智能
研究人员发现深度学习神经网络中的高效子网络

深度学习神经网络通常很大,需要大量的计算能力,但是最近的发现表明,可以通过更高效的方式来完成任务。麻省理工学院的乔纳森·弗兰克尔(Jonathan Frankle)和他的团队提出了“彩票假说”(lottery ticket hypothesis),它表明在较大的神经网络中存在更精简的子网络。这些子网络可以更高效地完成任务,需要的计算能力也更少,然而,找到这些子网络是最大的挑战之一,团队将其称为“赢得彩票”(winning lottery tickets)。
该团队在BERT中发现了这些子网络,BERT是目前最先进的自然语言处理(NLP)机器学习技术。NLP是人工智能(AI)的一个子领域,负责解析和分析人类语言,并用于诸如预测文本生成和聊天机器人等应用。
然而,BERT很大,需要超级计算能力,这对于大多数用户来说是无法接触的。随着这些子网络的发现,它可能会打开这种访问权限,允许更多用户利用该技术来开发NLP工具。
“我们正处于需要使这些模型更精简和高效的阶段,”弗兰克尔说。
根据他说,这一发展可能会“降低NLP的进入门槛”。
BERT – “令人难以置信的昂贵”
BERT对于像谷歌的搜索引擎这样的应用至关重要,并且自2018年谷歌发布以来一直受到关注。它是一种创建神经网络的方法,通过多次尝试填充空白的写作片段来训练。BERT最令人印象深刻的特点之一是其巨大的初始训练数据集。
然后,它可以通过用户为特定任务进行调整,例如客户服务聊天机器人,但同样,它需要大量的处理能力,参数可能达到10亿。
“今天的标准BERT模型——普通的——有3.4亿个参数,”弗兰克尔说。“这简直是令人难以置信的昂贵。这远远超出了你我计算能力的范围。”
根据德克萨斯大学奥斯汀分校的首席作者陈天龙(Tianlong Chen)说,像BERT这样的模型“受到巨大网络规模的困扰”,但由于这项新研究,“彩票假说似乎是一个解决方案”。
高效子网络
陈和他的团队寻找BERT中的一个较小的模型,并将发现的子网络的性能与原始BERT模型进行比较。这是在各种NLP任务中进行的测试,包括回答问题和填充句子中的空白单词。
该团队发现了一些成功的子网络,相比原始BERT模型,体积减小了40%至90%,具体百分比取决于任务。此外,他们可以在任务特定的微调之前识别它们,从而进一步降低计算成本。另一个优点是,一些为特定任务选择的子网络可以被重新用于其他任务。
“我有点惊讶这竟然有效,”弗兰克尔说。“这不是我理所当然的事情。我预计会得到一个更混乱的结果。”
根据Facebook AI研究科学家Ari Morcos说,这一发现是“令人信服的”,“这些模型变得越来越广泛。因此,了解彩票假说是否成立至关重要。”
Morcos还说,如果这些子网络可以使用大大减少的计算能力运行,那么这将“非常有影响力,因为这些非常大的模型目前运行成本非常高”。
“我不知道我们还能使用这些超级计算能力走多远,”弗兰克尔补充说。“我们将不得不降低进入门槛。”
“希望这将降低成本,使其对所有人都更容易获取……对那些只有一台笔记本电脑的小公司,”他总结说。
该研究将在神经信息处理系统会议上发表。












