人工智能

研究人员发现深度学习神经网络中的高效子网络

发布于 2020年12月2日

更新于 2026年5月25日

作者

Alex McFarland

深度学习神经网络通常很大，需要大量的计算能力，但是最近的发现表明，可以通过更高效的方式来完成任务。麻省理工学院的乔纳森·弗兰克尔（Jonathan Frankle）和他的团队提出了“彩票假说”（lottery ticket hypothesis），它表明在较大的神经网络中存在更精简的子网络。这些子网络可以更高效地完成任务，需要的计算能力也更少，然而，找到这些子网络是最大的挑战之一，团队将其称为“赢得彩票”（winning lottery tickets）。

该团队在BERT中发现了这些子网络，BERT是目前最先进的自然语言处理（NLP）机器学习技术。NLP是人工智能（AI）的一个子领域，负责解析和分析人类语言，并用于诸如预测文本生成和聊天机器人等应用。

然而，BERT很大，需要超级计算能力，这对于大多数用户来说是无法接触的。随着这些子网络的发现，它可能会打开这种访问权限，允许更多用户利用该技术来开发NLP工具。

“我们正处于需要使这些模型更精简和高效的阶段，”弗兰克尔说。

根据他说，这一发展可能会“降低NLP的进入门槛”。

BERT – “令人难以置信的昂贵”

BERT对于像谷歌的搜索引擎这样的应用至关重要，并且自2018年谷歌发布以来一直受到关注。它是一种创建神经网络的方法，通过多次尝试填充空白的写作片段来训练。BERT最令人印象深刻的特点之一是其巨大的初始训练数据集。

然后，它可以通过用户为特定任务进行调整，例如客户服务聊天机器人，但同样，它需要大量的处理能力，参数可能达到10亿。

“今天的标准BERT模型——普通的——有3.4亿个参数，”弗兰克尔说。“这简直是令人难以置信的昂贵。这远远超出了你我计算能力的范围。”

根据德克萨斯大学奥斯汀分校的首席作者陈天龙（Tianlong Chen）说，像BERT这样的模型“受到巨大网络规模的困扰”，但由于这项新研究，“彩票假说似乎是一个解决方案”。

高效子网络

陈和他的团队寻找BERT中的一个较小的模型，并将发现的子网络的性能与原始BERT模型进行比较。这是在各种NLP任务中进行的测试，包括回答问题和填充句子中的空白单词。

该团队发现了一些成功的子网络，相比原始BERT模型，体积减小了40%至90%，具体百分比取决于任务。此外，他们可以在任务特定的微调之前识别它们，从而进一步降低计算成本。另一个优点是，一些为特定任务选择的子网络可以被重新用于其他任务。

“我有点惊讶这竟然有效，”弗兰克尔说。“这不是我理所当然的事情。我预计会得到一个更混乱的结果。”

根据Facebook AI研究科学家Ari Morcos说，这一发现是“令人信服的”，“这些模型变得越来越广泛。因此，了解彩票假说是否成立至关重要。”

Morcos还说，如果这些子网络可以使用大大减少的计算能力运行，那么这将“非常有影响力，因为这些非常大的模型目前运行成本非常高”。

“我不知道我们还能使用这些超级计算能力走多远，”弗兰克尔补充说。“我们将不得不降低进入门槛。”

“希望这将降低成本，使其对所有人都更容易获取……对那些只有一台笔记本电脑的小公司，”他总结说。

该研究将在神经信息处理系统会议上发表。

Alex McFarland

Alex McFarland 是一名人工智能记者和作家，探索最新的人工智能发展。他曾与世界各地的众多人工智能初创公司和出版物合作。

Unite.AI

研究人员发现深度学习神经网络中的高效子网络

BERT – “令人难以置信的昂贵”

高效子网络

You may like