Anderson 视角

谷歌研究识别出超大规模人工智能方法中的瓶颈

mm

谷歌研究的一篇新论文表明,目前对非常大规模数据集的趋势可能对开发有效的人工智能系统有害。事实上,研究表明,经过较少准确的数据集(即技术上“较差”的数据集)训练的机器学习产品可能更好。

如果研究人员获得的原理是有效的,那么这意味着“超大规模”数据集(如最近发布的LAION-400M,包含400百万个文本/图像对)和GPT-3神经语言引擎背后的数据(包含175亿个参数)可能会受到传统和流行的机器学习架构和方法中的某种“热力学极限”的影响,即大量数据会使下游应用程序“饱和”,从而无法以有用的方式概括化。

研究人员还提出了重新思考超大规模数据集架构的替代方法,以解决这种不平衡。

论文指出:

‘深入研究这些现象的原因,我们发现我们观察到的饱和行为与模型层次中表示的演化方式密切相关。我们展示了一个更极端的场景,其中上游和下游的性能相互矛盾。也就是说,要实现更好的下游性能,我们需要损害上游的准确性。’

该研究题为探索大规模预训练的极限,由四位谷歌研究人员撰写。

调查“饱和”

作者挑战了机器学习与数据关系在超大规模数据时代的普遍假设:扩大模型和数据规模显著提高性能(这种观点自GPT-3发布以来已被固化);并且这种提高的性能以线性(即理想)的方式传递到下游任务,因此最终发布到市场的设备算法(源自巨大的数据集和未经提炼的训练模型)能够完全从完整的上游架构中受益。

‘这些观点,’研究人员指出,’表明在一个巨大的语料库上提高性能会带来回报,因为这将使我们能够几乎免费地解决许多下游任务。’

但是,该论文认为,计算资源的缺乏和随后的“经济”模型评估方法正在造成数据量与有用人工智能系统之间关系动态的虚假印象。作者将这种习惯视为“一个主要的缺点”,因为研究社区通常假设局部(积极)的结果将转化为有用的后续实现:

‘由于计算限制,未报告不同超参数值的性能。缩放图表似乎更有利,如果为每个缩放选择一个固定的超参数或由一个简单的缩放函数确定。’

研究人员进一步指出,许多缩放研究并不是针对绝对规模进行的,而是作为对当前最先进技术的增量改进来衡量,他们观察到“没有理由认为缩放会在研究范围之外保持有效”。

预训练

该论文解决了“预训练”的做法,这是一种旨在节省计算资源和减少训练大规模数据模型所需的常常令人恐惧的时间的措施。预训练快照处理数据在一个领域内的“ABC”,并在训练过程中被广泛应用于各种机器学习领域和专业领域,从自然语言处理(NLP)到深度伪造。

以前的学术研究发现,预训练可以显著提高模型的鲁棒性和准确性,但是这篇新论文表明,即使在相对较短的预训练模板中,特征的复杂性可能更有益,如果将其转移到管道中的后续过程中。

然而,这种情况不会发生,如果研究人员继续依赖于使用当前最佳实践的学习率的预训练模型,这些学习率会显著影响最终应用的准确性。从这个角度来看,作者指出“不可能找到一个预训练检查点能够在所有可能的下游任务中表现良好”。

研究

为了建立饱和效应,作者对具有不同参数数量(从1000万到100亿)的Vision Transformers、ResNets和MLP-Mixers进行了4800次实验,这些模型都在各自领域中可用的最高容量数据集上进行了训练,包括ImageNet21K和谷歌自己的JFT-300M

研究人员声称,结果表明,数据多样性应该被视为在尝试“扩大”数据、模型参数和计算时间时的附加轴。目前,人工智能管道上游部分的训练资源和研究人员的关注度过于集中,实际上是用大量的参数“轰炸”下游应用,直到达到“饱和”点,从而降低了部署算法在特征中导航、进行推理或执行转换的能力。

论文得出结论:

‘通过广泛的研究,我们建立了这样一个事实:随着我们通过扩大规模或超参数和架构选择来提高上游任务的性能,下游任务的性能表现出饱和行为。另外,我们提供了强有力的实证证据,表明与常见的叙述相反,扩大规模并不会带来一个适用于所有的解决方案。’

机器学习作家,人类图像合成领域专家。曾任 Metaphysic.ai 研究内容负责人。
个人网站: martinanderson.ai
联系: [email protected]
Twitter:@manders_ai