人工智能
谷歌研究发现超大规模人工智能方法的瓶颈

谷歌研究中心的一篇新论文表明,当前管理大量数据集的趋势可能会对开发有效的人工智能系统产生反作用。 事实上,研究表明,更好的机器学习产品可能会通过接受培训而出现 减 准确的(即技术上“更糟糕”)的数据集。
如果研究人员获得的原理是有效的,则意味着“超大规模”数据集,例如 最近发布 LAION-400M(包含 400 亿个文本/图像对)以及 GPT-3 神经语言引擎背后的数据(包含 175 亿个参数)可能会受到传统和流行机器学习架构中的一种“热限制”的影响和方法论,大量的数据使下游应用程序“饱和”,并阻止它们以有用的方式进行泛化。
研究人员还提出了重新思考超大规模数据集架构的替代方法,以纠正这种不平衡。
该文件指出:
“深入研究以了解引起这些现象的原因,我们发现我们观察到的饱和行为与模型各层的表示演变方式密切相关。 我们展示了一个更极端的场景,其中上游和下游的性能相互矛盾。 也就是说,为了获得更好的下游性能,我们需要损害上游的准确性。
这个 根据一项研究, 标题为 探索大规模预训练的局限性,来自 Google Research 的四位作者。
调查“饱和度”
作者对超大规模数据时代机器学习>数据关系的普遍假设提出了挑战:扩展模型和数据大小可以显着提高性能(这一信念自推出以来就在 GPT-3 的炒作中得到了巩固); 并且这种改进的性能以线性(即理想的)方式“传递”到下游任务,以便最终推向市场的设备上算法,源自难以控制的庞大数据集和未经提炼的训练模型,完全受益于全尺寸上游架构的见解。
“这些观点” 研究人员指出 “表明花费计算和研究精力来提高一个大型语料库的性能将会得到回报,因为这将使我们能够几乎免费地解决许多下游任务。”
但该论文认为,计算资源的缺乏和随后的“经济”模型评估方法正在导致人们对数据量和有用的人工智能系统之间的动态关系产生错误印象。 作者将这种习惯视为“一个主要缺点”,因为研究界通常认为局部(积极)结果将转化为有用的后续实现:
“[由于]由于计算限制,未报告不同超参数值选择的性能。 如果为每个尺度选择的超参数是固定的或由简单的缩放函数确定,则缩放图似乎更有利。
研究人员进一步指出,许多标度研究不是根据绝对标度来衡量的,而是作为对最先进技术 (SotA) 的增量改进来衡量的,并观察到“先验地没有理由让标度保持在现有技术之外”。研究范围'。
预训练
该论文讨论了“预训练”的实践,这是一种旨在节省计算资源并减少从零开始训练大规模数据模型所需的可怕时间尺度的措施。预训练快照处理一个领域内的数据在训练过程中泛化的方式的“ABC”,并且通常用于各种机器学习领域和专业,从自然语言处理 (NLP) 到深度伪造。
以往的学术研究有 发现 预训练可以显着提高模型的稳健性和准确性,但新论文表明,即使在训练相对较短的预训练模板中,如果将特征的复杂性分流到管道中的后续流程,也可能会带来更多好处。
然而,如果研究人员继续依赖使用当前学习率应用最佳实践的预训练模型,这种情况就不会发生,研究得出结论,这会显着影响工作最终应用的最终准确性。 在这方面,作者指出,“人们不能希望找到一个在所有可能的下游任务上都表现良好的预训练检查点”。
研究
为了确定饱和效应,作者对 Vision Transformers、ResNet 和 MLP-Mixers 进行了 4800 次实验,每个实验都有不同数量的参数,从 10 万到 10 亿个,所有实验都在各自领域可用的最大容量数据集上进行训练,包括 ImageNet21K 和谷歌自己的 JFT-300M.
该论文声称,结果表明 数据多样性 当尝试“扩展”数据、模型参数和计算时间时,应将其视为附加轴。 就目前而言,训练资源(和研究人员的注意力)高度集中在人工智能管道的上游部分,有效地使下游应用程序遭受大量参数的冲击,直至达到“饱和”点,从而降低了已部署算法的导航能力通过特征并执行推理或效果转换。
论文的结论是:
“通过广泛的研究,我们发现,当我们通过扩展或超参数和架构选择来提高上游任务的性能时,下游任务的性能表现出饱和行为。 此外,我们提供了强有力的经验证据表明,与普遍的说法相反,扩展并不会带来一种万能的解决方案。