人工智能

谷歌研究人员发现规格不足问题阻碍了许多人工智能模型的发展

发布时间 2020 年 11 月 20 日

更新 2022 年 12 月 9 日

丹尼尔尼尔森

最近，谷歌的一组研究人员发现了人工智能模型失败的一个常见原因，指出规格不足是机器学习模型在现实世界中的表现通常与测试和开发期间表现截然不同的主要原因之一。

即使模型在实验室中表现最佳，机器学习模型在现实环境中处理任务时也经常会失败。培训/发展与现实表现之间出现不匹配的原因有很多。人工智能模型在现实世界任务中失败的最常见原因之一是数据转移的概念。数据转移是指用于开发机器学习模型的数据类型与应用期间输入模型的数据之间的根本区别。举例来说，当模型的日常环境中发现低质量相机捕获的数据被输入时，基于高质量图像数据训练的计算机视觉模型将难以执行。

根据《麻省理工科技评论》谷歌一个由 40 名研究人员组成的团队发现了机器学习模型性能差异如此之大的另一个原因。这个问题是“欠规范”，这是一个统计学概念，指的是观察到的现象可能由多种原因造成，而模型并不能完全解释所有原因。该研究的负责人 Alex D'Amour 表示，许多机器学习模型都存在这个问题，他表示这种现象“随处可见”。

训练机器学习模型的典型方法是向模型输入大量数据，以便模型能够分析并从中提取相关模式。之后，模型会被输入一些它从未见过的样本，并被要求根据已学习到的特征预测这些样本的性质。一旦模型达到一定的准确率，训练通常就被认为是完成的。

谷歌研究团队表示，要确保模型能够真正推广到非训练数据，还需要做更多工作。训练机器学习模型的传统方法会产生各种各样的模型，这些模型可能都能通过测试，但这些模型之间会存在一些看似无关紧要的细微差异。模型中的不同节点会被分配不同的随机值，或者训练数据的选择或表示方式也有所不同。这些差异很小，而且通常具有随意性，如果它们对模型在训练过程中的表现没有太大影响，就很容易被忽视。然而，当所有这些细微变化的影响累积起来时，就会导致实际性能出现巨大差异。

这种规格不足是有问题的，因为这意味着，即使训练过程能够产生良好的模型，它也可能产生较差的模型，并且直到模型退出生产并进入使用时才会发现差异。

为了评估规格不足的影响，研究小组检查了许多不同的模型。每个模型都使用相同的训练过程进行训练，然后对模型进行一系列测试，以突出性能差异。在一个实例中，50 个不同版本的图像识别系统在 ImageNet 数据集上进行了训练。除了在训练开始时随机分配的神经网络值外，这些模型都是相同的。用于确定模型差异的压力测试是使用 ImageNet-C 进行的，这是原始数据集的变体，由通过对比度或亮度调整更改的图像组成。这些模型还在 ObjectNet 上进行了测试，ObjectNet 是一系列以不寻常的方向和背景呈现日常物体的图像。尽管所有 50 个模型在训练数据集上的性能大致相同，但在模型运行压力测试时性能波动很大。

研究团队发现，当他们训练和压力测试两个不同的 NLP 系统以及测试各种其他计算机视觉模型时，会出现类似的结果。在每种情况下，尽管所有模型的训练过程都是相同的，但模型彼此之间存在很大差异。

D'Amour 表示，机器学习研究人员和工程师在将模型发布到野外之前需要进行更多的压力测试。这可能很难做到，因为压力测试需要使用来自现实世界的数据来针对特定任务进行定制，而对于某些任务和上下文来说，这些数据可能很难获得。解决规格不足问题的一个潜在解决方案是一次生成多个模型，然后在一系列现实任务中测试这些模型，选择始终显示最佳结果的模型。以这种方式开发模型需要花费大量时间和资源，但这种权衡可能是值得的，特别是对于医疗环境或其他安全性是首要关注领域的人工智能模型而言。正如达穆尔所解释的通过麻省理工学院技术评论：

“我们需要更好地明确我们对模型的要求。因为通常最终发生的情况是，我们只有在模型在现实中失败后才发现这些需求。”

相关话题：模型精度模型性能神经网络训练研究测试规格不足

丹尼尔尼尔森

博主和程序员，擅长机器学习以及深度学习主题。丹尼尔希望帮助其他人利用人工智能的力量造福社会。

联合人工智能

谷歌研究人员发现规格不足问题阻碍了许多人工智能模型的发展

你可能会喜欢