Anderson 视角

安德鲁·恩格批评机器学习中过度拟合的文化

mm
Andrew Ng overfitting

安德鲁·恩格(Andrew Ng)是过去十年中机器学习领域最具影响力的发言人之一,他目前正在表达对该领域过度强调模型架构创新而忽视数据的担忧,特别是允许“过度拟合”的结果被描述为普遍解决方案或进步的程度。

这些是对当前机器学习文化的严厉批评,来自该领域最高权威之一,并对一个被人们担心会经历人工智能开发中第三次商业信心崩溃的领域的信心产生了影响。

恩格是斯坦福大学的教授,也是deeplearning.ai的创始人之一,他在三月份在该组织的网站上发表了一篇文章,概括了他最近的演讲,提出了两个核心建议:

首先,研究社区应该停止抱怨数据清理代表了机器学习中80%的挑战,而是开始开发强大的MLOps方法和实践。

其次,应该远离通过过度拟合数据到机器学习模型来获得“容易的胜利”,而是开发出能够在广泛的数据环境中表现良好的、广泛适用的和高显著性的特征——这是一个更加棘手的挑战。

接受数据架构和策划的挑战

恩格写道:“我的观点是,如果80%的工作是数据准备,那么确保数据质量就是机器学习团队的重要工作。”

他继续说:

“与其依靠工程师偶然发现改进数据集的最佳方法,我希望我们可以开发MLOps工具来帮助构建AI系统,包括构建高质量数据集,更加可重复和系统化。”

“MLOps是一个新兴领域,不同的人对其有不同的定义。但我认为MLOps团队和工具的最重要的组织原则应该是确保项目的所有阶段都有数据的连贯和高质量的流动。这将帮助许多项目更加顺利地进行。”

在四月底的一次Zoom直播问答会上,恩格讨论了机器学习分析系统在放射学中的适用性不足:

“事实证明,当我们从斯坦福医院收集数据,然后在同一医院训练和测试时,我们确实可以发表论文,证明算法在发现某些条件方面与人类放射科医生相当。”

“但是当你把同样的模型,同样的AI系统,带到街上的一家老医院,使用一台老机器,技术人员使用略有不同的成像协议时,数据会发生漂移,导致AI系统的性能显著下降。相比之下,任何人类放射科医生都可以走到街上那家老医院并正常工作。”

欠拟合并不是解决方案

过度拟合发生在机器学习模型被专门设计为适应特定数据集(或数据格式)的怪癖时。这可能涉及指定会产生该数据集良好结果的权重,但不会在其他数据上“泛化”。

在许多情况下,这样的参数是基于训练集的“非数据”方面定义的,例如收集信息的特定分辨率,或其他不保证在其他数据集上重现的特征。

虽然很希望能通过盲目地扩大数据架构或模型设计的范围来解决过度拟合的问题,但实际上需要的是在广泛的数据环境中表现良好的、广泛适用的和高显著性的特征——这是一个更加棘手的挑战。

一般来说,这种“欠拟合”只会导致恩格最近概述的问题,即机器学习模型在未见数据上失败。不過,在这种情况下,模型失败的原因不是因为数据或数据格式与过度拟合的原始训练集不同,而是因为模型太灵活而不是太脆弱。

2020年底,一篇名为《欠拟合对现代机器学习的可信度带来挑战》的论文,对这种做法提出了尖锐的批评,并列出了来自谷歌和MIT等机构的40多名机器学习研究人员和科学家的名字。

这篇论文批评了“捷径学习”,并观察到欠拟合模型如何根据模型训练开始的随机种子点而走向歧途。贡献者们指出:

“我们已经看到欠拟合在实际的机器学习流水线中无处不在,跨越了许多领域。事实上,正是由于欠拟合,决定的重要方面是由任意选择决定的,例如用于参数初始化的随机种子。”

改变文化的经济影响

尽管恩格具有学术背景,但他并不是一个空泛的学者,他在谷歌大脑和Coursera、百度的大数据和AI首席科学家以及Landing AI的创始人等方面都有深厚的行业经验,后者管理着该领域1750万美元的新创业投资。

当他说“所有的AI,不仅仅是医疗保健,都存在从概念验证到生产的差距”时,这是对一个领域的警钟,该领域的当前炒作和斑斑点点的历史使其日益被视为一个不确定的长期商业投资,困扰着定义和范围的问题。

尽管如此,在现场运行良好但在其他环境中失败的专有机器学习系统代表了可能回报行业投资的市场份额。将“过度拟合问题”呈现为一种职业危险,提供了一种不诚实的方式来货币化对开源研究的企业投资,并产生(有效地)专有系统,其中竞争对手的复制是可能的,但有问题的。

这种方法是否能在长期内奏效取决于机器学习中真正的突破是否继续需要日益增长的投资,以及是否所有有生产力的计划最终都会在某种程度上迁移到FAANG,因为托管和运营所需的资源是巨大的,oach是否会在长期内奏效取决于机器学习中真正的突破是否继续需要日益增长的投资,以及是否所有有生产力的计划最终都会在某种程度上迁移到FAANG,因为托管和运营所需的资源是巨大的。

机器学习作家,人类图像合成领域专家。曾任 Metaphysic.ai 研究内容负责人。
个人网站: martinanderson.ai
联系: [email protected]
Twitter:@manders_ai