人工智能

韧性 > 准确性：为什么“模型韧性”应该成为模型运营的真正指标

发布于 2020年10月12日

更新于 2026年5月25日

作者

Ingo Mierswa, PhD

作者：Ingo Mierswa，RapidMiner 的创始人、总裁和首席数据科学家。

数据科学在过去几年中取得了巨大的进步，许多组织使用高级分析或机器学习模型来深入了解其过程和预测未来可能的结果。然而，对于其他“科学”来说，项目是否会成功并不是很明显，据报道，高达 87% 的数据科学项目永远不会投入生产。虽然不能期望 100% 的成功率，但数据科学项目中存在一些模式，这些模式导致了比该领域应接受的更高的成功率。这些问题模式似乎独立于任何特定的行业或用例，这表明数据科学中存在一个需要解决的普遍问题。

衡量机器学习的成功

创建机器学习（ML）模型的数据科学家依赖于明确定义的数学标准来衡量这些模型的性能。应用哪些标准主要取决于模型类型。假设一个模型应该预测新情况的类别或类别 – 例如，客户是否会流失。这种情况下，数据科学家会使用准确率（模型正确的频率）或精度（我们预测流失的客户实际流失的频率）等指标。

数据科学家需要这样的客观标准，因为他们的工作是优化这些评估标准以产生最佳模型。事实上，除了准备数据以便于建模外，构建和调整这些模型是数据科学家花费时间的主要部分。

这有一个缺点，即数据科学家实际上并没有关注将这些模型投入生产，这对多个原因来说是一个问题。首先，不能产生成功结果的模型不能为部署它们的组织产生商业影响。其次，由于这些组织已经花费了时间和金钱来开发、训练和投入生产的模型，但这些模型在运行“真实世界”数据时没有产生成功的结果，因此他们更有可能认为机器学习和其他数据科学工具对他们的组织是无用的，并且不太可能继续进行未来的数据科学计划。

事实是，数据科学家只是喜欢调整模型，并且花费了大量时间在此。但是，没有商业影响，这些时间的花费并不明智，这在今天的世界中尤其令人痛苦，因为数据科学家的资源非常稀缺。

Netflix 奖和生产失败

我们已经看到这种现象，即过度投资于模型构建而不是模型的运营化，这种现象在近年来已经发生。 Netflix 奖是一个开放的竞赛，目的是找到最好的协同过滤算法来预测用户对电影的评分。如果你给一部新电影一个高评分，你可能会喜欢这部电影 – 因此，使用这种评分系统，Netflix 会向你推荐某些标题，如果你喜欢推荐的内容，你可能会更长时间地留在 Netflix 作为客户。该奖项的奖金是 100 万美元，颁发给能够将 Netflix 自己的算法提高至少 10% 的团队。

该挑战于 2006 年开始，随后的三年里，全球 40,000 多个数据科学团队的贡献导致了标题推荐成功率超过 10% 的显著改进。然而，获奖团队的模型从未被投入生产。Netflix 表示“准确率的提高似乎并不足以证明将这些模型投入生产所需的努力。”

为什么最优并不总是最优

模型准确率和其他数据科学标准长期以来一直被用作衡量模型成功的指标，然后将模型投入生产。如我们所见，许多模型甚至没有到这一阶段 – 这是一种资源的浪费，无论是时间还是精力。

但是，这种过度投资于模型调整的文化还有更多的问题。首先，模型可能会无意中过度拟合测试数据，从而导致模型在生产中表现不佳，甚至可能造成危害。这是由于两个原因：

测试误差和生产误差之间存在已知的差异
商业影响和数据科学性能标准通常相关，但“最优”模型并不总是能带来最大的影响

上述第一个要点也称为“过度拟合测试集”。这是数据科学竞赛的参与者（尤其是 Kaggle 的参与者）中一个众所周知的现象。对于这些竞赛，可以看到测试集和私有排行榜之间的更强版本的这种现象。事实上，参与者可以在不阅读数据的情况下赢得 Kaggle 竞赛的公共排行榜。同样，私有排行榜和整体竞赛的获胜者可能没有产生一个可以在任何其他数据集上保持其性能的模型，而不是仅仅是评估它的数据集。

准确率并不等同于商业影响

我们已经接受了这种做法太久了，这种做法导致模型适应测试数据集。因此，看起来最好的模型实际上是中等的：

预测准确率等指标通常不等同于商业影响
准确率提高 1% 不能转化为 1% 更好的商业结果
存在低性能模型在商业影响方面优于其他模型的情况
还需要考虑其他因素，例如维护、评分速度或对随时间变化的鲁棒性（称为“韧性”）

最后一点尤为重要。最好的模型不仅会赢得比赛或在数据科学实验室中表现良好，还会在生产中保持良好的表现，并在各种测试集上表现良好。我们称这些模型为具有韧性的模型。

漂移和韧性的重要性

所有模型都会随时间而恶化。唯一的问题是恶化的速度有多快，以及模型在变化的情况下仍能保持多好的性能。模型恶化的原因是世界不是静态的。因此，应用于模型的数据也会随时间而变化。如果这些变化发生得很慢，我们称之为“概念漂移”。如果变化发生得很快，我们称之为“概念转变”。例如，客户可能会随着时间的推移而改变其消费行为，受到趋势和/或营销的影响。倾向模型可能在某个时候不再起作用。这些变化可以在某些情况下加速。例如，COVID-19 已经推动了对某些物品（如卫生纸和消毒剂）的销售 – 这可能会使此类模型完全脱轨。

具有韧性的模型可能不是基于准确率或精度等指标的最佳模型，但它可以在更广泛的数据集上表现良好。因此，它也可以在更长的时间内保持良好的表现，并且更有可能产生持续的商业影响。

线性和其他类型的简单模型通常更具韧性，因为它们不容易过度拟合特定的测试集或时间点。更强大的模型可以并且应该用作“挑战者”来挑战简单模型，从而使数据科学家能够看到它是否也能随着时间的推移而保持良好的表现。但是，这应该在建模旅程的末端，而不是开始时进行。

虽然数据科学领域尚未引入正式的韧性度量指标（KPI），但数据科学家可以通过以下几种方式来评估其模型的韧性：

交叉验证运行中较小的标准偏差意味着模型性能较少取决于不同测试集的具体情况
即使数据科学家不执行完整的交叉验证，他们也可以使用两个不同的数据集进行测试和验证。测试数据集和验证数据集之间的误差率差异较小，表明韧性更高
如果模型在生产中得到适当的监控，误差率可以随时间推移。误差率随时间的稳定性是模型韧性的良好指标
如果模型监控解决方案考虑到漂移，数据科学家还应关注模型如何受到输入漂移的影响

改变数据科学的文化

在模型部署到运营阶段后，仍然存在对模型准确率的威胁。上述关于模型韧性的最后两点已经需要在生产中适当监控模型。作为数据科学领域文化变化的起点，公司最好投资于适当的模型监控，并开始让数据科学家对模型投入生产后缺乏性能负责。这将立即改变文化，从模型构建文化转变为价值创造和可持续文化。

正如最近的世界事件所展示的，世界变化迅速。现在比以往任何时候都更需要构建具有韧性的模型 – 不仅仅是准确的模型 – 以便在时间的推移中捕捉有意义的商业影响。例如，Kaggle 正在举办一个挑战，以动员世界各地的数据科学家帮助构建模型解决方案，以用于全球抗击 COVID-19 的斗争。我预计在此挑战中产生的最成功的模型将是最具韧性的模型，而不是最准确的模型，因为我们已经看到 COVID-19 数据可以在一天内发生变化。

数据科学应该是关于寻找真相，而不是产生“最佳”模型。通过将韧性置于准确率之上，数据科学家将能够为我们的组织提供更多的商业影响，并帮助积极地塑造未来。

Ingo Mierswa, PhD

Ingo Mierswa 是一位自从在德国多特蒙德工业大学（TU Dortmund University）的人工智能部门开始开发 RapidMiner 以来就担任数据科学家的行业资深专家。作为科学家，Mierswa 撰写了许多关于预测分析和大数据的获奖出版物。作为企业家，Mierswa 是 RapidMiner 的创始人，他负责战略创新，并处理所有与 RapidMiner 技术相关的宏大问题。在他的领导下，RapidMiner 在前七年每年增长了 300%。2012 年，他率领实施了开拓国际市场的战略，在美国、英国和匈牙利开设了办事处。在两轮融资、收购 Radoop 以及支持将 RapidMiner 定位在 Gartner 和 Forrester 等领先分析师公司之后，Ingo 为将世界上最好的团队带到 RapidMiner 而感到自豪。