存根 弹性 > 准确性:为什么“模型弹性”应该成为模型可操作性的真正指标 - Unite.AI
关注我们.

人工智能

弹性 > 准确性:为什么“模型弹性”应该是模型可操作性的真正指标

mm
更新 on

英戈·米尔斯瓦,创始人、总裁兼首席数据科学家 RapidMiner.

数据科学在过去几年中取得了一些巨大进步,许多组织正在使用高级分析或机器学习模型来深入了解流程,在某些情况下甚至预测未来可能的结果。对于其他“科学”,项目是否成功往往并不清楚,有报道称 多达 87% 的数据科学项目从未投入生产。 虽然不能期望 100% 的成功率,但数据科学项目中存在一些模式,导致成功率高于该领域可接受的水平。 这些有问题的模式似乎独立于任何特定行业或用例而存在,这表明数据科学中存在一个必须解决的普遍问题。

衡量机器学习的成功

创建机器学习 (ML) 模型的数据科学家依靠明确定义的数学标准来衡量此类模型的性能。 应用哪一个标准主要取决于模型的类型。 让我们假设一个模型应该预测新情况的类或类别——例如,客户是否会流失。 在这种情况下,数据科学家会使用准确性(模型正确的频率)或精度(如果我们预测客户流失,客户实际流失的频率)等测量值。

数据科学家需要这样的客观标准,因为他们的部分工作是优化这些评估标准以产生最佳模型。 事实上,除了准备建模所需的数据之外,还需要构建和调整这些模型 数据科学家花费大部分时间的地方.

这样做的缺点是,数据科学家实际上并没有过多关注将这些模型投入生产,这是一个问题,原因不止一个。 首先也是最重要的是,不能产生成功结果的模型不能用于为部署它们的组织产生业务影响。 其次,由于这些组织花费了时间和金钱来开发、培训和操作模型,而这些模型在针对“现实世界”数据运行时并未成功产生结果,因此他们很可能认为 ML 和其他数据科学工具对他们的组织毫无用处并拒绝推进未来的数据科学计划。

事实是,数据科学家只是喜欢调整模型,并在这方面花费大量时间。 但如果不影响业务,这段时间就没有被明智地利用,考虑到当今世界数据科学家资源的稀缺性,这一点尤其令人痛苦。

Netflix 获奖和制作失败

近年来,我们已经看到这种过度投资于模型构建而不是模型运营的现象。 这 Netflix奖 是一场关于预测电影用户评分的最佳协同过滤算法的公开竞赛。 如果您给一部新电影一个高评价,您可能会喜欢这部电影 - 因此使用这个评级系统,Netflix 会向您推荐某些影片,如果您喜欢推荐的内容,您可能会作为 Netflix 的客户停留更长时间。 大奖为 1 万美元,颁发给能够将 Netflix 自身算法改进至少 10% 的团队。

该挑战始于 2006 年,在接下来的三年里,全球超过 40,000 个数据科学团队的贡献使标题推荐成功率显着提高了 10% 以上。 然而,获胜队的模型 从未投入使用。 Netflix 表示,“准确性的提高似乎并不能证明将这些模型投入生产所需的努力是合理的。”

为什么最优并不总是最优

在将相关模型投入生产之前,模型准确性和其他数据科学标准长期以来一直被用作衡量模型成功与否的指标。 正如我们所看到的,许多模型甚至从未达到这个阶段——这无论是在精力还是时间上都是资源的浪费。

但这种在模型调整上过度投资的文化还存在更多问题。 第一个是无意中对测试数据的过度拟合,这将导致模型在管理数据科学家看来不错,但实际上在生产中表现不佳——有时甚至会造成损害。 发生这种情况有两个原因:

  1. 测试错误与您在生产中看到的错误之间存在众所周知的差异
  2. 业务影响和数据科学绩效标准通常是相关的,但“最佳”模型并不总是能带来最大的影响

上面的第一点也称为“过度拟合测试集”。 这是一个众所周知的现象,尤其是在数据科学竞赛的参与者中,例如来自 Kaggle。 对于这些比赛,您可以在公共和私人排行榜之间看到这种现象的更强版本。 事实上,参与者可以在 Kaggle 竞赛中赢得公共排行榜,而无需 甚至读取数据。 同样,私人排行榜和整体竞赛的获胜者可能无法生成一个可以在除评估数据集之外的任何其他数据集上保持其性能的模型。

准确性不等于业务影响

长期以来,我们接受这种做法,导致模型适应测试数据集的速度缓慢。 结果,看起来最好的模型充其量也只是平庸:

  • 预测准确性等衡量标准通常并不等于业务影响
  • 准确率提高 1% 并不能转化为业务成果提高 1%
  • 在某些情况下,就业务影响而言,表现不佳的模型会优于其他模型
  • 还必须考虑其他因素,例如维护、评分速度或针对随时间变化的鲁棒性(称为“弹性”)。

最后一点尤为重要。 最好的模型不仅会赢得比赛或在数据科学实验室中看起来不错,而且会在生产中保持良好状态并在各种测试集上表现良好。 这些模型就是我们所说的弹性模型。

漂移和复原力的重要性

所有模型都会随着时间的推移而恶化。 唯一的问题是这种情况发生的速度有多快,以及模型在变化的环境下仍然表现如何。 这种恶化的原因是世界不是静止的。 因此,应用模型的数据也会随着时间而变化。 如果这些变化发生得很慢,我们称之为“概念漂移”。 如果变化突然发生,我们称之为“概念转变”。 例如,受趋势和/或营销的影响,客户可能会随着时间的推移慢慢改变他们的消费行为。 倾向模型在某个时刻可能不再起作用。 在某些情况下,这些变化可能会大大加速。 例如,新冠肺炎 (COVID-19) 推动了卫生纸和消毒剂等物品的销售——特定产品的意外急剧增长可能会让这种模式完全偏离轨道。

根据准确性或精度等指标,弹性模型可能不是最佳模型,但在更广泛的数据集上表现良好。 因此,它在较长一段时间内也会表现得更好,因此能够更好地产生持续的业务影响。

线性和其他类型的简单模型通常更具弹性,因为更难以将它们过度拟合到特定的测试集或时间点。 更强大的模型可以而且应该被用作更简单模型的“挑战者”,让数据科学家看看它是否也能随着时间的推移而持续下去。 但这应该在建模过程的终点而不是开始时使用。

虽然衡量弹性的正式 KPI 尚未引入数据科学领域,但数据科学家可以通过多种方式评估其模型的弹性:

  • 交叉验证运行中较小的标准差意味着模型性能较少依赖于不同测试集的具体情况
  • 即使数据科学家没有执行完整的交叉验证,他们也可能使用两个不同的数据集进行测试和验证。 测试和验证数据集的错误率之间的差异较小表明弹性较高
  • 如果模型在生产中得到适当的监控,随着时间的推移,错误率就会显现出来。 错误率随时间的一致性是模型弹性的好兆头。
  • 如果选择的模型监控解决方案考虑了漂移,数据科学家还应该注意输入漂移对模型的影响程度。

改变数据科学文化

模型部署到操作化阶段后,模型的准确性仍然存在威胁。 上述关于模型弹性的最后两点已经需要对生产中的模型进行适当的监控。 作为数据科学文化变革的起点,公司最好投资于适当的模型监控,并开始让数据科学家对模型投入生产后的性能不足负责。 这将立即将数据科学领域的文化从模型构建文化转变为价值创造和维持文化。

正如最近的世界事件向我们展示的那样,世界变化很快。 现在,我们比以往任何时候都更需要构建有弹性的模型(而不仅仅是准确的模型),以随着时间的推移捕捉有意义的业务影响。 例如,Kaggle 正在举办一项挑战赛,激励世界各地的数据科学家帮助构建模型解决方案,用于全球抗击 COVID-19。 我预计,由于这一挑战而产生的最成功的模型将是最具弹性的,而不是最准确的,因为我们已经看到了 COVID-19 数据在一天内变化的速度有多快。

数据科学应该是寻找真相,而不是产生“最佳”模型。 通过对准确性提出更高的弹性标准,数据科学家将能够为我们的组织带来更多的业务影响,并帮助积极塑造未来。

Ingo Mierswa 自开始开发以来就是一位行业资深数据科学家 RapidMiner 德国多特蒙德工业大学人工智能部门。 科学家 Mierswa 撰写了许多有关预测分析和大数据的获奖出版物。 企业家 Mierswa 是 RapidMiner 的创始人。 他负责战略创新并处理有关 RapidMiner 技术的所有大局问题。 在他的领导下,RapidMiner 在前七年中每年增长 300%。 2012年,他带头实施国际化战略,在美国、英国和匈牙利开设了办事处。 经过两轮融资、收购 Radoop,并与 Gartner 和 Forrester 等领先分析公司一起支持 RapidMiner 的定位,Ingo 为将世界上最好的团队引入 RapidMiner 感到非常自豪。