机器学习模型衡量 MLB 球员的表现

发布时间 2022 年 4 月 8 日

更新 2022 年 12 月 9 日

亚历克斯麦克法兰

宾夕法尼亚州立大学信息科学与技术学院的一组研究人员开发了一种机器学习模型，可以更好地衡量棒球运动员和球队的短期和长期表现。新方法是根据称为 Sabermetrics 的现有统计分析方法进行测量的。

这项研究发表在一篇题为“使用机器学习来描述球员如何影响美国职业棒球大联盟比赛”的论文中。

该团队的方法依赖于自然语言处理和计算机视觉领域的最新进展，它可能对衡量玩家对游戏的影响的方式产生重大影响。

Connor Heaton 是 IST 学院的博士生。

希顿说，现有的方法系列依赖于球员或球队完成离散事件的次数，例如击出本垒打。这些方法未能考虑每个操作的上下文。

“想象一下这样一个场景，一名球员在他最后一场比赛中录下了一首单曲，”希顿说。 “他本可以沿着三垒线运球，将跑垒者从一垒推进到二垒，然后将球传到一垒，或者将球击到左外野深处并轻松到达一垒，但没有速度推动一个双人。将这两种情况描述为“单一”是准确的，但并不能说明全部情况。”

希顿的模型依赖于学习游戏内事件的含义，这是基于它们对游戏及其上下文的影响。然后，该模型将游戏视为一系列事件，以输出玩家如何影响游戏的数字表示。

“我们经常用‘这位球员昨天打出两支单打和一支双打’来谈论棒球。” 或者“他以一换四，”希顿说。 “我们谈论游戏的很多方式只是用一项汇总统计数据来总结事件。 “我们的工作是试图更全面地了解游戏，并获得关于玩家如何影响游戏的更细致的计算描述。”

新方法利用 NLP 中的顺序建模技术，使计算机能够学习不同单词的含义。希顿用它来教他的模型棒球比赛中事件的含义，例如击球手击中一垒安打。然后将游戏建模为一系列事件。

“这项工作的影响是为我所说的‘审问游戏’而提出的框架，”希顿说。 “我们将其视为整个计算脚手架中的一个序列，用于对游戏进行建模。”

该模型能够描述玩家在短期内对游戏的影响，与传统方法结合，可以以超过 59% 的准确率预测游戏的获胜者。

研究人员利用之前从大联盟棒球场安装的系统收集的数据来训练他们的模型。这些系统跟踪每个投球的详细信息，包括球员位置、基地占用率和投球速度。使用了两种类型的数据。第一个是逐个音高的数据，这有助于分析音高类型等信息。第二个是逐赛季的数据，用于调查特定位置的信息。

收集的数据集中的每个投球都具有三个主要特征，即特定比赛、比赛中的击球数以及击球内的投球数。这些数据使研究人员能够重建 MLB 比赛的事件顺序。

为了描述发生的事件、事件如何发生以及每次比赛的参与者，该团队确定了投球时可能发生的 325 种可能的比赛变化。然后将其与现有数据相结合，并对玩家记录进行估算。

Prasenjit Mitra 是信息科学与技术教授，也是该论文的合著者。

“这项工作有可能显着推进军刀测量学的发展水平，”米特拉教授说。 “据我们所知，我们是第一个捕获并表示游戏的微妙状态，并利用这些信息作为背景来评估传统统计数据统计的各个事件的——例如，通过自动构建一个模型，了解关键时刻和关键事件。”

联合人工智能