人工知能

マシンラーニングモデルがMLBプレーヤーのパフォーマンスを測定

Published April 8, 2022

Updated April 5, 2026

Alex McFarland

ペンシルベニア州立大学情報科学技術大学院の研究者チームは、野球選手とチームの短期的および長期的なパフォーマンスをよりよく測定できるマシンラーニングモデルを開発しました。新しい方法は、既存の統計分析方法であるセイバーメトリクスと比較して測定されました。

この研究は、「マシンラーニングを使用してMLBのゲームに影響を与えるプレーヤーを記述する」と題された論文に発表されました。

自然言語処理とコンピュータビジョンを基盤として

チームのアプローチは、最近の自然言語処理とコンピュータビジョンの進歩に依存しており、プレーヤーのゲームへの影響を測定する方法に大きな影響を与える可能性があります。

コナー・ヒートンは、IST大学院の博士課程の学生です。

ヒートンは、既存の方法は、ホームランを打つなどの離散的なイベントが発生する回数に依存しており、各アクションのコンテキストを考慮していないと述べています。

「プレーヤーが最後の打席でシングルヒットを打ったシナリオを考えてみましょう。彼はサードベースラインにボールを打ってランナーを一塁から二塁に進め、ファーストへの送球を避けたか、または左翼への深いボールを打って一塁に到達し、ダブルを狙うには十分なスピードがなかったか、どちらの場合でも『シングルヒット』と記述することは正確ですが、全貌を伝えていません。」

新しいモデル

ヒートンのモデルは、ゲームへの影響に基づいてインゲームイベントの意味を学習することに依存しており、ゲームをイベントのシーケンスとして見なし、プレーヤーがゲームに与える影響の数値表現を出力します。

「私たちは、昨日『このプレーヤーは2つのシングルと1つのダブルを打った』または『彼は4打数1安打だった』と野球について話します。私たちがゲームについて話す多くの方法は、1つの要約統計でイベントをまとめます。私たちの研究は、ゲームのより包括的な絵を描き、プレーヤーがゲームに与える影響について、より微妙で計算された説明を提供しようとしています。」

新しい方法は、NLPの順序モデリング技術を利用して、コンピューターがさまざまな単語の意味を学習できるようにします。ヒートンは、この技術を使用して、モデルに野球ゲームのイベント（バッターがシングルヒットを打つなど）の意味を教えました。ゲームはイベントのシーケンスとしてモデル化されました。

「この研究の影響は、私が『ゲームの質問』と呼ぶものの枠組みです。私たちは、それをシーケンスとして見なし、ゲームをモデル化するための計算機構を提供しています。」

モデルは、プレーヤーの短期的な影響を説明できます。また、従来の方法と組み合わせて使用すると、ゲームの勝者を59％以上の精度で予測できます。

モデルのトレーニング

研究者は、メジャーリーグベースボールスタジアムに設置されたシステムから収集されたデータを使用してモデルをトレーニングしました。これらのシステムは、各投球について、プレーヤーの位置、ベースの占有状況、投球速度などの詳細な情報を追跡します。2種類のデータが使用されました。1つは、投球ごとのデータで、投球タイプなどの情報を分析するために使用されました。もう1つは、シーズンごとのデータで、ポジションごとの情報を調査するために使用されました。

収集されたデータセット内の各投球には、ゲーム、ゲーム内の打席番号、打席内の投球番号の3つの主要な特徴がありました。このデータにより、研究者はMLBゲームを構成するイベントのシーケンスを再構築することができました。

発生したイベント、イベントの発生方法、各プレイに関与したプレーヤーを説明するために、チームは投球ごとに発生する可能性のある325のゲーム変更を特定しました。これは既存のデータと組み合わせられ、プレーヤーの記録が推定されました。

プラセンジット・ミトラは、情報科学技術教授であり、論文の共同著者です。

「この研究は、セイバーメトリクスの現状を大幅に進歩させる可能性があります。私たちの知る限り、私たちの研究は、ゲームの微妙な状態を捉え、表現し、従来の統計で数えられる個々のイベントを評価するためのコンテキストとしてこれらの情報を利用する最初の研究です。例えば、重要な瞬間やクランチイベントを自動的に理解するモデルを構築します。」