Intelligence artificielle

Modèle d’apprentissage automatique pour mesurer les performances des joueurs de baseball de la MLB

Publié le 8 avril 2022

Mis à jour le 24 mai 2026

Par

Alex McFarland

Une équipe de chercheurs de la faculté des sciences et de la technologie de l’information de l’Université d’État de Pennsylvanie a développé un modèle d’apprentissage automatique capable de mieux mesurer les performances à court et à long terme des joueurs et des équipes de baseball. La nouvelle méthode a été comparée aux méthodes d’analyse statistique existantes appelées sabermetrics.

La recherche a été présentée dans un article intitulé « Utilisation de l’apprentissage automatique pour décrire comment les joueurs influencent le jeu dans la MLB ».

Établir sur le NLP et la vision par ordinateur

L’approche de l’équipe reposait sur les progrès récents en traitement automatique des langues et en vision par ordinateur, et elle pourrait avoir de grandes implications pour la façon dont l’impact d’un joueur sur le jeu est mesuré.

Connor Heaton est un candidat au doctorat à la faculté des sciences et de la technologie de l’information.

Heaton affirme que les méthodes existantes reposent sur le nombre de fois qu’un joueur ou une équipe réalise un événement discret, comme frapper un coup de circuit. Ces méthodes ne tiennent pas compte du contexte de chaque action.

« Pensez à un scénario dans lequel un joueur a enregistré un simple lors de son dernier passage au bâton », a déclaré Heaton. « Il pourrait avoir frappé un rouleau le long de la ligne de troisième base, faisant avancer un coureur de la première à la deuxième base et battant le lancer au premier but, ou avoir frappé une balle dans le champ gauche profond et atteint le premier but confortablement, mais n’avait pas la vitesse pour viser un double. Décrire les deux situations comme aboutissant à « un simple » est exact, mais ne raconte pas toute l’histoire. »

Le nouveau modèle

Le modèle de Heaton repose sur l’apprentissage de la signification des événements dans le jeu, qui est basé sur l’impact qu’ils ont sur le jeu et leur contexte. Le modèle considère ensuite le jeu comme une séquence d’événements pour produire des représentations numériques de la façon dont les joueurs influencent le jeu.

« Nous parlons souvent du baseball en termes de « ce joueur a eu deux simples et un double hier » ou « il est allé un sur quatre », » a déclaré Heaton. « Beaucoup des façons dont nous parlons du jeu résument les événements avec une seule statistique de résumé. Notre travail tente de prendre une image plus globale du jeu et d’obtenir une description plus nuancée et computationnelle de la façon dont les joueurs influencent le jeu. »

La nouvelle méthode utilise des techniques de modélisation séquentielle en traitement automatique des langues pour permettre aux ordinateurs d’apprendre le sens de différents mots. Heaton a utilisé cela pour enseigner à son modèle la signification des événements dans le jeu de baseball, tels qu’un frappeur frappant un simple. Le jeu a ensuite été modélisé comme une séquence d’événements.

« L’impact de ce travail est le cadre que nous proposons pour ce que j’aime appeler « interroger le jeu », » a déclaré Heaton. « Nous le considérons comme une séquence dans toute cette structure computationnelle pour modéliser un jeu. »

Le modèle est capable de décrire l’influence d’un joueur sur le jeu à court terme, et lorsqu’il est combiné avec des méthodes traditionnelles, il peut prédire le vainqueur d’un jeu avec une précision supérieure à 59 %.

Formation du modèle

Les chercheurs ont formé leur modèle en utilisant des données précédemment collectées à partir de systèmes installés dans les stades de baseball de la ligue majeure. Ces systèmes suivent des informations détaillées pour chaque lancer, y compris la position des joueurs, l’occupation des buts et la vitesse du lancer. Deux types de données ont été utilisés. Le premier était des données de lancer par lancer, qui ont aidé à analyser des informations telles que le type de lancer. Le second était des données de saison en saison, utilisées pour étudier des informations spécifiques à la position.

Chaque lancer dans l’ensemble de données collectées avait trois fonctionnalités majeures, qui étaient le jeu spécifique, le numéro de passage au bâton dans le jeu et le numéro de lancer dans le passage au bâton. Ces données ont permis aux chercheurs de reconstruire la séquence d’événements qui constituent un jeu de la MLB.

Pour décrire les événements qui se sont produits, la façon dont ils se sont produits et qui était impliqué dans chaque jeu, l’équipe a identifié 325 changements de jeu possibles qui pourraient survenir lorsqu’un lancer est effectué. Cela a ensuite été combiné avec des données existantes, et les dossiers des joueurs ont été imputés.

Prasenjit Mitra est professeur de sciences et de technologie de l’information, ainsi que co-auteur de l’article.

« Ce travail a le potentiel de faire progresser considérablement l’état de l’art en sabermetrics », a déclaré le professeur Mitra. « À notre connaissance, nous sommes les premiers à capturer et à représenter un état nuancé du jeu et à utiliser ces informations comme contexte pour évaluer les événements individuels qui sont comptés par les statistiques traditionnelles – par exemple, en construisant automatiquement un modèle qui comprend les moments clés et les événements à suspense. »

Alex McFarland

Alex McFarland est un journaliste et écrivain en intelligence artificielle qui explore les derniers développements en intelligence artificielle. Il a collaboré avec de nombreuses startups et publications en intelligence artificielle dans le monde entier.

Unite.AI

Modèle d’apprentissage automatique pour mesurer les performances des joueurs de baseball de la MLB

Établir sur le NLP et la vision par ordinateur

Le nouveau modèle

Formation du modèle

You may like