Angle d’Anderson
Utiliser l’IA pour prédire un film à succès

Bien que le cinéma et la télévision soient souvent considérés comme des industries créatives et ouvertes, elles ont longtemps été averses au risque. Les coûts de production élevés (qui pourraient bientôt perdre l’avantage de la réduction des coûts des lieux de tournage à l’étranger, du moins pour les projets américains) et un paysage de production fragmenté rendent difficile pour les entreprises indépendantes d’absorber une perte significative.
Par conséquent, au cours de la dernière décennie, l’industrie a pris un intérêt croissant pour savoir si l’apprentissage automatique peut détecter des tendances ou des modèles dans la façon dont les publics réagissent aux projets de films et de télévision proposés.
Les principales sources de données restent le système Nielsen (qui offre une échelle, bien que ses racines se trouvent dans la télévision et la publicité) et des méthodes basées sur des échantillons telles que les groupes de discussion, qui échangent la portée pour des démographies ciblées. Cette dernière catégorie inclut également les commentaires des cartes de score des avant-premières de films gratuits – cependant, à ce stade, la majeure partie du budget de production est déjà dépensée.
La théorie du « grand succès »
Initialement, les systèmes de ML ont utilisé des méthodes d’analyse traditionnelles telles que la régression linéaire, K-Nearest Neighbors, Stochastic Gradient Descent, Decision Tree et Forêts, et Neural Networks, généralement dans diverses combinaisons plus proches du style d’analyse statistique pré-AI, telle qu’une initiative de 2019 de l’Université de Floride centrale pour prédire les émissions de télévision réussies en fonction de combinaisons d’acteurs et d’écrivains (entre autres facteurs) :

Une étude de 2018 a évalué la performance des épisodes en fonction de combinaisons de personnages et/ou d’écrivain (la plupart des épisodes ont été écrits par plus d’une personne). Source: https://arxiv.org/pdf/1910.12589
Le travail le plus pertinent, du moins celui qui est déployé dans la nature (bien que souvent critiqué) se trouve dans le domaine des systèmes de recommandation :

Un pipeline de recommandation de vidéo typique. Les vidéos du catalogue sont indexées à l’aide de fonctionnalités qui peuvent être annotées manuellement ou extraites automatiquement. Les recommandations sont générées en deux étapes en sélectionnant d’abord des vidéos candidates, puis en les classant en fonction d’un profil d’utilisateur déduit des préférences de visualisation. Source: https://www.frontiersin.org/journals/big-data/articles/10.3389/fdata.2023.1281614/full
Cependant, ces types d’approches analysent des projets qui sont déjà réussis. Dans le cas de nouveaux spectacles ou de films, il n’est pas clair quel type de vérité fondamentale serait le plus applicable – pas moins parce que les changements dans le goût du public, combinés avec les améliorations et les augmentations des sources de données, signifient que des décennies de données cohérentes ne sont généralement pas disponibles.
Ceci est un exemple du problème de démarrage à froid, où les systèmes de recommandation doivent évaluer les candidats sans aucune interaction de données antérieure. Dans de tels cas, le filtrage collaboratif traditionnel se brise, car il repose sur des modèles de comportement des utilisateurs (tels que la visualisation, la notation ou le partage) pour générer des prédictions. Le problème est que dans le cas de la plupart des nouveaux films ou émissions, il n’y a pas encore suffisamment de rétroaction du public pour soutenir ces méthodes.
Comcast prédit
Un nouveau document de Comcast Technology AI, en association avec l’Université George Washington, propose une solution à ce problème en faisant appel à un modèle de langage avec des métadonnées structurées sur des films non encore sortis.
Les entrées incluent la distribution, le genre, la synthèse, la notation de contenu, l’humeur et les récompenses, avec le modèle qui retourne une liste classée de futurs succès potentiels.
Les auteurs utilisent la sortie du modèle comme un substitut à l’intérêt du public lorsque aucune donnée d’engagement n’est disponible, espérant éviter les préjugés précoces en faveur des titres déjà bien connus.
Le document très court (trois pages) document, intitulé Prédire les succès de film avant qu’ils n’arrivent avec les LLM, provient de six chercheurs de Comcast Technology AI et d’un chercheur de GWU, et indique :
‘Nos résultats montrent que les LLM, lorsqu’ils utilisent des métadonnées de film, peuvent significativement surpasser les références. Cette approche pourrait servir de système d’assistance pour de multiples cas d’utilisation, permettant la notation automatique de grands volumes de nouveau contenu publié quotidiennement et hebdomadairement.
‘En fournissant des informations précoces avant que les équipes éditoriales ou les algorithmes n’aient accumulé suffisamment de données d’interaction, les LLM peuvent rationaliser le processus d’examen du contenu.
‘Avec les améliorations continues de l’efficacité des LLM et l’émergence des agents de recommandation, les connaissances issues de ce travail sont précieuses et adaptables à un large éventail de domaines.’
Si l’approche se révèle robuste, elle pourrait réduire la dépendance de l’industrie à l’égard des métriques rétrospectives et des titres fortement promus en introduisant une méthode scalable pour signaler le contenu prometteur avant sa sortie. Ainsi, plutôt que d’attendre que le comportement des utilisateurs signale la demande, les équipes éditoriales pourraient recevoir des prévisions précoces et des métadonnées de l’intérêt du public, répartissant potentiellement l’exposition sur un plus large éventail de nouvelles sorties.
Méthode et données
Les auteurs décrivent un flux de travail en quatre étapes : la construction d’un ensemble de données dédié à partir de métadonnées de films non encore sortis ; l’établissement d’un modèle de référence pour la comparaison ; l’évaluation des LLM appropriés en utilisant à la fois la raison et l’embedding basé sur la prédiction ; et l’optimisation des sorties via l’ingénierie de prompt en mode génératif, en utilisant les modèles de langage Llama 3.1 et 3.3 de Meta.
Puisque, selon les auteurs, aucune collection de données publiquement disponible n’offrait une méthode directe pour tester leur hypothèse (car la plupart des collections existantes précèdent les LLM et manquent de métadonnées détaillées), ils ont construit un ensemble de données de référence à partir de la plate-forme de divertissement Comcast, qui dessert des dizaines de millions d’utilisateurs à travers des interfaces directes et tierces.
L’ensemble de données suit les films récemment sortis et si ils sont devenus populaires par la suite, la popularité étant définie par les interactions des utilisateurs.
La collection se concentre sur les films plutôt que les séries, et les auteurs déclarent :
‘Nous nous sommes concentrés sur les films car ils sont moins influencés par les connaissances externes que les séries télévisées, améliorant la fiabilité des expériences.’
Les étiquettes ont été attribuées en analysant le temps qu’il a fallu pour qu’un titre devienne populaire dans différentes fenêtres de temps et tailles de liste. Le LLM a été incité avec des champs de métadonnées tels que le genre, la synthèse, la notation, l’époque, la distribution, l’équipe, l’humeur, les récompenses et les types de personnages.
Pour la comparaison, les auteurs ont utilisé deux références : un ordre aléatoire ; et un modèle d’incrustation populaire (PE) (que nous allons aborder sous peu).
Le projet a utilisé de grands modèles de langage comme méthode de classement principale, générant des listes ordonnées de films avec des scores de popularité prévus et des justifications accompagnatrices – et ces sorties ont été façonnées par des stratégies d’ingénierie de prompt conçues pour guider les prédictions du modèle en utilisant des métadonnées structurées.
La stratégie d’incitation a présenté le modèle comme un « assistant éditorial » chargé d’identifier quels films à venir étaient les plus susceptibles de devenir populaires, sur la base uniquement de métadonnées structurées, et ensuite de réorganiser une liste fixe de titres sans introduire de nouveaux éléments, et de retourner la sortie au format JSON.
Chaque réponse consistait en une liste classée, des scores de popularité attribués, des justifications pour les classements, et des références à tout exemple antérieur qui a influencé le résultat. Ces multiples niveaux de métadonnées étaient destinés à améliorer la compréhension contextuelle du modèle et sa capacité à anticiper les tendances du public futur.
Tests
L’expérience a suivi deux étapes principales : initialement, les auteurs ont testé plusieurs variantes de modèles pour établir une référence, impliquant l’identification de la version qui performait mieux qu’une approche d’ordre aléatoire.
Ensuite, ils ont testé les grands modèles de langage en mode génératif, en comparant leur sortie à une référence plus solide, plutôt qu’à un classement aléatoire, augmentant ainsi la difficulté de la tâche.
Cela signifiait que les modèles devaient faire mieux qu’un système qui montrait déjà une certaine capacité à prédire quels films deviendraient populaires. Par conséquent, les auteurs affirment que l’évaluation reflète mieux les conditions du monde réel, où les équipes éditoriales et les systèmes de recommandation sont rarement confrontés à un modèle et au hasard, mais à des systèmes concurrents ayant des niveaux de capacité prédictive variables.
L’avantage de l’ignorance
Une contrainte clé dans cette configuration était l’écart de temps entre la date de fin de connaissance des modèles et les dates de sortie réelles des films. Puisque les modèles de langage ont été formés sur des données qui se terminaient six à douze mois avant la sortie des films, ils n’avaient pas accès à des informations post-sortie, garantissant que les prédictions étaient basées entièrement sur des métadonnées, et non sur une réponse du public apprise.
Évaluation de la référence
Pour construire une référence, les auteurs ont généré des représentations sémantiques de métadonnées de film en utilisant trois modèles d’incrustation : BERT V4 ; Linq-Embed-Mistral 7B ; et Llama 3.3 70B, quantifié à une précision de 8 bits pour répondre aux contraintes de l’environnement expérimental.
Linq-Embed-Mistral a été sélectionné pour inclusion en raison de sa position en tête du leaderboard MTEB (Massive Text Embedding Benchmark).
Chaque modèle a produit des incrustations vectorielles de films candidats, qui ont ensuite été comparées à l’incrustation moyenne des cent titres les plus populaires des semaines précédant la sortie de chaque film.
La popularité a été déduite en utilisant la similarité cosinus entre ces incrustations, avec des scores de similarité plus élevés indiquant une attractivité prévue plus élevée. La précision de classement de chaque modèle a été évaluée en mesurant la performance par rapport à une référence d’ordre aléatoire.

Amélioration de la performance des modèles d’incrustation populaire par rapport à une référence aléatoire. Chaque modèle a été testé en utilisant quatre configurations de métadonnées : V1 inclut uniquement le genre ; V2 inclut uniquement la synthèse ; V3 combine le genre, la synthèse, la notation de contenu, les types de personnages, l’humeur et l’époque de sortie ; V4 ajoute la distribution, l’équipe et les récompenses à la configuration V3. Les résultats montrent comment les entrées de métadonnées plus riches affectent la précision de classement. Source: https://arxiv.org/pdf/2505.02693
Les résultats (ci-dessus) montrent que BERT V4 et Linq-Embed-Mistral 7B ont apporté les améliorations les plus fortes dans l’identification des trois titres les plus populaires, bien que tous deux aient légèrement sous-performé dans la prédiction du seul titre le plus populaire.
BERT a été finalement sélectionné comme modèle de référence pour la comparaison avec les LLM, car son efficacité et ses gains globaux surpassaient ses limitations.
Évaluation des LLM
Les chercheurs ont évalué la performance en utilisant deux approches de classement : pairwise et listwise. Le classement pairwise évalue si le modèle classe correctement un élément par rapport à un autre ; et le classement listwise considère la précision de la liste ordonnée complète des candidats.
Cette combinaison a permis d’évaluer non seulement si des paires de films étaient classées correctement (précision locale), mais également à quel point la liste complète de candidats reflétait l’ordre de popularité réel (précision globale).
Des modèles complets, non quantifiés, ont été utilisés pour éviter la perte de performance, garantissant une comparaison cohérente et reproductible entre les prédictions basées sur les LLM et les références basées sur les incrustations.
Métriques
Pour évaluer à quel point les modèles de langage prédirent avec précision la popularité des films, des métriques de classement et de classification ont été utilisées, avec une attention particulière pour identifier les trois titres les plus populaires.
Quatre métriques ont été appliquées : Précision@1 mesurait à quel point l’élément le plus populaire apparaissait en première position ; Réciproque du rang capturait à quel point l’élément le plus populaire se classait dans la liste prévue en prenant l’inverse de sa position ; Gain cumulatif décroissant normalisé (NDCG@k) évaluait à quel point le classement complet correspondait à la popularité réelle, avec des scores plus élevés indiquant une meilleure correspondance ; et Rappel@3 mesurait la proportion de titres vraiment populaires qui apparaissaient dans les trois premières prédictions du modèle.
Étant donné que la plupart des interactions des utilisateurs se produisent près du sommet des menus classés, l’évaluation s’est concentrée sur des valeurs plus faibles de k, pour refléter les cas d’utilisation pratiques.

Amélioration de la performance des grands modèles de langage par rapport à BERT V4, mesurée en pourcentage de gain sur les métriques de classement. Les résultats sont moyennés sur dix exécutions par combinaison de modèle et d’incitation, avec les deux meilleures valeurs mises en évidence. Les chiffres rapportés reflètent le gain moyen en pourcentage sur l’ensemble des métriques.
La performance du modèle Llama 3.1 (8B), 3.1 (405B) et 3.3 (70B) a été évaluée en mesurant les améliorations des métriques par rapport à la référence BERT V4 établie. Chaque modèle a été testé en utilisant une série d’incitations, allant de minimale à riche en informations, pour examiner l’effet du détail de l’entrée sur la qualité de la prédiction.
Les auteurs déclarent :
‘La meilleure performance est obtenue lorsque l’on utilise Llama 3.1 (405B) avec l’incitation la plus informative, suivie de Llama 3.3 (70B). Sur la base de la tendance observée, lors de l’utilisation d’une incitation complexe et longue (MD V4), un modèle de langage plus complexe conduit généralement à de meilleures performances sur diverses métriques. Cependant, cela est sensible au type d’informations ajoutées.’
La performance s’est améliorée lorsque les récompenses de la distribution ont été incluses dans l’incitation – dans ce cas, le nombre de récompenses majeures reçues par les cinq premiers acteurs de chaque film. Ces métadonnées plus riches faisaient partie de la configuration d’incitation la plus détaillée, surpassant une version plus simple qui excluait la reconnaissance de la distribution. Le bénéfice était le plus évident dans les plus grands modèles, Llama 3.1 (405B) et 3.3 (70B), qui ont tous deux montré une précision prédictive plus forte lorsqu’ils recevaient ce signal supplémentaire de prestige et de familiarité du public.
En revanche, le plus petit modèle, Llama 3.1 (8B), a montré une meilleure performance à mesure que les incitations devenaient légèrement plus détaillées, passant du genre à la synthèse, mais a décliné lorsque davantage de champs étaient ajoutés, suggérant que le modèle manquait de capacité à intégrer des incitations complexes de manière efficace, conduisant à une généralisation plus faible.
Lorsque les incitations étaient limitées au genre seul, tous les modèles sous-performaient par rapport à la référence, démontrant que des métadonnées limitées étaient insuffisantes pour soutenir des prédictions significatives.
Conclusion
Les LLM sont devenus l’enfant prodige de l’IA générative, ce qui pourrait expliquer pourquoi ils sont utilisés dans des domaines où d’autres méthodes pourraient être plus appropriées. Même ainsi, il reste encore beaucoup de choses que nous ne savons pas sur ce qu’ils peuvent faire dans différents domaines, il est donc logique de leur donner une chance.
Dans ce cas particulier, comme pour les marchés boursiers et la prévision météorologique, il n’y a qu’une limite à laquelle les données historiques peuvent servir de fondement pour les prédictions futures. Dans le cas des films et des émissions de télévision, la méthode de diffusion est maintenant une cible mobile, contrairement à la période comprise entre 1978 et 2011, où la télévision par câble, le satellite et les médias portables (VHS, DVD, etc.) représentaient une série de ruptures historiques transitoires ou évolutives.
Il n’est pas possible pour aucune méthode de prédiction de prendre en compte la mesure dans laquelle le succès ou l’échec de autres productions peut influencer la viabilité d’une propriété proposée – et pourtant, c’est souvent le cas dans l’industrie du cinéma et de la télévision, qui aime suivre une tendance.
Cependant, lorsqu’ils sont utilisés de manière réfléchie, les LLM pourraient aider à renforcer les systèmes de recommandation pendant la phase de démarrage à froid, offrant un soutien utile à travers une gamme de méthodes prédictives.
Publié pour la première fois mardi 6 mai 2025












