Suivez nous sur

Utiliser l'IA pour prédire un film à succès

Angle d'Anderson

Utiliser l'IA pour prédire un film à succès

mm
ChatGPT-4o et Adobe Firefly

Bien que le cinéma et la télévision soient souvent considérés comme des industries créatives et ouvertes, ils ont longtemps été réticents au risque. Les coûts de production élevés (qui peuvent bientôt perdre l'avantage compensatoire des sites étrangers moins chers, du moins pour les projets américains) et un paysage de production fragmenté font qu'il est difficile pour les entreprises indépendantes d'absorber une perte importante.

C’est pourquoi, au cours de la dernière décennie, l’industrie s’est de plus en plus intéressée à la question de savoir si l’apprentissage automatique peut détecter des tendances ou des modèles dans la façon dont le public réagit aux projets de films et de télévision proposés.

Les principales sources de donnĂ©es restent le système Nielsen (qui offre une certaine Ă©volutivitĂ©, bien que ses origines se situent dans la tĂ©lĂ©vision et la publicitĂ©) et les mĂ©thodes basĂ©es sur des Ă©chantillons, comme les groupes de discussion, qui privilĂ©gient l'Ă©chelle au profit de donnĂ©es dĂ©mographiques ciblĂ©es. Cette dernière catĂ©gorie inclut Ă©galement les retours d'expĂ©rience des avant-premières gratuites de films ; toutefois, Ă  ce stade, la majeure partie du budget d'une production est dĂ©jĂ  dĂ©pensĂ©e.

La théorie/les théories du « Big Hit »

Au départ, les systèmes ML s’appuyaient sur des méthodes d’analyse traditionnelles telles que la régression linéaire, Les voisins les plus proches, Descente de gradient stochastique, Arbre de décision et les forêts, et Les réseaux de neurones, généralement dans diverses combinaisons plus proches du style pré-IA l'analyse statistique, comme l'Université de Floride centrale de 2019 initiative visant à prévoir les émissions de télévision à succès basé sur des combinaisons d'acteurs et d'écrivains (entre autres facteurs) :

Une Ă©tude de 2018 a Ă©valuĂ© la performance des Ă©pisodes en fonction de la combinaison de personnages et/ou d'auteurs (la plupart des Ă©pisodes ont Ă©tĂ© Ă©crits par plusieurs personnes). Source : https://arxiv.org/pdf/1910.12589

Une étude de 2018 a évalué la performance des épisodes en fonction de combinaisons de personnages et/ou d’auteurs (la plupart des épisodes ont été écrits par plusieurs personnes). Source : https://arxiv.org/pdf/1910.12589

Les travaux connexes les plus pertinents, du moins ceux qui sont déployés dans la nature (bien que souvent critiqué) est dans le domaine de systèmes de recommandation:

Un exemple typique de pipeline de recommandation vidĂ©o. Les vidĂ©os du catalogue sont indexĂ©es Ă  l'aide de caractĂ©ristiques annotĂ©es manuellement ou extraites automatiquement. Les recommandations sont gĂ©nĂ©rĂ©es en deux Ă©tapes : sĂ©lection des vidĂ©os candidates, puis classement selon un profil utilisateur dĂ©duit des prĂ©fĂ©rences de visionnage. Source : https://www.frontiersin.org/journals/big-data/articles/10.3389/fdata.2023.1281614/full

Un pipeline de recommandation vidĂ©o classique. Les vidĂ©os du catalogue sont indexĂ©es Ă  l'aide de caractĂ©ristiques annotĂ©es manuellement ou extraites automatiquement. Les recommandations sont gĂ©nĂ©rĂ©es en deux Ă©tapes : sĂ©lection des vidĂ©os candidates, puis classement selon un profil utilisateur dĂ©duit des prĂ©fĂ©rences de visionnage. Source : https://www.frontiersin.org/journals/big-data/articles/10.3389/fdata.2023.1281614/full

Cependant, ces approches analysent des projets déjà couronnés de succès. Dans le cas de nouvelles séries ou de nouveaux films, il est difficile de déterminer quelle vérité fondamentale serait la plus pertinente, notamment parce que l'évolution des goûts du public, combinée à l'amélioration et à l'enrichissement des sources de données, signifie que des décennies de données cohérentes ne sont généralement pas disponibles.

Ceci est un exemple de démarrage à froid problème, où les systèmes de recommandation doivent évaluer les candidats sans aucune donnée d'interaction préalable. Dans de tels cas, les systèmes traditionnels filtrage collaboratif Elle échoue, car elle s'appuie sur les comportements des utilisateurs (tels que le visionnage, l'évaluation ou le partage) pour générer des prédictions. Le problème est que, pour la plupart des nouveaux films ou séries, les retours du public sont encore insuffisants pour étayer ces méthodes.

Comcast prédit

Un nouvel article de Comcast Technology AI, en association avec l'Université George Washington, propose une solution à ce problème en proposant un modèle de langage avec métadonnées structurées à propos de films inédits.

Les entrées comprennent ., genre, synopsis, évaluation du contenu, humeur et prix, le modèle renvoyant une liste classée des succès futurs probables.

Les auteurs utilisent les résultats du modèle comme indicateur de l'intérêt du public lorsqu'aucune donnée d'engagement n'est disponible, dans l'espoir d'éviter un biais précoce en faveur de titres déjà bien connus.

Le très court (trois pages) papier, Intitulé Prédire les succès des films avant qu'ils n'arrivent grâce aux LLM, provient de six chercheurs de Comcast Technology AI et d'un chercheur de GWU, et déclare :

Nos résultats montrent que les LLM, lorsqu'ils utilisent des métadonnées de films, peuvent nettement surpasser les références. Cette approche pourrait servir de système assisté pour de multiples cas d'utilisation, permettant l'évaluation automatique de grands volumes de nouveaux contenus publiés quotidiennement et hebdomadairement.

« En fournissant des informations précoces avant que les équipes éditoriales ou les algorithmes n'aient accumulé suffisamment de données d'interaction, les LLM peuvent rationaliser le processus de révision du contenu.

« Avec les améliorations continues de l’efficacité du LLM et l’essor des agents de recommandation, les enseignements tirés de ce travail sont précieux et adaptables à un large éventail de domaines. »

Si cette approche s'avère efficace, elle pourrait réduire la dépendance du secteur aux indicateurs rétrospectifs et aux titres fortement promus, en introduisant un moyen évolutif de signaler les contenus prometteurs avant leur sortie. Ainsi, plutôt que d'attendre que le comportement des utilisateurs signale une demande, les équipes éditoriales pourraient recevoir des prévisions précoces de l'intérêt du public, basées sur les métadonnées, et potentiellement répartir l'exposition sur un plus large éventail de nouveautés.

Méthode et données

Les auteurs décrivent un flux de travail en quatre étapes : construction d'un ensemble de données dédié à partir de inédit métadonnées de films ; l'établissement d'un modèle de base pour la comparaison ; l'évaluation de LLM appropriés en utilisant à la fois le raisonnement en langage naturel et la prédiction basée sur l'intégration ; et l'optimisation des sorties grâce à l'ingénierie rapide en mode génératif, en utilisant Meta Llama 3.1 et 3.3 modèles de langage.

Étant donné que, selon les auteurs, aucun ensemble de données accessible au public n'offrait un moyen direct de tester leur hypothèse (car la plupart des collections existantes sont antérieures aux LLM et manquent de métadonnées détaillées), ils ont construit un ensemble de données de référence à partir du divertissement Comcast. , qui dessert des dizaines de millions d'utilisateurs via des interfaces directes et tierces.

L'ensemble de données suit les films récemment sortis et leur popularité ultérieure, la popularité étant définie par les interactions des utilisateurs.

La collection se concentre sur les films plutôt que sur les séries, et les auteurs déclarent :

« Nous nous sommes concentrés sur les films car ils sont moins influencés par des connaissances externes que les séries télévisées, ce qui améliore la fiabilité des expériences. »

Les Ă©tiquettes ont Ă©tĂ© attribuĂ©es en analysant le temps nĂ©cessaire Ă  la popularitĂ© d'un titre sur diffĂ©rentes pĂ©riodes et tailles de liste. Le LLM a Ă©tĂ© alimentĂ© par des champs de mĂ©tadonnĂ©es tels que : genre, synopsis, clients, il Ă©tait, ., Ă©quipage, humeur, prix et types de caractères.

À titre de comparaison, les auteurs ont utilisé deux lignes de base : un ordre aléatoire et un modèle d’intégration populaire (PE) (sur lequel nous reviendrons sous peu).

Le projet a utilisé de grands modèles de langage comme principale méthode de classement, générant des listes ordonnées de films avec des scores de popularité prédits et des justifications d'accompagnement - et ces résultats ont été façonnés par des stratégies d'ingénierie rapides conçues pour guider les prédictions du modèle à l'aide de métadonnées structurées.

La stratégie d'incitation a présenté le modèle comme un « assistant éditorial » chargé d'identifier les films à venir les plus susceptibles de devenir populaires, en se basant uniquement sur des métadonnées structurées, puis chargé de réorganiser une liste fixe de titres. sans introduire de nouveaux éléments et renvoyer la sortie dans JSON le format.

Chaque réponse comprenait un classement, des scores de popularité attribués, des justifications de classement et des références à d'éventuels exemples antérieurs ayant influencé le résultat. Ces multiples niveaux de métadonnées visaient à améliorer la compréhension contextuelle du modèle et sa capacité à anticiper les tendances futures du public.

Tests

L'expérience a suivi deux étapes principales : dans un premier temps, les auteurs ont testé plusieurs variantes du modèle pour établir une ligne de base, impliquant l'identification de la version qui fonctionnait mieux qu'une approche d'ordre aléatoire.

Deuxièmement, ils ont testé de grands modèles de langage dans mode génératif, en comparant leur production à une base de référence plus solide, plutôt qu’à un classement aléatoire, augmentant ainsi la difficulté de la tâche.

Cela signifiait que les modèles devaient être plus performants qu'un système qui démontrait déjà une certaine capacité à prédire quels films deviendraient populaires. Par conséquent, affirment les auteurs, l'évaluation reflétait mieux les conditions réelles, où les équipes éditoriales et les systèmes de recommandation choisissent rarement entre un modèle et le hasard, mais entre des systèmes concurrents aux capacités prédictives variables.

L'avantage de l'ignorance

Une contrainte clé dans cette configuration était l'écart de temps entre les modèles. limite de connaissances et les dates de sortie réelles des films. Les modèles linguistiques ayant été entraînés sur des données datant de six à douze mois avant la sortie des films, ils n'avaient pas accès aux informations postérieures à la sortie, ce qui garantissait que les prédictions reposaient entièrement sur des métadonnées, et non sur une quelconque réaction du public.

Évaluation de base

Pour construire une base de référence, les auteurs ont généré des représentations sémantiques des métadonnées du film à l'aide de trois modèles d'intégration : BERT V4; Linq-Embed-Mistral 7B; et Llama 3.3 70B, quantifié avec une précision de 8 bits pour répondre aux contraintes de l'environnement expérimental.

Linq-Embed-Mistral a été sélectionné pour être inclus en raison de sa position de tête sur le MTEB (Masive Text Embedding Benchmark) classement.

Chaque modèle produit encastrements vectoriels des films candidats, qui ont ensuite été comparés à l'intégration moyenne des cent titres les plus populaires des semaines précédant la sortie de chaque film.

La popularité a été déduite à l'aide de similitude cosinus entre ces intégrations, les scores de similarité les plus élevés indiquant un attrait prédit plus élevé. La précision du classement de chaque modèle a été évaluée en mesurant les performances par rapport à une base de référence d'ordre aléatoire.

AmĂ©lioration des performances des modèles d'intĂ©gration populaires par rapport Ă  une base de rĂ©fĂ©rence alĂ©atoire. Chaque modèle a Ă©tĂ© testĂ© avec quatre configurations de mĂ©tadonnĂ©es : la version 1 inclut uniquement le genre ; la version 2 inclut uniquement le synopsis ; la version 3 combine le genre, le synopsis, la classification du contenu, les types de personnages, l'ambiance et la pĂ©riode de sortie ; la version 4 ajoute les acteurs, l'Ă©quipe et les rĂ©compenses Ă  la configuration 3. Les rĂ©sultats montrent l'impact de mĂ©tadonnĂ©es plus riches sur la prĂ©cision du classement. Source : https://arxiv.org/pdf/2505.02693

AmĂ©lioration des performances des modèles d'intĂ©gration populaires par rapport Ă  une base de rĂ©fĂ©rence alĂ©atoire. Chaque modèle a Ă©tĂ© testĂ© avec quatre configurations de mĂ©tadonnĂ©es : la version 1 inclut uniquement le genre ; la version 2 inclut uniquement le synopsis ; la version 3 combine le genre, le synopsis, la classification du contenu, les types de personnages, l'ambiance et la pĂ©riode de sortie ; la version 4 ajoute les acteurs, l'Ă©quipe et les rĂ©compenses Ă  la configuration 3. Les rĂ©sultats montrent l'impact de mĂ©tadonnĂ©es plus riches sur la prĂ©cision du classement. Source : https://arxiv.org/pdf/2505.02693

Les résultats (présentés ci-dessus) démontrent que BERT V4 et Linq-Embed-Mistral 7B ont apporté les améliorations les plus importantes dans l'identification des trois titres les plus populaires, bien que les deux aient été légèrement en deçà de la prédiction de l'élément le plus populaire.

BERT a finalement été choisi comme modèle de référence pour la comparaison avec les LLM, car son efficacité et ses gains globaux l'emportaient sur ses limites.

Évaluation LLM

Les chercheurs ont Ă©valuĂ© les performances Ă  l’aide de deux approches de classement : par paire et liste par listeLe classement par paires Ă©value si le modèle ordonne correctement un Ă©lĂ©ment par rapport Ă  un autre ; et le classement par liste prend en compte l'exactitude de la liste ordonnĂ©e entière des candidats.

Cette combinaison a permis d'évaluer non seulement si les paires de films individuelles étaient correctement classées (précision locale), mais également dans quelle mesure la liste complète des candidats reflétait la véritable ordre de popularité (précision globale).

Plein, non quantifié des modèles ont été utilisés pour éviter la perte de performance, garantissant une comparaison cohérente et reproductible entre les prédictions basées sur LLM et les lignes de base basées sur l'intégration.

Métrique

Pour évaluer l’efficacité des modèles linguistiques à prédire la popularité des films, des mesures basées sur le classement et la classification ont été utilisées, avec une attention particulière portée à l’identification des trois titres les plus populaires.

Quatre mesures ont Ă©tĂ© appliquĂ©es : PrĂ©cision@1 mesurĂ© la frĂ©quence Ă  laquelle l’article le plus populaire apparaissait en première position ; Rang rĂ©ciproque a capturĂ© le rang de l'Ă©lĂ©ment rĂ©el le plus Ă©levĂ© dans la liste prĂ©dite en prenant l'inverse de sa position ; Gain cumulĂ© actualisĂ© normalisĂ© (NDCG@k) a Ă©valuĂ© dans quelle mesure l'ensemble du classement correspondait Ă  la popularitĂ© rĂ©elle, les scores les plus Ă©levĂ©s indiquant un meilleur alignement ; et Recall@3 a mesurĂ© la proportion de titres vraiment populaires qui apparaissaient dans les trois premières prĂ©dictions du modèle.

Étant donné que la plupart des interactions des utilisateurs se produisent en haut des menus classés, l'évaluation s'est concentrée sur les valeurs inférieures de k, pour refléter des cas d’utilisation pratiques.

Amélioration des performances des grands modèles linguistiques par rapport à BERT V4, mesurée en pourcentage sur l'ensemble des indicateurs de classement. Les résultats sont calculés sur une moyenne de dix exécutions par combinaison modèle-invite, les deux valeurs les plus élevées étant mises en évidence. Les chiffres rapportés reflètent l'amélioration moyenne en pourcentage sur l'ensemble des indicateurs.

Amélioration des performances des grands modèles linguistiques par rapport à BERT V4, mesurée en pourcentage sur l'ensemble des indicateurs de classement. Les résultats ont été moyennés sur dix exécutions par combinaison modèle-invite, les deux valeurs les plus élevées étant mises en évidence. Les chiffres rapportés reflètent l'amélioration moyenne en pourcentage sur l'ensemble des indicateurs.

Les performances des modèles Llama 3.1 (8B), 3.1 (405B) et 3.3 (70B) ont été évaluées en mesurant les améliorations métriques par rapport à la référence BERT V4 précédemment établie. Chaque modèle a été testé à l'aide d'une série d'invites, allant du minimum au plus riche en informations, afin d'examiner l'effet du niveau de détail des entrées sur la qualité des prédictions.

Les auteurs déclarent:

Les meilleures performances sont obtenues avec Llama 3.1 (405 octets) avec l'invite la plus informative, suivi de Llama 3.3 (70 octets). D'après la tendance observée, avec une invite complexe et longue (MD V4), un modèle linguistique plus complexe améliore généralement les performances sur divers indicateurs. Cependant, cela dépend du type d'informations ajoutées.

Les performances ont été améliorées lorsque les récompenses des acteurs ont été incluses dans le message d'invite – en l'occurrence, le nombre de récompenses majeures reçues par les cinq acteurs les mieux représentés dans chaque film. Ces métadonnées plus riches étaient intégrées à la configuration du message d'invite la plus détaillée, surpassant une version plus simple excluant la reconnaissance des acteurs. L'avantage était particulièrement évident dans les modèles plus grands, Llama 3.1 (405B) et 3.3 (70B), qui ont tous deux montré une meilleure précision prédictive grâce à ce signal supplémentaire de prestige et de familiarité avec le public.

En revanche, le plus petit modèle, Llama 3.1 (8B), a montré une amélioration des performances à mesure que les invites devenaient légèrement plus détaillées, progressant du genre au synopsis, mais a diminué lorsque davantage de champs ont été ajoutés, suggérant que le modèle manquait de capacité à intégrer efficacement des invites complexes, conduisant à une généralisation plus faible.

Lorsque les invites étaient limitées au seul genre, tous les modèles ont sous-performé par rapport à la ligne de base, démontrant que les métadonnées limitées étaient insuffisantes pour soutenir des prédictions significatives.

Conclusion

Les LLM sont devenus l'emblème de l'IA gĂ©nĂ©rative, ce qui pourrait expliquer pourquoi ils sont utilisĂ©s dans des domaines oĂą d'autres mĂ©thodes pourraient ĂŞtre plus adaptĂ©es. MalgrĂ© cela, nous ignorons encore beaucoup de choses sur leurs possibilitĂ©s dans diffĂ©rents secteurs ; il est donc logique de leur donner une chance.

Dans ce cas particulier, comme pour les marchés boursiers et les prévisions météorologiques, les données historiques ne peuvent servir de base aux prévisions futures que dans une mesure limitée. Dans le cas des films et des séries télévisées, méthode de livraison est maintenant une cible mouvante, contrairement à la période 1978-2011, où le câble, le satellite et les médias portables (VHS, DVD, etc.) représentaient une série de perturbations historiques transitoires ou évolutives.

Aucune méthode de prédiction ne peut non plus rendre compte de la mesure dans laquelle le succès ou l’échec d’un projet est lié à une situation donnée. d’autres Les productions peuvent influencer la viabilité d’une propriété proposée – et pourtant, c’est souvent le cas dans l’industrie du cinéma et de la télévision, qui aime surfer sur les tendances.

Néanmoins, lorsqu’ils sont utilisés de manière réfléchie, les LLM pourraient contribuer à renforcer les systèmes de recommandation pendant la phase de démarrage à froid, offrant un soutien utile à travers une gamme de méthodes prédictives.

 

Première publication le mardi 6 mai 2025

Rédacteur en apprentissage automatique, spécialiste du domaine de la synthèse d'images humaines. Ancien responsable du contenu de recherche chez Metaphysic.ai.
Site personnel : martinanderson.ai
Contact [email protected]
Twitter : @manders_ai