Angle d’Anderson

À la recherche d’un IA capable de suivre un film entier

Published February 27, 2026

Updated May 16, 2026

Martin Anderson

AI-generated illustration (GPT-1.5) depicting a POV of a Steenbeck flatbed editing table as robot hands examine celluloid footage of a love scene from an old movie.

Les modèles d’IA ont encore du mal à suivre qui est qui et ce qui se passe dans un film. Un nouveau système orchestre la reconnaissance faciale et la synthèse scénarisée, gardant les personnages droits et les intrigues cohérentes sur des films de long métrage.

Obtenir une intelligence artificielle capable de regarder et de comprendre des films hollywoodiens peut sembler une quête marginale ; mais un système capable de regarder un film de long métrage du début à la fin, de suivre la progression de tous les personnages et de rester au courant de l’intrigue, a non seulement rendu possible un certain nombre d’applications directes qui pourraient bénéficier de ces capacités, mais également un certain nombre de défis périphériques ou sans rapport, dans différents domaines.

Le fruit le plus facile pour les modèles d’IA de visionnage de films est les systèmes de recommandation, sur des plateformes de streaming telles que Netflix, Amazon Prime et HBO Max. Une compréhension granulaire des développements de l’intrigue et des actions des personnages permet une correspondance plus étroite avec les préférences et les enthousiasmes (souvent spéculatifs) des spectateurs.

En outre, une compréhension plus approfondie d’un film permet la génération de mots clés et une catégorisation plus précise, plutôt que de perpétuer des descriptions de films souvent copiées qui peuvent avoir été écrites il y a des décennies. De telles connaissances pourraient également mettre en évidence la présence de thèmes « adultes » dans un film qui ne sont pas évidents à partir du dialogue ou des visuels.

En outre, les anciens films d’un catalogue peuvent avoir des évaluations et des descriptions obsolètes ; par exemple, le langage et les idiomes qui étaient normalisés dans un film des années 1950 pourraient nécessiter beaucoup plus d’attention maintenant. Mais sans une compréhension globale du contexte, tirée d’une véritable suivie d’une longue narration de film, de telles incidences pourraient être surestimées ou sous-estimées.

Plus largement, les approches améliorées d’analyse de films pourraient contribuer de manière significative au problème plus vaste de la reconnaissance d’événements, qui est vital pour les innovations dans la surveillance de la sécurité, les commentaires sportifs automatisés et les résumés de tous types, dans un large éventail de médias.

Par conséquent, la « visionnage de films basée sur l’IA » est un genre étonnamment populaire dans la littérature de la vision par ordinateur.

Voir le grand tableau

Le dernier arrivant s’intitule MovieTeller – une collaboration académique et industrielle de Chine qui fait de nouvelles avancées en divisant les différentes tâches dans le défi en différentes applications d’IA qui conviennent à ces défis, au lieu de – comme c’est souvent le cas – essayer d’entraîner des modèles discrets et encapsulés qui peuvent effectuer toutes les tâches nécessaires à partir d’un seul espace latent.

Les auteurs observent que les modèles de vision-langage antérieurs (VLM) confrontés au même défi n’ont pas pu progresser au-delà de l’analyse d’une seule image ; et que leur manque de contexte les empêche de identifier de manière persistante les personnages – peut-être la caractéristique la plus essentielle d’un tel système :

Le nouveau système, MovieTeller, est capable d’identifier de manière persistante les personnes dans les scènes, grâce à l’utilisation d’un système de reconnaissance faciale dédié ; mais c’est la détermination plus large du contexte qui permet au cadre de rester au courant des développements de l’intrigue. Source

Les auteurs déclarent :

‘Les modèles de vision-langage polyvalents ont souvent du mal à reconnaître et à suivre de manière cohérente des personnages spécifiques tout au long d’une longue narration. Ils peuvent décrire un protagoniste clé comme “un homme” dans une scène et “une personne” dans une autre, en échouant à lier la représentation visuelle à une identité cohérente.’

Les auteurs notent que parce que Transformers‘ mécanisme d’auto-attention utilise une complexité quadratique, traiter chaque image d’un film de long métrage à la fois devient trop coûteux en termes de calcul. Par conséquent, les approches qui reposent sur des échantillonnages d’images uniformes ou des concaténations simples tendent à briser le flux de l’histoire, produisant des résumés fragmentés au lieu d’une narration cohérente.

À la place, le nouveau système comprend un pipeline d’entraînement sans orchestration, avec des outils dédiés pour aborder la reconnaissance faciale et la persistance de la mémoire (lorsque les personnages quittent et réentrent dans la narration d’un film).

MovieTeller a été testé contre des approches antérieures en utilisant 60 films de long métrage, équivalent à 10 000 minutes de footage. Dans des tests d’ablation quantitatifs et des études humaines, les auteurs rapportent que leur approche a pu améliorer de manière notable les environnements et les hypothèses utilisés par les systèmes antérieurs.

Le nouveau document s’intitule MovieTeller: Tool-augmented Movie Synopsis with ID Consistent Progressive Abstraction, et provient de cinq auteurs issus de l’Université de Zhejiang à Hangzhou, du groupe médiatique chinois et du groupe Watch AI (basé à Pékin).

Méthode

Le schéma MovieTeller comprend trois étapes : la segmentation de scène et l’extraction de keyframes, qui sont traitées via le projet PySceneDetect ; la génération de descriptions de scène basées sur les faits via la personnalisation du modèle Qwen2.5-VL-7B-Instruct ; et l’abstraction progressive, qui condense les descriptions de scène détaillées en résumés de chapitres, puis en un résumé final cohérent – et cela est également effectué par le modèle Qwen2.5 :

Vue d’ensemble du cadre MovieTeller: un film de long métrage est d’abord segmenté en scènes et distillé en keyframes de haute qualité ; puis, un outil de reconnaissance faciale externe injecte des fondements factuels, reliant les noms de personnages à des boîtes de délimitation, qui guident un modèle de vision-langage pour produire des descriptions de scène cohérentes avec l’identité. Ces descriptions sont ensuite progressivement abstraites en résumés de chapitres et intégrées en un résumé final de film cohérent.

La première étape utilise PySceneDetect pour diviser le film en scènes distinctes, en fonction de changements visuels clairs, avec chaque scène représentée par un seul keyframe.

Cependant, chaque image ne fait pas une bonne image de résumé, car les moments de transition, les fondu enchaînés et les cadres sombres peuvent confondre l’analyse ultérieure. Par conséquent, un simple contrôle de qualité effectue un filtrage sur les images candidates, en mesurant la luminosité et la variation visuelle, en garantissant que seules les images riches en informations sont sélectionnées pour la description.

Placer le visage

Une base de données de visages a été construite à partir d’informations de distribution publiques ^†, stockant le nom de chaque personnage principal aux côtés d’un emplacement de visage numérique. Lorsqu’un visage apparaît dans un keyframe, son emplacement est comparé à la base de données, et le résultat le plus proche est accepté s’il dépasse un seuil de confiance. Cela crée des « fondements factuels », reliant les noms à des boîtes de délimitation spécifiques.

Pour ces objectifs, InsightFace est utilisé, en exploitant une tête de reconnaissance ArcFace basée sur la perte :

Deux visages familiers bien reconnus par l’initiative Additive Angular Margin Loss (ArcFace), utilisée de manière très similaire pour le projet MovieTeller. Source

Les keyframes annotés sont ensuite transmis au modèle Qwen avec une invite qui liste les personnages détectés et leurs positions. :

Puisque les modèles de vision-langage ne peuvent pas absorber un film de long métrage en une seule passe, MovieTeller divise d’abord le matériel en descriptions de scène. Ceux-ci sont regroupés en blocs consécutifs, similaires à des chapitres, qui sont ensuite transmis au modèle Qwen2.5, qui résume chaque chapitre, en compressant les développements de l’intrigue, les motivations des personnages et les points de rebondissement, tout en conservant les noms de personnages précédemment vérifiés.

Ces résumés de chapitres compressés sont ensuite concaténés et retournés au modèle avec une nouvelle invite qui sollicite un résumé complet:

Un exemple de modèle d’invite utilisé pour générer des descriptions de scène, en injectant explicitement des noms de personnages vérifiés et des boîtes de délimitation pour contraindre le modèle de vision-langage et imposer une narration cohérente avec l’identité.

En supposant que le processus a réussi, la sortie finale devrait refléter de manière cohérente l’arc narratif du film. Il s’agit d’une tâche particulièrement difficile en apprentissage automatique, car la variété de résumés de trame possibles et le style dans lequel ils pourraient être présentés, ainsi que la longueur nécessaire de ces points de données, rendent pratiquement impossible l’adoption des méthodes habituelles basées sur la vérité terrain.

Données et tests

Pour tester le système, les auteurs ont créé un ensemble de données personnalisé (et non attribué) de 100 films de long métrage, équivalent à environ 166 heures de lecture. Les films inclus Iron Man 3, Farewell My Concubine, Eat Drink Man Woman et The Chronicles of Narnia. Les chercheurs ont exigé que tous les films inclus aient une note supérieure à 5,0 sur IMDB:

Composition de l’ensemble de données sur 100 films, montrant une couverture temporelle équilibrée de 1992 à 2025, une légère majorité de titres non anglais, et une large répartition de genres menée par le drame et l’action, avec une représentation dans la science-fiction, l’horreur, la comédie, la romance et l’histoire.

La large gamme de genres abordés (voir graphique ci-dessus) a été conçue pour éviter les biais en faveur d’un seul genre.

La base de données de visages pour chaque film se compose de deux images des acteurs principaux – une de la scène du film et une de la photographie de publicité liée.

Mis en œuvre en Python, les tests ont été exécutés sur quatre GPU NVIDIA A40, chacun avec 48 Go de VRAM, et avec la variante Qwen2.5 mentionnée ci-dessus en tant que modèle VLM central. Des études d’ablation ^†† ont également été menées avec des modèles d’état de l’art alternatifs InternVL3-8B et WeThink-Qwen2.5VL-7B.

Le nouveau cadre a été testé contre deux variantes d’ablation ^†† : une base de référence sans indice, dans laquelle le modèle de vision-langage a généré des descriptions de scène à partir du keyframe seul, sans aucune invite textuelle sur les identités de personnages ; et un réglage d’indice de nom uniquement, où le modèle a reçu les noms de personnages détectés, mais pas leurs boîtes de délimitation, permettant aux auteurs d’isoler la contribution spécifique de l’ancrage spatial à la cohérence d’identité et à la cohérence narrative

En ce qui concerne les métriques, compte tenu de la difficulté de l’application des méthodes de vérité terrain aux résumés de trame longs, les métriques d’overlap de n-grammes standard telles que ROUGE et BLEU ont été rejetées en faveur de BERTScore avec F1 score, pour mesurer la similarité sémantique par rapport à un résumé de référence tiré d’une « encyclopédie publique ».

De plus, Gemini 2.5 Flash a été utilisé pour noter chaque résumé pour sa fidélité factuelle ; la cohérence et la complétude de l’identité ; la cohérence et le flux narratifs ; et la concision, avec des scores moyens sur les dimensions.

Enfin, une évaluation humaine de 50 résumés échantillonnés aléatoirement a été menée à l’aide d’une comparaison par paires, fournissant un contrôle pratique sur les évaluations automatisées.

Voici les résultats de BERTScore (F1) pour les trois modèles de base: Qwen2.5-VL, InternVL3 et WeThink. Chacun est testé dans trois configurations: base de référence sans indice, indice de nom uniquement, et le système MovieTeller complet:

Comparaison de BERTScore (F1) sur trois modèles de vision-langage de base et trois réglages expérimentaux, montrant des gains constants provenant de l’ajout de noms de personnages et des améliorations supplémentaires lorsque l’ancrage spatial est inclus, avec MovieTeller atteignant les scores les plus élevés dans tous les cas.

Les auteurs notent que le modèle est constant sur les trois modèles de base: utiliser uniquement le keyframe brut donne les résultats les plus faibles ; ajouter des noms de personnages produit une amélioration modeste ; et combiner des noms avec des boîtes de délimitation donne les résultats les plus forts. Bien que les gains soient incrémentiels plutôt que dramatiques, la configuration complètement ancrée atteint le plus d’alignement sémantique avec le résumé de référence, dans tous les réglages.

En ce qui concerne l’évaluation de la qualité narrative basée sur le LLM: comme on le voit dans les résultats ci-dessous, la base de référence sans indice a le plus de mal avec la cohérence d’identité, ce qui entraîne une baisse de son score global ; mais fournir des noms seuls produit une amélioration notable, en particulier sur les dimensions liées à l’identité. Cependant, la configuration MovieTeller complète atteint à nouveau les scores les plus élevés sur les trois modèles de base:

Évaluation LLM-as-a-Judge (échelle de 1 à 5) sur trois modèles de base, montrant que l’ajout de noms de personnages améliore la cohérence d’identité et la qualité globale, tandis que le cadre MovieTeller complet atteint les scores les plus élevés sur la fidélité factuelle, la cohérence, la concision et la note finale.

Les gains les plus importants apparaissent dans la cohérence d’identité et dans le score final moyen, suggérant que l’ancrage spatial aide le modèle à rester clair sur qui fait quoi au fur et à mesure que l’intrigue se déroule.

Dans l’évaluation humaine de 50 résumés échantillonnés aléatoirement, les participants ont vu trois résumés à la fois et ont été invités à sélectionner le meilleur:

Taux de préférence humaine dans une évaluation de choix forcé à trois voies, montrant que les résumés MovieTeller complètement ancrés sont sélectionnés le plus souvent sur les trois modèles de base, surpassant de manière significative les variantes sans indice et avec nom uniquement.

Enfin, un test qualitatif a été effectué sur le film The Bullet Vanishes (2012):

Nous ne pouvons pas reproduire l’intégralité de cette figure du document original, car elle est très haute et dense en texte. Veuillez vous référer au document source à la place.

Voici, la base de référence sans indice produit un résumé vague qui se réfère aux personnages de manière générique et floue leurs rôles, rendant la chaîne d’événements plus difficile à suivre. Fournir des noms seuls améliore la mémoire de surface, mais l’intrigue dérive encore, avec des relations et des motivations de personnages décrites de manière plutôt « aplatie ».

Inversement, la version MovieTeller complètement ancrée maintient les identités stables tout au long du résumé et relie les actions aux personnages corrects, permettant à l’intrigue d’évoluer avec une structure causale plus claire. Les tensions et les dynamiques de rôle spécifiques sont préservées plutôt que d’être abstraites, aboutissant à un résumé qui ressemble moins à un plan déconnecté et plus à un récit cohérent de l’arc central du film:

Partie de la comparaison finale, que nous ne pouvons pas reproduire en entier ici, montrant un résumé ablatif et un résumé MovieTeller complet. Veuillez vous référer au document source à la place.

Conclusion

Bien que la plupart des nouveaux projets de ce type se retrouvent dans la littérature de la vision par ordinateur, la synthèse de films basée sur l’IA englobe de nombreuses autres disciplines et domaines de recherche en apprentissage automatique – et il est difficile de dire lesquels de ces domaines contribueront involontairement à la pièce manquante du puzzle ; bien que MovieTeller fasse un pas dans la bonne direction, en divisant les tâches en modules appropriés au lieu d’essayer de résoudre tout cela de manière discrète dans l’espace latent, il conserve l’impression de « bricolage » qui précède souvent une solution plus élégante plus tard.

* Je ne peux pas identifier cette institution, même après quelques recherches.

^†On pourrait supposer quelque chose comme IMDB ou OMDB, mais la source n’est pas spécifiée.

^††Veuillez vous référer au document source pour une ablation complète, car nous ne couvrons que l’ablation complète dans des cas exceptionnels. Je noterai que les études d’ablation non traitées mentionnées ici ne remettent pas en question les conclusions générales du document.

Publié pour la première fois vendredi 27 février 2026