Angle d’Anderson
Enseigner à l’IA à donner de meilleures critiques vidéo

Alors que les grands modèles de vision-langage (LVLM) peuvent être des aides utiles pour interpréter certaines des soumissions les plus arcanes ou les plus difficiles de la littérature sur la vision par ordinateur, il y a un domaine où ils sont handicapés : déterminer les mérites et la qualité subjective de tout exemple de vidéo qui accompagne les nouveaux articles*.
Ceci est un aspect critique d’une soumission, puisque les articles scientifiques visent souvent à générer de l’enthousiasme grâce à des textes ou des visuels convaincants – ou les deux.
Mais dans le cas des projets qui impliquent la synthèse de vidéos, les auteurs doivent montrer des sorties de vidéo réelles ou risquer de voir leur travail rejeté ; et c’est dans ces démonstrations que l’écart entre les affirmations audacieuses et les performances du monde réel devient le plus souvent apparent.
J’ai lu le livre, je n’ai pas vu le film
Actuellement, la plupart des modèles de langage populaires basés sur l’API (LLM) et les grands modèles de vision-langage (LVLM) ne seront pas engagés dans l’analyse directe du contenu vidéo de quelque manière que ce soit, qualitative ou autre. Au lieu de cela, ils ne peuvent analyser que les transcriptions associées – et, peut-être, les fils de discussion et d’autres matériaux strictement textuels adjacents.

Les diverses objections de GPT-4o, Google Gemini et Perplexity, lorsqu’on leur demande d’analyser directement une vidéo, sans recours à des transcriptions ou à d’autres sources textuelles.
Cependant, un LLM peut cacher ou nier son incapacité à regarder réellement les vidéos, à moins que vous ne le confrontiez à cela :

Ayant été invité à fournir une évaluation subjective d’une nouvelle publication de recherche associée à des vidéos, et ayant fait semblant d’avoir un avis réel, ChatGPT-4o finit par avouer qu’il ne peut pas vraiment visionner des vidéos directement.
Bien que des modèles tels que ChatGPT-4o soient multimodaux et puissent analyser au moins des photos individuelles (telles qu’un cadre extrait d’une vidéo, voir l’image ci-dessus), il y a quelques problèmes même avec cela : premièrement, il y a peu de base pour accorder du crédit à l’opinion qualitative d’un LLM, ne serait-ce que parce que les LLM sont prone à “plaire aux gens” plutôt qu’à un discours sincère.
Deuxièmement, de nombreux problèmes, voire la plupart, d’une vidéo générée sont susceptibles d’avoir un aspect temporel qui est entièrement perdu dans une capture d’écran – et donc l’examen de cadres individuels ne sert à rien.
Enfin, le LLM ne peut donner qu’un jugement de valeur supposé basé (encore une fois) sur la connaissance textuelle absorbée, par exemple en ce qui concerne les images de deepfake ou l’histoire de l’art. Dans un tel cas, la connaissance de domaine formée permet au LLM de corrélater les qualités visuelles d’une image avec des embeddings appris basés sur l’insight humain :

Le projet FakeVLM offre une détection ciblée de deepfake via un modèle de vision-langage multimodal spécialisé. Source : https://arxiv.org/pdf/2503.14905
Ceci ne signifie pas qu’un LLM ne puisse pas obtenir d’informations directement à partir d’une vidéo ; par exemple, avec l’utilisation de systèmes d’IA adjacents tels que YOLO, un LLM pourrait identifier des objets dans une vidéo – ou pourrait le faire directement, s’il est formé pour un nombre supérieur à la moyenne de fonctionnalités multimodales.
Mais la seule façon qu’un LLM puisse évaluer subjectivement une vidéo (c’est-à-dire ‘Cela n’a pas l’air réel pour moi’) est en appliquant une métrique basée sur une fonction de perte qui reflète bien l’opinion humaine, ou qui est directement informée par l’opinion humaine.
Les fonctions de perte sont des outils mathématiques utilisés pendant la formation pour mesurer à quel point les prédictions d’un modèle sont éloignées des réponses correctes. Ils fournissent des commentaires qui guident l’apprentissage du modèle : plus l’erreur est grande, plus la perte est élevée. Au fur et à mesure de la formation, le modèle ajuste ses paramètres pour réduire cette perte, améliorant ainsi progressivement sa capacité à faire des prédictions précises.
Les fonctions de perte sont utilisées à la fois pour réguler la formation des modèles et pour calibrer les algorithmes conçus pour évaluer la sortie de l’IA (tels que l’évaluation de contenu photoréaliste simulé à partir d’un modèle de vidéo générative).
Vision conditionnelle
L’une des métriques/fonctions de perte les plus populaires est la distance de Fréchet (FID), qui évalue la qualité des images générées en mesurant la similarité entre leur distribution (ce qui signifie ici ‘comment les images sont réparties ou regroupées par fonctionnalités visuelles‘) et celle des images réelles.
Plus précisément, la FID calcule la différence statistique, en utilisant les moyennes et les covariances, entre les fonctionnalités extraites des deux ensembles d’images en utilisant le (souvent critiqué) réseau de classification Inception v3. Un score FID plus bas indique que les images générées sont plus similaires aux images réelles, impliquant une meilleure qualité visuelle et une diversité.
Cependant, la FID est essentiellement comparative et, de manière arguable, auto-référentielle. Pour remédier à cela, l’approche Conditional Fréchet Distance (CFD, 2021) diffère de la FID en comparant les images générées à des images réelles et en évaluant un score basé sur à quel point les deux ensembles correspondent à une condition supplémentaire, telle qu’une étiquette de classe (inévitablement subjective) ou une image de saisie.
De cette façon, la CFD tient compte de la façon dont les images répondent aux conditions prévues, et non seulement de leur réalisme ou de leur diversité entre elles.

Exemples de la sortie CFD 2021. Source : https://github.com/Michael-Soloveitchik/CFID/
La CFD suit une tendance récente à intégrer l’interprétation humaine qualitative dans les fonctions de perte et les algorithmes de métrique. Bien que cette approche centrée sur l’humain garantisse que l’algorithme résultant ne sera pas “sans âme” ou purement mécanique, elle présente en même temps un certain nombre de problèmes : la possibilité de biais ; la charge de mise à jour de l’algorithme en fonction de nouvelles pratiques ; et le fait que cela supprimera la possibilité de normes de comparaison cohérentes sur une période de plusieurs années entre les projets ; et les limites budgétaires (un plus petit nombre de contributeurs humains rendra les déterminations plus discutables, tandis qu’un plus grand nombre pourrait empêcher les mises à jour utiles en raison du coût).
cFreD
Ceci nous amène à un nouvel article des États-Unis qui propose apparemment Conditional Fréchet Distance (cFreD), une nouvelle prise sur la CFD conçue pour mieux refléter les préférences humaines en évaluant à la fois la qualité visuelle et l’alignement texte-image

Résultats partiels du nouvel article : classements d’images (1-9) par différentes métriques pour la invite "Un salon avec un canapé et un ordinateur portable posé sur le canapé." Les highlights verts mettent en évidence le modèle le mieux noté par les humains (FLUX.1-dev), les highlights violets le modèle le moins bien noté (SDv1.5). Seul cFreD correspond aux classements humains. Veuillez vous référer à l’article source pour les résultats complets, que nous n’avons pas la place de reproduire ici. Source : https://arxiv.org/pdf/2503.21721
Les auteurs soutiennent que les méthodes d’évaluation existantes pour la synthèse texte-image, telles que le score d’Inception (IS) et la FID, s’alignent mal sur le jugement humain car elles ne mesurent que la qualité de l’image sans tenir compte de la façon dont les images correspondent à leurs invites :
‘Par exemple, considérons un ensemble de données avec deux images : une d’un chien et une d’un chat, chacune associée à son invite correspondante. Un modèle de texte-à-image parfait qui échange accidentellement ces mappages (c’est-à-dire en générant un chat pour une invite de chien et vice versa) obtiendrait un FID proche de zéro, puisque la distribution globale des chats et des chiens est maintenue, malgré le décalage par rapport aux invites prévues. ‘
‘Nous montrons que cFreD capture une meilleure évaluation de la qualité d’image et une meilleure conditionnalité sur le texte d’entrée, et conduit à une meilleure corrélation avec les préférences humaines.’

Les tests de l’article indiquent que la métrique proposée par les auteurs, cFreD, atteint systématiquement une corrélation plus élevée avec les préférences humaines que la FID, FDDINOv2, CLIPScore et CMMD sur trois ensembles de données de référence (PartiPrompts, HPDv2 et COCO).
Concept et méthode
Les auteurs notent que la norme actuelle pour évaluer les modèles de texte-à-image implique de recueillir des données de préférence humaine via des comparaisons effectuées par le public, similaires aux méthodes utilisées pour les grands modèles de langage (comme le LMSys Arena).
Par exemple, le PartiPrompts Arena utilise 1 600 invites en anglais, présentant aux participants des paires d’images de différents modèles et leur demandant de sélectionner leur image préférée.
De même, le Text-to-Image Arena Leaderboard utilise des comparaisons d’utilisateurs des sorties de modèles pour générer des classements via des scores ELO. Cependant, la collecte de ces données d’évaluation humaine est coûteuse et lente, ce qui amène certaines plateformes – comme le PartiPrompts Arena – à cesser les mises à jour complètes.

Le Artificial Analysis Image Arena Leaderboard, qui classe les leaders actuels estimés de l’IA générative visuelle. Source : https://artificialanalysis.ai/text-to-image/arena?tab=Leaderboard
Bien que des méthodes alternatives formées sur des données de préférence humaine existent, leur efficacité pour évaluer les futurs modèles reste incertaine, car les préférences humaines évoluent en permanence. Par conséquent, des métriques automatisées telles que la FID, CLIPScore et la métrique proposée par les auteurs, cFreD, semblent susceptibles de rester des outils d’évaluation essentiels.
Les auteurs supposent que les images réelles et générées conditionnées sur une invite suivent des distributions gaussiennes, chacune définie par des moyennes conditionnelles et des covariances. cFreD mesure la distance de Fréchet attendue entre ces distributions conditionnelles à travers les invites. Cela peut être formulé soit directement en termes de statistiques conditionnelles, soit en combinant des statistiques non conditionnelles avec des covariances croisées impliquant l’invite.
En incorporant l’invite de cette manière, cFreD est capable d’évaluer à la fois le réalisme des images et leur cohérence avec le texte donné.
Données et tests
Pour évaluer à quel point cFreD est aligné sur les préférences humaines, les auteurs ont utilisé des classements d’images de plusieurs modèles avec les mêmes invites.
Leurs évaluations ont été tirées de deux sources : l’ensemble de tests Human Preference Score v2 (HPDv2), qui comprend neuf images générées et une image de référence COCO par invite ; et le PartiPrompts Arena mentionné, qui contient des sorties de quatre modèles sur 1 600 invites.
Les auteurs ont rassemblé les points de données éparpillés du Arena en un seul ensemble de données ; dans les cas où l’image réelle ne se classait pas en premier dans les évaluations humaines, ils ont utilisé l’image la mieux notée comme référence.
Pour tester les modèles plus récents, ils ont échantillonné 1 000 invites à partir des ensembles d’entraînement et de validation de COCO, en veillant à ce qu’il n’y ait pas de chevauchement avec HPDv2, et ont généré des images en utilisant neuf modèles du Leaderboard de l’Arena. Les images COCO originales ont servi de référence dans cette partie de l’évaluation.
L’approche cFreD a été évaluée à l’aide de quatre métriques statistiques : FID ; FDDINOv2 ; CLIPScore ; et CMMD. Elle a également été évaluée par rapport à quatre métriques apprises formées sur des données de préférence humaine : Aesthetic Score ; ImageReward ; HPSv2 ; et MPS.
Les auteurs ont évalué la corrélation avec le jugement humain à la fois d’un point de vue de classement et de notation : pour chaque métrique, les scores de modèle ont été signalés et les classements calculés pour leur alignement sur les résultats d’évaluation humaine, avec cFreD utilisant DINOv2-G/14 pour les embeddings d’images et le OpenCLIP ConvNext-B Text Encoder pour les embeddings de texte†.
Les travaux précédents sur l’apprentissage des préférences humaines mesuraient les performances en utilisant la précision du classement par élément, qui calcule la précision du classement pour chaque paire image-texte avant de moyenniser les résultats.
Les auteurs ont évalué cFreD en utilisant une précision de classement globale, qui évalue les performances de classement globales sur l’ensemble des données ; pour les métriques statistiques, ils ont dérivé les classements directement à partir des scores bruts ; et pour les métriques formées sur des préférences humaines, ils ont d’abord moyenné les classements attribués à chaque modèle sur tous les échantillons, puis ont déterminé le classement final à partir de ces moyennes.
Les tests initiaux ont utilisé dix cadres : GLIDE ; COCO ; FuseDream ; DALLE 2 ; VQGAN+CLIP ; CogView2 ; Stable Diffusion V1.4 ; VQ-Diffusion ; Stable Diffusion V2.0 ; et LAFITE.

Classements et scores de modèles sur l’ensemble de tests HPDv2 en utilisant des métriques statistiques (FID, FDDINOv2, CLIPScore, CMMD et cFreD) et des métriques formées sur des préférences humaines (Aesthetic Score, ImageReward, HPSv2 et MPS). Les meilleurs résultats sont indiqués en gras, les deuxièmes meilleurs sont soulignés.
Sur les résultats initiaux, les auteurs commentent :
‘cFreD atteint le plus haut degré d’alignement avec les préférences humaines, atteignant une corrélation de 0,97. Parmi les métriques statistiques, cFreD atteint la corrélation la plus élevée et est comparable à HPSv2 (0,94), un modèle formé explicitement sur des préférences humaines. Étant donné que HPSv2 a été formé sur l’ensemble d’entraînement HPSv2, qui comprend quatre modèles de l’ensemble de test, et a utilisé les mêmes annotateurs, il encode naturellement des biais de préférence humaine spécifiques de ce paramètre.
‘En revanche, cFreD atteint une corrélation comparable ou supérieure sans aucune formation sur des préférences humaines. ‘
‘Ces résultats démontrent que cFreD fournit des classements plus fiables à travers divers modèles par rapport aux métriques automatisées standard et aux métriques formées explicitement sur des préférences humaines.’
Parmi toutes les métriques évaluées, cFreD a atteint le plus haut degré de précision de classement (91,1 %), démontrant – selon les auteurs – un alignement fort avec les jugements humains.
HPSv2 a suivi avec 88,9 %, tandis que la FID et FDDINOv2 ont produit des scores compétitifs de 86,7 %. Bien que les métriques formées sur des préférences humaines s’alignent généralement bien avec les évaluations humaines, cFreD s’est avéré être la plus robuste et fiable dans l’ensemble.
Ci-dessous, nous voyons les résultats du deuxième tour de tests, cette fois sur le PartiPrompts Arena, en utilisant SDXL ; Kandinsky 2 ; Würstchen ; et Karlo V1.0.

Classements et scores de modèles sur PartiPrompt en utilisant des métriques statistiques (FID, FDDINOv2, CLIPScore, CMMD et cFreD) et des métriques formées sur des préférences humaines (Aesthetic Score, ImageReward et MPS). Les meilleurs résultats sont indiqués en gras, les deuxièmes meilleurs sont soulignés.
Ici, l’article indique :
‘Parmi les métriques statistiques, cFreD atteint la corrélation la plus élevée avec les évaluations humaines (0,73), avec la FID et FDDINOv2 atteignant une corrélation de 0,70. En revanche, le score CLIP montre une corrélation très faible (0,12) avec les jugements humains. ‘
‘Dans la catégorie formée sur des préférences humaines, HPSv2 a l’alignement le plus fort, atteignant la corrélation la plus élevée (0,83), suivie de ImageReward (0,81) et MPS (0,65). Ces résultats mettent en évidence que tandis que cFreD est une métrique automatisée robuste, HPSv2 se démarque comme la plus efficace pour capturer les tendances d’évaluation humaine dans le PartiPrompts Arena.’
Enfin, les auteurs ont mené une évaluation sur l’ensemble de données COCO en utilisant neuf modèles de texte-à-image modernes : FLUX.1[dev]; Playgroundv2.5 ; Janus Pro ; et des variantes de Stable Diffusion SDv3.5-L Turbo, 3.5-L, 3-M, SDXL, 2.1 et 1.5.
Les classements de préférence humaine ont été obtenus à partir du Text-to-Image Leaderboard, et ont été donnés sous forme de scores ELO :

Classements de modèles sur des invites COCO aléatoires en utilisant des métriques automatisées (FID, FDDINOv2, CLIPScore, CMMD et cFreD) et des métriques formées sur des préférences humaines (Aesthetic Score, ImageReward, HPSv2 et MPS). Une précision de classement inférieure à 0,5 indique plus de paires discordantes que concordantes, et les meilleurs résultats sont indiqués en gras, les deuxièmes meilleurs sont soulignés.
Concernant ce tour, les chercheurs déclarent :
‘Parmi les métriques statistiques (FID, FDDINOv2, CLIP, CMMD et notre métrique proposée cFreD), seul cFreD montre une corrélation forte avec les préférences humaines, atteignant une corrélation de 0,33 et une précision de classement non triviale de 66,67 %. ‘Ce résultat place cFreD comme la troisième métrique la plus alignée dans l’ensemble, surpassée seulement par les métriques formées sur des préférences humaines ImageReward, HPSv2 et MPS. ‘
‘Notamment, toutes les autres métriques statistiques montrent un alignement nettement plus faible avec les classements ELO et, par conséquent, inversent les classements, aboutissant à une Précision de classement inférieure à 0,5. ‘
‘Ces résultats mettent en évidence que cFreD est sensible à la fois à la fidélité visuelle et à la cohérence de l’invite, renforçant sa valeur en tant qu’alternative pratique et sans formation pour la référence de la génération d’images à partir de texte.’
Les auteurs ont également testé Inception V3 comme colonne vertébrale, attirant l’attention sur son ubiquité dans la littérature, et ont constaté qu’InceptionV3 se comportait de manière raisonnable, mais a été surpassé par des colonnes vertébrales basées sur des transformateurs telles que DINOv2-L/14 et ViT-L/16, qui s’alignent plus systématiquement avec les classements humains – et ils soutiennent que cela justifie le remplacement d’InceptionV3 dans les configurations d’évaluation modernes.

Taux de victoire montrant à quel point les classements de chaque colonne vertébrale d’image correspondent aux classements humains réels sur l’ensemble de données COCO.
Conclusion
Il est clair que tandis que les solutions avec un humain dans la boucle sont l’approche optimale pour le développement de fonctions de perte et de métriques, l’échelle et la fréquence des mises à jour nécessaires à ces schémas les rendront continuellement impraticables – peut-être jusqu’à ce que la participation publique généralisée aux évaluations soit généralement incitée ; ou, comme cela a été le cas avec les CAPTCHAs, imposée.
La crédibilité du nouveau système des auteurs dépend encore de son alignement avec le jugement humain, bien qu’à un niveau de plus que de nombreuses approches récentes impliquant la participation humaine ; et la légitimité de cFreD reste donc encore dans les données de préférence humaine (évidemment, puisque sans une telle référence, la revendication selon laquelle cFreD reflète l’évaluation humaine serait indémontrable).
On peut soutenir qu’inscrire nos critères actuels pour le ‘réalisme’ dans la sortie générative dans une fonction de métrique pourrait être une erreur à long terme, puisque notre définition de ce concept est actuellement sous attaque de la nouvelle vague de systèmes d’IA génératifs, et est prévue pour des révisions fréquentes et significatives.
* À ce stade, j’inclurais normalement un exemple de vidéo illustratif, peut-être issu d’une soumission universitaire récente ; mais cela serait malveillant – quiconque a passé plus de 10 à 15 minutes à parcourir les sorties d’IA générative d’Arxiv aura déjà rencontré des vidéos supplémentaires dont la qualité subjective indique que la soumission associée ne sera pas saluée comme un article de référence.
† Un total de 46 modèles de colonne vertébrale d’image ont été utilisés dans les expériences, dont tous ne sont pas considérés dans les résultats graphiques. Veuillez vous référer à l’annexe de l’article pour une liste complète ; ceux présentés dans les tableaux et les figures sont répertoriés.
Publié pour la première fois mardi 1er avril 2025


