Connect with us

Réexamen de la formation de l’IA vidéo avec des données axées sur l’utilisateur

Angle d’Anderson

Réexamen de la formation de l’IA vidéo avec des données axées sur l’utilisateur

mm
Examples from the paper ' VideoUFO: A Million-Scale User-Focused Dataset for Text-to-Video Generation'

Le type de contenu que les utilisateurs pourraient vouloir créer en utilisant un modèle génératif tel que Flux ou Hunyuan Video n’est peut-être pas toujours facilement disponible, même si la demande de contenu est assez générique, et on pourrait penser que le générateur pourrait gérer cela.

Un exemple, illustré dans un nouvel article que nous allons examiner dans cet article, note que le modèle OpenAI Sora de plus en plus éclipsé a du mal à rendre un luciole anatomiquement correct, en utilisant l’invite ‘Un luciole brille sur une feuille de gazon dans une nuit d’été sereine’ :

OpenAI's Sora a une compréhension légèrement défectueuse de l'anatomie du luciole. Source : https://arxiv.org/pdf/2503.01739

OpenAI’s Sora a une compréhension légèrement défectueuse de l’anatomie du luciole. Source : https://arxiv.org/pdf/2503.01739

Puisque je prends rarement les revendications de recherche à la lettre, j’ai testé la même invite sur Sora aujourd’hui et j’ai obtenu un résultat légèrement meilleur. Cependant, Sora a toujours échoué à rendre la lumière correctement – au lieu d’illuminer l’extrémité de la queue du luciole, où se produit la bioluminescence, il a déplacé la lumière près des pieds de l’insecte :

Mon propre test de l'invite des chercheurs dans Sora produit un résultat qui montre que Sora ne comprend pas d'où vient réellement la lumière d'un luciole.

Mon propre test de l’invite des chercheurs dans Sora produit un résultat qui montre que Sora ne comprend pas d’où vient réellement la lumière d’un luciole.

Ironiquement, le Adobe Firefly moteur de diffusion générative, formé sur les photos et vidéos protégées par copyright de l’entreprise, n’a réussi qu’un taux de réussite de 1 sur 3 dans ce sens, lorsque j’ai essayé la même invite dans la fonction d’IA générative de Photoshop :

Seule la dernière des trois générations proposées de l'invite des chercheurs produit une lumière dans Adobe Firefly (mars 2025), bien que la lumière soit située dans la partie correcte de l'anatomie de l'insecte.

Seule la dernière des trois générations proposées de l’invite des chercheurs produit une lumière dans Adobe Firefly (mars 2025), bien que la lumière soit située dans la partie correcte de l’anatomie de l’insecte.

Cet exemple a été mis en évidence par les chercheurs de la nouvelle étude pour illustrer que la distribution, l’accent et la couverture dans les ensembles de formation utilisés pour informer les modèles de base populaires peuvent ne pas correspondre aux besoins des utilisateurs, même si l’utilisateur ne demande pas quelque chose de particulièrement difficile – un sujet qui soulève les défis impliqués dans l’adaptation des ensembles de formation hyperscale à leurs résultats les plus efficaces et les plus performants en tant que modèles génératifs.

Les auteurs déclarent :

‘[Sora] ne parvient pas à capturer le concept d’un luciole lumineux tout en générant avec succès de l’herbe et une nuit [d’été] : À partir de la perspective des données, nous déduisons que c’est principalement parce que [Sora] n’a pas été formé sur des sujets liés aux lucioles, tandis qu’il a été formé sur l’herbe et la nuit. De plus, si [Sora] avait vu la vidéo montrée dans [l’image ci-dessus], il comprendrait à quoi ressemble un luciole lumineux.’

Ils introduisent un nouvel ensemble de données établi et suggèrent que leur méthodologie pourrait être affinée dans les travaux futurs pour créer des collections de données qui correspondent mieux aux attentes des utilisateurs que de nombreux modèles existants.

Données pour les gens

En essence, leur proposition pose une approche de curation de données qui se situe entre les données personnalisées pour un type de modèle tel qu’un LoRA (et cette approche est loin d’être suffisamment spécifique pour une utilisation générale) ; et les collections à grande échelle et relativement indiscernables hautes volumes (telles que l’ensemble de données LAION qui alimente la diffusion stable) qui ne sont pas spécifiquement alignées sur un scénario d’utilisation finale.

La nouvelle approche, à la fois en tant que méthodologie et nouvel ensemble de données, est (plutôt tortueusement) nommée Users’ FOcus in text-to-video, ou VideoUFO. L’ensemble de données VideoUFO comprend 1,9 million de clips vidéo couvrant 1 291 sujets axés sur l’utilisateur. Les sujets eux-mêmes ont été élaborés à partir d’un ensemble de données vidéo existant, et analysés à l’aide de divers modèles de langage et de techniques de traitement du langage naturel (NLP) :

Exemples de sujets distillés présentés dans la nouvelle étude.

Exemples de sujets distillés présentés dans la nouvelle étude.

L’ensemble de données VideoUFO présente un grand volume de vidéos nouvelles issues de YouTube – ‘nouvelles’ dans le sens où les vidéos en question ne figurent pas dans les ensembles de données vidéo qui sont actuellement populaires dans la littérature, et donc dans de nombreuses sous-ensembles qui ont été créés à partir de ceux-ci (et de nombreuses vidéos ont en fait été téléchargées après la création des anciens ensembles de données mentionnés dans l’article).

En fait, les auteurs affirment qu’il n’y a que 0,29 % de chevauchement avec les ensembles de données vidéo existants – une démonstration impressionnante de nouveauté.

Une raison à cela pourrait être que les auteurs n’acceptaient que les vidéos YouTube avec une licence Creative Commons qui serait moins susceptible de gêner les utilisateurs plus tard – il est possible que cette catégorie de vidéos ait été moins prioritaire dans les balayages précédents de YouTube et d’autres plateformes à grande échelle.

Deuxièmement, les vidéos ont été demandées sur la base d’une estimation préalable des besoins des utilisateurs (voir image ci-dessus), et non pas balayées de manière indiscriminée. Ces deux facteurs combinés pourraient conduire à une collection aussi nouvelle. En outre, les chercheurs ont vérifié les ID YouTube des vidéos contributives (c’est-à-dire les vidéos qui pourraient plus tard avoir été divisées et réimaginées pour la collection VideoUFO) par rapport à ceux présentés dans les collections existantes, ce qui conforte l’affirmation.

Bien que tout dans la nouvelle étude ne soit pas tout à fait convaincant, c’est une lecture intéressante qui met en évidence l’étendue à laquelle nous sommes encore plutôt à la merci de distributions inégales dans les ensembles de données, en termes d’obstacles que la scène de recherche est souvent confrontée dans la curation des ensembles de données.

Le nouveau travail est intitulé VideoUFO : un ensemble de données à l’échelle du million axé sur l’utilisateur pour la génération de vidéos à partir de texte, et provient de deux chercheurs, respectivement de l’Université de technologie de Sydney en Australie, et de l’Université de Zhejiang en Chine.

Sélection d'exemples de l'ensemble de données final obtenu.

Sélection d’exemples de l’ensemble de données final obtenu.

Un ‘acheteur personnel’ pour les données d’IA

Le sujet et les concepts présentés dans la somme totale des images et des vidéos Internet ne reflètent pas nécessairement ce que l’utilisateur final moyen peut finir par demander à un système génératif ; même lorsque le contenu et la demande se croisent (comme avec la pornographie, qui est abondamment disponible sur Internet et d’un grand intérêt pour de nombreux utilisateurs de l’IA générative), cela peut ne pas correspondre à l’intention et aux normes des développeurs pour un nouveau système génératif.

Outre le grand volume de contenu NSFW téléchargé quotidiennement, une quantité disproportionnée de matériel disponible sur le net est susceptible de provenir d’annonceurs et de ceux qui tentent de manipuler le référencement. L’intérêt commercial de ce type rend la distribution du sujet loin d’être impartiale ; pire, il est difficile de développer des systèmes de filtrage basés sur l’IA qui peuvent faire face au problème, puisque les algorithmes et les modèles développés à partir de données hyperscale significatives peuvent en eux-mêmes refléter les tendances et les priorités des données sources.

Par conséquent, les auteurs de la nouvelle étude ont abordé le problème en inversant la proposition, en déterminant ce que les utilisateurs sont susceptibles de vouloir, et en obtenant des vidéos qui correspondent à ces besoins.

En surface, cette approche semble tout aussi susceptible de déclencher une course sémantique vers le bas que d’atteindre une neutralité équilibrée et de type Wikipedia. La calibration de la curation des données autour de la demande des utilisateurs risque d’amplifier les préférences du plus petit dénominateur commun tout en marginalisant les utilisateurs de niche, puisque les intérêts majoritaires porteront inévitablement plus de poids.

Néanmoins, essayons de voir comment l’article aborde le défi.

Distiller des concepts avec discrétion

Les chercheurs ont utilisé l’ensemble de données VidProM de 2024 comme source pour l’analyse des sujets qui informeraient plus tard le projet de web-scraping.

Cet ensemble de données a été choisi, déclarent les auteurs, parce qu’il s’agit du seul ensemble de données public de plus d’un million ‘écrit par de vrais utilisateurs’ – et il devrait être déclaré que cet ensemble de données a été lui-même curé par les deux auteurs de la nouvelle étude.

L’article explique* :

‘Tout d’abord, nous intégrons tous les 1,67 million d’invites de VidProM dans des vecteurs de 384 dimensions en utilisant SentenceTransformers Ensuite, nous regroupons ces vecteurs avec K-means. Notez que nous définissons le nombre de clusters sur une valeur relativement élevée, c’est-à-dire 2 000, et que nous fusionnons les clusters similaires à l’étape suivante.

‘Enfin, pour chaque cluster, nous demandons à GPT-4o de conclure un sujet [un ou deux mots].’

Les auteurs soulignent que certains concepts sont distincts mais notoirement adjacents, tels que église et cathédrale. Un critère trop granulaire pour les cas de ce type conduirait à des embeddings de concepts (par exemple) pour chaque race de chien, au lieu du terme chien ; alors qu’un critère trop large pourrait regrouper un nombre excessif de sous-concepts dans un seul concept surpeuplé ; l’article note donc l’acte d’équilibre nécessaire pour évaluer de tels cas.

Les formes singulières et plurielles ont été fusionnées, et les verbes restaurés à leurs formes de base (infinitives). Les termes excessivement larges – tels que animation, scène, film et mouvement – ont été supprimés.

Ainsi, 1 291 sujets ont été obtenus (avec la liste complète disponible dans la section supplémentaire de l’article source).

Web-scraping sélectif

Ensuite, les chercheurs ont utilisé l’API officielle YouTube pour rechercher des vidéos en fonction des critères distillés à partir de l’ensemble de données de 2024, en recherchant à obtenir 500 vidéos pour chaque sujet. Outre la licence Creative Commons requise, chaque vidéo devait avoir une résolution de 720p ou supérieure, et devait être inférieure à quatre minutes.

De cette façon, 586 490 vidéos ont été scrapées à partir de YouTube.

Les auteurs ont comparé l’ID YouTube des vidéos téléchargées à un certain nombre d’ensembles de données populaires : OpenVid-1M ; HD-VILA-100M ; Intern-Vid ; Koala-36M ; LVD-2M ; MiraData ; Panda-70M ; VidGen-1M ; et WebVid-10M.

Ils ont constaté que seuls 1 675 ID (les 0,29 % mentionnés ci-dessus) des clips VideoUFO figuraient dans ces anciennes collections, et qu’il faut convenir que même si la liste de comparaison des ensembles de données n’est pas exhaustive, elle comprend tous les plus grands et les plus influents acteurs de la scène de la vidéo générative.

Coupures et évaluation

Les vidéos obtenues ont ensuite été segmentées en plusieurs clips, selon la méthodologie exposée dans l’article Panda-70M cité ci-dessus. Les limites des plans ont été estimées, les assemblages cousus, et les vidéos concaténées divisées en clips individuels, avec des légendes brèves et détaillées fournies.

Chaque entrée de données dans l'ensemble de données VideoUFO comporte un clip, un ID, des heures de début et de fin, ainsi qu'une légende brève et détaillée.

Chaque entrée de données dans l’ensemble de données VideoUFO comporte un clip, un ID, des heures de début et de fin, ainsi qu’une légende brève et détaillée.

Les légendes brèves ont été traitées par la méthode Panda-70M, et les légendes vidéo détaillées par Qwen2-VL-7B, selon les directives établies par Open-Sora-Plan. Dans les cas où les clips n’incarnaient pas avec succès le concept cible prévu, les légendes détaillées de chaque clip ont été alimentées dans GPT-4o mini, afin de déterminer s’il s’agissait vraiment d’un ajustement pour le sujet. Même si les auteurs auraient préféré une évaluation via GPT-4o, cela aurait été trop coûteux pour des millions de clips vidéo.

L’évaluation de la qualité de la vidéo a été effectuée avec six méthodes du projet VBench.

Comparaisons

Les auteurs ont répété le processus d’extraction de sujet sur les ensembles de données précédents. Pour cela, il était nécessaire de faire correspondre sémantiquement les catégories dérivées de VideoUFO aux catégories inévitablement différentes des autres collections ; il faut convenir que de tels processus ne fournissent que des catégories équivalentes approximatives, et que cela peut donc être un processus trop subjectif pour garantir des comparaisons empiriques.

Néanmoins, dans l’image ci-dessous, nous voyons les résultats que les chercheurs ont obtenus par cette méthode :

Comparaison des attributs fondamentaux dérivés à travers VideoUFO et les ensembles de données précédents.

Comparaison des attributs fondamentaux dérivés à travers VideoUFO et les ensembles de données précédents.

Les chercheurs reconnaissent que leur analyse s’est appuyée sur les légendes et les descriptions existantes fournies dans chaque ensemble de données. Ils admettent que la re-légende des anciens ensembles de données en utilisant la même méthode que VideoUFO aurait pu offrir une comparaison plus directe. Cependant, compte tenu du volume énorme de points de données, leur conclusion selon laquelle cette approche serait prohibitivement coûteuse semble justifiée.

Génération

Les auteurs ont développé un référentiel pour évaluer les performances des modèles de texte-vidéo sur des concepts axés sur l’utilisateur, intitulé BenchUFO. Cela a impliqué la sélection de 791 noms parmi les 1 291 sujets distillés dans VideoUFO. Pour chaque sujet sélectionné, dix invites de texte de VidProM ont été choisies aléatoirement.

Chaque invite a été passée à un modèle de texte-vidéo, avec le captionneur Qwen2-VL-7B utilisé pour évaluer les résultats générés. Avec toutes les vidéos générées ainsi légendées, SentenceTransformers a été utilisé pour calculer la similarité cosinuse pour l’invite de saisie et la description de sortie (inférée) dans chaque cas.

Schéma pour le processus BenchUFO.

Schéma pour le processus BenchUFO.

Les modèles génératifs évalués étaient : Mira ; Show-1 ; LTX-Video ; Open-Sora-Plan ; Open Sora ; TF-T2V ; Mochi-1 ; HiGen ; Pika ; RepVideo ; T2V-Zero ; CogVideoX ; Latte-1 ; Hunyuan Video ; LaVie ; et Pyramidal.

Outre VideoUFO, MVDiT-VidGen et MVDit-OpenVid étaient les ensembles de données de formation alternatifs.

Les résultats considèrent les 10e-50e sujets les moins performants et les mieux performants à travers les architectures et les ensembles de données.

Résultats pour les performances des modèles T2V publics par rapport aux modèles formés des auteurs, sur BenchUFO.

Résultats pour les performances des modèles T2V publics par rapport aux modèles formés des auteurs, sur BenchUFO.

Ici, les auteurs commentent :

‘Les modèles de texte-vidéo actuels ne performe pas de manière cohérente sur tous les sujets axés sur l’utilisateur. Plus précisément, il existe une différence de score allant de 0,233 à 0,314 entre les 10 premiers et les 10 derniers sujets. Ces modèles peuvent ne pas comprendre efficacement des sujets tels que “calamar géant”, “cellule animale”, “Van Gogh” et “égyptien ancien” en raison d’un entraînement insuffisant sur de telles vidéos.’

‘Les modèles de texte-vidéo actuels montrent un certain degré de cohérence dans leurs sujets les mieux performants. Nous découvrons que la plupart des modèles de texte-vidéo excellent dans la génération de vidéos sur des sujets liés aux animaux, tels que “mouette”, “panda”, “dauphin”, “chameau” et “hibou”. Nous déduisons que cela est en partie dû à un biais en faveur des animaux dans les ensembles de données vidéo actuels.’

Conclusion

VideoUFO est une offre exceptionnelle si l’on considère uniquement le point de vue des données fraîches. Si il n’y a pas eu d’erreur dans l’évaluation et l’élimination des ID YouTube, et si l’ensemble de données contient autant de matériel nouveau pour la scène de recherche, c’est une proposition rare et potentiellement précieuse.

Le revers de la médaille est qu’il faut accorder du crédit à la méthodologie de base ; si vous ne croyez pas que la demande des utilisateurs devrait informer les formules de web-scraping, vous seriez en train d’acheter un ensemble de données qui vient avec ses propres ensembles de biais préoccupants.

De plus, l’utilité des sujets distillés dépend à la fois de la fiabilité de la méthode de distillation utilisée (qui est généralement entravée par des contraintes budgétaires), et également des méthodes de formulation pour l’ensemble de données de 2024 qui fournit le matériel source.

Cela étant dit, VideoUFO mérite certainement une enquête plus approfondie – et il est disponible sur Hugging Face.

 

* Mon remplacement des citations des auteurs par des liens hypertexte.

Publié pour la première fois le mercredi 5 mars 2025

Écrivain sur l'apprentissage automatique, spécialiste de domaine en synthèse d'images humaines. Ancien responsable du contenu de recherche chez Metaphysic.ai.