Intelligence artificielle
Microsoft propose GODIVA, un cadre d’apprentissage automatique Texte-Vidéo

Une collaboration entre Microsoft Research Asia et l’Université Duke a abouti à un système d’apprentissage automatique capable de générer des vidéos à partir d’un texte, sans utiliser de réseaux antagonistes génératifs (GAN).
Le projet est intitulé GODIVA (Génération de vidéos ouvertes à partir de descriptions naturelles), et repose sur certaines des approches utilisées par le système de synthèse d’images DALL-E d’OpenAI, révélé plus tôt cette année.

Résultats préliminaires de GODIVA, avec des images issues de vidéos créées à partir de deux invites. Les deux premiers exemples ont été générés à partir de l’invite ‘Jouer au golf sur l’herbe’, et le troisième en bas à partir de l’invite ‘Un match de baseball est joué’. Source: https://arxiv.org/pdf/2104.14806.pdf
GODIVA utilise le modèle Vector Quantised-Variational AutoEncoder (VQ-VAE) présenté pour la première fois par des chercheurs du projet DeepMind de Google en 2018, et également un élément essentiel dans les capacités de transformation de DALL-E.
[caption id="attachment_175335" align="alignnone" width="900"]
VQ-VAE a été utilisé dans de nombreux projets pour générer des vidéos prédites, où l’utilisateur fournit un certain nombre de trames initiales et demande au système de générer des trames supplémentaires :
[caption id="attachment_175336" align="alignnone" width="800"]
Travail précédent : VQ-VAE infère des trames à partir d’un matériel source très limité. Source : Matériel supplémentaire à https://openreview.net/forum?id=bBDlTR5eDIX
Cependant, les auteurs de l’article affirment que GODIVA représente la première mise en œuvre pure de texte-vidéo (T2V) qui utilise VQ-VAE plutôt que les résultats plus erratiques résultats que les projets précédents ont obtenus avec les GAN.
Points de départ dans le texte-vidéo
Bien que la soumission soit peu détaillée sur les critères selon lesquels les trames d’origine sont créées, GODIVA semble invoquer des images de départ à partir de nulle part avant de les extrapoler en trames de vidéo à basse résolution.
<img class="wp-image-175337" src="https://www.unite.ai/wp-content/uploads/2021/05/godiva_model_workflow.png" alt="Représentation colonnaire du système d'attention épars tridimensionnel qui alimente GODIVA pour les tâches de texte-vidéo. L'auto-régression est prédite à travers quatre facteurs : texte d'entrée, positionnement relatif avec la trame précédente (semblable à NVIDIA's SPADE et d’autres méthodes qui s’appuient sur ou évoluent au-delà des approches de flux optique), mêmes lignes sur la même trame, et mêmes colonnes sur la même colonne.” width=”900″ height=”471″ /> Représentation colonnaire du système d’attention épars tridimensionnel qui alimente GODIVA pour les tâches de texte-vidéo. L’auto-régression est prédite à travers quatre facteurs : texte d’entrée, positionnement relatif avec la trame précédente (semblable à NVIDIA’s SPADE et d’autres méthodes qui s’appuient sur ou évoluent au-delà des approches de flux optique), mêmes lignes sur la même trame, et mêmes colonnes sur la même colonne.
En fait, l’origine vient des étiquettes dans les données utilisées : GODIVA a été pré-entraîné sur l’ensemble de données Howto100M, composé de 136 millions de clips vidéo sous-titrés provenant de YouTube sur 15 ans, et comportant 23 000 activités étiquetées. Néanmoins, chaque activité possible est présente dans un très grand nombre de clips, augmentant avec la généralisation (c’est-à-dire que ‘Animaux et animaux de compagnie’ compte 3,5 millions de clips, tandis que ‘chiens’ compte 762 000 clips), et il y a donc encore un grand choix de points de départ possibles.
Le modèle a été évalué sur l’ensemble de données MSR Video to Text (MSR-VTT) de Microsoft. Comme tests supplémentaires de l’architecture, GODIVA a été entraîné à partir de zéro sur l’ensemble de données Moving Mnist et l’ensemble de données Double Moving Mnist, tous deux dérivés de la base de données MNIST originale, une collaboration entre Microsoft, Google et l’Institut des sciences mathématiques de Courant à NYU.
Évaluation des trames dans la synthèse de vidéos continues
Conformément à IRC-GAN de l’Université de Pékin, GODIVA ajoute quatre vérifications de colonnes supplémentaires à la méthode MNIST originale, qui évaluait les trames précédentes et suivantes en déplaçant haut>bas puis gauche>droite. IRC-GAN et GODIVA considèrent également les trames en déplaçant l’attention gauche>droite, droite>gauche, haut>bas et bas>haut.
Évaluation de la qualité et de la fidélité de la vidéo
Pour comprendre à quel point la génération d’images a réussi, les chercheurs ont utilisé deux métriques : l’une basée sur la similarité CLIP, et une nouvelle métrique d’appariement relatif (RM).
Le cadre CLIP d’OpenAI est capable de correspondance à zéro tir de images à du texte, ainsi que de faciliter la synthèse d’images en inversant ce modèle. Les chercheurs ont divisé le score dérivé de CLIP par la similarité calculée entre l’invite de texte et la vidéo de référence pour obtenir un score RM. Dans un tour d’évaluation séparé, la sortie a été évaluée par 200 personnes et les résultats ont été comparés aux scores programmatiques.
Enfin, GODIVA a été testé contre deux cadres précédents, TFGAN et la collaboration de 2017 entre Duke et NEC, T2V.
TFGAN peut produire 128 pixels carrés par rapport à la sortie 64×64 qui contraint GODIVA et T2V dans les exemples ci-dessus, mais les chercheurs notent non seulement que GODIVA produit des mouvements plus audacieux et plus engagés, mais générera également des changements de scène sans aucune invite spécifique, et n’hésite pas à générer des plans rapprochés.
Dans des exécutions ultérieures, GODIVA génère également une sortie 128x128px, avec des changements de point de vue :
Dans la métrique RM propre au projet, GODIVA est capable d’atteindre des scores approchant 100 % en termes d’authenticité (qualité de la vidéo) et de fidélité (à quel point le contenu généré correspond à l’invite de texte).
Les chercheurs reconnaissent cependant que le développement de métriques de CLIP basées sur la vidéo serait un ajout bienvenu dans ce domaine de synthèse d’images, car cela fournirait un terrain d’évaluation nivelé pour évaluer la qualité des résultats sans recourir à la sur-ajustement et au manque de généralisation qui a de plus en plus été critiqué dans les défis de vision par ordinateur standard au cours des dix dernières années.
Ils observent également que la génération de vidéos plus longues sera une considération logistique dans le développement ultérieur du système, puisque seulement 10 trames de sortie 64x64px nécessitent 2560 jetons visuels, une inflation de pipeline qui risque de devenir coûteuse et ingérable plutôt rapidement.















