talon Microsoft propose GODIVA, un cadre d'apprentissage automatique de texte en vidéo - Unite.AI
Suivez nous sur

Intelligence artificielle

Microsoft propose GODIVA, un cadre d'apprentissage automatique de texte en vidéo

mm
Le kit de préparation mis à jour on

Une collaboration entre Microsoft Research Asia et Duke University a produit un système d'apprentissage automatique capable de générer une vidéo uniquement à partir d'une invite textuelle, sans utiliser de réseaux contradictoires génératifs (GAN).

Les Projet est intitulé GODIVA (Generating Open-DomaIn Videos from nAtural Descriptions), et s'appuie sur certaines des approches utilisées par le système de synthèse d'images DALL-E d'OpenAI, révélé plus tôt cette année.

Premiers résultats de GODIVA, avec des images de vidéos créées à partir de deux invites. Les deux premiers exemples ont été générés à partir de l'invite « Jouer au golf sur gazon » et le tiers inférieur à partir de l'invite « Un match de baseball est joué ». Source : https://arxiv.org/pdf/2104.14806.pdf

Premiers résultats de GODIVA, avec des images de vidéos créées à partir de deux invites. Les deux premiers exemples ont été générés à partir de l'invite « Jouer au golf sur gazon » et le tiers inférieur à partir de l'invite « Un match de baseball est joué ». Source : https://arxiv.org/pdf/2104.14806.pdf

GODIVA utilise le modèle VQ-VAE (Vector Quantised-Variational AutoEncoder) d'abord introduit par des chercheurs du projet DeepMind de Google en 2018, et également un élément essentiel des capacités de transformation de DALL-E.

Architecture du modèle VQ-VAE, avec espace d'intégration à droite et encodeur/décodeur partageant l'espace dimensionnel afin de réduire les pertes lors de la reconstruction. Source : https://arxiv.org/pdf/1711.00937.pdf

Architecture du modèle VQ-VAE, avec espace d'intégration à droite et encodeur/décodeur partageant l'espace dimensionnel afin de réduire les pertes lors de la reconstruction.  Source : https://arxiv.org/pdf/1711.00937.pdf

VQ-VAE a été utilisé dans un certain nombre de projets pour générer une vidéo prédite, où l'utilisateur fournit un nombre initial de trames et demande au système de générer des trames supplémentaires :

Travaux antérieurs : VQ-VAE déduit des images à partir d'un matériel source fourni très limité. Source : Documents supplémentaires sur https://openreview.net/forum?id=bBDlTR5eDIX

Travaux antérieurs : VQ-VAE déduit des images à partir d'un matériel source fourni très limité. Source : Documents supplémentaires sur https://openreview.net/forum?id=bBDlTR5eDIX

Cependant, les auteurs du nouvel article affirment que GODIVA représente la première implémentation pure de texte en vidéo (T2V) qui utilise VQ-VAE plutôt que le plus erratique résultats que les projets précédents ont obtenus avec les GAN.

Points de départ dans le texte en vidéo

Bien que la soumission manque de détails sur les critères de création des images d'origine, GODIVA semble invoquer des images de départ de nulle part avant de les extrapoler en images vidéo basse résolution.

Une représentation en colonnes du système d'attention clairsemé en trois dimensions qui alimente GODIVA pour les tâches de conversion de texte en image. L'auto-régression est prédite à l'aide de quatre facteurs : texte d'entrée, positionnement relatif par rapport à l'image précédente (similaire à SPADE de NVIDIA et à d'autres méthodes qui s'appuient sur ou évoluent au-delà des approches de flux optique), mêmes lignes sur la même image et mêmes colonnes sur le même colonne.

Une représentation en colonnes du système d'attention clairsemé en trois dimensions qui alimente GODIVA pour les tâches de conversion de texte en image. L'auto-régression est prédite par quatre facteurs : texte d'entrée, positionnement relatif avec l'image précédente (similaire à NVIDIA BÊCHE et d'autres méthodes qui s'appuient sur ou évoluent au-delà des approches de flux optique), les mêmes lignes sur le même cadre et les mêmes colonnes sur la même colonne.

En fait, l'origination vient des étiquettes dans les données utilisées : GODIVA a été pré-formé sur le Comment100M ensemble de données, composé de 136 millions de clips vidéo sous-titrés provenant de YouTube sur 15 ans et présentant 23,000 3.5 activités étiquetées. Néanmoins, chaque activité possible est présente dans un très grand nombre de clips, augmentant avec la généralisation (c'est-à-dire que "Animaux de compagnie et animaux" compte 762,000 millions de clips, tandis que "Chiens" compte XNUMX XNUMX clips), et il reste donc un grand choix de points de départ possibles. .

Le modèle a été évalué sur le MSR Video to Text de Microsoft (MSR-VTT) base de données. Comme autres tests de l'architecture, GODIVA a été formé à partir de zéro sur le Déménagement Mnist ensemble de données et l'ensemble de données Double Moving Mnist, tous deux dérivés de l'original Base de données MNIST, une collaboration entre Microsoft, Google et le Courant Institute of Mathematical Sciences de NYU.

Évaluation des images dans la synthèse vidéo continue

Conformément à l'Université de Pékin IRC-GAN, GODIVA ajoute quatre vérifications colonnaires supplémentaires à la méthode MNIST originale, qui évaluait les images précédentes et suivantes en déplaçant vers le haut> vers le bas puis vers la gauche> vers la droite. IRC-GAN et GODIVA considèrent également les cadres en déplaçant l'attention vers la gauche> la droite, la droite> la gauche, le haut> le bas et le bas> le haut.

Cadres supplémentaires générés par GODIVA.

Cadres supplémentaires générés par GODIVA.

Évaluation de la qualité vidéo et de la fidélité à l'invite

Pour comprendre dans quelle mesure la génération d'images a réussi, les chercheurs ont utilisé deux métriques : une basée sur la similarité CLIP et une nouvelle métrique de correspondance relative (RM).

OpenAI CLIP framework est capable de faire correspondre les images au texte, ainsi que de faciliter la synthèse d'images en inversant ce modèle. Les chercheurs ont divisé le score dérivé du CLIP par la similarité calculée entre l'invite de texte et la vidéo de vérité terrain afin d'arriver à un score RM. Dans un cycle de notation séparé, la production a été évaluée par 200 personnes et les résultats comparés aux scores programmatiques.

Enfin, GODIVA a été testé par rapport à deux cadres précédents, TFGAN et la collaboration Duke/NEC de 2017, T2V.

T2V-contre-TFGAN-contre-GODIVA

TFGAN peut produire 128 pixels carrés par rapport à la sortie 64 × 64 qui contraint GODIVA et T2V dans les exemples ci-dessus, mais les chercheurs notent non seulement que GODIVA produit un mouvement plus audacieux et plus engagé, mais générera des changements de scène sans aucune incitation spécifique, et n'hésite pas à générer des gros plans.

Dans les exécutions ultérieures, GODIVA génère également une sortie 128x128px, avec des changements de POV :

godiva_baseball_128px

Dans la propre métrique RM du projet, GODIVA est capable d'atteindre des scores proches de 100 % en termes d'authenticité (qualité de la vidéo) et de fidélité (à quel point le contenu généré correspond à l'invite de saisie).

Les chercheurs concèdent cependant que le développement de métriques CLIP basées sur la vidéo constituerait un ajout bienvenu à ce domaine de la synthèse d'images, car il fournirait des règles du jeu équitables pour évaluer la qualité des résultats sans recourir au surajustement et au manque de résultats. de généralisation qui a été de plus en plus critiquée en ce qui concerne les défis « standards » de la vision par ordinateur au cours des dix dernières années.

Ils observent également que la génération de vidéos plus longues sera une considération logistique dans le développement ultérieur du système, car seulement 10 images de sortie 64x64px nécessitent 2560 jetons visuels, un gonflement du pipeline qui risque de devenir coûteux et ingérable assez rapidement.