Inteligencia artificial

Microsoft Propone GODIVA, un Marco de Aprendizaje Automático de Texto a Vídeo

Published May 4, 2021

Updated April 28, 2026

Martin Anderson

Una colaboración entre Microsoft Research Asia y la Universidad de Duke ha producido un sistema de aprendizaje automático capaz de generar video únicamente a partir de una llamada de texto, sin el uso de Redes Adversarias Generativas (GAN).

El proyecto se titula GODIVA (Generación de Vídeos de Dominio Abierto a partir de Descripciones Naturales), y se basa en algunos de los enfoques utilizados por el sistema de síntesis de imágenes DALL-E de OpenAI, revelado a principios de este año.

Resultados iniciales de GODIVA, con fotogramas de vídeos creados a partir de dos llamadas. Los dos ejemplos superiores se generaron a partir de la llamada ‘Jugar al golf en el césped’, y el tercer inferior a partir de la llamada ‘Un partido de béisbol se juega’. Fuente: https://arxiv.org/pdf/2104.14806.pdf

GODIVA utiliza el modelo Vector Quantised-Variational AutoEncoder (VQ-VAE) introducido por primera vez por investigadores del proyecto DeepMind de Google en 2018, y también es un componente esencial en las capacidades de transformación de DALL-E.

Arquitectura del modelo VQ-VAE, con espacio de incrustación a la derecha y codificador/decodificador que comparten espacio dimensional para reducir las pérdidas durante la reconstrucción. Fuente: https://arxiv.org/pdf/1711.00937.pdf

VQ-VAE se ha utilizado en varios proyectos para generar vídeo predicho, donde el usuario proporciona un número inicial de fotogramas y solicita al sistema que genere fotogramas adicionales:

Trabajo anterior: VQ-VAE infiere fotogramas a partir de material de origen muy limitado. Fuente: Materiales suplementarios en https://openreview.net/forum?id=bBDlTR5eDIX

Sin embargo, los autores del nuevo artículo afirman que GODIVA representa la primera implementación pura de texto a vídeo (T2V) que utiliza VQ-VAE en lugar de los resultados más erráticos que los proyectos anteriores han obtenido con GAN.

Puntos de semilla en texto a vídeo

Aunque la presentación es escasa en detalles sobre los criterios por los que se crean los fotogramas de origen, GODIVA parece invocar imágenes de semilla desde la nada antes de extrapolarlas en fotogramas de vídeo de baja resolución.

Representación columnar del sistema de atención dispersa tridimensional que impulsa a GODIVA para tareas de texto a imagen. La auto-regresión se predice a través de cuatro factores: texto de entrada, posición relativa con el fotograma anterior (similar a NVIDIA’s SPADE y otros métodos que se basan en o evolucionan más allá de los enfoques de Flujo Óptico), mismas filas en el mismo fotograma y mismas columnas en la misma columna.

De hecho, el origen proviene de las etiquetas en los datos utilizados: GODIVA se preentrenó en el conjunto de datos Howto100M, que consta de 136 millones de clips de vídeo con subtítulos obtenidos de YouTube durante 15 años, y que presenta 23.000 actividades etiquetadas. Sin embargo, cada actividad posible está presente en un gran número de clips, lo que aumenta con la generalización (es decir, ‘Mascotas y animales’ tiene 3,5 millones de clips, mientras que ‘perros’ tiene 762.000 clips), y por lo tanto, todavía hay una gran elección de puntos de partida posibles.

El modelo se evaluó en el conjunto de datos de Microsoft MSR Video to Text (MSR-VTT). Como pruebas adicionales de la arquitectura, GODIVA se entrenó desde cero en el conjunto de datos Moving Mnist y el conjunto de datos Double Moving Mnist, ambos derivados de la base de datos original MNIST, una colaboración entre Microsoft, Google y el Instituto Courant de Ciencias Matemáticas de la NYU.

Evaluación de fotogramas en síntesis de vídeo continuo

En línea con el IRC-GAN de la Universidad de Pekín, GODIVA agrega cuatro controles columnares adicionales al método MNIST original, que evaluaba los fotogramas anteriores y posteriores moviéndose hacia arriba y hacia abajo, y luego hacia la izquierda y hacia la derecha. IRC-GAN y GODIVA también consideran los fotogramas moviendo la atención de izquierda a derecha, de derecha a izquierda, de arriba a abajo y de abajo a arriba.

Fotogramas generados adicionales de GODIVA.

Evaluación de la calidad del vídeo y la fidelidad a la llamada

Para comprender cómo bien logró la generación de imágenes, los investigadores utilizaron dos métricas: una basada en la similitud CLIP, y una métrica de Coincidencia Relativa (RM) novedosa.

El marco de trabajo CLIP de OpenAI CLIP es capaz de coincidencia de cero disparos de imágenes a texto, así como facilitar la síntesis de imágenes invirtiendo este modelo. Los investigadores dividieron la puntuación derivada de CLIP por la similitud calculada entre la llamada de texto y el vídeo de verdad para llegar a una puntuación RM. En una ronda de puntuación separada, la salida se evaluó con 200 personas y los resultados se compararon con las puntuaciones programáticas.

Finalmente, GODIVA se probó contra dos marcos anteriores, TFGAN y la colaboración de 2017 entre Duke y NEC, T2V.

TFGAN puede producir 128 píxeles cuadrados en comparación con la salida de 64×64 que restringe a GODIVA y T2V en los ejemplos anteriores, pero los investigadores observan que no solo GODIVA produce movimiento más atrevido y más comprometido, sino que también generará cambios de escena sin ninguna llamada específica, y no se niega a generar tomas en primer plano.

En ejecuciones posteriores, GODIVA también genera salida de 128x128px, con cambios en la POV:

En la métrica RM del proyecto, GODIVA es capaz de lograr puntuaciones que se acercan al 100% en términos de autenticidad (calidad del vídeo) y fidelidad (cómo de cerca el contenido generado coincide con la llamada de entrada).

Los investigadores conceden, sin embargo, que el desarrollo de métricas de vídeo basadas en CLIP sería una adición bienvenida a este área de síntesis de imágenes, ya que proporcionaría un campo de juego nivelado para evaluar la calidad de los resultados sin recurrir al sobreajuste y la falta de generalización que ha sido cada vez más criticado en relación con los desafíos de visión por computadora ‘estándar’ en los últimos diez años.

También observan que generar vídeos más largos será una consideración logística en el desarrollo posterior del sistema, ya que solo 10 fotogramas de salida de 64x64px requieren 2560 tokens visuales, un aumento en la tubería que probablemente se vuelva costoso y difícil de manejar bastante rápido.