Ángulo de Anderson
Microsoft Propone GODIVA, un Marco de Aprendizaje Automático de Texto a Vídeo

Una colaboración entre Microsoft Research Asia y la Universidad de Duke ha producido un sistema de aprendizaje automático capaz de generar vídeo a partir de un texto de prompt, sin el uso de Redes Adversarias Generativas (GAN).
El proyecto se titula GODIVA (Generación de Vídeos de Dominio Abierto a partir de Descripciones Naturales), y se basa en algunos de los enfoques utilizados por el sistema de síntesis de imágenes DALL-E de OpenAI, presentado anteriormente este año.

Resultados iniciales de GODIVA, con fotogramas de vídeos creados a partir de dos prompts. Los dos ejemplos superiores se generaron a partir del prompt ‘Jugar al golf en el césped’, y el tercer ejemplo inferior a partir del prompt ‘Un partido de béisbol se juega’. Fuente: https://arxiv.org/pdf/2104.14806.pdf
GODIVA utiliza el modelo Vector Quantised-Variational AutoEncoder (VQ-VAE) presentado por primera vez por investigadores del proyecto DeepMind de Google en 2018, y también es un componente esencial en las capacidades transformacionales de DALL-E.

Arquitectura del modelo VQ-VAE, con espacio de incrustación a la derecha y codificador/decodificador que comparten espacio dimensional para reducir pérdidas durante la reconstrucción. Fuente: https://arxiv.org/pdf/1711.00937.pdf
VQ-VAE ha sido utilizado en varios proyectos para generar vídeo predicho, donde el usuario proporciona un número inicial de fotogramas y solicita al sistema que genere fotogramas adicionales:

Trabajo anterior: VQ-VAE infiere fotogramas a partir de material de origen muy limitado. Fuente: Materiales suplementarios en https://openreview.net/forum?id=bBDlTR5eDIX
Sin embargo, los autores del nuevo artículo afirman que GODIVA representa la primera implementación pura de texto a vídeo (T2V) que utiliza VQ-VAE en lugar de los resultados más erráticos resultados que los proyectos anteriores han obtenido con GAN.
Puntos de Semilla en Texto a Vídeo
Aunque la presentación es escasa en detalles sobre los criterios por los que se crean los fotogramas de origen, GODIVA parece invocar imágenes de semilla de la nada antes de extrapolarlas en fotogramas de vídeo de baja resolución.

Representación columnar del sistema de atención dispersa tridimensional que impulsa a GODIVA para tareas de texto a imagen. La auto-regresión se predice a través de cuatro factores: texto de entrada, posición relativa con el fotograma anterior (similar a NVIDIA’s SPADE y otros métodos que se basan en o evolucionan más allá de los enfoques de Flujo Óptico), mismas filas en el mismo fotograma y mismas columnas en la misma columna.
De hecho, el origen proviene de las etiquetas en los datos utilizados: GODIVA se preentrenó en el conjunto de datos Howto100M, que consta de 136 millones de clips de vídeo con subtítulos extraídos de YouTube durante 15 años, y que presenta 23.000 actividades etiquetadas. Sin embargo, cada actividad posible está presente en un gran número de clips, lo que aumenta con la generalización (es decir, ‘Mascotas y animales’ tiene 3,5 millones de clips, mientras que ‘perros’ tiene 762.000 clips), y por lo tanto, todavía hay una gran elección de puntos de partida posibles.
El modelo se evaluó en el conjunto de datos de Microsoft MSR Video a Texto (MSR-VTT). Como pruebas adicionales de la arquitectura, GODIVA se entrenó desde cero en el conjunto de datos Moving Mnist y el conjunto de datos Double Moving Mnist, ambos derivados de la base de datos original MNIST, una colaboración entre Microsoft, Google y el Instituto de Ciencias Matemáticas de la Universidad de Nueva York.
Evaluación de Fotogramas en Síntesis de Vídeo Continuo
En línea con el IRC-GAN de la Universidad de Pekín, GODIVA agrega cuatro comprobaciones columnares adicionales al método original de MNIST, que evaluaba los fotogramas anteriores y posteriores moviéndose hacia arriba y hacia abajo, y luego hacia la izquierda y hacia la derecha. IRC-GAN y GODIVA también consideran los fotogramas moviendo la atención hacia la izquierda y hacia la derecha, hacia la derecha y hacia la izquierda, hacia arriba y hacia abajo y hacia abajo y hacia arriba.
Evaluación de la Calidad del Vídeo y la Fidelidad al Prompt
Para comprender cómo bien logró la generación de imágenes, los investigadores utilizaron dos métricas: una basada en la similitud de CLIP, y una métrica de Coincidencia Relativa (RM) novedosa.
El marco de trabajo CLIP de OpenAI es capaz de coincidencia de imágenes con texto de disparo cero, así como de facilitar la síntesis de imágenes invirtiendo este modelo. Los investigadores dividieron la puntuación derivada de CLIP por la similitud calculada entre el prompt de texto y el vídeo de verdad para llegar a una puntuación de RM. En una ronda de puntuación separada, la salida se evaluó por 200 personas y los resultados se compararon con las puntuaciones programáticas.
Finalmente, GODIVA se probó contra dos marcos anteriores, TFGAN y la colaboración de 2017 entre Duke y NEC, T2V.
TFGAN puede producir 128 píxeles cuadrados en comparación con la salida de 64×64 que restringe a GODIVA y T2V en los ejemplos anteriores, pero los investigadores observan no solo que GODIVA produce movimientos más atrevidos y comprometidos, sino que también generará cambios de escena sin ningún prompt específico, y no se niega a generar tomas en primer plano.
En ejecuciones posteriores, GODIVA también genera una salida de 128×128 píxeles, con cambios en la POV:
En la métrica de RM del proyecto, GODIVA es capaz de alcanzar puntuaciones cercanas al 100% en términos de autenticidad (calidad del vídeo) y fidelidad (cómo de cerca el contenido generado coincide con el prompt de entrada).
Los investigadores conceden, sin embargo, que el desarrollo de métricas de CLIP basadas en vídeo sería una adición bienvenida a este área de síntesis de imágenes, ya que proporcionaría un campo de juego nivelado para evaluar la calidad de los resultados sin recurrir al sobreajuste y la falta de generalización que ha sido cada vez más criticada en relación con los desafíos estándar de visión por computadora en los últimos diez años.
También observan que generar vídeos más largos será una consideración logística en el desarrollo posterior del sistema, ya que solo 10 fotogramas de salida de 64×64 píxeles requieren 2560 tokens visuales, un aumento de la tubería que es probable que se vuelva caro e inmanejable rápidamente.















