人工智能

微软提出GODIVA，一个文本到视频的机器学习框架

Published May 4, 2021

Updated April 28, 2026

Martin Anderson

微软研究院亚洲和杜克大学之间的合作产生了一个机器学习系统，能够仅从文本提示生成视频，而无需使用生成对抗网络（GANs）。

该项目被称为GODIVA（生成开放领域视频从自然描述），它建立在一些OpenAI的DALL-E图像合成系统中使用的方法之上，该系统早些时候被揭露。

GODIVA的早期结果，显示从两个提示创建的视频帧。顶部两个示例是从提示’在草地上打高尔夫球’生成的，底部第三个示例是从提示’棒球比赛正在进行’生成的来源：https://arxiv.org/pdf/2104.14806.pdf

GODIVA使用向量量化-变分自编码器（VQ-VAE）模型，该模型最初由谷歌的DeepMind项目的研究人员在2018年提出，并且也是DALL-E变换能力的基本组成部分。

VQ-VAE模型的架构，右侧为嵌入空间，编码器/解码器共享维度空间以降低重构损失 来源：https://arxiv.org/pdf/1711.00937.pdf

VQ-VAE已被用于多个项目中，以生成预测视频，其中用户提供初始帧数并请求系统生成额外帧：

早期工作：VQ-VAE从非常有限的源材料中推断帧 来源：补充材料https://openreview.net/forum?id=bBDlTR5eDIX

然而，新论文的作者声称，GODIVA代表了第一个纯文本到视频（T2V）的实现，它使用VQ-VAE而不是之前项目中使用的GANs获得的更不规则的结果。

文本到视频中的种子点

尽管提交的细节不多，但GODIVA似乎从无处召唤起初始图像，然后将其外推为低分辨率视频帧。

GODIVA用于文本到图像任务的三维稀疏注意力系统的柱状表示。自回归是通过四个因素预测的：输入文本、相对于前一帧的相对位置（类似于NVIDIA的SPADE和其他方法，它们建立在或超越了光流方法）、同一帧的同一行和同一列

事实上，起源来自于数据中使用的标签：GODIVA是在Howto100M数据集上预训练的，该数据集由136万个带有字幕的视频片段组成，来源于15年来的YouTube，并包含23,000个标记活动。然而，每个可能的活动都存在于大量的片段中，随着泛化（例如’宠物和动物’有350万个片段，而’狗’有76.2万个片段），因此仍然有很多可能的起点。

该模型在微软的MSR视频到文本（MSR-VTT）数据集上进行了评估。作为对架构的进一步测试，GODIVA从头开始在移动Mnist数据集和双移动Mnist数据集上进行了训练，这两个数据集都是从原始Mnist数据库中派生出来的，Mnist数据库是微软、谷歌和纽约大学Courant数学科学研究所之间的合作。