Anderson 视角

微软提出GODIVA，一个文本到视频的机器学习框架

发布于 2021年5月4日

更新于 2026年5月25日

作者

Martin Anderson

微软亚洲研究院和杜克大学之间的合作产生了一个机器学习系统，能够仅从文本提示生成视频，而无需使用生成对抗网络（GAN）。

该项目被称为GODIVA（Generating Open-DomaIn Videos from nAtural Descriptions），并在一些方法上借鉴了OpenAI的DALL-E图像合成系统，该系统于今年早些时候被披露。项目是一个文本到视频的机器学习框架，使用了 Vector Quantised-Variational AutoEncoder (VQ-VAE) 模型，该模型最初由谷歌的DeepMind项目的研究人员在2018年提出。

GODIVA 的早期结果，展示了从两个提示生成的视频帧。顶部两个示例是从提示 ‘Play golf on grass’ 生成的，底部第三个示例是从提示 ‘A baseball game is played’ 生成的。来源：https://arxiv.org/pdf/2104.14806.pdf

GODIVA 使用了 VQ-VAE 模型，该模型也是 DALL-E 变革性能力的关键组成部分。

VQ-VAE 模型的架构，展示了嵌入空间和编码器/解码器共享的维度空间，以降低重构过程中的损失。 来源：https://arxiv.org/pdf/1711.00937.pdf

VQ-VAE 已被用于多个项目中，以生成预测视频，其中用户提供初始帧数并请求系统生成额外帧：

早期工作：VQ-VAE 从非常有限的源材料中推断帧。 来源：补充材料 https://openreview.net/forum?id=bBDlTR5eDIX

然而，新论文的作者声称，GODIVA 代表了第一个纯文本到视频（T2V）的实现，它使用 VQ-VAE 而不是之前项目中使用的更不稳定的 GAN 结果。

文本到视频中的种子点

尽管提交的细节不多，但 GODIVA似乎从无处召唤出种子图像，然后将其外推为低分辨率视频帧。

GODIVA 的三维稀疏注意力系统的柱状表示，用于文本到图像任务。自回归是通过四个因素预测的：输入文本、相对于前一帧的相对位置（类似于NVIDIA的 SPADE 和其他方法，它们建立在或超越了光流方法）、同一帧的同行和同列。

实际上，起源来自于数据中使用的标签：GODIVA是在Howto100M数据集上预训练的，该数据集由YouTube在15年内收集的136万个带有字幕的视频片段组成，包含23,000个标记活动。然而，每个可能的活动都存在于大量的片段中，随着泛化的增加（例如“宠物和动物”有350万个片段，而“狗”有76.2万个片段），因此仍然有很多可能的起始点。

该模型在微软的MSR视频到文本（MSR-VTT）数据集上进行了评估。作为对该体系结构的进一步测试，GODIVA从头开始在Moving Mnist数据集和双Moving Mnist数据集上进行了训练，这两个数据集都是从原始MNIST数据库派生而来的，MNIST数据库是微软、谷歌和纽约大学柯朗数学科学研究所之间的合作。

连续视频合成中的帧评估

与北京大学的IRC-GAN一致，GODIVA在原始MNIST方法的基础上添加了四个额外的列检查，原始方法通过上下和左右移动来评估前后帧。IRC-GAN和GODIVA还考虑了通过左右、右左、上下和下上移动来评估帧。

GODIVA生成的额外帧。

评估视频质量和对提示的忠实度

为了了解图像生成的效果，研究人员使用了两个指标：一个基于CLIP相似度，另一个是新的相对匹配（RM）指标。

OpenAI的 CLIP 框架能够实现图像到文本的零样本匹配，以及通过反转此模型来实现图像合成。研究人员通过将CLIP派生的分数除以文本提示和真实视频之间的计算相似度来得到RM分数。在一个单独的评分轮中，输出由200人评估，结果与程序化分数进行了比较。

最后，GODIVA被测试与两个之前的框架，TFGAN和2017年的Duke/NEC合作，T2V。

TFGAN可以产生128平方像素的输出，而GODIVA和T2V在上述示例中仅限于64×64的输出，但研究人员指出GODIVA不仅产生了更大胆、更有承诺的运动，而且会在没有特定提示的情况下生成场景变化，并且不会犹豫生成特写镜头。

在后续运行中，GODIVA还生成了128x128px的输出，具有视角变化：

在项目自己的RM指标中，GODIVA能够达到接近100%的真实性（视频质量）和忠实度（生成内容与输入提示的匹配程度）得分。

研究人员承认，开发基于视频的CLIP指标将是这一图像合成领域的欢迎补充，因为它将为评估结果质量提供一个公平的平台，而不需要诉诸于这些年来日益受到批评的“标准”计算机视觉挑战中的过拟合和缺乏泛化。

他们还观察到，生成更长的视频将是系统进一步发展中的一个后勤考虑，因为仅10帧64x64px的输出就需要2560个视觉令牌，这将是一个可能很快变得昂贵和难以管理的管道膨胀。

Martin Anderson

机器学习作家，人类图像合成领域专家。曾任 Metaphysic.ai 研究内容负责人。
个人网站： martinanderson.ai
联系： [email protected]
Twitter：@manders_ai

Unite.AI

微软提出GODIVA，一个文本到视频的机器学习框架

文本到视频中的种子点

连续视频合成中的帧评估

评估视频质量和对提示的忠实度

发现更多