Anderson 视角
微软提出GODIVA,一个文本到视频的机器学习框架

微软亚洲研究院和杜克大学之间的合作产生了一个机器学习系统,能够仅从文本提示生成视频,而无需使用生成对抗网络(GAN)。
该项目被称为GODIVA(Generating Open-DomaIn Videos from nAtural Descriptions),并在一些方法上借鉴了OpenAI的DALL-E图像合成系统,该系统于今年早些时候被披露。 项目 是一个文本到视频的机器学习框架,使用了 Vector Quantised-Variational AutoEncoder (VQ-VAE) 模型,该模型最初由谷歌的DeepMind项目的研究人员在2018年提出。

GODIVA 的早期结果,展示了从两个提示生成的视频帧。顶部两个示例是从提示 ‘Play golf on grass’ 生成的,底部第三个示例是从提示 ‘A baseball game is played’ 生成的。 来源:https://arxiv.org/pdf/2104.14806.pdf
GODIVA 使用了 VQ-VAE 模型,该模型也是 DALL-E 变革性能力的关键组成部分。
VQ-VAE 已被用于多个项目中,以生成预测视频,其中用户提供初始帧数并请求系统生成额外帧:

早期工作:VQ-VAE 从非常有限的源材料中推断帧。 来源:补充材料 https://openreview.net/forum?id=bBDlTR5eDIX
然而,新论文的作者声称,GODIVA 代表了第一个纯文本到视频(T2V)的实现,它使用 VQ-VAE 而不是之前项目中使用的更不稳定的 GAN 结果。
文本到视频中的种子点
尽管提交的细节不多,但 GODIVA似乎从无处召唤出种子图像,然后将其外推为低分辨率视频帧。

GODIVA 的三维稀疏注意力系统的柱状表示,用于文本到图像任务。自回归是通过四个因素预测的:输入文本、相对于前一帧的相对位置(类似于NVIDIA的 SPADE 和其他方法,它们建立在或超越了光流方法)、同一帧的同行和同列。
实际上,起源来自于数据中使用的标签:GODIVA是在Howto100M数据集上预训练的,该数据集由YouTube在15年内收集的136万个带有字幕的视频片段组成,包含23,000个标记活动。然而,每个可能的活动都存在于大量的片段中,随着泛化的增加(例如“宠物和动物”有350万个片段,而“狗”有76.2万个片段),因此仍然有很多可能的起始点。
该模型在微软的MSR视频到文本(MSR-VTT)数据集上进行了评估。作为对该体系结构的进一步测试,GODIVA从头开始在Moving Mnist数据集和双Moving Mnist数据集上进行了训练,这两个数据集都是从原始MNIST数据库派生而来的,MNIST数据库是微软、谷歌和纽约大学柯朗数学科学研究所之间的合作。
连续视频合成中的帧评估
与北京大学的IRC-GAN一致,GODIVA在原始MNIST方法的基础上添加了四个额外的列检查,原始方法通过上下和左右移动来评估前后帧。IRC-GAN和GODIVA还考虑了通过左右、右左、上下和下上移动来评估帧。
评估视频质量和对提示的忠实度
为了了解图像生成的效果,研究人员使用了两个指标:一个基于CLIP相似度,另一个是新的相对匹配(RM)指标。
OpenAI的 CLIP 框架能够实现图像到文本的零样本匹配,以及通过反转此模型来实现图像合成。研究人员通过将CLIP派生的分数除以文本提示和真实视频之间的计算相似度来得到RM分数。在一个单独的评分轮中,输出由200人评估,结果与程序化分数进行了比较。
最后,GODIVA被测试与两个之前的框架,TFGAN和2017年的Duke/NEC合作,T2V。
TFGAN可以产生128平方像素的输出,而GODIVA和T2V在上述示例中仅限于64×64的输出,但研究人员指出GODIVA不仅产生了更大胆、更有承诺的运动,而且会在没有特定提示的情况下生成场景变化,并且不会犹豫生成特写镜头。
在后续运行中,GODIVA还生成了128x128px的输出,具有视角变化:
在项目自己的RM指标中,GODIVA能够达到接近100%的真实性(视频质量)和忠实度(生成内容与输入提示的匹配程度)得分。
研究人员承认,开发基于视频的CLIP指标将是这一图像合成领域的欢迎补充,因为它将为评估结果质量提供一个公平的平台,而不需要诉诸于这些年来日益受到批评的“标准”计算机视觉挑战中的过拟合和缺乏泛化。
他们还观察到,生成更长的视频将是系统进一步发展中的一个后勤考虑,因为仅10帧64x64px的输出就需要2560个视觉令牌,这将是一个可能很快变得昂贵和难以管理的管道膨胀。
















