Connect with us

人工智能

微软提出GODIVA,一个文本到视频的机器学习框架

mm

微软研究院亚洲和杜克大学之间的合作产生了一个机器学习系统,能够仅从文本提示生成视频,而无需使用生成对抗网络(GANs)。

项目被称为GODIVA(生成开放领域视频从自然描述),它建立在一些OpenAI的DALL-E图像合成系统中使用的方法之上,该系统早些时候被揭露。

GODIVA的早期结果,显示从两个提示创建的视频帧。顶部两个示例是从提示'在草地上打高尔夫球'生成的,底部第三个示例是从提示'棒球比赛正在进行'生成的

GODIVA的早期结果,显示从两个提示创建的视频帧。顶部两个示例是从提示’在草地上打高尔夫球’生成的,底部第三个示例是从提示’棒球比赛正在进行’生成的 来源:https://arxiv.org/pdf/2104.14806.pdf

GODIVA使用向量量化-变分自编码器(VQ-VAE)模型,该模型最初由谷歌的DeepMind项目的研究人员在2018年提出,并且也是DALL-E变换能力的基本组成部分。

VQ-VAE模型的架构,右侧为嵌入空间,编码器/解码器共享维度空间以降低重构损失

VQ-VAE模型的架构,右侧为嵌入空间,编码器/解码器共享维度空间以降低重构损失 来源:https://arxiv.org/pdf/1711.00937.pdf

VQ-VAE已被用于多个项目中,以生成预测视频,其中用户提供初始帧数并请求系统生成额外帧:

早期工作:VQ-VAE从非常有限的源材料中推断帧

早期工作:VQ-VAE从非常有限的源材料中推断帧 来源:补充材料https://openreview.net/forum?id=bBDlTR5eDIX

然而,新论文的作者声称,GODIVA代表了第一个纯文本到视频(T2V)的实现,它使用VQ-VAE而不是之前项目中使用的GANs获得的更不规则结果

文本到视频中的种子点

尽管提交的细节不多,但GODIVA似乎从无处召唤起初始图像,然后将其外推为低分辨率视频帧。

GODIVA用于文本到图像任务的三维稀疏注意力系统的柱状表示。自回归是通过四个因素预测的:输入文本、相对于前一帧的相对位置(类似于NVIDIA的SPADE和其他方法,它们建立在或超越了光流方法)、同一帧的同一行和同一列

GODIVA用于文本到图像任务的三维稀疏注意力系统的柱状表示。自回归是通过四个因素预测的:输入文本、相对于前一帧的相对位置(类似于NVIDIA的SPADE和其他方法,它们建立在或超越了光流方法)、同一帧的同一行和同一列

事实上,起源来自于数据中使用的标签:GODIVA是在Howto100M数据集上预训练的,该数据集由136万个带有字幕的视频片段组成,来源于15年来的YouTube,并包含23,000个标记活动。然而,每个可能的活动都存在于大量的片段中,随着泛化(例如’宠物和动物’有350万个片段,而’狗’有76.2万个片段),因此仍然有很多可能的起点。

该模型在微软的MSR视频到文本(MSR-VTT)数据集上进行了评估。作为对架构的进一步测试,GODIVA从头开始在移动Mnist数据集和双移动Mnist数据集上进行了训练,这两个数据集都是从原始Mnist数据库中派生出来的,Mnist数据库是微软、谷歌和纽约大学Courant数学科学研究所之间的合作。

连续视频合成中的帧评估

与北京大学的IRC-GAN一致,GODIVA在原始Mnist方法的基础上添加了四个额外的列检查,该方法通过上下和左右移动来评估前后帧。IRC-GAN和GODIVA还通过左右、右左、上下和下上移动来考虑帧。

GODIVA生成的额外帧

GODIVA生成的额外帧

评估视频质量和对提示的忠实度

为了了解图像生成的成功程度,研究人员使用了两个指标:一个基于CLIP相似度,另一个是新颖的相对匹配(RM)指标。

OpenAI的CLIP框架能够实现图像与文本的零次匹配,以及通过反转该模型来实现图像合成。研究人员将CLIP派生的分数除以文本提示和地面真实视频之间计算出的相似度,以得到RM分数。在一个单独的评分轮中,输出由200人评估,结果与程序分数进行比较。

最后,GODIVA被测试与两个先前的框架,TFGAN和2017年的Duke/NEC合作,T2V进行比较。

T2V-vs-TFGAN-vs-GODIVA

TFGAN可以生成128个平方像素,而GODIVA和T2V在上述示例中仅限于64×64的输出,但研究人员指出,GODIVA不仅生成更大胆、更有承诺的运动,而且会在没有特定提示的情况下生成场景更改,并且不会避免生成特写镜头。

在后续运行中,GODIVA还生成128x128px的输出,具有视点变化:

godiva_baseball_128px

在项目自己的RM指标中,GODIVA能够达到100%的真实性(视频质量)和忠实度(生成内容与输入提示的匹配程度)。

研究人员承认,开发基于视频的CLIP指标将是图像合成领域的欢迎补充,因为它将为评估结果质量提供一个公平的平台,而无需诉诸于过去十年中日益受到批评的计算机视觉挑战中的过拟合和缺乏泛化。

他们还观察到,生成更长的视频将是系统进一步开发中的一个后勤考虑,因为仅仅10帧64x64px的输出就需要2560个视觉令牌,这种管道膨胀可能会变得昂贵且难以管理。

机器学习作家,人类图像合成领域专家。曾任 Metaphysic.ai 研究内容负责人。
个人网站: martinanderson.ai
联系: [email protected]
Twitter:@manders_ai