人工知能

Microsoft、GODIVAというテキストからビデオを生成するマシンラーニングフレームワークを提案

Published May 4, 2021

Updated April 28, 2026

Martin Anderson

マイクロソフトリサーチアジアとデューク大学の共同研究により、ジェネレーティブ・アドバーサリアル・ネットワーク（GAN）を使用せずに、テキスト・プロンプトのみからビデオを生成するマシンラーニング・システムが開発されました。

このプロジェクトは、GODIVA（Generating Open-DomaIn Videos from nAtural Descriptions）と呼ばれ、OpenAIのDALL-E画像合成システムで使用されているアプローチの一部を基にしています。今年の初めに公開されました。

GODIVAの初期結果。2つのプロンプトから生成されたビデオのフレーム。上の2つの例は「芝生でゴルフをプレイする」というプロンプトから生成され、下の3つは「野球の試合が行われている」というプロンプトから生成されました。ソース: https://arxiv.org/pdf/2104.14806.pdf

GODIVAは、2018年にGoogleのDeepMindプロジェクトの研究者によって最初に導入されたベクトル・クォンタム・バリアシオナル・オートエンコーダー（VQ-VAE）モデルを使用しています。また、DALL-Eの変換能力の重要なコンポーネントでもあります。

VQ-VAEモデルのアーキテクチャ。右側に埋め込み空間があり、エンコーダー/デコーダーが次元空間を共有して、再構築中に損失を低減します。 ソース: https://arxiv.org/pdf/1711.00937.pdf

VQ-VAEは、ユーザーが初期のフレーム数を提供し、システムに追加のフレームを生成するように依頼する予測ビデオの生成に使用されてきました。

以前の研究：VQ-VAEは、非常に限られたソース資料からフレームを推論します。 ソース: https://openreview.net/forum?id=bBDlTR5eDIXの補足資料

しかし、論文の著者は、GODIVAが、GANではなくVQ-VAEを使用した最初の純粋なテキストからビデオ（T2V）実装であると主張しています。

テキストからビデオのシードポイント

提出では、オリジン・フレームがどのように作成されるかについての詳細が少ないですが、GODIVAは、どこからともなくシード画像を召喚し、それを低解像度のビデオ・フレームに外挿するようです。

GODIVAのテキストから画像のタスクを実行する3次元スパース・アテンション・システムのカラム形式の表現。オート・リグレッションは、入力テキスト、前のフレームとの相対的な位置（NVIDIAのSPADEやOptical Flowアプローチを超えて構築または進化する他の方法と同様）、同じ行の同じフレーム、同じ列の同じ列の4つの要因を予測します。

実際、オリジンは使用されるデータのラベルから来ています。GODIVAは、136百万のキャプション付きビデオ・クリップで構成されるHowto100Mデータセットで事前トレーニングされており、23,000のラベル付きアクティビティを特徴としています。ただし、各可能なアクティビティは、クリップの数が非常に多く、一般化によって増加します（例：「ペットと動物」は350万クリップ、「犬」は76万クリップ）。したがって、可能なスターティング・ポイントの選択肢はまだ多数あります。

モデルは、MicrosoftのMSR Video to Text（MSR-VTT）データセットで評価されました。アーキテクチャのさらなるテストとして、GODIVAはMoving MnistデータセットとDouble Moving Mnistデータセットでスクラッチからトレーニングされました。これらは、MNISTデータベースから派生したもので、Microsoft、Google、NYUのCourant Institute of Mathematical Sciencesの共同プロジェクトです。

連続ビデオ・シンセシスのフレーム評価

Peking UniversityのIRC-GANに沿って、GODIVAは、元のMNIST方法で前のフレームと次のフレームを上→下と左→右に移動して評価することに加えて、4つの追加のカラム・チェックを追加します。IRC-GANとGODIVAは、左→右、右→左、上→下、下→上のフレームも考慮します。

GODIVAの追加生成フレーム。

ビデオの品質とプロンプトへの忠実性の評価

画像生成の成功を評価するために、研究者は2つのメトリックを使用しました。1つはCLIP類似性に基づいており、もう1つは新しい相対的なマッチング（RM）メトリックです。

OpenAIのCLIPフレームワークは、ゼロショットで画像をテキストにマッチングできます。また、モデルを逆に使用することで画像の合成も可能です。研究者は、CLIPから導かれたスコアをテキスト・プロンプトとグラウンド・トゥルース・ビデオの間の計算された類似性で割って、RMスコアを算出します。別のスコアリング・ラウンドでは、出力が200人に評価され、結果はプログラムによるスコアと比較されました。

最終的に、GODIVAは、以前の2つのフレームワーク、TFGANと2017年のDuke/NECの共同研究であるT2Vと比較されました。

TFGANは、128の平方ピクセルを生成できますが、GODIVAとT2Vは上記の例では64×64の出力に制限されています。ただし、研究者は、GODIVAがより大胆で、よりコミットされた動きを生成し、特定のプロンプトなしでシーンの変更を生成し、クローズアップ・ショットの生成を避けないことを指摘しています。

後続の実行では、GODIVAは128x128pxの出力を生成し、POVの変更があります。