Connect with us

Microsoft、GODIVAというテキストからビデオを生成するマシンラーニングフレームワークを提案

人工知能

Microsoft、GODIVAというテキストからビデオを生成するマシンラーニングフレームワークを提案

mm

マイクロソフトリサーチアジアとデューク大学の共同研究により、ジェネレーティブ・アドバーサリアル・ネットワーク(GAN)を使用せずに、テキスト・プロンプトのみからビデオを生成するマシンラーニング・システムが開発されました。

このプロジェクトは、GODIVA(Generating Open-DomaIn Videos from nAtural Descriptions)と呼ばれ、OpenAIのDALL-E画像合成システムで使用されているアプローチの一部を基にしています。今年の初めに公開されました。

GODIVAの初期結果。2つのプロンプトから生成されたビデオのフレーム。上の2つの例は「芝生でゴルフをプレイする」というプロンプトから生成され、下の3つは「野球の試合が行われている」というプロンプトから生成されました。

GODIVAの初期結果。2つのプロンプトから生成されたビデオのフレーム。上の2つの例は「芝生でゴルフをプレイする」というプロンプトから生成され、下の3つは「野球の試合が行われている」というプロンプトから生成されました。 ソース: https://arxiv.org/pdf/2104.14806.pdf

GODIVAは、2018年にGoogleのDeepMindプロジェクトの研究者によって最初に導入されたベクトル・クォンタム・バリアシオナル・オートエンコーダー(VQ-VAE)モデルを使用しています。また、DALL-Eの変換能力の重要なコンポーネントでもあります。

VQ-VAEモデルのアーキテクチャ。右側に埋め込み空間があり、エンコーダー/デコーダーが次元空間を共有して、再構築中に損失を低減します。

VQ-VAEモデルのアーキテクチャ。右側に埋め込み空間があり、エンコーダー/デコーダーが次元空間を共有して、再構築中に損失を低減します。 ソース: https://arxiv.org/pdf/1711.00937.pdf

VQ-VAEは、ユーザーが初期のフレーム数を提供し、システムに追加のフレームを生成するように依頼する予測ビデオの生成に使用されてきました。

以前の研究:VQ-VAEは、非常に限られたソース資料からフレームを推論します。

以前の研究:VQ-VAEは、非常に限られたソース資料からフレームを推論します。 ソース: https://openreview.net/forum?id=bBDlTR5eDIXの補足資料

しかし、論文の著者は、GODIVAが、GANではなくVQ-VAEを使用した最初の純粋なテキストからビデオ(T2V)実装であると主張しています。

テキストからビデオのシードポイント

提出では、オリジン・フレームがどのように作成されるかについての詳細が少ないですが、GODIVAは、どこからともなくシード画像を召喚し、それを低解像度のビデオ・フレームに外挿するようです。

GODIVAのテキストから画像のタスクを実行する3次元スパース・アテンション・システムのカラム形式の表現。オート・リグレッションは、入力テキスト、前のフレームとの相対的な位置(NVIDIAのSPADEやOptical Flowアプローチを超えて構築または進化する他の方法と同様)、同じ行の同じフレーム、同じ列の同じ列の4つの要因を予測します。

GODIVAのテキストから画像のタスクを実行する3次元スパース・アテンション・システムのカラム形式の表現。オート・リグレッションは、入力テキスト、前のフレームとの相対的な位置(NVIDIAのSPADEやOptical Flowアプローチを超えて構築または進化する他の方法と同様)、同じ行の同じフレーム、同じ列の同じ列の4つの要因を予測します。

実際、オリジンは使用されるデータのラベルから来ています。GODIVAは、136百万のキャプション付きビデオ・クリップで構成されるHowto100Mデータセットで事前トレーニングされており、23,000のラベル付きアクティビティを特徴としています。ただし、各可能なアクティビティは、クリップの数が非常に多く、一般化によって増加します(例:「ペットと動物」は350万クリップ、「犬」は76万クリップ)。したがって、可能なスターティング・ポイントの選択肢はまだ多数あります。

モデルは、MicrosoftのMSR Video to Text(MSR-VTT)データセットで評価されました。アーキテクチャのさらなるテストとして、GODIVAはMoving MnistデータセットとDouble Moving Mnistデータセットでスクラッチからトレーニングされました。これらは、MNISTデータベースから派生したもので、Microsoft、Google、NYUのCourant Institute of Mathematical Sciencesの共同プロジェクトです。

連続ビデオ・シンセシスのフレーム評価

Peking UniversityのIRC-GANに沿って、GODIVAは、元のMNIST方法で前のフレームと次のフレームを上→下と左→右に移動して評価することに加えて、4つの追加のカラム・チェックを追加します。IRC-GANとGODIVAは、左→右、右→左、上→下、下→上のフレームも考慮します。

GODIVAの追加生成フレーム。

GODIVAの追加生成フレーム。

ビデオの品質とプロンプトへの忠実性の評価

画像生成の成功を評価するために、研究者は2つのメトリックを使用しました。1つはCLIP類似性に基づいており、もう1つは新しい相対的なマッチング(RM)メトリックです。

OpenAIのCLIPフレームワークは、ゼロショットで画像をテキストにマッチングできます。また、モデルを逆に使用することで画像の合成も可能です。研究者は、CLIPから導かれたスコアをテキスト・プロンプトとグラウンド・トゥルース・ビデオの間の計算された類似性で割って、RMスコアを算出します。別のスコアリング・ラウンドでは、出力が200人に評価され、結果はプログラムによるスコアと比較されました。

最終的に、GODIVAは、以前の2つのフレームワーク、TFGANと2017年のDuke/NECの共同研究であるT2Vと比較されました。

T2V-vs-TFGAN-vs-GODIVA

TFGANは、128の平方ピクセルを生成できますが、GODIVAとT2Vは上記の例では64×64の出力に制限されています。ただし、研究者は、GODIVAがより大胆で、よりコミットされた動きを生成し、特定のプロンプトなしでシーンの変更を生成し、クローズアップ・ショットの生成を避けないことを指摘しています。

後続の実行では、GODIVAは128x128pxの出力を生成し、POVの変更があります。

godiva_baseball_128px

プロジェクト独自のRMメトリックでは、GODIVAは、真実性(ビデオの品質)と忠実性(生成されたコンテンツが入力プロンプトにどれだけ近いか)という点で100%に近いスコアを達成します。

研究者は、ビデオベースのCLIPメトリックの開発が、この分野の画像合成の評価に歓迎されるものになるだろうと認めています。なぜなら、結果の品質を評価するための公平な基準を提供するからです。過去10年間で、コンピュータービジョンの課題で批判されてきた過剰適合と一般化の欠如を避けるためです。

また、将来のシステム開発において、より長いビデオを生成することは、ロジスティック上の考慮事項となるだろうと観察しています。64x64pxの出力の10フレームを生成するだけで、2560の視覚的なトークンが必要になるため、パイプラインの膨張が発生し、管理が困難になる可能性があるからです。

機械学習に関するライター、ヒューマンイメージシンセシスのドメインスペシャリスト。Metaphysic.aiの研究コンテンツ責任者を務めた。