長期動画生成のためのナレーションの一貫性を高める方法
最近公開された Hunyuan Video 生成AIモデルは、大規模な多モーダルビジョン言語モデルが将来にわたって完全な映画を作成する可能性についての議論を激化させました。しかし、私たちが観察したように、これは現在非常に遠い将来の話題です。理由の1つは、ほとんどのAIビデオ生成器の非常に短い注意期間です。これらは、短い単一のショットの中でさえも一貫性を維持するのに苦労し、ショットのシリーズではさらに苦労します。別の理由は、ビデオコンテンツ(例:探索可能な環境)への一貫した参照が、低ランク適応(LoRA)などのカスタマイズ技術によってのみ拡散モデルで達成できることです。これにより、基礎モデルのオフザシェルフ機能が制限されます。したがって、長期的なビデオ生成の進化は、新しいアプローチが開発されるまで停滞することになります。一貫性のレシピこのことを念頭に置いて、米国と中国の新しい共同研究は、将来のナレーションの一貫性システムのテンプレートとして、指示的な料理ビデオの使用を提案しています。クリックして再生。VideoAuteurプロジェクトは、調理プロセスの部分の分析を体系化して、細かくキャプション付けされた新しいデータセットと、料理ビデオの生成のためのオーケストレーション方法を生成します。より高解像度の場合、ソースサイトを参照してください。 ソース: https://videoauteur.github.io/VideoAuteurと題されたこの研究では、キーフレームとキャプションを組み合わせた一貫した状態を使用して、指示的な料理ビデオを生成するための2段階のパイプラインを提案しています。これにより、まだ注目度の低い分野で最先端の成果が達成されています。VideoAuteurのプロジェクトページには、同じテクニックを使用した、より注目度の高いビデオも含まれています。例えば、(存在しない)マーベル/DCのクロスオーバー作品の予告編:クリックして再生。2つのスーパーヒーローが別の宇宙から出会う、VideoAuteurによる偽の予告編。より高解像度の場合、ソースサイトを参照してください。 ページには、同様のスタイルで作成された、(存在しない)Netflixの動物シリーズのプロモーションビデオやテスラの自動車広告も含まれています。VideoAuteurを開発するために、著者はさまざまな損失関数や新しいアプローチを実験しました。レシピの作成方法を開発するために、著者はまた、CookGenと呼ばれる、料理ドメインに焦点を当てた最大のデータセットをキュレーションしました。これには、平均9.5秒の長さの200,000本のビデオクリップが含まれています。平均768.3語のビデオごとの単語数で、CookGenは、最も包括的に注釈付けされたデータセットです。さまざまなビジョン/言語モデルを使用することで、説明ができるだけ詳細で、関連性が高く、正確であることを保証しました。料理ビデオは、構造化されていて曖昧性のないナレーションを持っているため、注釈付けと評価が容易なタスクとなります。ポルノグラフィー以外の(おそらくこの分野に早く入ってくる)他のジャンルは、視覚的にもナレーション的にも「定式化」されているとは思うことが難しいです。著者は以下のように述べています:‘私たちの提案した2段階の自己回帰パイプラインは、長いナレーション監督と視覚条件付きビデオ生成を含み、生成された長いナレーションビデオの意味的一貫性と視覚的忠実性の向上を示しています。実験から、ビデオシーケンス全体で空間的および時間的的一貫性が向上していることがわかりました。‘私たちの研究が、長いナレーションビデオ生成のさらなる研究を促進することを希望しています.’新しい研究は、VideoAuteur: 長いナレーションビデオ生成に向けてと題され、Johns Hopkins University、ByteDance、ByteDance Seedの8人の著者から来ています。データセットのキュレーションCookGenを開発するために、著者は、YouCookとHowTo100Mコレクションの素材を使用しました。著者は、CookGenの規模を、生成ビデオのナレーション開発に焦点を当てた以前のデータセット、たとえばFlintstonesデータセット、Pororoカートゥーンデータセット、StoryGen、TencentのStoryStream、およびVISTと比較しています。CookGenは、特に手順的な活動である料理に焦点を当てており、物語はより明確で、注釈付けと評価が容易です。現存する最大のデータセットであるStoryStreamを上回り、150倍のフレーム数と5倍の濃度のテキスト記述を実現しています。研究者はキャプション付けモデルをファインチューニングしました。ファインチューニングには、LLaVA-NeXTの方法を使用しました。HowTo100Mの自動音声認識(ASR)疑似ラベルは、ビデオごとの「アクション」として使用され、さらに大規模言語モデル(LLM)によって精製されました。たとえば、ChatGPT-4oは、キャプションデータセットを生成するために使用され、主語-目的語の相互作用(たとえば、手が器具や食料を扱う)、物体の属性、時間的ダイナミクスに焦点を当てました。ASRスクリプトは不正確で「ノイズ」が含まれている可能性があるため、Intersection-over-Union(IoU)は、キャプションがアドレスしているビデオのセクションにどれだけ近いかを測定するためのメトリックとして使用されました。著者は、これがナレーションの一貫性の作成に不可欠だったと述べています。キュレーションされたクリップは、Fréchet Video Distance(FVD)を使用して評価されました。これは、グラウンドトゥルース(現実世界)の例と生成された例の差を、グラウンドトゥルースキーフレームの有無にかかわらず測定します。さらに、クリップは、GPT-4oと6人の人間のアノテーターによって評価されました。評価は、LLaVA-Houndの定義に従って行われました。ここで、「hallucination」(モデルが虚構のコンテンツを発明する能力)を評価しました。研究者は、キャプションの品質を、Qwen2-VL-72Bコレクションと比較しました。結果は、わずかに改善されたスコアでした。方法VideoAuteurの生成フェーズは、長いナレーション監督(LND)と視覚条件付きビデオ生成モデル(VCVGM)に分かれています。LNDは、物語の流れを特徴付ける視覚的な埋め込みまたはキーフレームのシーケンスを生成します。VCVGMは、これらの選択に基づいてビデオクリップを生成します。著者は、交互の画像テキスト監督と言語中心のキーフレーム監督の異なる利点について広く議論し、前者のアプローチがより効果的であると結論付けています。交互の画像テキスト監督は、テキストトークンと視覚的な埋め込みを交互に生成し、自己回帰モデルを使用して、テキストと画像の両方のコンテキストに基づいて次のトークンを予測します。これにより、視覚とテキストの間に関連性が高くなることが保証されます。一方、言語中心のキーフレーム監督は、キャプションのみに基づいて拡散モデルを使用してキーフレームを合成し、生成プロセスに視覚的な埋め込みを組み込まないで生成します。研究者は、言語中心の方法が視覚的に魅力的なキーフレームを生成するが、フレーム間の一貫性が欠けていることを発見しました。一方、交互の方法は現実性と視覚的一貫性の点で高いスコアを達成することがわかりました。また、この方法は、訓練を通じてリアリスティックな視覚的なスタイルを学習することができ、時には繰り返しやノイズのある要素が含まれることがあると述べています。通常、Stable DiffusionやFluxを取り入れたワークフローで支配的な研究ストランドとは異なり、著者はTencentのSEED-X 7Bパラメータの多モーダルLLM基礎モデルを生成パイプラインに使用しました(ただし、このモデルは、Stability.aiのSDXLリリースのStable Diffusionをアーキテクチャの一部に使用しています)。著者は以下のように述べています:‘従来のImage-to-Video(I2V)パイプラインとは異なり、画像を開始フレームとして使用するのではなく、[推定された視覚的潜在変数]をシーケンス全体にわたって連続的な条件として利用します。‘さらに、視覚的な埋め込みが完全でない可能性がある回帰エラーを考慮して、視覚的な埋め込みがノイズのある場合でも、生成されたビデオのロバスト性と品質を向上させるためにモデルを適応させます.’典型的な視覚条件付き生成パイプラインは、モデルガイダンスの開始点として初期キーフレームを使用することが多いですが、VideoAuteurは、セマンティック的一貫性のある潜在空間でマルチパートの視覚状態を生成することで、このパラダイムを拡張します。開始フレームのみに基づいてさらに生成を行う場合の「開始フレーム」の潜在的な偏りを回避します。テストSeedStoryの方法に従って、研究者はSEED-Xを使用してナレーションデータセットでLoRAファインチューニングを適用し、結果を「Soraのようなモデル」と表現しています。これは、大規模なビデオ/テキストのペアに事前トレーニングされたモデルで、視覚的およびテキストのプロンプトと条件を受け付けることができます。32,000のナレーションビデオがモデル開発に使用され、1,000が検証サンプルとして残されました。ビデオは短辺に448ピクセルに切り抜かれ、次に448x448pxにセンターキャップされました。訓練のために、ナレーション生成は主にYouCook2の検証セットで評価されました。Howto100Mセットは、データ品質の評価と画像からビデオへの生成にも使用されました。視覚条件付き損失のために、著者はDiTからの拡散損失と、2024年の研究に基づいて、Stable Diffusionを使用しました。交互のアプローチが優れているという彼らの主張を証明するために、著者はVideoAuteurを、テキストベースの入力のみに頼る方法と比較しました。これには、EMU-2、SEED-X、SDXL、およびFLUX.1-schnell(FLUX.1-s)が含まれます。著者は以下のように述べています:‘言語中心のアプローチは、視覚的に魅力的なキーフレームを生成しますが、フレーム間の一貫性が欠けているため、限られた相互情報を持っています。一方、交互の生成方法は、言語と一致した視覚的な潜在変数を利用し、訓練を通じてリアリスティックな視覚的なスタイルを達成します。‘ただし、自己回帰モデルは、1回のパスで正確な埋め込みを作成するのに苦労するため、時々繰り返しやノイズのある要素を生成することがあります.’人間の評価はさらに著者の主張を裏付けています。交互の方法は、調査で最高のスコアを達成しています。しかし、言語中心のアプローチは、美的スコアで最高の結果を達成しています。著者は、しかし、これが長いナレーションビデオの生成における主な問題ではないと主張しています。クリックして再生。VideoAuteurによって生成されたピザビルのビデオのセグメント。結論長期ビデオ生成におけるナレーションの一貫性という課題に関する最も人気のある研究分野は、単一の画像に焦点を当てています。このようなプロジェクトには、DreamStory、StoryDiffusion、TheaterGen、およびNVIDIAのConsiStoryが含まれます。ある意味で、VideoAuteurもこの「静的」カテゴリに分類されます。なぜなら、ビデオクリップのセクションを生成するためにシード画像を使用しているからです。ただし、ビデオとセマンティックコンテンツの交互の組み合わせは、実用的パイプラインに一歩近づいています。 2025年1月16日に初めて公開されました