人工知能

AnimateLCM：パーソナライズされた拡散モデルによるアニメーションの加速

公開日 2024年3月19日

更新日 2026年5月22日

著者

Kunal Kejriwal

AnimateLCM: Accelerating the Animation of Personalized Diffusion Models and Adapters with Decoupled Consistency Learning

過去数年間、拡散モデルは画像および動画生成タスクで大きな成功と認知を得てきました。特に、動画拡散モデルは、高い連貫性と忠実性を持つ動画を生成できるため、注目を集めています。これらのモデルは、建築内の反復的なノイズ除去プロセスを使用して、高次元のガウシアンノイズを実データに徐々に変換することで、高品質の動画を生成します。

Stable Diffusionは、画像生成タスクの代表的なモデルの一つであり、Variational AutoEncoder（VAE）を使用して、実際の画像とダウンサンプルされた潜在的な特徴をマッピングします。これにより、モデルは生成コストを削減できます。また、クロスアテンションメカニズムを使用して、テキスト条件付き画像生成を実現します。最近、Stable Diffusionフレームワークは、より革新的な画像または動画生成を実現するためのいくつかのプラグアンドプレイアダプターの基礎を築いてきました。しかし、多くの動画拡散モデルで使用されている反復的な生成プロセスにより、画像生成プロセスが時間がかかり、比較的高コストになるため、応用が制限されています。

この記事では、AnimateLCMについて説明します。AnimateLCMは、アダプターを使用したパーソナライズされた拡散モデルであり、最小限のステップと計算コストで高忠実性の動画を生成することを目的としています。AnimateLCMフレームワークは、Consistency Modelにインスパイアされています。Consistency Modelは、事前にトレーニングされた画像拡散モデルを蒸留することで、最小限のステップでサンプリングを加速します。さらに、Consistency Modelの成功した拡張であるLatent Consistency Model（LCM）は、条件付き画像生成を容易にします。生の動画データセットに直接一貫性学習を行うのではなく、AnimateLCMフレームワークは、一貫性学習を分離する戦略を提案しています。この戦略により、モーション生成の先駆者と画像生成の先駆者を分離することで、生成されたコンテンツの視覚的な品質を向上させ、同時にトレーニングの効率を向上させることができます。また、AnimateLCMモデルは、アダプターをスクラッチからトレーニングするか、既存のアダプターをその蒸留された動画一貫性モデルに適応させることを提案しています。これにより、Stable Diffusionモデルのファミリーのプラグアンドプレイアダプターを組み合わせて、サンプル速度に影響を与えることなく、さまざまな機能を実現できます。

この記事は、AnimateLCMフレームワークを深く掘り下げて説明することを目的としています。メカニズム、方法論、フレームワークのアーキテクチャ、および最先端の画像および動画生成フレームワークとの比較について探ります。では、始めましょう。

AnimateLCM：パーソナライズされた拡散モデルのアニメーション

拡散モデルは、画像生成および動画生成タスクのための主要なフレームワークとなっています。これは、生成タスクにおける効率と能力のためです。多くの拡散モデルは、画像生成のために、高次元のガウシアンノイズを実データに徐々に変換する反復的なノイズ除去プロセスに依存しています。ただし、この方法は、生成プロセスが遅く、計算コストが高くなるという結果をもたらします。さらに、GANやGenerative Adversarial Networksなどの他の生成フレームワークよりも遅くなります。近年、Consistency ModelsまたはCMsは、反復的な拡散モデルに代わるものとして提案されています。Consistency Modelsは、生成プロセスを加速する同时に、計算コストを一定に保つことを目的としています。

Consistency Modelsの特徴は、事前にトレーニングされた拡散モデルによって導入された軌道の自己一貫性を維持する一貫性マッピングを学習することです。Consistency Modelsの学習プロセスにより、高品質の画像を最小限のステップで生成でき、計算コストの高い反復を必要としません。さらに、Stable Diffusionフレームワークに基づくLatent Consistency Model（LCM）は、既存のアダプターと統合して、リアルタイムの画像から画像への翻訳などの追加機能を実現できます。

一方、既存の動画拡散モデルは、ある程度の結果をもたらしますが、動画サンプルの加速分野では、まだ進歩が必要です。さらに、動画生成の計算コストが高いため、研究者の多くにとって実行可能な選択肢ではありません。

これが、AnimateLCMの出現につながりました。AnimateLCMは、最小限のステップで高忠実性の動画を生成することを目的としたフレームワークです。AnimateLCMフレームワークは、Latent Consistency Modelに基づいています。AnimateLCMフレームワークは、逆拡散プロセスをClassifier Free Guidance（CFG）を増強した確率フローソルバーとして扱い、潜在的な空間でその解を直接予測するようにモデルをトレーニングします。ただし、生の動画データセットに直接一貫性学習を行うのではなく、AnimateLCMフレームワークは、一貫性学習を分離する戦略を提案しています。この戦略により、モーション生成の先駆者と画像生成の先駆者を分離することで、生成されたコンテンツの視覚的な品質を向上させ、同時にトレーニングの効率を向上させることができます。

AnimateLCMフレームワークは、まず、フィルタリングされた高品質の画像テキストデータセットを使用して、画像一貫性モデルへの安定した拡散モデルの蒸留を行います。次に、Stable Diffusionモデルのレイヤーで軽量のLoRA重みをトレーニングします。LoRA重みを調整した後、モデルは、他のパーソナライズされたモデルとの互換性を保ちながら、加速モジュールとして機能します。推論の際には、LoRA重みを元の重みと結合して、推論速度を損なうことなく、生成プロセスを高速化します。画像生成の一貫性モデルを取得した後、Stable Diffusionモデルの重みとLoRA重みを凍結し、画像一貫性モデルと画像拡散モデルに3Dインフレーションを適用して、動画生成を可能にします。

さらに、AnimateLCMフレームワークは、特定のアダプターをスクラッチからトレーニングするか、既存のアダプターを適応させるための、効果的な加速戦略を提案しています。

AnimateLCMフレームワークの貢献は、次のように要約できます。提案されたAnimateLCMフレームワークは、高品質、高速、忠実性の高い動画生成を実現することを目的としています。そのために、モーション生成の先駆者と画像生成の先駆者を分離する一貫性蒸留戦略を提案しています。これにより、生成品質とトレーニング効率が向上します。

InstantID：方法論とアーキテクチャ

InstantIDフレームワークは、拡散モデルとサンプリング速度戦略から多大なインスピレーションを得ています。拡散モデル、またはスコアベースの生成モデルは、画像生成能力を示しています。スコア方向の指針の下で、拡散モデルは、反復的なサンプリング戦略を実装して、ノイズが混在したデータを徐々に除去します。拡散モデルの効率は、多くの動画拴散モデルがこれらを使用する理由のひとつです。一方、サンプリング速度とサンプリング加速戦略は、拡散モデルの遅い生成速度に対処するのに役立ちます。蒸留ベースの加速方法は、元の拡散重みを精製されたアーキテクチャまたはスケジューラーで調整して、生成速度を向上させます。

さらに、InstantIDフレームワークは、Stable Diffusionモデルの上に構築されており、関連する概念を適用できます。モデルは、離散的な前方拡散プロセスを連続時間の分散を保存するSDEとして扱います。さらに、Stable Diffusionモデルの拡張であるDDPM（Denoising Diffusion Probabilistic Model）は、トレーニングデータポイントを徐々にノイズのあるデータの分布に従う離散マルコフ連鎖で乱雑化させます。

最小限のステップで高忠実性の動画を生成するために、AnimateLCMフレームワークは、Stable Diffusionベースの動画モデルを自己一貫性特性に従うようにします。AnimateLCMフレームワークの全体的なトレーニング構造は、教師なし適応と効果的な一貫性学習のための分離された一貫性学習戦略で構成されています。

拡散モデルから一貫性モデルへの移行

AnimateLCMフレームワークは、Stable Diffusionモデルの独自の適応を導入し、Latent Consistency Model（LCM）の設計に基づいてConsistency Model（CM）に適応しています。Stable Diffusionモデルの特徴は、ノイズを追加したサンプルを予測することですが、Consistency Modelsは、PF-ODE軌道の解を直接予測することを目的としています。さらに、Stable Diffusionモデルの特定のパラメータでは、Classifier Free Guidance戦略を使用して、高品質の画像を生成する必要があります。一方、AnimateLCMフレームワークは、Classifier Free Guidanceを増強したODEソルバーを使用して、同じ軌道内の隣接するペアをサンプリングし、効率と品質を向上させます。既存のモデルは、軌道の離散点の数が、生成品質とトレーニング効率に大きな影響を与えることを示しています。離散点の数が少ないと、トレーニングプロセスが加速されますが、離散点の数が多いと、トレーニング中にバイアスが少なくなります。

分離された一貫性学習

一貫性蒸留プロセスでは、トレーニングに使用されるデータが、最終的な一貫性モデルの生成品質に大きな影響を与えることがわかっています。ただし、現在公開されているデータセットの多くは、ウォーターマークデータ、低品質のデータ、または曖昧なキャプションで構成されています。さらに、大きな解像度の動画でモデルを直接トレーニングすることは、計算コストが高く、時間がかかり、多くの研究者にとって実行可能な選択肢ではありません。

フィルタリングされた高品質のデータセットが利用可能な場合、AnimateLCMフレームワークは、モーション先駆者と画像生成先駆者を分離することを提案しています。具体的には、AnimateLCMフレームワークは、まず、フィルタリングされた高品質の画像テキストデータセットを使用して、画像一貫性モデルへの安定した拡散モデルの蒸留を行います。次に、Stable Diffusionモデルのレイヤーで軽量のLoRA重みをトレーニングします。LoRA重みを調整した後、モデルは、他のパーソナライズされたモデルとの互換性を保ちながら、加速モジュールとして機能します。推論の際には、LoRA重みを元の重みと結合して、推論速度を損なうことなく、生成プロセスを高速化します。画像生成の一貫性モデルを取得した後、Stable Diffusionモデルの重みとLoRA重みを凍結し、画像一貫性モデルと画像拡散モデルに3Dインフレーションを適用して、動画生成を可能にします。

一貫性トレーニングの開始時に、事前にトレーニングされた空間LoRA重みは、オンライン一貫性モデルにのみ統合され、ターゲット一貫性モデルは挿入から除外されます。この戦略により、ターゲットモデルが、オンラインモデルの学習プロセスに悪影響を与える可能性のある誤った予測を生成することを防ぎます。トレーニング期間中、LoRA重みは、指数移動平均（EMA）プロセスを通じてターゲット一貫性モデルに徐々に統合され、数回のイテレーションの後、最適な重みバランスが達成されます。

教師なし適応

Stable Diffusionモデルのプラグアンドプレイアダプターは、動画生成の詳細を制御するのに効果的ですが、多くのアダプターは画像拡散モデルでトレーニングされているため、制御を失いやすいことがわかっています。AnimateLCMフレームワークは、教師なし適応を選択します。これは、既存のアダプターをより適切に適応させるか、またはアダプターをスクラッチからトレーニングするためのシンプルで効果的な戦略です。このアプローチにより、AnimateLCMフレームワークは、教師モデルを必要とせずに、最小限のステップで制御可能な動画生成と画像から動画への生成を実現できます。

AnimateLCM：実験と結果

AnimateLCMフレームワークは、Stable Diffusion v1-5をベースモデルとして使用し、DDIM ODEソルバーをトレーニングのために実装します。さらに、WebVid2Mデータセットで実験を行い、追加データや増強データを使用しません。また、TikTokデータセットを使用し、BLIPキャプション付きのテキストプロンプトで制御可能な動画生成を実行します。

定性的結果

次の図は、テキストから動画、画像から動画、制御可能な動画生成における、AnimateLCMフレームワークによって実装された4ステップ生成方法の結果を示しています。

各結果は満足のいくものであり、AnimateLCMフレームワークが、さまざまな推論ステップで一貫性特性を維持しながら、モーションとスタイルを維持する能力を示しています。

定量的結果

次の図は、AnimateLCMフレームワークと最先端のDDIMおよびDPM++方法との比較における定量的結果を示しています。

AnimateLCMフレームワークは、特に1から4ステップの低ステップ領域で、既存の方法を大幅に上回っています。さらに、比較されたAnimateLCMメトリックは、CFGまたはClassifier Free Guidanceを使用せずに評価されており、推論時間と推論ピークメモリコストを約50%節約できます。さらに、パフォーマンスをさらに検証するために、AnimateLCMフレームワーク内の空間重みを、忠実性と多様性のバランスが取れたパブリックに公開されたリアルなモデルに置き換え、パフォーマンスをさらに向上させます。

最終的な考え

この記事では、AnimateLCMについて説明しました。AnimateLCMは、アダプターを使用したパーソナライズされた拡散モデルであり、最小限のステップと計算コストで高忠実性の動画を生成することを目的としています。AnimateLCMフレームワークは、Consistency Modelにインスパイアされており、事前にトレーニングされた画像拡散モデルを蒸留することで、最小限のステップでサンプリングを加速します。さらに、Consistency Modelの成功した拡張であるLatent Consistency Model（LCM）は、条件付き画像生成を容易にします。生の動画データセットに直接一貫性学習を行うのではなく、AnimateLCMフレームワークは、一貫性学習を分離する戦略を提案しています。この戦略により、モーション生成の先駆者と画像生成の先駆者を分離することで、生成されたコンテンツの視覚的な品質を向上させ、同時にトレーニングの効率を向上させることができます。