Andersonの視点

人間主導AIビデオの著しい進歩

Published April 4, 2025

Updated April 3, 2026

Martin Anderson

Examples from the DreamActor project page.

注: この研究のプロジェクトページには、合計半ギガバイトの33のオートプレイする高解像度ビデオが含まれており、読み込み時に私のシステムが不安定になったため、直接リンクしません。読者は、論文の要約またはPDFでURLを見つけることができます。

現在のビデオ合成研究の主な目的の1つは、単一の画像から完全なAI駆動のビデオパフォーマンスを生成することです。この週、Bytedance Intelligent Creationからの新しい論文では、表現豊かな顔の詳細と大規模なモーションを組み合わせたフルボディとセミボディのアニメーションを生成できる、現在までで最も包括的なシステムの1つを発表しました。また、アイデンティティの一貫性も向上しました。これは、先行する商用システムでもしばしば問題となる分野です。

以下の例では、俳優（左上）と単一の画像（右上）から駆動されるパフォーマンスを示し、驚くほど柔軟で器用なレンダリングが行われ、通常の問題がないことがわかります。 [a href=”https://www.unite.ai/why-cant-generative-video-systems-make-complete-movies/”>大きな動きの作成やおかれた領域について「推測」すること[/a]（例：見えていない部分の服や顔の角度など）。

オーディオコンテンツ。再生するにはクリック。パフォーマンスは、リップシンクを含む2つのソースから生まれます。これは、通常、専用の補助システムの保留です。これは、ソースサイト（記事の冒頭の注釈を参照）からの縮小版です。

各クリップが進行するにつれてアイデンティティの永続性に関するいくつかの残りの課題が見られるものの、このシステムはLoRAsを使用せずに、一般的には（しかし、常にではありません）アイデンティティを長期間にわたって維持することに優れており、これまで見たシステムの中で初めてです。

オーディオコンテンツ。再生するにはクリック。DreamActorプロジェクトからのさらに多くの例。

新しいシステム、DreamActorは、顔の表情、頭の回転、コアスケルトンデザインに専用の注意を提供する3部構成のハイブリッドコントロールシステムを使用し、AI駆動のパフォーマンスで、顔やボディのどちらも犠牲にならないようにします。これは、同様のシステムの中では珍しい、あるいは不明な機能です。

以下に、これらの側面の1つ、頭の回転を示します。各サムネイルの右下にあるカラーボールは、頭の向きを定義する仮想ジンバルを表し、顔の動きや表情とは独立して動作します。

再生するにはクリック。ここで視覚化されているマルチカラーボールは、アバターの頭の回転軸を表し、表情は別のモジュールによって駆動され、俳優のパフォーマンス（ここでは左下に表示）によって情報が提供されます。

このプロジェクトの最も興味深い機能の1つは、論文のテストに適切に含まれていないものですが、オーディオから直接リップシンク動きを導出する能力です。これは、ドライバーのビデオなしで異常にうまく機能します。

研究者は、この分野の最良の既存のシステム、特に広く賞賛されているRunway Act-OneとLivePortraitに取り組み、DreamActorが量的結果で優れた成績を収めたと報告しています。

量的結果は、研究者が独自の基準を設定できるため、必ずしも経験的標準ではありません。ただし、付随する定性的テストは、著者の結論を支持するようです。

残念ながら、このシステムは公開リリースされる予定ではなく、コミュニティがこの研究から得ることができる唯一の価値は、論文に概説されている方法論を潜在的に再現することです（これは、2022年に同様のクローズドソースGoogle Dreamboothに対して行われました）。

論文には以下のように記載されています：

‘人間の画像アニメーションには、偽のビデオを作成するために悪用される可能性があるなどの社会的リスクがあります。提案されたテクノロジーは、人の偽のビデオを作成するために使用できますが、既存の検出ツール[Demamba、Dormant]はこれらの偽物を検出できます。 ‘

‘これらのリスクを軽減するために、明確な倫理規則と責任ある使用ガイドラインが必要です。私たちは、コアモデルとコードへのアクセスを厳密に制限して、悪用を防ぎます。 ‘

当然、これらの種類の倫理的考慮は、商業的観点から便利です。なぜなら、モデルへのAPIのみのアクセスを提供するための理由を提供し、それを収益化できるからです。ByteDanceは、2025年にOmniHumanをDreaminaのWebサイトで有料クレジットで提供することで、すでにこれを一度実行しています。したがって、DreamActorがさらに強力な製品である可能性があるため、これが起こり得る結果のようです。残っているのは、論文で説明されている限り、この原則がオープンソースコミュニティをどの程度支援できるかを見守ることです。

新しい論文は、DreamActor-M1: Holistic、Expressive、Robust Human Image Animation with Hybrid Guidanceと題され、Bytedanceの6人の研究者によるものです。

方法

論文で提案されたDreamActorシステムは、参照画像とドライバーのビデオから人間のアニメーションを生成することを目的としています。Diffusion Transformer（DiT）フレームワークを使用し、潜在空間（Stable Diffusionの某種のバリアント）に適応しています。

外部モジュールに依存せずに参照条件付けを処理する代わりに、著者は、外観とモーションの特徴をDiTの背骨内に直接統合し、空間と時間を介して注意を通じて相互作用を可能にします。

DreamActorのスキーマ: DreamActorは、姿勢、顔のモーション、外観を個別の潜在変数にエンコードし、3D VAEによって生成されたノイズのビデオ潜在変数と組み合わせます。これらの信号は、共有された重みを持つ分岐間で自己注意とクロス注意を使用するDiffusion Transformer内で融合されます。モデルは、デノイズされた出力とクリーンなビデオ潜在変数の比較によって監視されます。ソース: https://arxiv.org/pdf/2504.01724

これを行うために、モデルは、入力ビデオと参照画像の両方をエンコードするために、事前にトレーニングされた3Dバリアショナルオートエンコーダーを使用します。これらの潜在変数は、パッチ化され、結合され、DiTにフィードされ、共同で処理されます。

このアーキテクチャは、参照注入のために二次ネットワークを接続するという一般的な慣行から逸脱しています。これは、Animate AnyoneおよびAnimate Anyone 2プロジェクトのアプローチでした。

代わりに、DreamActorは、外観とモーションのヒントの間の情報の流れを強化しながら、融合を主モデル自体に構築します。モデルは、フローマッチングを使用してトレーニングされます。フローマッチングは、スコア推定をスキップして、データとノイズの間の速度フィールドを直接予測することによって、拡散モデルをトレーニングします。

ハイブリッドモーションガイダンス

DreamActorのニューラルレンダリングを導くハイブリッドモーションガイダンス方法は、3Dボディスケルトンと頭部スフィアから得られるポーズトークン、事前にトレーニングされた顔エンコーダーによって抽出された暗黙的な顔表現、およびソース画像からサンプリングされた参照外観トークンを組み合わせます。

これらの要素は、異なる注意メカニズムを使用してDiffusion Transformer内に統合され、システムが全体的なモーション、顔の表情、視覚的なアイデンティティを生成プロセス全体で調整できるようにします。

最初のものについては、顔のランドマークに依存するのではなく、顔の表情の生成を導くために暗黙的な顔表現を使用します。これにより、顔のダイナミクスに対するより繊細な制御が可能になり、頭のポーズとアイデンティティが表情から切り離されます。

これらの表現を生成するために、パイプラインは、ドライバーのビデオの各フレームで顔の領域を検出して切り出し、224×224にリサイズして、事前にトレーニングされた顔モーションエンコーダーで処理します。これは、PD-FGCデータセットでトレーニングされています。さらに、MLPレイヤーによって条件付けられます。

PD-FGC、DreamActorで使用される、リファレンス画像から話す頭を生成し、リップシンク（オーディオから）、頭のポーズ、目や表情（別々のビデオから）の制御を切り離して独立して操作できるようにします。ソース: https://arxiv.org/pdf/2211.14506

結果は、顔のモーショントークンのシーケンスで、クロス注意レイヤーを介してDiffusion Transformerに注入されます。

同じフレームワークは、別のエンコーダーがオーディオ入力から直接顔のモーショントークンにマッピングする、オーディオ駆動バリアントもサポートしています。これにより、ドライバーのビデオなしで同期された顔のアニメーション、顔の動きを含む、を生成できます。

オーディオコンテンツ。再生するにはクリック。オーディオのみから導かれたリップシンク。唯一のキャラクター入力は、右上に表示される静的な写真です。

2番目に、顔の表情を頭のポーズから独立して制御するために、システムは3D頭スフィア表現（この記事の先ほどのビデオで見られる）を導入します。これにより、顔のダイナミクスが頭の動きから切り離され、アニメーション中に精度と柔軟性が向上します。

頭スフィアは、FaceVerseトラッキング方法を使用して、ドライバーのビデオから3D顔パラメータ（回転、カメラポーズなど）を抽出することによって生成されます。

FaceVerseプロジェクトのスキーマ。 ソース: https://www.liuyebin.com/faceverse/faceverse.html

これらのパラメータは、参照頭と同じサイズの色のスフィアを2D画像平面に投影するために使用され、スフィアの色は頭の向きを反映します。この抽象化は、3D頭のモーションの学習の複雑さを軽減し、キャラクターのスタイリッシュまたは誇張された頭の形状を維持するのに役立ちます。

頭の向きに影響を与える制御スフィアの視覚化。

最後に、フルボディのモーションを導くために、システムは、適応的な骨の長さの正規化を使用した3Dボディスケルトンを使用します。ボディと手のパラメータは、4DHumansと手の動きに焦点を当てたHaMeRを使用して推定されます。両方とも、SMPL-Xボディモデルで動作します。

SMPL-Xは、画像内の全身にパラメトリックメッシュを適用し、推定されたポーズと表情に合わせて、メッシュを体積ガイドとして使用してポーズを認識した操作を可能にします。ソース: https://arxiv.org/pdf/1904.05866

これらの出力から、重要な関節が選択され、2Dに投影され、ラインベースのスケルトンマップに接続されます。Champなどの方法とは異なり、フルボディメッシュをレンダリングするのではなく、このアプローチは、事前に定義された形状の先入観を課すことを避け、スケルトナル構造のみに頼ることで、モデルはボディの形状と外観を参照画像から推測するよう促します。これにより、さまざまなポーズや体型に対する汎用性が向上します。

トレーニング中、3Dボディスケルトンは頭スフィアとともに結合され、ポーズエンコーダーに通過され、Diffusion Transformerによって使用されるノイズトークンを生成する特徴を出力します。

推論時、システムは骨の長さの違いを考慮して、サブジェクト間でスケルトンを調整します。SeedEditの事前にトレーニングされた画像編集モデルは、参照画像とドライバー画像の両方を標準のカノニカル構成に変換します。RTMPoseは、サブジェクトの解剖学に合わせてドライバーのスケルトンを調整するために使用される、骨の比例を抽出します。

推論パイプラインの概要。外観のヒントを豊富にするために疑似参照が生成され、ハイブリッド制御シグナル – 顔のモーションと頭スフィアおよびボディスケルトンからの明示的なポーズ – がドライバーのビデオから抽出され、DiTモデルにフィードされてアニメーション出力が生成され、オーディオをドライバーとして使用できるように顔のモーションがボディのポーズから切り離されます。

外観ガイダンス

外観の忠実性を高めるために、特に隠された領域やまれに表示される領域では、システムは主な参照画像を、入力ビデオからサンプリングされた疑似参照画像で補足します。

再生するにはクリック。システムは、隠された領域を正確に、かつ一貫してレンダリングする必要性を予測します。これは、CGIスタイルのビットマップテクスチャアプローチに近いものです。

これらの追加フレームは、RTMPoseを使用したポーズの多様性に基づいて選択され、CLIPベースの類似性を使用して、サブジェクトのアイデンティティと一致することを確認します。

すべての参照フレーム（主および疑似）は、同じ視覚エンコーダによってエンコードされ、自己注意メカニズムを介して結合され、モデルは補足的な外観のヒントにアクセスできるようにします。この設定により、プロファイルビューまたは肢のテクスチャなどの詳細のカバーが向上します。疑似参照は、トレーニング中は常に、推論中はオプションで使用されます。

トレーニング

DreamActorは、複雑さを段階的に導入し、安定性を向上させるために、3段階でトレーニングされました。

最初の段階では、顔の表現を除く3Dボディスケルトンと3D頭スフィアのみが制御シグナルとして使用されました。これにより、MMDiTから初期化された基本的なビデオ生成モデルが、人間のアニメーションに適応することができ、細かい制御に圧倒されることはありません。

2段階目では、暗黙的な顔表現が追加されましたが、他のすべてのパラメータは凍結されました。顔のモーションエンコーダと顔の注意レイヤのみが、この時点でトレーニングされ、モデルは分離された状態で表情の詳細を学習することができました。

3段階目では、すべてのパラメータが解凍され、外観、ポーズ、顔のダイナミクス全体で共同最適化が行われました。

データとテスト

テストの段階で、モデルは事前にトレーニングされた画像からビデオのDiTチェックポイントから初期化され、3段階でトレーニングされます。最初の2段階はそれぞれ20,000ステップ、3段階目は30,000ステップです。

さまざまな長さと解像度にわたる汎用性を向上させるために、ビデオクリップは25〜121フレームの長さでランダムにサンプリングされ、960x640pxにリサイズされ、whileを維持しました。

トレーニングは、8つの(中国向け)NVIDIA H20 GPUで実行され、各GPUには96GBのVRAMが搭載され、AdamWオプティマイザが使用され、(ある程度高めの)5e−6の学習率で使用されました。

推論時、各ビデオセグメントには73フレームが含まれていました。セグメント間の一貫性を維持するために、1つのセグメントの最終的な潜在変数は、次のセグメントの初期潜在変数として再利用され、タスクはシーケンシャル画像からビデオの生成として文脈化されました。

クラスフリーガイダンスは、参照画像とモーション制御シグナルの両方に2.5の重みで適用されました。

著者は、500時間のビデオで構成されるトレーニングデータセット（論文ではソースは記載されていません）を構築しました。データセットには、ダンス、スポーツ、映画、パブリックスピーキングなどのさまざまなドメインのインスタンスが含まれていて、フルボディショットとハーフボディショットが均等に分布していました。

顔の合成の品質を高めるために、Nersembleがデータ準備プロセスに組み込まれました。

Nersembleデータセットの例。DreamActorに使用されます。 ソース: https://www.youtube.com/watch?v=a-OAWqBzldU

評価のために、研究者は、ベンチマークとしても使用されるデータセットを使用しました。

モデルのパフォーマンスは、従来の研究からの標準メトリクスを使用して評価されました。 Fréchet Inception Distance（FID）；Structural Similarity Index（SSIM）；Learned Perceptual Image Patch Similarity（LPIPS）；およびPeak Signal-to-Noise Ratio（PSNR）が、フレームレベルの品質のために使用されました。 Fréchet Video Distance（FVD）が、時間的一貫性と全体的なビデオの忠実性の評価に使用されました。

著者は、ボディアニメーションとポートレイトアニメーションの両方のタスクで実験を実施しました。すべてのタスクで、単一の（ターゲット）参照画像が使用されました。

ボディアニメーションの場合、DreamActor-M1は、Animate Anyone、Champ、MimicMotion、およびDisPoseと比較されました。

ライバルフレームワークとの量的比較。

PDFには静的な画像が表示されますが、プロジェクトサイトのビデオの1つは、違いをより明確に示すかもしれません。

オーディオコンテンツ。 再生するにはクリック。ライバルフレームワーク間の視覚的な比較。ドライバーのビデオは左上に表示されており、著者がDreamActorが最も優れた結果を生み出すと結論付けたことは妥当です。

ポートレイトアニメーションテストの場合、モデルは、LivePortrait、X-Portrait、SkyReels-A1、およびAct-Oneと比較されました。

ポートレイトアニメーションの量的比較。

著者は、方法が量的に勝つと主張し、また定性的にも優れていると述べています。

オーディオコンテンツ。再生するにはクリック。ポートレイトアニメーションの比較例。

上記のビデオの最後のクリップは、ライバルフレームワークのいくつかと比較して、リップシンクがあまりにも信頼性がなく、信頼性が低いと主張することができますが、全体的な品質は非常に高いです。

結論

DreamActorがこのアプローチを完璧にしたことで、人間のアニメーションを生成する上で、拡散ベースのビデオ生成に直面する最大の課題の1つである、一貫したテクスチャを実現することができました。次の論理的なステップは、このアプローチを完璧にした後、初期の生成クリップから参照アトラスを作成し、LoRAsを使用せずに、さまざまな生成に適用できるようにすることです。

このアプローチは、従来のCGI技術におけるテクスチャマッピングと実質的に同じですが、リアリズムと妥当性の品質は、古い方法では得られないレベルです。

DreamActorの最も印象的な側面は、顔とボディの人間の合成の伝統的な隔たりを橋渡しする、統合された3部構成のガイダンスシステムです。

これで、オープンソースのオファリングでこれらの基本原則を活用できるかどうかが、見守られることになります。

この新しい論文は、DreamActor-M1: Holistic、Expressive、Robust Human Image Animation with Hybrid Guidanceと題され、Bytedanceの6人の研究者によるものです。