Connect with us

The Rise of Hunyuan Video Deepfakes (Japanese)

人工知能

The Rise of Hunyuan Video Deepfakes (Japanese)

mm
An Arnie Hunyuan Video LoRA demonstrated by Bob Doyle, on ComfyUI, on YouTube (https://www.youtube.com/watch?v=1D7B9g9rY68) – and, inset right, grabs from various sample videos for the same LoRA at Civit.ai

ここで議論される一部の資料の性質により、この記事には通常よりも参照リンクや図示が少ないことになる。

AI合成コミュニティでは、注目すべきことが現在起こっているが、その重要性が明らかになるまでに時間がかかるかもしれない。愛好家は、Tencentが最近リリースしたオープンソースのHunyuan Videoフレームワークで、ビデオベースのLoRAsを使用して、ジェネレーティブAIビデオモデルをトレーニングし、人の似姿を再現している。

クリックして再生。Civitコミュニティで自由に利用可能なHunyuanベースのLoRAカスタマイズの多様な結果。低ランク適応モデル(LoRAs)をトレーニングすることで、2年間AIビデオ生成に悩まされてきた時間的安定性の問題が大幅に軽減される。 ソース: civit.ai

上記のビデオでは、女優のナタリー・ポートマン、クリスティナ・ヘンドリックス、スカーレット・ジョハンソン、およびテクノロジー指導者エロン・マスクの姿が、Hunyuanジェネレーティブビデオシステム用の比較的小さな追加ファイルにトレーニングされており、これらはコンテンツフィルタ(NSFWフィルタなど)なしでユーザーのコンピューターにインストールできる。

上記のクリスティナ・ヘンドリックスLoRAの作成者は、モデル(307MBのダウンロードのみ)を開発するために、テレビ番組「マッドメン」から16枚の画像のみが必要だったと述べており、RedditとDiscordのStable Diffusionコミュニティからの複数の投稿は、このようなLoRAsは通常、高度なトレーニングデータやトレーニング時間を必要としないことを確認している。

Clickして再生。アーノルド・シュワルツェネッガーが、Civitでダウンロード可能なHunyuanビデオLoRAで実現された。さらにアーノルドの例については、AI愛好家ボブ・ドイルのhttps://www.youtube.com/watch?v=1D7B9g9rY68を参照のこと。

Hunyuan LoRAsは、静止画像またはビデオのいずれかでトレーニングできますが、ビデオでのトレーニングにはより多くのハードウェアリソースとトレーニング時間が必要です。

Hunyuan Videoモデルには13億のパラメータがあり、Soraの12億パラメータを上回り、2024年夏にオープンソースでリリースされた、より機能の限定されたHunyuan-DiTモデルを大幅に上回っている。このモデルには1.5億のパラメータしかない。

2.5年前と同様に、Stable DiffusionとLoRA(Stable Diffusion 1.5の「ネイティブ」有名人の例はこちら)で、基礎モデルは、LoRA実装を介した「IDインジェクション」で得られる忠実度のレベルと比較して、有名人の個性についてはるかに限定された理解を持っている。

実質的には、カスタマイズされた、個性に焦点を当てたLoRAは、基礎Hunyuanモデルの重要な合成能力に「無料で乗車」することができ、2017年当時のオートエンコーダーDeepfakesや、LivePortraitなどのシステムを使用して静止画像に動きを加えることよりも、はるかに効果的な人間の合成が可能になる。

ここに描かれたすべてのLoRAsは、人気のあるCivitコミュニティから無料でダウンロードでき、より豊富な古い「静止画像」LoRAsも、将来のHunyuan Videoのリリース(画像からビデオ、現在は回避策は可能)のための「シード」画像を作成できる(つまり、画像からビデオ)。

クリックして再生。上部は、静的なFlux LoRAからのサンプル;下部は、ミュージシャンのテイラー・スウィフトを特集したHunyuanビデオLoRAからの例。どちらのLoRAsも、Civitコミュニティで無料で利用可能である。

現在、Civitのウェブサイトでは、「Hunyuan」で128件の検索結果が表示される。ほとんどすべての結果が何らかの形でNSFWモデルであり、そのうち22件は有名人を描写し、18件はハードコアポルノの生成を容易にするように設計されており、7件のみが男性を描写している(女性ではなく)。

新しい点は何ですか?

ディープフェイク」という用語の進化する性質と、一般の人々が現在のAI人間ビデオ合成フレームワークの(かなり厳しい)制限について十分に理解していないことから、Hunyuan LoRAの重要性は、ジェネレーティブAIシーンを気軽にフォローしている人にとって、理解しがたいものである。Hunyuan LoRAsと以前のアイデンティティベースのAIビデオ生成アプローチの主な違いをいくつか見てみましょう。

1: 制限のないローカルインストール

Hunyuan Videoの最も重要な側面は、ローカルにダウンロードでき、非常に強力で無修正のAIビデオ生成システムを、気軽なユーザーとVFXコミュニティ(地理的地域を跨いでもライセンスが許可する範囲で)の手に置くことである。

最後に起こったのは、2022年夏にStability.aiのStable Diffusionモデルがオープンソースでリリースされたときである。当時、OpenAIのDALL-E2は一般の想像力を捉えていたが、DALLE-2は有料サービスであり、注目すべき制限があった(時間の経過とともに制限は増えていった)。

Stable Diffusionが利用可能になったとき、Low-Rank Adaptationにより、誰でものアイデンティティの画像を生成できるようになり、Stable DiffusionはDALLE-2の普及を上回った。後者はより優れたシステムだったが、その検閲ルーチンは多くのユーザーによって厳格とみなされ、カスタマイズは不可能だった。

おそらく、同じシナリオが現在、SoraとHunyuanの間(または、より正確に言えば、Soraグレードのプロプライエタリジェネレーティブビデオシステムとオープンソースのライバル、Hunyuanが最初のものであるが、最後のものではない)で発生している。ここで、Fluxが最終的にStable Diffusionに大きな追い付きを見せるだろう。

Hunyuan LoRA出力を生成したいが、十分な機器を持たないユーザーは、いつものように、トレーニングのGPU側面をオンラインコンピューティングサービスにRunPodなどのサービスにオフロードできる。これは、KaiberやKlingなどのプラットフォームでAIビデオを生成するのとは異なり、ローカルワークフローをサポートするためにオンラインGPUをレンタルすることと同じではない。ここでは、セマンティックまたは画像ベースのフィルタリング(検閲)は含まれない。

2: ホストビデオや多大な労力の必要なし

ディープフェイクが2017年末に登場したとき、匿名で投稿されたコードは、DeepFaceLabFaceSwap(およびDeepFaceLiveリアルタイムディープフェイクストリーミングシステム)などのメインストリームフォークに進化した。

この方法では、交換される各アイデンティティの顔画像を数千枚集めるという面倒な作業が必要だった。最初の段階に費やした労力が少ないと、モデルは効果が低かった。トレーニング時間は、利用可能なハードウェアに応じて2〜14日間と変動し、長期的には、優れたシステムさえもストレスを感じることになった。

モデルが最終的に完成すると、既存のビデオにのみ顔を組み込むことができ、通常、実際のアイデンティティ(ターゲットアイデンティティ)が、重ねるアイデンティティと外見が似ていた必要があった。

最近では、ROOP、LivePortrait、同様のフレームワークが、はるかに少ない労力で、かつ優れた結果で同等の機能を提供しているが、正確なフルボディディープフェイクの生成能力はなく、顔以外の要素は生成できない。

Examples of ROOP Unleashed and LivePortrait (inset lower left), from Bob Doyle's content stream at YouTube. Sources: https://www.youtube.com/watch?v=i39xeYPBAAM and https://www.youtube.com/watch?v=QGatEItg2Ns

ROOP UnleashedとLivePortrait(下部左に挿入)の例、ボブ・ドイルのYouTubeコンテンツストリームより。ソース:https://www.youtube.com/watch?v=i39xeYPBAAMおよびhttps://www.youtube.com/watch?v=QGatEItg2Ns

これに対して、Hunyuan LoRAs(およびそれに続く類似システム)は、完全な世界、全身シミュレーションを含む、無制限の創造を可能にする。

3: 時間的一貫性の大幅な改善

時間的一貫性は、拡散ビデオのために数年間続けてきた聖杯である。LoRAと適切なプロンプトを使用することで、Hunyuanビデオ生成に一定のアイデンティティ参照が可能になる。理論的には(これは初期段階である)、特定の衣装を着用した特定のアイデンティティの複数のLoRAsをトレーニングできる。

その場合、衣装も、生成ビデオ全体を通じて「変異」する可能性は低くなる(生成システムは、前のフレームの制限されたウィンドウに基づいて次のフレームを生成するため)。

(または、画像ベースのLoRAシステムのように、単一のビデオ生成に複数のLoRAs、たとえばアイデンティティ + 衣装LoRAsを適用することもできる)

4: 人間実験へのアクセス

最近、私は指摘したように、プロプライエタリおよびFAANGレベルのジェネレーティブAIセクターは、現在、人間合成能力に関する潜在的な批判に非常に警戒的であるため、実際の人々は、プロジェクトページや主要な発表およびリリースの文学ではほとんど登場しない。代わりに、関連する文学は、合成結果で「かわいい」および「脅威のない」主題を表示することが増えている。

Hunyuan LoRAsの登場により、初めてコミュニティは、LDMベースの人間ビデオ合成の境界を、かなり優れた(マイナーではなく)システムで押し広げ、多くの人にとって最も関心のある主題、つまり人々を完全に探索する機会を得る。

影響

「Hunyuan」をCivitコミュニティで検索すると、ほとんどすべてが有名人LoRAsや「ハードコア」LoRAsであるため、Hunyuan LoRAsの登場の中心的な影響は、有名人や無名の人を含む実在の人のAIポルノグラフィック(またはその他の誹謗中傷)ビデオを作成するために使用されることである。

コンプライアンスの目的のため、Hunyuan LoRAsを作成し、さまざまなDiscordサーバーで実験する愛好家は、実在の人の例を投稿することを禁止している。現実は、画像ベースのディープフェイクはすでに大幅に武器化されており、実際の画像に加えて、真正なビデオを組み込むという前景は、過去7年間でメディアに繰り返し表明されてきた懸念を最終的に正当化するかもしれない。

原動力

いつも通り、ポルノは進歩の原動力であり、技術である。このような使用法に対する私たちの意見に関係なく、この不屈の原動力は、最終的にはより主流の採用に利益をもたらす進歩を推進する。

この場合、価格は通常よりも高くなる可能性がある。なぜなら、超現実的なビデオ作成のオープンソース化には、明らかな犯罪的、政治的、倫理的な悪用の可能性があるからである。

Hunyuanベースのビデオポルノ生成のワークフローを改良しているNSFWビデオコンテンツのAI生成に専念したRedditグループ(ここでは名前を出さない)には、ユーザーがHunyuanベースのNSFWクリップ(多くは「過激」と見なされるか、フォーラムのルールを緩和する)を投稿するオープンなDiscordサーバーがある。

このコミュニティは、Hunyuanベースのモデルをトレーニングするためのデータをダウンロードおよび処理できるツールを備えた、充実したGitHubリポジトリも維持している。

最も人気のあるLoRAトレーナーであるKohya-ssが、Hunyuan LoRAトレーニングをサポートしているため、無制限のジェネレーティブビデオトレーニングへの障壁は毎日低下しており、ハードウェア要件も低下している。

Hunyuan Videoのライセンス条項では、Tencent Hunyuanバージョンのリリース日時点で、すべての製品またはサービスに月間アクティブユーザーが100万人を超える場合、Tencentにライセンスを要求する必要があり、Tencentが独自の判断でこれを許可するまで、Agreementの権利を行使することはできない。

この条項は、Hunyuan Videoを中間提供する可能性のある多くの企業を対象としており、100万人を超えるユーザーがいる場合は、Tencentに参加する必要がある。

結論

ディープフェイクビデオが長い間存在していることから、Hunyuan Video LoRAがアイデンティティ合成およびディープフェイクへのアプローチとして持つ重要性を軽視し、Civitコミュニティ、関連するDiscordおよびSubredditsで現れている開発を、人間ビデオ合成の完全に制御可能なものへの単なる小さな前進と見なすことができる。

より可能性のあるのは、これらの努力がHunyuan Videoの完全に納得のいくフルボディおよびフル環境ディープフェイクを作成する潜在能力のほんの一部を表しているということである。画像からビデオのコンポーネントがリリースされ(今月にリリースされるという噂がある)、はるかに詳細なレベルの生成能力が、愛好家およびプロフェッショナルコミュニティの両方に利用可能になる。

Stability.aiが2022年にStable Diffusionをリリースしたとき、多くの観察者は、当時そのような強力で価値のあるジェネレーティブシステムをなぜ放棄するのかわからなかった。Hunyuan Videoの場合、利益動機はライセンスに直接組み込まれている。ただし、Tencentが会社が利益シェアリングスキームをトリガーするときを見つけることは難しいかもしれない。

どちらにせよ、結果は2022年と同じである。専用の開発コミュニティが、Hunyuan Videoのリリースの周りで、すぐに、そして激しい熱意で形成された。来年12か月で彼らの努力が辿る道のいくつかは、必ず新しい見出しのタイトルを生み出すことになる。

機械学習に関するライター、ヒューマンイメージシンセシスのドメインスペシャリスト。Metaphysic.aiの研究コンテンツ責任者を務めた。