人工知能

OmniHuman-1:ByteDanceのAIが写真1枚から動く、話す人を生成する

mm

ある人物の写真1枚から、数秒以内に話したり、ジェスチャーしたり、パフォーマンスしたりする動画を生成することができます。これが、ByteDanceのOmniHuman-1の力です。最近話題になったこのAIモデルは、静止画像に生命を吹き込み、高度にリアルな動画を生成します。lip-sync、全身のジェスチャー、表情のアニメーションなどが、オーディオクリップによって制御されます。

従来のディープフェイク技術とは異なり、OmniHuman-1は顔の交換ではなく、全身をアニメーション化します。政治家のスピーチ、歴史上の人物の再現、AI生成のアバターのパフォーマンスなど、様々なシーンで使用できます。このモデルは、ビデオ制作について深く考えさせるものです。また、興奮することと懸念することの両方の意味で、多くの影響を及ぼします。

OmniHuman-1の特徴

OmniHuman-1は、現実感と機能性の点で大きな飛躍です。つまり、注目を集める理由が何個かあります。

  • 話す頭だけではない:大多数のディープフェイクやAI生成動画は、顔のアニメーションに限定され、硬いまたは自然でない動きになることがあります。OmniHuman-1は、全身をアニメーション化し、自然なジェスチャー、ポーズ、物体とのやり取りを捉えます。
  • 信じられないほどのlip-syncと繊細な感情:口の動きをランダムに動かすのではなく、AIは入力オーディオと一致するようにlipの動き、表情、ボディランゲージを調整し、結果は非常にリアルなものになります。
  • さまざまな画像スタイルに対応:高解像度のポートレート、低品質のスナップショット、またはスタイリッシュなイラストレーションなど、OmniHuman-1は、入力画像の品質に関係なく、スムーズで信頼性の高い動きを生成します。

この精度は、ByteDanceの18,700時間の人間のビデオフッテージの巨大なデータセットと、先進的な拡散変換モデルによって実現されています。このモデルは、複雑な人間の動きを学習し、ほぼ本物と見分けがつかないAI生成動画を生成します。今まで見た中で最も印象的なものです。

その技術の詳細(簡単に説明します)

公式の論文を見ると、OmniHuman-1は、拡散変換モデルを使用しています。これは、フレームごとに動きを予測して精製することで、スムーズな遷移とリアルなボディダイナミクスを生成する、先進的なAIフレームワークです。

ByteDanceは、18,700時間の人間のビデオフッテージのデータセットでOmniHuman-1をトレーニングしました。これにより、モデルは、多様な動き、表情、ジェスチャーを理解することができます。AIに、実生活での動きの多様な例を提示することで、生成されたコンテンツの自然な感じを高めます。

注目すべき革新は、その「オムニ条件」トレーニング戦略です。ここでは、オーディオクリップ、テキストプロンプト、ポーズリファレンスなどの複数の入力シグナルを同時にトレーニングに使用します。この方法により、AIは、手のジェスチャー、感情表現、カメラ角度などの複雑なシナリオでの動きをより正確に予測することができます。

機能 OmniHuman-1の利点
動きの生成 拡散変換モデルを使用して、スムーズでリアルな動きを生成
トレーニングデータ 18,700時間のビデオで、高い忠実度を実現
マルチ条件学習 オーディオ、テキスト、ポーズの入力を統合して、正確な同期を実現
全身アニメーション ジェスチャー、体のポーズ、表情を捉える
適応性 さまざまな画像スタイルや角度に対応

倫理的および実用的な懸念

OmniHuman-1は、AI生成動画の新しい基準を設定する一方で、重大な倫理的およびセキュリティ上の懸念も引き起こします:

  • ディープフェイクのリスク:写真1枚から、高度にリアルな動画を生成する能力は、誤情報、身分盗難、デジタルな身分詐称への扉を開けます。これは、ジャーナリズム、政治、メディアへの公衆の信頼に影響を及ぼす可能性があります。
  • 悪用の可能性:AI駆動の欺瞞は、悪意のある方法で使用される可能性があります。政治的なディープフェイク、金融詐欺、非同意のAI生成コンテンツなどです。これにより、規制とウォーターマーキングは重要な懸念事項となります。
  • ByteDanceの責任:現在、OmniHuman-1は公開されていません。公開された場合、ByteDanceは、デジタルウォーターマーキング、コンテンツの真正性の追跡、使用の制限など、強力な安全対策を実施する必要があります。
  • 規制上の課題:政府やテクノロジー企業は、AI生成メディアの規制方法について苦慮しています。EUのAI法や米国のディープフェイク法案などの取り組みは、監督の必要性を強調しています。
  • 検出対生成の軍拡競争:OmniHuman-1のようなAIモデルが改善するにつれて、検出システムも改善する必要があります。GoogleやOpenAIなどの企業は、AI検出ツールを開発していますが、これらの急速に進化するAI能力に追いつくことは課題です。

AI生成人間の将来

AI生成人間の創造は、OmniHuman-1によって加速されます。最も近い適用例は、TikTokやCapCutなどのプラットフォームへの統合です。ByteDanceはこれらのプラットフォームの所有者です。これにより、ユーザーは、話したり、歌ったり、行動したりする超リアルなアバターを作成できる可能性があります。実装された場合、ユーザー生成コンテンツを再定義し、インフルエンサー、企業、日常のユーザーが、AI駆動の動画を作成できるようになります。

ソーシャルメディアを超えて、OmniHuman-1は、ハリウッドや映画、ゲーム、バーチャルインフルエンサーに重大な影響を及ぼします。エンターテインメント業界は、AI生成キャラクターを探索しており、OmniHuman-1のリアルなパフォーマンスは、この分野を前進させる可能性があります。

地政学的観点から、ByteDanceの進歩は、中国と米国のテクノロジー企業であるOpenAIやGoogleとの間のAIの対立を再び引き起こしています。中国はAI研究に大量の投資をしており、OmniHuman-1は、生成メディア技術における重大な挑戦です。ByteDanceがこのモデルを改良し続けるにつれて、AIリーダーシップをめぐる広範な競争の舞台が整う可能性があり、AIビデオツールの開発、規制、採用に影響を及ぼします。

よくある質問(FAQ)

1. OmniHuman-1とは何ですか?

OmniHuman-1は、写真1枚とオーディオクリップから、リアルな動画を生成することができる、ByteDanceによって開発されたAIモデルです。人をアニメーション化します。

2. OmniHuman-1は従来のディープフェイク技術とどう異なりますか?

従来のディープフェイクが顔の交換に限定されているのに対し、OmniHuman-1は、全身のジェスチャー、lipの動き、感情表現をアニメーション化します。

3. OmniHuman-1は公開されていますか?

現在、ByteDanceはOmniHuman-1を公開していません。

4. OmniHuman-1に関連する倫理的リスクは何ですか?

このモデルは、誤情報、ディープフェイク詐欺、非同意のAI生成コンテンツに使用される可能性があり、デジタルセキュリティは重要な懸念事項となります。

5. AI生成動画を検出する方法はありますか?

テクノロジー企業や研究者は、ウォーターマーキングツールや法医学分析方法を開発しています。これにより、AI生成動画と実写の区別が付きます。

Alex McFarlandは、人工知能の最新の開発を探求するAIジャーナリスト兼ライターです。彼は、世界中の数多くのAIスタートアップや出版物と共同しています。