スタブ 複数の NeRF を組み合わせて全身ディープフェイクを作成 - Unite.AI
私達と接続

Artificial Intelligence

複数の NeRF を組み合わせて全身ディープフェイクを作成する

mm
更新中 on

画像合成研究部門には、さまざまな種類の服装をした若者(主に若い女性)の全身ビデオや写真を作成できるシステムに関する新しい提案がたくさんあります。 主に生成された画像 静的です; 場合によっては、表現が動くこともありますが、通常はあまりうまく動作しません。

この特定の研究分野のペースは、次のような関連分野における現在の目まぐるしいレベルの進歩と比較すると、鈍いものです。 潜在拡散モデル; しかし、アジアの大部分を占める研究グループは、容赦なくこの問題に取り組み続けています。

過去 10 ~ 15 年間に数百とは言わないまでも、数十、または半立ち上げられた「仮想試着」システムのうちの 0 つ。このシステムでは、機械学習ベースの物体認識を通じて身体が評価され、提案された衣類に適応されます。 出典: https://www.youtube.com/watch?v=2ZXrgGyhbak

過去 10 ~ 15 年間に数百とは言わないまでも、数十の提案または半立ち上げられた「仮想試着」システムのうちの XNUMX つ。このシステムでは、機械学習ベースの物体認識を通じて身体が評価され、提案された衣類に適応されます。 出典: https://www.youtube.com/watch?v=2ZXrgGyhbak

目標は、ファッションおよび衣料品市場向けの「仮想試着」を可能にする新しいシステムを作成することです。このシステムは、実際の試着のようなぎこちなさを感じることなく、顧客と、現在入手可能な、または発売予定の特定の製品の両方に適応できるシステムです。 -時間 重ね合わせ of 衣類、または顧客に次のことを求める必要があります。 ちょっとNSFWな写真を送る ML ベースのレンダリング パイプライン用。

一般的な合成アーキテクチャはどれも、このタスクに簡単に適応できるとは思えません。 潜在空間 Generative Adversarial Networks (GAN) は、説得力のある時間的動き (あるいは、 編集用 一般に); けれど 有能な リアルな人間の動きを生成し、 ニューラル ラディアンス フィールド (NeRF) 通常は自然に 耐性 人物や衣服を自由に「交換」するために必要な編集作業。 オートエンコーダーには、人や服装に特化した面倒なトレーニングが必要になります。 そして、GAN のような潜在拡散モデルには、ビデオ生成のためのネイティブな時間メカニズムがまったくありません。

EVA3D

それにもかかわらず、論文と提案は続けられます。 最新の研究は、それ以外は目立たず専らビジネス指向の研究分野において、異常なほど興味深いものとなっている。

EVA3Dシンガポールの南洋工科大学の研究は、長い間待ち望まれていたアプローチの最初の兆候です。 の試合に ニューラル ラディアンス フィールド ネットワーク。それぞれが身体の個別の部分に特化し、組み立てられて一貫した視覚化が行われます。

EVA3D 用に、複数の NeRF ネットワークから合成されたモバイルの若い女性。 出典: https://hongfz16.github.io/projects/EVA3D.html

EVA3D 用に、複数の NeRF ネットワークから合成されたモバイルの若い女性。 出典: https://hongfz16.github.io/projects/EVA3D.html

結果は、動きに関しては…まあまあです。 EVA3D のビジュアライゼーションは不気味の谷から出ているわけではありませんが、少なくとも彼らが立っている場所から出口ランプを見ることができます。

EVA3D が優れているのは、その背後にある研究者が、全身画像合成の分野でほぼ唯一といっても過言ではないほど、単一のネットワーク (GAN、NeRF など) では編集可能で柔軟な人間の全身画像を処理できないことを認識していることです。部分的には研究のペースのため、部分的にはハードウェアやその他の物流上の制限のため、ここ数年間は体の生成が行われませんでした。

したがって、Nanyang チームは 16 のネットワークと複数のテクノロジーにわたってタスクを細分化しました。このアプローチは、すでに都市環境のニューラル レンダリングに採用されています。 ブロックNeRF & シティNeRFこれは、新しい概念やハードウェアの開発が保留されるまで、今後 5 年間で全身ディープフェイクを実現するための、ますます興味深く、潜在的に実りある中間手段となる可能性が高いと思われます。

この種の「仮想試着」を作成する際に存在するすべての課題が技術的またはロジスティクス的なものであるわけではありません。論文では、特に教師なし学習に関するデータの問題のいくつかについて概説しています。

「[ファッション] データセットのほとんどは人間のポーズが非常に限られており (ほとんどが似たような立ちポーズ)、視野角が非常に不均衡です (ほとんどが正面図)。 この不均衡な 2D データ分布は 3D GAN の教師なし学習を妨げ、新しいビュー/ポーズ合成の困難につながる可能性があります。 したがって、この問題を軽減するには適切なトレーニング戦略が必要です。」

EVA3D ワークフローは人体を 16 の異なる部分に分割し、それぞれの部分が独自の NeRF ネットワークを通じて生成されます。 明らかに、これにより、モーション キャプチャやその他のタイプのモーション データを通じてフィギュアを活性化できるのに十分な「フリーズされていない」セクションが作成されます。 ただし、この利点に加えて、システムは全体的な印象を「売り出す」身体の部分に最大のリソースを割り当てることもできます。

たとえば、人間の足の関節可動域は非常に限られていますが、一般的な体全体の動きの品質に加えて、顔と頭の信頼性が、レンダリングの信頼性の焦点となる可能性があります。

EVA3D と従来の方法との定性的な比較。 著者らは、この点で SOTA の成果が得られると主張しています。

EVA3D と従来の方法との定性的な比較。 著者らは、この点で SOTA の成果が得られると主張しています。

このアプローチは、概念的に関連する NeRF 中心のプロジェクト (2021 年のプロジェクト) とは根本的に異なります。 A-NeRF、ブリティッシュ コロンビア大学と Reality Labs Research によるもので、従来の「一体型」NeRF 表現に内部制御スケルトンを追加することで、必要に応じて体のさまざまな部分に処理リソースを割り当てることがより困難になります。 。

事前モーション – A-NeRF は、VFX 業界が CGI キャラクターをアニメーション化するために長年使用してきたのと同じ種類の延性があり、関節のある中央リギングを「ベイクした」NeRF に装備します。 出典:https://lemonatsu.github.io/anerf/

事前モーション – A-NeRF は、VFX 業界が CGI キャラクターをアニメーション化するために長年使用してきたのと同じ種類の延性と関節のある中央リギングを「ベイクした」NeRF に装備します。 出典:https://lemonatsu.github.io/anerf/

さまざまな一般的なアプローチの潜在空間を活用しようとする、最も類似した人間中心のプロジェクトと同様に、EVA3D はスキンされた複数人線形モデル (SMPL)、現在の合成方法の一般的な抽象化に手段性を追加するための「従来の」CGI ベースの方法。 今年初めに、今度は杭州の浙江大学と香港城市大学クリエイティブメディア学部からの別の論文が、そのような方法を使用して実行したと発表した。 神経体の再形成.

DeepFashion に関する EVA3D の定性的結果。

DeepFashion に関する EVA3D の定性的結果。

方法

このプロセスで使用される SMPL モデルは、人間の「以前」、つまり基本的に EVA3D によって自発的にディープフェイクされている人間に合わせて調整されており、そのスキニング ウェイトによって標準空間 (つまり、「静止状態」または「静止状態」) 間の差異が調整されます。 SMPL モデルの「ニュートラル」ポーズ)、および最終的な外観がレンダリングされる方法。

EVA3D の概念的なワークフロー。 出典: https://arxiv.org/pdf/2210.04888.pdf

EVA3D の概念的なワークフロー。 出典:https://arxiv.org/pdf/2210.04888.pdf

上の図に見られるように、SMPL の境界ボックスは、最終的に本体を構成する 16 個のネットワークの境界定義として使用されます。 逆数 リニア ブレンド スキニング 次に、SMPL の (LBS) アルゴリズムを使用して、可視のサンプリングされた光線を標準 (パッシブ ポーズ) 空間に転送します。 次に、これらの構成に基づいて 16 のサブネットワークがクエリされ、最終的に最終的なレンダリングに適合します。

次に、NeRF コンポジット全体を使用して 3D 人間 GAN フレームワークが構築されます。

第 2 段階の GAN フレームワークのレンダリングは、最終的には人間やファッションの本物の XNUMXD 画像コレクションに対してトレーニングされます。

第 2 段階の GAN フレームワークのレンダリングは、最終的には人間やファッションの本物の XNUMXD 画像コレクションに対してトレーニングされます。

人体の一部を表す各サブネットワークは、積層された多層パーセプトロン (MLP) で構成されています。 サイレン (正弦波表現ネットワーク) のアクティブ化。 SIREN は、このようなワークフローや同様のプロジェクトで多くの問題を解決しますが、一般化するのではなく過剰適合する傾向があり、研究者らは、将来的には代替ライブラリが使用される可能性があると示唆しています (記事の最後を参照)。

データ、トレーニング、テスト

EVA3D は、ファッションベースのデータセットで利用できるポーズの制限とテンプレート化されたスタイルが原因で、通常とは異なるデータの問題に直面しています。これらのポーズには代替ビューや斬新なビューが欠けている傾向があり、注意を集中させるためにおそらく意図的に反復されています。それを着ている人間ではなく、服です。

この不均衡な姿勢分布のため、EVA3D は SMPL テンプレート ジオメトリに基づいて人間の事前分布 (上記を参照) を使用し、符号付き距離フィールドを予測します (SDF) 直接的なターゲット ポーズではなく、このポーズのオフセット。

裏付け実験として、研究者らは XNUMX つのデータセットを利用しました。 ディープファッション; SHHQ; UBCファッション; そしてその 産総研ダンスビデオデータベース (産総研ダンスDB)。

後の XNUMX つは、最初の XNUMX つよりも多様なポーズを含んでいますが、同じ人物を繰り返し表現しているため、この有益な多様性が打ち消されてしまいます。 つまり、タスクを考えると、データは困難以上のものであるということです。

SSHQ の例。 出典: https://arxiv.org/pdf/2204.11823.pdf

SSHQ の例。 出典:https://arxiv.org/pdf/2204.11823.pdf

使用されたベースラインは次のとおりです。 エナーフ・ガン、2D 画像データセットから NeRF ビジュアルをレンダリングする最初のプロジェクト。 スタンフォードとNVIDIAの EG3D、および スタイルSDF、ワシントン大学、Adobe Research、スタンフォード大学の共同研究であり、ネイティブ解像度から高解像度にスケールアップするには、すべての方法で超解像度ライブラリが必要です。

採用された指標は、 物議を醸す フレシェ開始距離 (FID) およびカーネル開始距離 (キッド)、正しいキーポイントの割合 ([メール保護]).

定量的評価では、EVA3D が XNUMX つのデータセットのすべての指標で優位に立っています。

定量的な結果。

定量的な結果。

研究者らは、EVA3D は、この種のプロジェクトでは重要な要素であるジオメトリ レンダリングのエラー率を最も低く抑えていることに注目しています。 彼らはまた、自分たちのシステムが生成されたポーズを制御し、より高いレベルを達成できることも観察しました。 [メール保護] EG3D とは対照的に、XNUMX つのカテゴリでより高いスコアを獲得した唯一の競合方式です。

EVA3D は、現在の標準解像度 512x512px でネイティブに動作しますが、Google が最近 1024 解像度のテキストからビデオへのサービスを提供したように、高級レイヤーを重ねることで簡単かつ効果的に HD 解像度にアップスケールすることもできます。 イメージビデオ.

この方法には限界がないわけではありません。 この論文では、SIREN のアクティベーションにより循環アーティファクトが発生する可能性があるが、EG3D などの代替ベース表現を 2D デコーダと組み合わせて使用​​することで、将来のバージョンで修正できる可能性があると述べています。 さらに、SMPL をファッション データ ソースに正確に適合させることは困難です。

最後に、このシステムは、大きなドレスなどの、より大きくてより流動的な衣類アイテムに簡単に対応することはできません。 このタイプの衣服は、ニューラルレンダリングされた髪の作成と同じ種類の流体力学を示します。 そのような挑戦。 おそらく、適切な解決策が両方の問題の解決に役立つ可能性があります。

EVA3D のデモビデオ: 3D 画像コレクションからの合成 2D 人間の生成

 

初版は12年2022月XNUMX日。