Artificial Intelligence

人間の画像合成における「Bad Hair Days」への取り組み

更新中 on 2022 年 12 月 9 日

ローマ彫刻の黄金時代以来、人間の髪の毛を描くことは困難な課題でした。平均的な人間の頭には 100,000 本の髪の毛があり、その色に応じて屈折率が異なり、一定の長さを超えると、シミュレートすることしかできない方法で動き、再形成されます。複雑な物理モデル – 現在のところ、「従来の」CGI 手法を通じてのみ適用可能です。

Disney による 2017 年の研究によると、物理ベースのモデルは、CGI ワークフローでリアルな動きを流動的なヘアスタイルに適用しようとしています。出典: https://www.youtube.com/watch?v=-6iF3mufDW0

2017リサーチ Disney による、物理ベースのモデルは、CGI ワークフローでリアルな動きを流動的なヘアスタイルに適用しようとします。 出典: https://www.youtube.com/watch?v=-6iF3mufDW0

この問題は、最近の一般的なディープフェイク手法では十分に対処されていません。ここ数年、主要なパッケージはディープフェイスラボ短い（通常は男性の）髪型の厳密な具体化のみをキャプチャできる「全頭」モデルがありました。そして最近ではDFLの安定仲間フェイススワップ (どちらのパッケージも物議を醸した 2017 DeepFakes ソースコードから派生しています) の実装を提供しています。ビセネットセマンティックセグメンテーションモデルにより、ユーザーはディープフェイク出力に耳や髪を含めることができます。

非常に短いヘアスタイルを描いた場合でも、結果は次のようになります。品質が非常に限られている、完全な頭が映像に統合されるのではなく、映像に重ねて表示されます。

ガンヘア

人間のシミュレーションに対する XNUMX つの主要な競合アプローチは、Neural Radiance Fields (ナーフ）複数の視点からシーンをキャプチャし、これらの視点の 3D 表現を探索可能なニューラルネットワークにカプセル化できます。および敵対的生成ネットワーク (GAN）、人間の画像合成の点で特に進歩しています（特に NeRF が 2020 年に登場したばかりであるため）。

NeRF は 3D ジオメトリを推測して理解しているため、現時点では物理モデルを適用する余地がほとんどまたはまったくなく、実際、収集されたオブジェクトに対するあらゆる種類の変換の範囲が比較的限られている場合でも、高い忠実度と一貫性を持ってシーンを複製することができます。カメラ視点の変更に関係しないデータ。現在、NeRF は非常に限られた機能人間の髪の毛の動きを再現するという意味では。

NeRF と同等の GAN ベースの製品は、ほぼ致命的な不利な点から始まります。潜在空間 GAN には 3D 情報の理解がネイティブに組み込まれていません。したがって、3D を意識した GAN 顔画像合成は、近年の画像生成研究において注目を集めています。 InterFaceGAN 主要なブレークスルーの XNUMX つ。

ただし、InterFaceGAN で紹介され厳選された結果でも、潜在的な VFX ワークフローでは、ニューラルヘアの一貫性が時間的一貫性の観点から依然として厳しい課題であることが示されています。

InterFaceGAN の「焼けるような」髪のポーズ変換。 出典: https://www.youtube.com/watch?v=uftpl3Bj6w

潜在空間の操作のみによる一貫したビューの生成が錬金術のような追求である可能性があることがますます明らかになり、次のような論文が増えています。 CGIベースの3D情報を組み込む安定化および正規化の制約として GAN ワークフローに組み込まれます。

CGI 要素は、次のような中間 3D プリミティブによって表すことができます。スキンされた複数人の線形モデル (SMPL)、または NeRF と同様の方法で 3D 推論技術を採用し、ソース画像またはビデオからジオメトリを評価します。

このような方向に沿った新しい作品が XNUMX つあります。今週のリリースであり、 3D 対応画像合成のためのマルチビューの一貫した敵対的生成ネットワーク (MVCGAN)、ReLER、AAII、シドニー工科大学、アリババグループの DAMO アカデミー、および浙江大学の共同研究。

CELEBA-HQ データセットから得られた画像上で MVCGAN によって生成された、もっともらしく確実な新しい顔のポーズ。出典: https://arxiv.org/pdf/2204.06307.pdf

CELEBA-HQ データセットから得られた画像上で MVCGAN によって生成された、もっともらしく堅牢な新しい顔のポーズ。 出典：https://arxiv.org/pdf/2204.06307.pdf

MVCGAN には、生成放射フィールドネットワーク (GRAF) は、敵対的生成ネットワークに幾何学的制約を提供することができ、おそらく同様の GAN ベースのアプローチの中で最も本格的なポージング機能の一部を実現します。

MVCGAN と従来の手法である GRAF、GIRAFFE、pi-GAN との比較。

しかし、MVCGAN の補足資料では、毛髪のボリューム、配置、配置、および動作の一貫性を取得することは、外部から課された 3D ジオメトリに基づく制約では簡単に取り組むことができない問題であることが明らかになりました。

この記事の執筆時点では公開されていない補足資料から、MVCGAN による顔のポーズ合成は現在の最先端技術において顕著な進歩を示しているものの、時間的なヘアの一貫性には依然として問題が残っていることがわかります。

「単純な」CGI ワークフローでは、一時的なヘアの再構築が依然として大きな課題となっているため、この種の従来のジオメトリベースのアプローチが近いうちに潜在空間に一貫したヘア合成をもたらすと信じる理由はありません。

畳み込みニューラルネットワークによる髪の安定化

ただし、スウェーデンのチャルマーズ工科大学の XNUMX 人の研究者による今後の論文は、神経毛シミュレーションのさらなる進歩を提供する可能性があります。

左側は CNN で安定化された髪の表現、右側はグラウンドトゥルースです。より良い解像度と追加の例については、記事の最後に埋め込まれたビデオを参照してください。出典: https://www.youtube.com/watch?v=AvnJkwCmsT4

題し 畳み込みニューラルネットワークを使用したリアルタイムヘアフィルタリングに論文が掲載されます。 i3Dシンポジウム XNUMX月上旬。

このシステムは、OpenGL ジオメトリによってシードされた限られた数の確率的サンプルに基づいて、セルフシャドウイングや毛髪の太さの考慮など、毛髪の解像度をリアルタイムで評価できるオートエンコーダベースのネットワークで構成されています。

このアプローチでは、限られた数のサンプルをレンダリングします。確率的透明性そして、ユーネット元の画像を再構築します。

MVCGAN では、CNN が確率的にサンプリングされたカラー要素、ハイライト、タンジェント、深度、アルファをフィルタリングし、合成結果を合成画像に組み立てます。

ネットワークは PyTorch でトレーニングされ、ネットワークの量と入力特徴の数に応じて XNUMX ～ XNUMX 時間かけて収束します。トレーニングされたパラメーター (重み) は、システムのリアルタイム実装で使用されます。

トレーニングデータは、ランダムな距離とポーズ、およびさまざまな照明条件を使用して、直線と波状のヘアスタイルの数百の画像をレンダリングすることによって生成されます。

トレーニング入力のさまざまな例。

サンプル全体の髪の半透明度は、スーパーサンプリングされた解像度で確率的透明度を使用してレンダリングされた画像から平均化されます。通常のオートエンコーダーのワークフローでは、元の高解像度データがネットワークとハードウェアの制限に合わせてダウンサンプリングされ、後でアップサンプリングされます。

リアルタイム推論アプリケーション (トレーニングされたモデルから派生したアルゴリズムを利用する「ライブ」ソフトウェア) は、NVIDIA CUDA と cuDNN および OpenGL を組み合わせて使用します。初期入力特徴は OpenGL マルチサンプルカラーバッファーにダンプされ、結果は CNN で処理する前に cuDNN テンソルにシャントされます。これらのテンソルは、最終イメージに面付けするために「ライブ」OpenGL テクスチャにコピーされて戻されます。

リアルタイムシステムは NVIDIA RTX 2080 上で動作し、1024 × 1024 ピクセルの解像度を生成します。

ネットワークによって取得される最終値では髪の色の値が完全に解きほぐされているため、髪の色の変更は簡単な作業ですが、グラデーションや縞などの効果は今後の課題となります。

著者らは論文の評価に使用されたコードを公開した GitLabで。以下の MVCGAN の補足ビデオをご覧ください。

畳み込みニューラルネットワークを使用したリアルタイムヘアフィルタリング

Real-Time Hair Filtering with Convolutional Neural Networks

Watch this video on YouTube

まとめ

オートエンコーダーや GAN の潜在空間をナビゲートすることは、精密な運転というよりもセーリングに似ています。 NeRF、GAN、非ディープフェイク (2017) オートエンコーダーフレームワークなどのアプローチで、顔などの「単純な」ジオメトリのポーズ生成に関する信頼できる結果が見られるようになったのは、ごく最近になってからです。

人間の髪の構造は非常に複雑であり、現在の画像合成アプローチには対応していない物理モデルやその他の特性を組み込む必要があることと相まって、髪の合成が一般的な顔の合成に統合されたコンポーネントであり続ける可能性は低いが、必要となることを示しています。たとえそのようなネットワークが最終的にはより広範囲でより複雑な顔合成フレームワークに組み込まれる可能性があるとしても、ある程度洗練された専用の別個のネットワーク。

初版は15年2022月XNUMX日。