Connect with us

人間画像合成における「悪い髪の日」の対処

人工知能

人間画像合成における「悪い髪の日」の対処

mm

ローマ彫刻の黄金時代以来、人間の髪を描くことは荊棘の道である。平均的な人間の頭には10万本の毛が含まれており、その色に応じて屈折率が異なり、ある程度の長さを超えると、複雑な物理モデルによってのみシミュレートできるような方法で動き、変形する。現時点では、「伝統的な」CGI手法のみを通じて適用可能である。

2017年のディズニーの研究から、物理ベースのモデルがCGIワークフローで流体的なヘアスタイルにリアルな動きを適用しようとしています。ソース: https://www.youtube.com/watch?v=-6iF3mufDW0

2017年のディズニーの研究から、物理ベースのモデルがCGIワークフローで流体的なヘアスタイルにリアルな動きを適用しようとしています。 ソース: https://www.youtube.com/watch?v=-6iF3mufDW0

この問題は、現代の人気のあるディープフェイク手法によって十分に解決されていない。数年間、トップパッケージのDeepFaceLabには、剛性のある短い(通常は男性の)ヘアスタイルのみをキャプチャできる「フルヘッド」モデルがありました。また、最近、DFLの姉妹プロジェクトであるFaceSwap(両方のパッケージは、2017年のディープフェイクソースコードから派生しています)では、BiseNetセマンティックセグメンテーションモデルを実装し、ユーザーがディープフェイクの出力に耳と髪を含めることができるようになりました。

非常に短いヘアスタイルを描写する場合でも、結果は質が非常に低い傾向があり、フルヘッドは映像に統合されているのではなく、重ねられているように見えます。

GAN Hair

人間のシミュレーションの2つの主要な競合アプローチは、Neural Radiance Fields(NeRF)と、Generative Adversarial Networks(GANs)です。NeRFは、シーンを複数の視点からキャプチャし、これらの視点の3D表現を探索可能なニューラルネットワークに封じ込めることができます。一方、GANsは、人間の画像合成においてはるかに進歩しています(NeRFが2020年に登場したこともあります)。

NeRFの推論された3D幾何学の理解により、高い忠実度と一貫性でシーンを複製できますが、現在、物理モデルを課すことができず、また、カメラの視点の変更以外のデータの変換にはほとんどの範囲がありません。現在、NeRFには人間の髪の動きを再現する機能が非常に限られています。

NeRFと同等のGANベースのアプローチは、NeRFと異なり、GANの潜在空間が、3D情報の理解をネイティブに含んでいないという、ほぼ致命的な欠点から始めます。したがって、3Dに認識されたGANベースの顔画像合成は、最近の画像生成研究で人気のある分野となっています。2019年のInterFaceGANは、主なブレークスルーの一つです。

しかし、InterFaceGANの紹介された結果や、チェリーピックされた結果でも、ニューラルヘアの一貫性は、潜在空間のみの操作による時間的一貫性の点で、まだ課題であることがわかります:

InterFaceGANのポーズ変換における「シザリング」ヘア。ソース: https://www.youtube.com/watch?v=uoftpl3Bj6w

InterFaceGANのポーズ変換における「シザリング」ヘア。 ソース: https://www.youtube.com/watch?v=uoftpl3Bj6w

潜在空間の操作のみによる一貫したビューの生成が、錬金術のような追求であることが明らかになるにつれ、CGIベースの3D情報をGANワークフローに組み込む制約として、多くの論文が登場しています。

CGI要素は、スキンネッドマルチパーソンリニアモデル(SMPL)などの3Dプリミティブまたは、NeRFと同様の3D推論手法によって表現される可能性があります。

このような新しい研究の一つは、今週公開された、ReLER、AAII、シドニー工科大学、阿里ババグループのDAMOアカデミー、浙江大学の共同研究によるマルチビューコンシステントジェネレーティブアドバーサリアルネットワークを用いた3D認識画像合成(MVCGAN)です。

MVCGANによってCELEBA-HQデータセットから生成された新しい顔のポーズ。ソース: https://arxiv.org/pdf/2204.06307.pdf

MVCGANによってCELEBA-HQデータセットから生成された新しい顔のポーズ。 ソース: https://arxiv.org/pdf/2204.06307.pdf

MVCGANには、ジェネレーティブ放射場ネットワーク(GRAF)が含まれており、GAN内で幾何学的制約を提供することができ、他のGANベースのアプローチと比較して、最も本物的なポージング能力の一つを達成しています。

MVCGANと以前のGRAF、GIRAFFE、pi-GANとの比較

MVCGANと以前のGRAF、GIRAFFE、pi-GANとの比較

しかし、MVCGANの補足資料は、外部から課された3D幾何学に基づく制約のみで、髪の体積、配置、配置、動作の一貫性を取得することは容易なことではないことを示しています。

公開されていない補足資料から、MVCGANの顔のポーズ合成は現在の最先端技術を上回っているものの、時間的一貫性のある髪の合成はまだ課題であることがわかります。

公開されていない補足資料から、MVCGANの顔のポーズ合成は現在の最先端技術を上回っているものの、時間的一貫性のある髪の合成はまだ課題であることがわかります。

「直截的」なCGIワークフローでも、時間的一貫性のある髪の再構築は課題であるため、このような手法によって一貫した髪の合成が潜在空間に到達することはすぐにはないと思われます。

畳み込みニューラルネットワークを用いた髪の安定化

しかし、スウェーデンのチャルマース工科大学院の3人の研究者による近刊の論文は、ニューラルヘアシミュレーションにさらに進歩をもたらす可能性があります。

左:CNNによって安定化された髪の表現、右:基準事実。記事の最後に埋め込まれたビデオを参照してください。ソース: https://www.youtube.com/watch?v=AvnJkwCmsT4

左:CNNによって安定化された髪の表現、右:基準事実。記事の最後に埋め込まれたビデオを参照してください。 ソース: https://www.youtube.com/watch?v=AvnJkwCmsT4

この論文は、畳み込みニューラルネットワークを用いたリアルタイムヘアフィルタリングというタイトルで、5月初旬の<i3Dシンポジウムで発表される予定です。

このシステムは、OpenGL幾何学からシードされた限られた数のランダムサンプルに基づいて、リアルタイムで髪の解像度、自己影、髪の太さを評価できる、オートエンコーダーベースのネットワークで構成されています。

アプローチでは、ランダムな透明度で制限された数のサンプルをレンダリングし、次に、元の画像を再構築するために、U-netをトレーニングします。

MVCGANの下で、CNNは、ランダムにサンプリングされた色要素、ハイライト、接線、深度、アルファをフィルタリングし、合成結果を合成画像に組み立てます。

MVCGANの下で、CNNは、ランダムにサンプリングされた色要素、ハイライト、接線、深度、アルファをフィルタリングし、合成結果を合成画像に組み立てます。

ネットワークはPyTorchでトレーニングされ、ネットワークの容量や入力特徴の数によって、6〜12時間で収束します。トレーニングされたパラメータ(重み)は、システムのリアルタイム実装で使用されます。

トレーニングデータは、ランダムな距離やポーズ、さまざまな照明条件で、ストレートやウェーブの髪型を使用して数百枚の画像をレンダリングすることによって生成されます。

さまざまなトレーニング入力の例

さまざまなトレーニング入力の例

サンプル全体での髪の半透明度は、ランダムな透明度でレンダリングされた画像からの平均値として計算されます。元の高解像度データは、ネットワークとハードウェアの制限に合わせてダウンサンプリングされ、後でアップサンプリングされます。これは、典型的なオートエンコーダーのワークフローです。

リアルタイム推論アプリケーション(トレーニング済みモデルのアルゴリズムから派生した「ライブ」ソフトウェア)は、NVIDIA CUDAとcuDNN、およびOpenGLの組み合わせを使用します。初期の入力特徴は、OpenGLのマルチサンプル化されたカラーバッファーにダンプされ、cuDNNテンソルに処理される前に、結果は「ライブ」OpenGLテクスチャーにコピーされ、最終的な画像に組み込まれます。

リアルタイムシステムは、NVIDIA RTX 2080で動作し、1024×1024ピクセルの解像度を生成します。

髪の色値は、ネットワークによって取得された最終的な値から完全に分離されているため、髪の色を変更することは簡単な作業です。ただし、グラデーションやストライプなどの効果は、まだ将来の課題です。

著者は、論文の評価で使用されたコードをGitLabで公開しました。以下のMVCGANの補足ビデオをご覧ください。

結論

オートエンコーダーまたはGANの潜在空間をナビゲートすることは、まだ航海に近いもので、精密な運転には程遠い。最近の期間では、NeRF、GANs、非ディープフェイク(2017年)オートエンコーダーフレームワークなどのアプローチで、より信頼性の高い結果が得られるようになってきました。

人間の髪の複雑な建築と、物理モデルやその他の特性を組み込む必要性は、現在の画像合成アプローチでは提供されていないため、髪の合成は、一般的な顔の合成の一部として残ることはなく、専用で複雑なネットワークを必要とすることが示唆されます。ただし、将来的には、これらのネットワークは、より広範で複雑な顔の合成フレームワークに組み込まれる可能性があります。

 

初めて公開されたのは2022年4月15日です。

機械学習に関するライター、ヒューマンイメージシンセシスのドメインスペシャリスト。Metaphysic.aiの研究コンテンツ責任者を務めた。