Connect with us

人工知能

GAN as a Face Renderer for ‘Traditional’ CGI

mm

意見 ジェネレーティブ・アドバーサリアル・ネットワーク(GAN)が初めて、驚くほどリアルな3D顔の再現能力を実証したとき、GANの未開拓の可能性を掘り起こすために、人間の顔のテンポラルに一貫したビデオを生成するためのゴールドラッシュが起こった。

ある意味で、GANの潜在的な空間の中には、潜在的な意味論的論理のスキーマが隠されているように思われた。つまり、潜在的なコードの中に、GANが一貫した複数の視点と解釈(例えば、表情の変化)を生成できるような、ある種の隠れた秩序と合理性が存在するのではないかと考えられた。そうすれば、テンポラルに説得力のあるディープフェイク・ビデオ生成方法が可能になり、オートエンコーダーを上回ることができるのではないかと考えられた。

高解像度の出力は、DeepFaceLabやFaceSwapがGPUの制約により低解像度の環境で動作することと比べれば、簡単なことである。さらに、オートエンコーダーのワークフローでの「スワップ・ゾーン」は、GANでの「クリエーション・ゾーン」になり、入力画像の数個、またはたとえ単一の画像から情報を得ることができる。

「スワップ」と「ホスト」の顔の不一致は、画像の全体がスクラッチから生成されるため、髪、顎線、顔の線の最も外側の部分など、オートエンコーダーのディープフェイクで挑戦的な部分が解決される。

GAN顔映像の冬

しかし、実際にはそう簡単なことではなかった。最終的に、解離が中心的な問題となり、現在でも主要な課題である。特定の顔のアイデンティティを維持しながら、姿勢や表情を変更するには、どうすればよいのか。たとえば、アイデンティティの変更を教えるために、数千の参照画像のコーパスを収集する必要があるのではないか。

その後、GANの顔の演出と合成に関する研究では、入力アイデンティティを目的論的、汎用的、テンプレート化された変換に従属させることができるのではないかと考えられた。たとえば、GANが知っている画像にはない表情をGANの顔に適用することができるのではないかと考えられた。

2022年の論文「Tensor-based Emotion Editing in the StyleGAN Latent Space」より、テンプレート化された表情がFFHQデータセットからの入力顔に適用されている。

2022年の論文「Tensor-based Emotion Editing in the StyleGAN Latent Space」より、テンプレート化された表情がFFHQデータセットからの入力顔に適用されている。 ソース: https://arxiv.org/pdf/2205.06102.pdf

「ワン・サイズ・フィット・オール」のアプローチでは、個人の表情の多様性をカバーすることはできない。ジャック・ニコルソンやウィレム・デフォーのようなユニークな笑顔が、そんな「平均的な表情」の潜在的なコードの影響を受けて、忠実に解釈されることができるのかどうか疑問に思う。

この魅力的なラテン系の男は誰か。GANメソッドはよりリアルな、高解像度の顔画像を生成するが、この変換は、DeepFaceLabのように、数千の画像から訓練されたものではなく、単一の画像から得られたものである。ここでは(背景)、DeepFaceLabのモデルがDeepFaceLive、人気のあるソフトウェアのストリーミング実装にインポートされている。例はhttps://www.youtube.com/watch?v=9tr35y-yQRY(2022)およびhttps://arxiv.org/pdf/2205.06102.pdfより。

この魅力的なラテン系の男は誰か。GANメソッドはより「リアルな」と高解像度の顔画像を生成するが、この変換は、DeepFaceLabのように、数千の画像から訓練されたものではなく、単一の画像から得られたものである。ここでは(背景)、DeepFaceLabのモデルがDeepFaceLive、人気のあるソフトウェアのストリーミング実装にインポートされている。例はhttps://www.youtube.com/watch?v=9tr35y-yQRY(2022)およびhttps://arxiv.org/pdf/2205.06102.pdfより。

過去数年間に、GANの顔の表情エディターが数多く発表されてきたが、そのほとんどは、未知のアイデンティティを扱っており、その変換の忠実性は、読者にとっては、顔が見知れたものでないため、判断することが難しい。

2020年のCascade-EF-GANでは、不明なアイデンティティが変換されている。ソース: https://arxiv.org/pdf/2003.05905.pdf

2020年のCascade-EF-GANでは、不明なアイデンティティが変換されている。ソース: https://arxiv.org/pdf/2003.05905.pdf

過去3年間で最も注目を集めたGANの顔エディターは、おそらくInterFaceGANである。これは、姿勢(カメラ/顔の角度)、表情、年齢、人種、性別などの基本的な特性に関連する潜在的なコードで潜在的な空間を移動することができる。

https://www.youtube.com/watch?v=uoftpl3Bj6w

InterFaceGANや同様のフレームワークの1980年代スタイルの「モーフィング」機能は、主に画像が適切な潜在的なコード(例えば「年齢」)を通じて再投影されるパスの説明を示す方法である。ただし、テンポラルに連続したビデオ・フッテージを生成するという点では、これらのスキームは今のところ「印象的な失敗」に終わっている。

これに、テンポラルに一貫した髪のスタイルを作ることの難しさや、潜在的なコードの探索/操作のテクニックが、テンポラルなガイドラインを提供することが難しいこと、さらに、静止画像を生成するために設計されたフレームワークに、ビデオ出力を生成するための-nativeな提供がないことを加えると、GANが顔のビデオ合成に必要なすべてのものではないという結論に達するかもしれない。

したがって、後の努力により、漸進的な改善がもたらされ、他のアプローチでは、セマンティック・セグメンテーションを制御メカニズムとして使用するなど、コンピュータ・ビジョンの他の規範が「ガイダンス・レイヤー」として追加された。例えば、2021年の後半の論文 SemanticStyleGAN: Learning Compositional Generative Priors for Controllable Image Synthesis and Editingでは、セマンティック・セグメンテーションが潜在的な空間の操作の方法として使用されている。

SemanticStyleGANでは、セマンティック・セグメンテーションが潜在的な空間の操作の方法として使用されている。ソース: https://semanticstylegan.github.io/

SemanticStyleGANでは、セマンティック・セグメンテーションが潜在的な空間の操作の方法として使用されている。ソース: https://semanticstylegan.github.io/

パラメトリック・ガイダンス

GANの顔の合成研究コミュニティは、GANの潜在的な空間の印象的なが乱れた潜在的なコードに秩序と指針をもたらすために、「伝統的な」パラメトリック・CGI顔の使用に舵を切っている。

パラメトリック・フェイシャル・プリミティブは、コンピュータ・ビジョンの研究における20年以上の定番であるが、最近、Skinned Multi-Person Linear Model(SMPL) CGIプリミティブの使用が増えており、マックス・プランク研究所やILMが先駆的に開発し、Sparse Trained Articulated Human Body Regressor(STAR) フレームワークで改良されている。

SMPL(この場合はSMPL-Xというバリアント)は、画像に写っている人間の身体の全体の姿勢(必要に応じて表情を含む)に合ったパラメトリック・メッシュを配置することができるため、新しい操作をパラメトリック・メッシュをボリューメトリックまたは認識的なガイドラインとして使用して画像に対して実行することができる。ソース: https://arxiv.org/pdf/1904.05866.pdf

SMPL(この場合はSMPL-Xというバリアント)は、画像に写っている人間の身体の全体の姿勢(必要に応じて表情を含む)に合ったパラメトリック・メッシュを配置することができるため、新しい操作をパラメトリック・メッシュをボリューメトリックまたは認識的なガイドラインとして使用して画像に対して実行することができる。ソース: https://arxiv.org/pdf/1904.05866.pdf

このアプローチで最も注目に値する開発は、ディズニーの2019年のレンダリング・ウィズ・スタイルイニシアチブである。これは、伝統的なテクスチャ・マップとGAN生成画像を組み合わせて、改善された「ディープフェイク・スタイル」のアニメーション出力を生成することを目指したものである。

レンダリング・ウィズ・スタイルでは、古いものと新しいものが組み合わされる。ソース: https://www.youtube.com/watch?v=TwpLqTmvqVk

レンダリング・ウィズ・スタイルでは、古いものと新しいものが組み合わされる。ソース: https://www.youtube.com/watch?v=TwpLqTmvqVk

ディズニーのアプローチでは、StyleGAN2ネットワークに伝統的にレンダリングされたCGIのファセットを組み込んで、「問題のある領域」でのテンポラルな一貫性の問題を解決する。たとえば、皮膚のテクスチャーなどの領域である。

レンダリング・ウィズ・スタイルのワークフロー。

レンダリング・ウィズ・スタイルのワークフロー。

このプロセスを導くパラメトリック・CGI・ヘッドは、ユーザーに合わせて調整および変更することができるため、GAN生成された顔もそれらの変更を反映することができる。たとえば、頭の姿勢や表情の変更などである。

しかし、結果は、両者の悪い面を示しており、髪のスタイルや基本的な特徴の位置まで一貫性を維持することができない。

レンダリング・ウィズ・スタイルから新しい種類のアンチャイニー・バレーが生まれるが、まだ潜在性はある。

レンダリング・ウィズ・スタイルから新しい種類のアンチャイニー・バレーが生まれるが、まだ潜在性はある。

2020年の論文 StyleRig: Rigging StyleGAN for 3D Control over Portrait Imagesでは、3Dモーファブル・フェイス・モデル(3DMM)をStyleGAN環境での特徴の変更の代理として使用する、人気のあるアプローチを採用している。具体的には、RigNetという新しいリギング・ネットワークを使用する。

StyleRigでは、3DMMが潜在的な空間の解釈の代理として使用される。ソース: https://arxiv.org/pdf/2004.00121.pdf

StyleRigでは、3DMMが潜在的な空間の解釈の代理として使用される。ソース: https://arxiv.org/pdf/2004.00121.pdf

しかし、通常通り、このようなイニシアチブの結果は、最小限の姿勢操作や「無情報」の表情/アフェクトの変更に限定されている。

StyleRigでは、制御レベルが向上するが、テンポラルに一貫した髪のスタイルは未解決の課題である。ソース: https://www.youtube.com/watch?v=eaW_P85wQ9k

StyleRigでは、制御レベルが向上するが、テンポラルに一貫した髪のスタイルは未解決の課題である。ソース: https://www.youtube.com/watch?v=eaW_P85wQ9k

同様の出力は、Mitsubishi ResearchのMOST-GANからも見られる。これは、2021年の論文で、非線形3DMMを解離アーキテクチャとして使用しているが、動的で一貫した動きを達成するのに苦労している。

解離と操作性を試みた最新の研究は、One-Shot Face Reenactment on Megapixelsである。これは、3DMMパラメトリック・ヘッドをStyleGANの親和的なインターフェイスとして使用する。

One-Shot Face ReenactmentのMegaFRワークフローでは、ネットワークは、逆転された実世界の画像と、レンダリングされた3DMMモデルから得られたパラメータを組み合わせて、顔の合成を実行する。ソース: https://arxiv.org/pdf/2205.13368.pdf

One-Shot Face ReenactmentのMegaFRワークフローでは、ネットワークは、逆転された実世界の画像と、レンダリングされた3DMMモデルから得られたパラメータを組み合わせて、顔の合成を実行する。ソース: https://arxiv.org/pdf/2205.13368.pdf

OSFRは、ユーザーが入力画像を指定し、変換を適用できる、Photoshop/After Effectsスタイルの線形編集ワークフローを開発しようとする、GANの顔エディターの増えているクラスの一つである。

また、パラメトリックな表情は、個人化されていない方法で表情を注入することを表し、操作は「アンチャイニー・バレー」のように、必ずしも肯定的な意味ではありません。

OSFRでの表情の注入。

OSFRでの表情の注入。

同様の以前の研究と同様に、OSFRは、単一の画像から元の姿勢を推測し、「フロンタライゼーション」も実行できる。つまり、オフセンターにポーズされた画像をマグショットに変換する。

OSFRで実装されたマグショット画像の推定。

OSFRで実装されたマグショット画像の推定。

実践では、この種の推定は、Neural Radiance Fields(NeRF)の根底にある写真測量の原理に似ているが、NeRFでは3〜4つの視点が必要であるのに対し、ここでは単一の写真で幾何学的情報を定義する必要がある。

GANは顔のビデオ合成に役立つか

単一のソース画像から、動的な表情や姿勢の変化を達成することは、現在のGANの顔合成研究におけるある種の錬金術的な妄想である。主な理由は、GANは比較的高解像度で、高い忠実性のニューラル・フェイスを出力する唯一の方法だからである。オートエンコーダーのディープフェイク・フレームワークは、数多くの実世界の姿勢や表情で訓練することができるが、VRAMの制約により、入出力解像度が制限される。NeRFも同様に制限されており、現在、顔の表情の変更方法については確立された方法がない。また、編集可能性も限られている。

したがって、正確なCGI/GANの顔合成システムを実現する唯一の方法は、新しいイニシアチブが、潜在的な空間内で、多数の写真からなるアイデンティティ・エンティティを組み立てる方法を見つけることである。そうすれば、潜在的なコードが、無関係な姿勢パラメータを探すために潜在的な空間を移動する必要がなく、関連する(実世界の)画像を参照して変換を行うことができる。

しかし、仮にそのようなシステムが実現したとしても、またはStyleGANネットワークが単一のアイデンティティの顔のセットで訓練されたとしても、欠如している意味論的論理は、セマンティック・セグメンテーションやパラメトリック・3DMM顔などの付随的な技術によって提供される必要がある。そうすれば、少なくとも、より多くの材料が利用できることになる。

機械学習に関するライター、ヒューマンイメージシンセシスのドメインスペシャリスト。Metaphysic.aiの研究コンテンツ責任者を務めた。