Artificial Intelligence

「従来の」CGI の顔レンダラーとしての GAN

更新中 on 2022 年 12 月 9 日

意見 Generative Adversarial Networks (GAN) が驚異的な再現能力を初めて実証したとき現実的な 3D 顔の出現は、人間の顔を特徴とする時間的に一貫したビデオを作成するという GAN の未開発の可能性に対するゴールドラッシュを引き起こしました。

GAN の潜在空間のどこかに、 しなければなりません 隠された秩序と合理性 – 潜在コードに埋め込まれた初期の意味論理のスキーマであり、GAN が一貫した複数のビューと複数の解釈 (表現の変更など) を生成できるようになります。同じ顔 – そしてその後、時間的に説得力のあるディープフェイクビデオ手法を提供します。オートエンコーダ水から。

GPU の制約により DeepFaceLab と FaceSwap の動作が強制されるスラム街のような低解像度環境に比べれば、高解像度の出力は取るに足らないものになりますが、(オートエンコーダーワークフロー内の) 顔の「スワップゾーン」が「作成ゾーン」になります。 GAN の情報は、少数の入力画像、または単一の画像によってもたらされます。

「スワップ」面と「ホスト」面の間に不一致はなくなります。全体髪の毛、顎のライン、顔の線の最外側などの画像が最初から生成されるため、「従来の」オートエンコーダーディープフェイクではしばしば課題となることが判明しています。

GAN フェイシャルビデオ冬

実際のところ、それはそれほど簡単ではありませんでした。最終的には、もつれを解くが中心的な問題であることが判明し、依然として主要な課題となっています。オートエンコーダーシステムが非常に苦労して行う方法である、これらの変更が実行されたときに何が起こるかをニューラルネットワークに教える何千もの参照画像のコーパスを集めずに、明確な顔のアイデンティティを維持し、ポーズや表情を変更するにはどうすればよいでしょうか?

むしろ、その後の GAN の顔の実行と合成研究における考え方は、入力されたアイデンティティをおそらく目的論的、一般的、 テンプレート化 アイデンティティ固有ではない変換。この例としては、GAN が認識している人物の画像のいずれにも存在しない表情を GAN の顔に適用することが挙げられます。

2022 年の論文「Tensor-based Emotion Editing in the StyleGAN Latent Space」から、テンプレート化された式が FFHQ データセットの入力面に適用されます。 出典：https://arxiv.org/pdf/2205.06102.pdf

「画一的な対応」では、個人特有の表情の多様性をカバーできないことは明らかです。ジャック・ニコルソンやウィレム・デフォーのようなユニークな笑顔が、そのような「平均的な表現」の潜在コードの影響下で忠実な解釈を受けることができるだろうか、と私たちは疑問に思っています。

この魅力的なラテン系の見知らぬ人は誰ですか? GAN メソッドはより現実的で高解像度の顔を生成しますが、DeepFaceLab の場合のように、変換は俳優の現実世界の複数の画像によって情報が与えられるわけではありません。DeepFaceLab は、数千のデータベースで大規模かつ多くの場合ある程度の費用をかけてトレーニングします。そういったイメージ。ここ (背景) では、DeepFaceLab モデルが、人気があり物議を醸しているソフトウェアのストリーミング実装である DeepFaceLive にインポートされています。例は https://www.youtube.com/watch?v=9tr35y-yQRY (2022) および https://arxiv.org/pdf/2205.06102.pdf からのものです。

この魅力的なラテン系の見知らぬ人は誰ですか？ GAN メソッドはより「現実的」で高解像度の顔を生成しますが、数千枚のそのような画像のデータベースで広範にトレーニングする DeepFaceLab の場合のように、変換は俳優の複数の実世界の画像によって情報が与えられるわけではありません。その結果、類似性が損なわれます。ここ（背景）では、DeepFaceLab モデルがインポートされています。ディープフェイスライブ、人気があり物議を醸しているソフトウェアのストリーミング実装です。例は https://www.youtube.com/watch?v=9tr35y-yQRY (2022) および https://arxiv.org/pdf/2205.06102.pdf からのものです。

過去数年間に数多くの GAN 表情エディタが提案されてきましたが、そのほとんどが未知のアイデンティティに対処するここで、これらは馴染みのある顔ではないため、カジュアルな読者には変換の忠実度を知ることは不可能です。

あいまいなアイデンティティは、2020 年の製品 Cascade-EF-GAN で変革されました。 出典：https://arxiv.org/pdf/2003.05905.pdf

おそらく、過去 XNUMX 年間で最も関心 (および引用) を集めた GAN フェイスエディターは次のとおりです。 InterFaceGAN、ポーズ (カメラ/顔の角度)、表情、年齢、人種、性別、その他の本質的な性質に関連する潜在コードで潜在空間トラバースを実行できます。

InterFaceGAN デモ (CVPR 2020)

Watch this video on YouTube

InterFaceGAN および同様のフレームワークの 1980 年代スタイルの「モーフィング」機能は、主に、画像が適切な潜在コード (「年齢」など) を介して再投影される際の、変換へのパスを示す方法です。時間的な連続性を持った映像を制作するという点では、これまでのこうした計画は「印象に残る災害」に該当する。

それに加えれば、時間的に一貫した髪を作ることの難しさそして、潜在コードの探索/操作の手法には、使用するための固有の時間ガイドラインがないという事実 (そして、静止画像に対応して生成するように設計され、ネイティブの規定がないフレームワークにそのようなガイドラインをどのように注入するかを知るのは困難です)ビデオ出力の場合)、GAN は顔ビデオ合成には All You Need™ ではないと結論付けるのは論理的かもしれません。

したがって、その後の努力により、段階的な改善一方、2021 年後半の制御メカニズムとしてセマンティックセグメンテーションを使用するなど、コンピュータビジョンの他の規約を「ガイダンス層」として追加する企業もいます。紙 SemanticStyleGAN: 制御可能な画像合成と編集のための合成生成事前確率の学習.

SemanticStyleGAN における潜在空間手段の方法としてのセマンティックセグメンテーション。 出典: https://semanticstylegan.github.io/

パラメトリックガイダンス

GAN 顔合成研究コミュニティは、GAN の潜在空間にある印象的だが手に負えない潜在コードを導き、秩序をもたらす方法として、「伝統的な」パラメトリック CGI 顔を使用する方向にますます舵を切っています。

パラメトリック顔プリミティブはコンピュータビジョン研究の定番となっていますが、 XNUMX年以上最近、スキン付き複数人物線形モデル (SMPL) CGI プリミティブ。マックスプランク研究所と ILM によって開拓されたアプローチであり、その後、Sparse Trained Articulated Human Body Regressor で改良されました (STAR）フレームワーク。

SMPL (この場合は SMPL-X と呼ばれるバリアント) は、画像に含まれる人体全体の推定ポーズ (必要に応じて表情も含む) に一致する CGI パラメトリックメッシュを適用し、新しい操作を実行できるようにします。体積または知覚のガイドラインとしてパラメトリックメッシュを使用した画像。出典: https://arxiv.org/pdf/1904.05866.pdf

SMPL (この場合は、と呼ばれるバリアント) SMPL-X) 画像に含まれる人体全体の推定ポーズ (必要に応じて表情を含む) に一致する CGI パラメトリックメッシュを適用することができ、そのパラメトリックメッシュを体積または知覚として使用して画像に対して新しい操作を実行できるようになります。ガイドライン。出典：https://arxiv.org/pdf/1904.05866.pdf

このラインで最も高く評価された開発は、ディズニーの 2019 年です。 スタイリッシュなレンダリング この取り組みは、改良された「ディープフェイクスタイル」のアニメーション出力を作成するために、従来のテクスチャマップの使用と GAN で生成された画像を融合させました。

GAN で生成されたディープフェイクに対するディズニーのハイブリッドアプローチでは、古いものと新しいものが融合しています。 出典: https://www.youtube.com/watch?v=TwpLqTmvqVk

Disney のアプローチでは、伝統的にレンダリングされた CGI ファセットを StyleGAN2 ネットワークに組み込んで、肌のテクスチャなど、ビデオ生成において時間的一貫性が問題となる「問題領域」に人間の顔の被写体を「修復」します。

スタイルを使用したレンダリングのワークフロー。

このプロセスをガイドするパラメトリック CGI 頭部はユーザーに合わせて微調整および変更できるため、GAN で生成された顔には、頭のポーズや表情の変更などの変更が反映されます。

CGI の機能と GAN の顔の自然なリアリズムを融合するように設計されていますが、最終的には、結果は両方の最悪の部分を示しており、髪のテクスチャや基本的な特徴の位置さえも一貫性を維持できていません。

新しい種類の不気味の谷がスタイルを使用したレンダリングから現れますが、その原理にはまだある程度の可能性が秘められています。

2020 紙 StyleRig: ポートレート画像の 3D 制御のための StyleGAN のリギング は、ますます一般的になっているアプローチを採用しており、 XNUMX次元の変形可能な顔モデル (3DMM) StyleGAN 環境で特性を変更するためのプロキシとして、この場合は RigNet と呼ばれる新しいリギングネットワークを通じて使用します。

3DMM は、StyleRig における潜在空間解釈のプロキシとしての役割を果たします。 出典：https://arxiv.org/pdf/2004.00121.pdf

ただし、これらの取り組みの常として、これまでの結果は最小限のポーズ操作と、「情報のない」表現/影響の変更に限定されているようです。

StyleRig は制御レベルが向上していますが、時間的に一貫したヘアは未解決の課題のままです。ソース：

StyleRig は制御レベルが向上していますが、時間的に一貫したヘアは未解決の課題のままです。 出典: https://www.youtube.com/watch?v=eaW_P85wQ9k

同様の結果は、Mitsubishi Research からも見つかります。 モストガン、2021 紙非線形 3DMM をもつれ解除アーキテクチャとして使用しますが、闘争ダイナミックで一貫した動きを実現します。

手段性ともつれの解消を試みる最新の研究は、 メガピクセルでのワンショットの顔の再現、これも StyleGAN の使いやすいインターフェイスとして 3DMM パラメトリックヘッドを使用します。

ワンショット顔再現の MegaFR ワークフローでは、ネットワークは、反転された現実世界の画像とレンダリングされた 3DMM モデルから取得したパラメータを組み合わせて顔合成を実行します。出典：https://arxiv.org/pdf/2205.13368.pdf

OSFR は、Photoshop/After Effects スタイルの線形編集ワークフローの開発を目指す、GAN フェイスエディタの成長クラスに属しており、ユーザーは、関連する潜在コードの潜在空間を探し回るのではなく、変換を適用できる希望の画像を入力できます。アイデンティティ。

繰り返しますが、パラメトリック式は、式を注入する包括的かつ非個人化された方法を表しており、必ずしもポジティブな意味ではなく、それ自体が「奇妙」に見える操作につながります。

OSFR に挿入された式。

以前の研究と同様に、OSFR は XNUMX つの画像からほぼオリジナルのポーズを推測することができ、中心からずれたポーズの画像を顔写真に変換する「正面化」も実行できます。

新しい論文で詳述されている、OSFR 実装の XNUMX つからの元の顔写真画像 (上) と推定された顔写真画像。

実際には、この種の推論は、写真測量の基礎となるいくつかの原理に似ています。ニューラルラディアンスフィールドただし、ここでのジオメトリは、NeRF が欠落している間隙ポーズを解釈して、人間をフィーチャーした探索可能なニューラル 3D シーンを作成できるようにする 4 ～ 3 つの視点ではなく、XNUMX 枚の写真によって定義する必要がある点を除きます。

(ただし、NeRF も All You Need™ ではありません。まったく異なる一連の障害物顔のビデオ合成を生成するという点で GAN に）

顔のビデオ合成に GAN の役割はありますか?

単一のソース画像からダイナミックな表現や常識外のポーズを実現することは、現時点で GAN 顔合成研究において錬金術のような執着のようです。その主な理由は、GAN が現時点で非常に高解像度で比較的高い解像度を出力できる唯一の方法であるためです。忠実度ニューラルフェイス: オートエンコーダディープフェイクフレームワークは現実世界の多数のポーズや表情でトレーニングできますが、VRAM で制限された入出力解像度で動作する必要があり、「ホスト」が必要です。一方、NeRF も同様に制約があり、他の XNUMX つのアプローチとは異なり、現時点では顔の表情を変更するための確立された方法論がなく、一般に編集機能が制限されています。

正確な CGI/GAN 顔合成システムを前進させる唯一の方法は、潜在空間内に複数の写真のアイデンティティエンティティを組み立てる何らかの方法を見つける新しい取り組みであると思われます。そこでは、個人のアイデンティティの潜在コードが必要ありません。無関係なポーズパラメータを利用するために潜在空間をずっと移動しますが、変換の参照として独自の関連する (現実世界の) 画像を参照することもできます。

そのような場合、または StyleGAN ネットワーク全体が単一の ID フェイスセット (オートエンコーダーが使用するトレーニングセットと同様) でトレーニングされた場合でも、不足しているセマンティックロジックは依然として次のような付属テクノロジーによって提供される必要がある可能性があります。セマンティックセグメンテーションまたはパラメトリック 3DMM フェイス。このようなシナリオでは、少なくともより多くのマテリアルを扱うことができます。