スタブ セマンティック セグメンテーションによる顔合成の調整 - Unite.AI
私達と接続

Artificial Intelligence

セマンティックセグメンテーションによる顔合成の調整

mm
更新中 on

人間の顔を発明する際の問題点 生成的敵対ネットワーク (GAN) とは、偽の画像を生成する現実世界のデータには、頭 (および/または顔) の毛髪、背景、メガネ、帽子、顔などのさまざまな種類の顔の装飾品など、望ましくない切り離せない付属品が付属していることです。そしてイヤリング。 そして、人格のこれらの周縁的な側面は、必然的に「融合した」アイデンティティに結び付けられることになります。

最も一般的な GAN アーキテクチャでは、これらの要素は独自の専用空間でアドレス指定できませんが、それらが埋め込まれている面 (またはその周囲) に非常に密接に関連付けられています。

通常、外観を指定したり影響を与えたりすることはできません。 サブセクション 目を細めたり、鼻を長くしたり、髪の色を変えたりするなど、警察のスケッチアーティストができるような方法で、GAN によって作成された顔の表現が可能です。

ただし、画像合成研究部門は次のように取り組んでいます。

GAN ベースの顔生成に関する新しい研究では、顔のさまざまなセクションが個別の領域に分割され、それぞれに独自の「ジェネレーター」があり、画像の他のジェネレーターと連携して動作します。 中央の行には、顔の追加領域を構築する調整された「特徴マップ」が表示されます。 出典: https://arxiv.org/pdf/2112.02236.pdf

GAN ベースの顔生成に関する新しい研究では、顔のさまざまなセクションが個別の領域に分割され、それぞれに独自の「ジェネレーター」があり、画像の他のジェネレーターと連携して動作します。 中央の行には、顔の追加領域を構築する調整された「特徴マップ」が表示されます。 出典:https://arxiv.org/pdf/2112.02236.pdf

新で 中国の多国籍テクノロジー大手バイトダンスの米国部門の研究者らは、セマンティックセグメンテーションを利用して顔の構成部分を個別のセクションに分割し、それぞれに独自のジェネレーターを割り当て、より高度な情報を実現できるようにした。  もつれを解く。 または、少なくとも、 知覚的 もつれを解く。

  というタイトルです SemanticStyleGAN: 制御可能な画像合成と編集のための合成生成事前確率の学習、豊富なメディアが付属しています。 プロジェクトページ この方法で顔と頭の要素を分離した場合に実現できる、さまざまなきめの細かい変換の複数の例を紹介します。

顔の質感、髪型と色、目の形と色、かつては解決できなかった GAN 生成特徴の他の多くの側面が現在では解きほぐされるようになりましたが、分離の質や手段のレベルはケースによって異なる可能性があります。 出典: https://semanticstylegan.github.io/

顔の質感、髪のスタイルと色、目の形と色、そしてかつては解決できなかった GAN 生成の特徴の他の多くの側面が、現在では解決可能になっています。 de facto   ただし、分離の質と手段のレベルはケースによって異なる可能性があります。 出典: https://semanticstylegan.github.io/

統治不能な潜在空間

顔を生成するように訓練された敵対的生成ネットワーク。 スタイルガン2 人気の Web サイト thispersondoesnotexist.com を動かすジェネレーター – 「機能」間の複雑な相互関係を形成します (顔の意味ではなく)それは、現実的な人間の顔自体を作成する方法を学ぶために、何千もの現実世界の顔を分析することから得られたものです。

これらの秘密プロセスは「潜在コード」であり、総称して 潜在空間。 それらは分析が難しく、そのため手段化も困難です。

先週、トレーニングプロセス自体中にこのオカルトに近い空間を「マッピング」しようとする、別の新しい画像合成プロジェクトが登場しました。 これらのマップを使用して対話的にナビゲートします、およびその他のさまざまなソリューションが、GAN 合成コンテンツをより詳細に制御するために提案されています。

何らかの方法で潜在空間に「到達」し、そこから顔の生成を制御しようとする GAN アーキテクチャの多様な提供により、ある程度の進歩が見られました。 そのような取り組みとしては、 InterFaceGAN, スタイルフロー, GANスペース, スタイルリグなど、常に生産性の高い新しい論文の流れの中で提供されています。

それらすべてに共通しているのは、もつれの解除の程度が限られていることです。 さまざまなファセット (「髪」や「表情」など) の独創的な GUI スライダーは、背景や他の要素を変換プロセスに引きずり込む傾向があり、それらのどれも (ここで議論されている論文を含む) 時間的問題を解決していません。神経毛。

潜在空間の分割と征服

いずれにせよ、ByteDance の研究は異なるアプローチを採用しています。生成された顔画像全体に対して動作する単一の GAN の謎を解明しようとする代わりに、SemanticStyleGAN はレイアウトベースのアプローチを定式化し、顔は個別の生成プロセスによって「合成」されます。

この(顔の)特徴の区別を実現するために、SemanticStyleGAN は以下を使用します。 フーリエ特性 セマンティック セグメンテーション マップ (下の画像の右下に示されている、顔の地形の粗雑な色の区別) を生成して、個別の専用の注意が必要な顔の領域を分離します。

新しいアプローチのアーキテクチャ。セマンティック セグメンテーションの介在層を顔に課し、フレームワークを画像のさまざまな面に対応する複数のジェネレーターのオーケストレーターに効果的に変えます。

新しいアプローチのアーキテクチャ。セマンティック セグメンテーションの介在層を顔に課し、フレームワークを画像のさまざまな面に対応する複数のジェネレーターのオーケストレーターに効果的に変えます。

セグメンテーション マップは、モデルの改善に伴う評価のために GAN の弁別器に体系的に提示される偽画像と、トレーニングに使用される (偽ではない) ソース画像に対して生成されます。

プロセスの開始時に、 多層パーセプトロン (MLP) は、最初にランダムに選択された潜在コードをマッピングします。次に、このコードを使用して、生成される顔画像のセクションをそれぞれ制御する複数のジェネレーターの重みを制御します。

各ジェネレータは、上流に供給されるフーリエ特徴から特徴マップとシミュレートされた深度マップを作成します。 この出力はセグメンテーション マスクの基礎となります。

下流のレンダー ネットワークは以前の特徴マップによってのみ条件付けされ、高解像度のセグメンテーション マスクを生成する方法を認識し、画像の最終的な生成を容易にします。

最後に、分岐ディスクリミネーターは、R​​GB 画像 (私たちにとっては最終結果) とそれらを分離できるセグメンテーション マスクの両方の連結された分布を監視します。

SemanticStyleGAN を使用すると、各顔の特徴がオーケストレーション フレームワーク内で個別にトレーニングされているため、顔の特徴の変更を「ダイヤルイン」するときに望ましくない視覚的な混乱が発生しません。

背景の置換

プロジェクトの目的は、生成された環境をより詳細に制御できるようにすることであるため、レンダリング/合成プロセスには、実際の画像でトレーニングされた背景ジェネレーターが含まれています。

SemanticStyleGAN で背景が顔の操作に引き込まれない最大の理由の XNUMX つは、背景がより離れたレイヤーに存在し、重ねられた顔によって部分的に隠されている場合でも完全であるためです。

SemanticStyleGAN で背景が顔の操作に引き込まれない最大の理由の XNUMX つは、背景がより離れたレイヤーに存在し、重ねられた顔によって部分的に隠されている場合でも完全であるためです。

セグメンテーション マップでは背景のない顔が生成されるため、これらの「ドロップイン」背景はコンテキストを提供するだけでなく、照明の点で重ね合わされた顔に適切になるように構成されます。

トレーニングとデータ

「現実的な」モデルは、最初の 28,000 枚の画像でトレーニングされました。 CelebAMask-HQ、トレーニング スペース (つまり、反復ごとの最大バッチ サイズを決定する利用可能な VRAM) に合わせて 256 × 256 ピクセルにサイズ変更されます。

開発プロセスおよびさまざまなアブレーション テスト中に、多数のモデルがトレーニングされ、さまざまなツール、データセット、アーキテクチャが実験されました。 プロジェクト最大の生産モデルは 512×512 の解像度を備え、2.5 つの NVIDIA Tesla V100 GPU で 0.137 日間かけてトレーニングされました。 トレーニング後、並列化を行わない場合、単一の画像の生成にはローブ GPU で XNUMX 秒かかります。

プロジェクトのページ (上記のリンクを参照) の多くのビデオで実証されている、より漫画/アニメ スタイルの実験は、次のようなさまざまな人気のある顔ベースのデータセットから派生しています。 トゥーニファイ, メットフェイス, ビットモジ.

一時しのぎの解決策?

著者らは、SemanticStyleGAN を他のドメイン (風景、自動車、教会、その他すべての「デフォルト」テスト ドメインなど) に適用できない理由はないと主張し、新しいアーキテクチャがキャリアの初期に日常的に適用されるものとします。

ただし、論文では、ドメイン (たとえば、 '車'、 '街灯」, 「歩行者」, '建物', '車' など)、この段階的なアプローチは、さらなる最適化作業を行わないと、さまざまな点で実行できなくなる可能性があります。 たとえば、CityScapes 都市データセットには、 30カテゴリーにわたる8クラス.

潜在空間をより直接的に征服することへの現在の関心が、錬金術と同じくらい運命にあるのかどうかを言うのは難しい。 あるいは、潜在コードが最終的には解読可能で制御可能になるかどうか、その開発により、このより「外部的に複雑な」タイプのアプローチが不要になる可能性があります。