Artificial Intelligence
GAN で生成された顔の形成外科

New 研究 韓国の企業は、敵対的生成ネットワーク (GAN) によって作成された合成顔データの品質を向上させることを約束しています。
このシステムは、GAN プロセスによって生成された画像アーティファクトを識別し、帽子で隠れていた髪の毛を置き換えたり、元の顔に完全に欠けていた部分を置き換えたり、手やサングラスなどの遮蔽物を除去したりするまで、それらを修復することができます。 、また、風景や建築の出力にも適しています。

各列には、欠陥のある元の GAN 出力、続いてアーティファクトに対する他の XNUMX つのアプローチ、最後に韓国の研究者が使用した手法が示されています。 出典:https://arxiv.org/pdf/2104.06118.pdf
GAN で生成された画像の品質を向上させるための最近のアプローチは、アーティファクトはプロセスの職業上の危険であるという立場をとっており、方法論を「自然の力」として扱い、それが生み出す可能性のあるよりサイケデリックまたは異常な結果を「自然の力」として扱っています。避けられない副産物。
代わりに、韓国の研究では、アーティファクトの原因となっているファセットを特定し、半監視下で GAN ネットワーク内での影響を軽減または排除することで、継続的な生成チェーンを妨げない方法で、影響を受けた画像を実際に「修正」することを提案しています。 GAN アーキテクチャのネイティブの自己修正メカニズムを超え、拡張するレベル。
このプロジェクトでは、GAN アーティファクトによって深刻な影響を受けた画像の、広く適用可能な手作業でラベル付けされたデータセットを作成する必要がありました。 当初、研究者らは Frechet 開始距離 (FID) メトリック 認定単位として、画像内の特徴を比較することによって GAN 出力の品質を評価します。 10,000 枚の画像のうち最も高い FID スコアを持つ 200,000 枚の画像が、個別の「アーティファクト ユニット」として使用されました。 その後、研究者らは生成された 2,000 枚の画像に手作業でラベルを付け、それぞれを「正常」または FID アーティファクトの影響を受けるものとして分類しました。 次に、データセットをアーティファクト、通常、およびランダムな現実世界のサンプルに分類するモデルが作成されました。
この後、勾配加重クラス アクティベーション マッピング (卒業生CAM) を使用してアーティファクトの影響を受けた領域のマスクを生成し、欠陥のラベル付けを効果的に自動化しました。
上の画像では、Grad-CAM マスクが、 LSUN-屋外教会 データセットと、 CelebA-HQ データセット.
20 枚の画像の実行から最も影響を受けた結果の上位 20,000 件を分析することにより、セグメンテーション マスクが生成され、その領域には、世代間の代表的な結果 (アーチファクトよりも正確または説得力がある可能性が高い) を、後続の世代におけるアーティファクト生成ユニット。
修正を人間が評価した結果、「修復された」画像の 53% が「正常」とラベル付けされましたが、元の画像の 97% は依然としてオリジナルに対して大幅な改善を示しています。
研究者らは、この方法は、多少のツールの変更を加えれば、NVIDIA のシステムにも適用できると主張しています。 スタイルGAN2.
合成データの利点
主に顔データに関しては、コンピュータ ビジョン用の実世界データセットが一般的に不足していることが、顔認識、感情認識、医学研究、人間のトポロジーのより粒度の高いセグメンテーションの研究など、重要な研究分野における多様な研究の障害となっています。顔、その他さまざまな分野。
Web に接続されたデータの自由な使用に対する現在の反発と、 アドホックコレクション 現実世界の顔画像を顔データベースに含めることは、州や国家の数が増えているため、研究のさらなる障害となっています。 ひび割れ on ウェブこすります、およびこれらの目的でのソーシャルメディア画像の流用。
過去 XNUMX 年間、限られた数の高度に厳選された 顔データセット 彼らは、彼らを中心に毎年さまざまな公的研究課題を抱え、この種の不確実性からの避難所を提供してきました。 しかし、このことが研究プロジェクトの方法論を特にこれらのデータセットに偏らせ、ソース資料の多様性の欠如という高いコストを犠牲にして、一貫した比較可能な前年比の結果を得る結果となったことは間違いありません。この状況は年々悪化しています。新しい研究はこれらの範囲に限定されています。
さらに、これらの「従来の」データセットの一部は、 批判の下で 人種的多様性の欠如のため、これは、これらのベンチマークの有力者が近い将来、適切な人材とはみなされなくなる可能性があることを示唆しています。
これは、現実的な高品質の顔データが必要であることを意味しますが、提供される「現実世界」の画像は認識をはるかに超えて変換されています。 たとえこの素顔データの「一括削除」の使用自体が、最終的には問題を引き起こす可能性があるとしても、 来歴 GAN で生成された顔に関しては、この種のデータ収集のための法的および技術的メカニズムが確立されるまでは、この問題が発生する可能性は低い障害です。 そして、この問題に関する法的枠組みの変更の可能性に関しては、それでも実際の人物の画像を使用するより危険性は低いです。