スタブ GAN の潜在空間をマッピングすることの予期せぬ利点 - Unite.AI
私達と接続

Artificial Intelligence

GAN の潜在空間をマッピングすることの予期せぬ利点

mm
更新中 on

中国とオーストラリアの研究者グループは、AI が生成した画像の品質と忠実度を向上させようとしているときに、図らずも画像の潜在空間をインタラクティブに制御する方法を発見しました。 生成的敵対ネットワーク (GAN) – 映画、ゲーム、ソーシャルメディア、その他エンターテインメントや研究の多くの分野に革命をもたらす画像合成技術の新しい波の背後にある謎の計算マトリックス。

プロジェクトの中心目標の副産物である彼らの発見により、ユーザーはまるでビデオを調べたり、本をめくったりするかのように、マウスを使って GAN の潜在空間を任意かつインタラクティブに探索できるようになります。

研究者らの添付ビデオからの抜粋 (記事の最後に埋め込まれているものを参照)。 ユーザーは「グラブ」カーソル (左上) を使用して変換を操作していることに注意してください。 出典: https://www.youtube.com/watch?v=k7sG4XY5rIc

研究者らの添付ビデオからの抜粋 (さらに多くの例については、記事の最後にある埋め込みを参照してください)。 ユーザーは「グラブ」カーソル (左上) を使用して変換を操作していることに注意してください。 出典: https://www.youtube.com/watch?v=k7sG4XY5rIc

この方法では、「ヒート マップ」を使用して、GAN が同じデータセットを何千回 (または数十万回) 実行するときに、画像のどの領域を改善する必要があるかを示します。 ヒート マップは、GAN にどこで問題が発生しているかを通知することで画質を向上させ、次回の試行がより良くなるようにすることを目的としています。 しかし、偶然にも、これはマウスを動かすことで閲覧できる潜在空間全体の「マップ」も提供します。

GradCAM によって空間的な視覚的注意が強調され、明るい色を適用することで注意が必要な領域が示されます。 これらのサンプルは、StyleGan2 のデフォルト実装を使用して研究者のプロジェクトで生成されます。 出典: https://arxiv.org/pdf/2112.00718.pdf

GradCAM によって空間的な視覚的注意が強調され、明るい色を適用することで注意が必要な領域が示されます。 出典:https://arxiv.org/pdf/2112.00718.pdf

  と呼ばれる 空間認識を高めることで GAN の平衡状態を改善し、 香港中文大学とオーストラリア国立大学の研究者によるものです。 論文に加えて、ビデオやその他の資料もプロジェクトページで見つけることができます。

この研究は初期段階にあり、現在は低解像度画像 (256×256) に限定されていますが、潜在空間の「ブラック ボックス」を打ち破ることを約束する概念実証であり、複数の研究プロジェクトが進められている時期に行われます。画像合成のより高度な制御を追求して、そのドアにいます。

このような画像は魅力的ですが (この記事の最後に埋め込まれたビデオでは、さらに多くの画像をより良い解像度で見ることができます)、おそらくより重要なことは、このプロジェクトが画質を向上させ、潜在的には画質を向上させる方法を見つけたことです。トレーニング中にどこで問題が発生しているかを具体的に GAN に伝えることで、より速く実行できます。

しかし、として 敵対者 GAN は単一の実体ではなく、権威と単調な仕事の間の不平等な対立であることが示されています。 この点で研究者たちがどのような改善を行ったのかを理解するために、この戦争がこれまでどのように特徴づけられてきたかを見てみましょう。

発電機の悲惨な窮状

もしあなたが買った素晴らしい新品の衣類が搾取された国の搾取工場で生産されたのではないか、または「もう一度やりなさい!」と何度も言う上司や顧客がいたのではないかという考えに悩まされたことがあるなら、 あなたの最近の試みの何が間違っていたかは決して言わずに、一刻の同情も惜しまないでください。 発生器 敵対的生成ネットワークの一部。

Generator は、GAN による 存在しない写実的な人々、高級な古いビデオゲーム 4K解像度まで、そしてXNUMX世紀前の映像 60fps でフルカラー HD 出力に変換など、素晴らしい AI の新機能が数多くあります。

非現実的な人物の写実的な顔を作成することから、古代の映像を復元し、アーカイブされたビデオ ゲームを復活させることまで、GAN はここ数年多忙を極めています。

非現実的な人物の写実的な顔を作成することから、古代の映像を復元し、アーカイブされたビデオ ゲームを復活させることまで、GAN はここ数年多忙を極めています。

ジェネレーターは、すべてのトレーニング データ (ランダムで存在しない人物の写真を作成できる GAN を作成するための顔の写真など) を、一度に XNUMX 枚ずつ、数日、場合によっては数週間にわたって繰り返し実行します。研究した本物の写真と同じくらい説得力のある画像を作成できるようになるまで。

では、ジェネレーターは、前回の試行よりも優れたイメージを作成しようとするたびに、進歩していることをどのようにして知るのでしょうか?

ジェネレーターには地獄のボスがいます。

差別者の容赦ない不透明さ

の仕事 弁別器 元のデータに忠実な画像の作成が十分にできなかったことをジェネレータに伝えることです。 再びそれを行う。 ディスクリミネーターはジェネレーターに何も伝えません ジェネレーターの最後の試みは間違っていました。 それは単にそれを非公開で調べ、生成された画像をソース画像と (これも非公開で) 比較し、その画像にスコアを割り当てるだけです。

スコアは 決して 十分です。 差別者は言い続けるだろう '再びそれを行う' 研究科学者がそれをオフにするまで(追加のトレーニングでは成果がこれ以上向上しないと判断した場合)。

このようにして、建設的な批判がなく、指標が謎であるスコアのみを武器に、ジェネレーターは画像のどの部分または側面が以前よりも高いスコアを引き起こしたのかをランダムに推測する必要があります。 これにより、より高いスコアを獲得するために何かを積極的に変更する前に、さらに多くの不満足なルートをたどることになります。

家庭教師およびメンターとしてのディスクリミネーター

新しい研究によって提供されるイノベーションは、基本的に、ディスクリミネーターがジェネレーターに示すものです。 画像のどの部分が不満でしたかこれにより、ジェネレーターは次の反復でそれらの領域に焦点を当て、より高く評価されたセクションを捨てないようにすることができます。 関係の性質は、戦闘的なものから協力的なものに変わりました。

Discriminator と Generator の間の洞察力の相違を修正するために、研究者たちは以下を使用しました。 GradCAM Discriminator の洞察を、Generator の次の試行のための視覚的なフィードバック支援に定式化できるメカニズムとして。

新しい「平衡」トレーニング方法は EqGAN と呼ばれます。 再現性を最大限に高めるために、研究者らは、デフォルト設定で既存の技術と手法を組み込みました。 スタイルガン2 建築。

EqGAN のアーキテクチャ。 ジェネレーターの空間エンコーディングは、ディスクリミネーターの空間認識に合わせて調整されており、空間ヒートマップのランダム サンプル (前の図を参照) が空間エンコーディング レイヤー (SEL) を介してジェネレーターにエンコードされます。 GradCAM は、Discriminator のアテンション マップをジェネレーターで利用できるようにするメカニズムです。

EqGAN のアーキテクチャ。 ジェネレーターの空間エンコーディングは、ディスクリミネーターの空間認識に合わせて調整されており、空間ヒートマップのランダム サンプル (前の図を参照) が空間エンコーディング レイヤー (SEL) を介してジェネレーターにエンコードされます。 GradCAM は、Discriminator のアテンション マップをジェネレーターで利用できるようにするメカニズムです。

GradCAM は、最新のイテレーションに対する Discriminator の批判を反映するヒートマップ (上の画像を参照) を生成し、これを Generator で利用できるようにします。

モデルがトレーニングされると、マッピングはこの協力プロセスの成果物として残りますが、研究者のプロジェクト ビデオ (以下を参照) で実証されているインタラクティブな方法で最終的な潜在コードを探索するために使用することもできます。

EqGAN

このプロジェクトでは、LSUN Cat データセットや Churches データセットなど、多くの人気のあるデータセットが使用されました。 FF本社 データセット。 以下のビデオでは、EqGAN を使用した顔と猫の操作の例も紹介されています。

StyleGAN256 の正式実装で EqGAN をトレーニングする前に、すべての画像のサイズが 256×2 に変更されました。 モデルは、Discriminator が 64 万を超える画像にさらされるまで、8 GPU 上で 25 のバッチ サイズでトレーニングされました。

Frechet 開始距離を使用して、選択したサンプル全体でシステムの結果をテストします (FID)、著者らは、不均衡指標(DI)と呼ばれる指標を確立しました。これは、ディスクリミネーターがジェネレーターに対して知識の優位性を維持する度合いであり、そのギャップを狭めることを目的としています。

トレーニングされた XNUMX つのデータセットにわたって、空間認識をジェネレーターにエンコードした後、新しいメトリクスは有用な低下を示し、FID と DI の両方で平衡状態が改善されました。

研究者らは次のように結論づけています。

「私たちは、この研究が GAN 平衡を再考するさらなる研究のきっかけとなり、GAN 平衡を操作することで画像合成の品質を向上させるためのより新しい方法を開発することを願っています。」 今後の研究では、この問題についてさらに理論的な調査も行う予定です。」

そして続けます:

「定性的な結果は、私たちの方法が特定の領域に[ジェネレーターを強制的に]集中させることに成功したことを示しています。 さまざまなデータセットでの実験により、私たちの方法が GAN トレーニングの不均衡を緩和し、全体的な画像合成品質を大幅に向上させることが検証されました。 空間認識を備えた結果のモデルにより、出力画像のインタラクティブな操作も可能になります。」

プロジェクトの詳細と、GAN の潜在空間の動的かつインタラクティブな探索のさらなる例については、以下のビデオをご覧ください。

空間認識を高めることで GAN の平衡状態を改善する

 

 

11 年 12 月 4 日午前 2021 時 XNUMX 分 – GradCAM の URL を修正し、周囲の参照を整理しました。