人工知能

GANの潜在空間をマッピングすることの意図しない利点

Published December 3, 2021

Updated April 28, 2026

Martin Anderson

AI生成画像の品質と忠実度を向上させることを目指して、中国とオーストラリアの研究者グループは、Generative Adversarial Network（GAN）の潜在空間、つまり新しい画像合成技術の背後にある謎の計算行列を対話的に制御する方法を偶然に発見しました。この技術は、映画、ゲーム、ソーシャルメディアなど、エンターテインメントや研究の分野で革命を起こすことになります。

彼らの発見は、プロジェクトの中心的な目標の副産物であり、ユーザーがマウスでGANの潜在空間を任意に探索できるようにします。たとえば、ビデオをスクラブしたり、本をめくったりするように。

研究者の付属ビデオ（記事の最後に埋め込まれています）の抜粋。ユーザーは「グラブ」カーソル（上左）で変換を操作しています。 ソース: https://www.youtube.com/watch?v=k7sG4XY5rIc

この方法は、「ヒートマップ」を使用して、GANが同じデータセットを何千回も（または何十万回も）実行する際に、どの画像領域を改善する必要があるかを示します。ヒートマップは、GANがどこで間違っているかを教えることで、画像の品質を向上させることを目的としています。ただし、偶然にも、これは潜在空間の「マップ」を提供し、ユーザーがマウスでブラウズできるようになります。

GradCAMを介した空間的視覚的注意を強調し、明るい色を重ねて注意が必要な領域を示します。 ソース: https://arxiv.org/pdf/2112.00718.pdf

論文は、《GANの均衡を向上させるための空間的認識の向上》と呼ばれています。中国の香港大学とオーストラリア国立大学の研究者グループによるものです。論文のほか、ビデオやその他の資料はプロジェクトページで見つけることができます。

この研究はまだ初期段階であり、現在は低解像度の画像（256×256）に限定されていますが、GANの潜在空間の「ブラックボックス」を解き放つことを約束する概念実証であり、画像合成の制御を高めるために多くの研究プロジェクトがこの分野に取り組んでいる時期に発表されています。

これらの画像は魅力的です（記事の最後に埋め込まれたビデオでより高解像度の画像を見ることができます）。しかし、もっと重要なのは、このプロジェクトがGANに具体的にどこで間違っているかを教えることで、画像の品質を向上させ、潜在的により迅速に改善できる方法を見つけたことです。

しかし、Adversarialという言葉が示すように、GANは単一のエンティティではなく、むしろ権威と苦労の間の不平等な闘争です。この研究で何が改善されたかを理解するには、現在までにこの闘争がどのように描写されてきたかを見てみましょう。

ジェネレーターの哀れな状況

あなたが新しい服を買ったときに、どれほどの労働者が搾取された国で生産されたのか、または、どれほどのボスやクライアントがあなたに「もう一度やってみなさい」と言ったことがあって、どこが悪かったのか教えてくれなかったことがあるでしょうか。そうであれば、ジェネレーター部分のGenerative Adversarial Networkに対して少しの哀れみを捧げてください。

ジェネレーターは、GANがこれまでの5年ほどで、実在しない写真のような人々を生成したり、古いビデオゲームを4K解像度にアップスケールしたり、100年以上前の映像をフルカラーのHD出力に変換するなど、多くの驚異的なAIの新技術を実現してきました。

実在しない人々の写真のような顔を生成したり、古い映像を復元したり、過去のビデオゲームを蘇らせたりするなど、GANは最近忙しく働いてきました。

ジェネレーターは、すべてのトレーニングデータを何度も繰り返し実行します（たとえば、顔の写真を生成するために）。1枚ずつ、数日間、または数週間続けて、ジェネレーターが本物の写真と同じくらい説得力のある画像を生成できるまで。

ジェネレーターは、各試行の際にどのようにして進歩しているかを知ることができますか？

ジェネレーターには地獄のボスがいます。

ディスクリミネーターの冷酷な不透明性

ディスクリミネーターの役割は、ジェネレーターが本物のデータに忠実な画像を生成できなかったことを伝え、「もう一度やってみなさい」と伝えることです。ディスクリミネーターは、ジェネレーターに「どこが悪かったのか」を教えません。ただ、ジェネレーターが生成した画像を秘密裏に調べ、スコアを割り当てます。

スコアは決して十分ではありません。ディスクリミネーターは、研究者がトレーニングを停止する（トレーニングの追加が出力の品質を向上させないと判断したとき）まで、「もう一度やってみなさい」と繰り返します。

このように、建設的な批判が欠け、スコアの指標が謎であるため、ジェネレーターは、画像のどの部分や側面が前の試行よりも高いスコアになったのかをランダムに推測する必要があります。これにより、ジェネレーターはさらに多くの不十分なルートを辿ることになり、最終的にスコアを向上させるために何かを変更することになります。

ディスクリミネーターとしての指導者とメンター

新しい研究による革新は、ディスクリミネーターがジェネレーターに画像のどの部分が不十分だったかを示すことです。そうすれば、ジェネレーターは次の試行でそれらの領域に焦点を当てることができます。関係の性質は、対立的から協力的なものに変わりました。

ディスクリミネーターとジェネレーター之间の認識の不均衡を是正するために、研究者は、GradCAMをジェネレーターへの視覚的フィードバックメカニズムとして使用しました。

新しい「均衡」トレーニング方法は、EqGANと呼ばれています。再現性を最大化するために、研究者は既存の技術と方法を既定の設定で組み込みました。例えば、StyleGan2アーキテクチャの使用が含まれます。

EqGANのアーキテクチャ。ジェネレーターの空間エンコードは、ディスクリミネーターの空間認識と一致しています。空間ヒートマップ（先ほどの画像を参照）のランダムサンプルは、空間エンコード層（SEL）を介してジェネレーターにエンコードされます。GradCAMは、ディスクリミネーターの注意マップをジェネレーターに提供するメカニズムです。

GradCAMは、ディスクリミネーターの批判を反映したヒートマップ（上の画像を参照）を生成し、これをジェネレーターに提供します。

モデルがトレーニングされた後、潜在的なコードのマッピングはこの協力的なプロセスの成果物として残りますが、研究者のプロジェクトビデオ（以下参照）で示されているように、対話的に探索するために使用することもできます。

EqGAN

このプロジェクトでは、LSUN CatとChurchesのデータセット、およびFFHQデータセットなどの人気のデータセットを使用しました。以下のビデオも、EqGANを使用した顔や猫の操作の例を示しています。

すべての画像は、EqGANをStyleGAN2の公式実装でトレーニングする前に256×256にリサイズされました。モデルは、バッチサイズ64で8つのGPUを使用してトレーニングされ、ディスクリミネーターが2500万枚以上の画像を見たときに停止しました。

Frechet Inception Distance（FID）を使用して、選択したサンプルに対するシステムの結果をテストし、研究者は、ディスクリミネーターがジェネレーターに対して保持している知識の優位性の度合いを示すメトリック「Disequilibrium Indicator（DI）」を導入しました。

3つのデータセットでトレーニングされた結果、空間的認識をジェネレーターにエンコードすることで、有用な低下が見られ、FIDとDIの両方で改善された均衡が実証されました。