人工知能

カスタムジェネレーティブアドバーサリアルネットワークの作成：スケッチを使用して

Published August 6, 2021

Updated April 28, 2026

Martin Anderson

カーネギーメロン大学とMITの研究者は、新しい方法論を開発しました。この方法論により、ユーザーは、単に示唆的なドードルをスケッチするだけで、カスタムジェネレーティブアドバーサリアルネットワーク（GAN）画像生成システムを作成できます。

このタイプのシステムにより、エンドユーザーは、特定の動物、建物のタイプ、さらには個々の人物などの非常に具体的な画像を生成できる画像生成システムを作成できます。現在、ほとんどのGAN生成システムは、広くランダムな出力しか生成できず、動物の品種、人の髪の型、建築様式、または実際の顔の特徴などの特定の特性を指定する機能が限られています。

このアプローチは、論文 Sketch Your Own GANに概説されており、新しいスケッチインターフェイスを使用して、画像データベース内の機能とクラスを効果的に検索することができます。画像データベースには、ユーザーの意図に関係のない多くのサブタイプを含む、オブジェクトの数千のタイプが含まれる場合があります。次に、GANはこのフィルタリングされた画像サブセットでトレーニングされます。

ユーザーがGANを調整したい特定のオブジェクトの種類をスケッチすることで、フレームワークの生成能力はそのクラスに特化されます。たとえば、ユーザーが特定の種類の猫（This Cat Does Not Existで得られるただの古い猫ではなく）を生成するフレームワークを作成したい場合、ユーザーの入力スケッチは、関連しない猫のクラスを除外するためのフィルタとして機能します。

Source: https://peterwang512.github.io/GANSketching/

この研究は、カーネギーメロン大学のSheng Yu-Wangと、MITのComputer Science & Artificial Intelligence LaboratoryのColleague Jun-Yan Zhu、David Bauによって行われました。

この方法は「GANスケッチング」と呼ばれ、入力スケッチを使用して、特定のドメインまたはサブドメインを直接ターゲットにするために、テンプレートGANモデルの重みを変更します。

さまざまな正則化方法が、モデルの出力が多様性を保ちながら、高品質の画像を維持するために検討されました。研究者は、潜在的な空間を補間し、画像編集手順を実行できるサンプルアプリケーションを作成しました。

This [$class] Does Not Exist

GANベースの画像生成システムは、過去数年間で流行となり、プロジェクトの増加により、存在しないもの、人、賃貸アパート、スナック、足、馬、政治家、昆虫など、さまざまなものの画像を生成することができます。

GANベースの画像合成システムは、ターゲットドメイン（例：顔や馬）の画像を含む広範なデータセットをコンパイルまたはキュレーションすることによって作成され、画像の特徴を一般化するモデルをトレーニングし、学習された特徴に基づいてランダムな例を出力することができるジェネレーターモジュールを実装します。

DeepFacePencilのスケッチからの出力。多くの類似のスケッチから画像へのプロジェクトがあります。 Source: https://arxiv.org/pdf/2008.13343.pdf

トレーニングプロセスで最初に具体化されるのは、高次元の特徴です。これらは、画家がキャンバスに最初に塗る幅広い色のスケッチに相当します。これらの高次元の特徴は、最終的に、猫の目や鋭いひげなどのより詳細な特徴と相関します。

I Know What You Mean…

これらの初期の形状と、トレーニングプロセスの後半で得られる詳細な解釈の関係をマッピングすることで、ユーザーは、粗いスケッチから複雑で写実的な画像を作成できます。

NVIDIAは、GANベースの風景生成に関する長期的なGauGAN研究のデスクトップバージョンをリリースしました。これは、この原理を簡単に示しています：

NVIDIAのGauGANとNVIDIA Canvasアプリケーションを介して、約束的なだぶが豊かな風景画像に変換されます。 Source: https://rossdawson.com/futurist/implications-of-ai/future-of-ai-image-synthesis/

同様に、DeepFacePencilを含む複数のシステムは、さまざまなドメインのスケッチによって誘発される写実的な画像ジェネレーターを作成するために同じ原理を使用しました。

DeepFacePencilのアーキテクチャ

スケッチから画像への簡素化

新しい論文のGANスケッチングアプローチは、ユーザーの入力を使用して、どの画像サブセットがトレーニングデータを構成するかを定義することで、通常GAN画像フレームワークの開発に関連する大量のデータ収集とキュレーションの負担を軽減します。

システムは、フレームワークを調整するためにわずか数個の入力スケッチのみを必要と設計されています。システムは、2019年にカーネギーメロン大学、Adobe、Uber ATG、Argo AIの研究者によって共同で行われたPhotoSketchの機能を逆転させています。PhotoSketchは、画像から芸術的なスケッチを作成するように設計されており、新しい作業に組み込まれています。

生成プロセスの部分では、新しい方法は、StyleGAN2の重みのみを変更します。使用される画像データは、利用可能なデータのサブセットであるため、ただマッピングネットワークを変更するだけで、望ましい結果が得られます。

この方法は、馬、教会、猫などのいくつかの人気のあるサブドメインで評価されました。

プリンストン大学の2016年のLSUNデータセットが、ターゲットサブドメインを導出するための基本材料として使用されました。現実世界のユーザー入力スケッチの特性にロバストなスケッチマッピングシステムをトレーニングするために、システムはマイクロソフトによって2021年から2016年の間に開発されたQuickDrawデータセットの画像でトレーニングされました。

PhotoSketchとQuickDrawのスケッチマッピングはかなり異なるものですが、研究者は、自分のフレームワークが比較的単純なポーズでこれらを簡単にまたいで成功することを発見しました。もっとも複雑なポーズ（例：横になっている猫）では、より大きな課題となり、非常に抽象的なユーザー入力（例：非常に粗い描画）も、結果の品質を損ないます。

潜在的な空間と自然な画像編集

研究者は、潜在的な空間編集と画像編集の2つのアプリケーションを開発しました。潜在的な空間編集では、トレーニング時に提供される解釈可能なユーザーコントロールが提供され、ターゲットドメインに忠実で、変化にわたって一貫性があり、魅力的です。

カスタムモデルのGANスケッチングによる滑らかな潜在的な空間補間

潜在的な空間編集コンポーネントは、2020年のGANSpaceプロジェクトによって推進されました。これは、Aalto大学、Adobe、NVIDIAの共同プロジェクトです。

単一の画像もカスタマイズされたモデルにフィードできます。これにより、自然な画像編集が可能になります。このアプリケーションでは、単一の画像が投影され、カスタムGANに直接編集が可能になり、さらに高いレベルの潜在的な空間編集が可能になります。

ここでは、実際の画像がGAN（猫モデル）にフィードされており、入力スケッチに合わせて編集されます。これにより、スケッチを介した画像編集が可能になります。

システムは、リアルタイムで動作するように設計されていません。少なくともトレーニングと調整の観点からです。現在、GANスケッチングには30,000のトレーニングイテレーションが必要です。システムは、元のモデルに対する元のトレーニングデータへのアクセスも必要です。

データセットがオープンソースで、ローカルでのコピーを許可するライセンスがある場合、ソースデータをローカルにインストールされたパッケージに含めることでこれを実現できますが、これには大量のディスクスペースを使用することになります。または、クラウドベースのアプローチを使用して、データにアクセスまたはリモートで処理することで、これを実現できますが、これにはネットワークオーバーヘッドと（クラウド上で実際の処理が行われる場合）計算コストの考慮が必要です。