Artificial Intelligence

画像合成システムが真の「オリジナル」素材を生成しているかどうかを知る方法

更新中 on 2022 年 12 月 9 日

「1990 年代のテクノロジーを使用して水中で新しい AI 研究に取り組むテディベア」 – 出典: https://www.creativeboom.com/features/meet-dall-e/

韓国の新しい研究では、画像合成システムが真に斬新な画像を生成しているのか、それともトレーニングデータの「マイナーな」バリアントを生成しているのかを判断する方法が提案されており、そのようなアーキテクチャの目的（斬新でオリジナルの画像の生成など）を達成できない可能性がある。。

論文では、非常に多くの場合、後者が真実であると示唆しています。これは、このようなシステムがトレーニングの過程で生成能力を向上させるために使用する既存のメトリクスは、データセット内の (偽ではない) ソース画像に比較的近い画像を優先する必要があるためです。。

結局のところ、生成された画像がソースデータに「視覚的に近い」場合、たとえインスピレーションがなければ「忠実」であるため、必然的に「オリジナリティ」よりも「信頼性」のスコアが高くなる可能性があります。

あまりにも初期段階にあり、法的な影響がまだ知られていない分野では、これは可能性があります。重要な法的問題になることが判明商業化された合成画像コンテンツが、現在著作権で保護されている（多くの場合）著作権素材と十分に異なっていないことが判明した場合。灌流を許可する一般的な Web スクレイピングデータセットの形式の研究部門 (この種の将来の侵害申し立ての可能性は、かなり最近になって有名になった Microsoft の GitHub Co-Pilot AI に関して)。

OpenAI などのシステムからの出力の一貫性が増し、意味的に堅牢になるという観点から見ると、 DALL-E2、Googleの画像、そして中国のコグビューリリース (および低スペックのリリース) DALL-Eミニ）、非常に少数です事後生成された画像の独創性を確実にテストする方法。

実際、新しい DALL-E 2 画像の中で最も人気のある画像を検索すると、検索エンジンによっては、同じ画像のインスタンスがさらに表示されるだけであることがよくあります。

完全な 9 イメージの DALL-E 2 出力グループをアップロードしても、DALL-E 2 出力グループが増えるだけです。最初の画像 (8 年 2022 月 XNUMX 日のこの Twitter 投稿から、「Weird Dall-E Generations」アカウントから) を分離してアップロードすると、Google は写真内のバスケットボールに注目し、画像ベースの検索が意味論的な袋小路に落ちてしまいます。同じ画像ベースの検索について、Yandex は少なくとも実際のピクセルベースの分解と特徴マッチングを行っているようです。

グリッド構造が最も強力な機能であるため、完全な 9 イメージの DALL-E 2 出力グループをアップロードしても、DALL-E 2 出力グループが増えるだけです。最初の画像を分離してアップロードします（からこのTwitter投稿 8 年 2022 月 XNUMX 日、「Weird Dall-E Generations」アカウントより）により、Google は写真の中のバスケットボールに注目し、画像ベースの検索を意味論的な袋小路に陥らせます。同じ画像ベースの検索について、Yandex は少なくとも実際のピクセルベースの分解と特徴マッチングを行っているようです。

ただし、Yandex は Google 検索よりも実際の検索を使用する可能性が高くなります。 機能を使用 (つまり、画像の派生/計算機能を使用、必ずしも人々の顔の特徴ではありません）そして ビジュアル 類似した画像を見つけるために、送信された画像の（意味論的なものではなく）特徴を利用するため、すべての画像ベースの検索エンジンは次のいずれかを備えています。何らかの議題または実践そのため、インスタンスの特定が困難になる可能性があります。 ソース>生成された ウェブ検索による盗作。

さらに、生成モデルのトレーニングデータはその全体が公開されていない可能性があり、生成された画像の独創性の法医学的検査がさらに妨げられます。

興味深いことに、Google が特集した合成画像の XNUMX つに対して画像ベースの Web 検索を実行すると、 Imagen 専用サイト実際に画像を見て、同様の画像を公平に探すという点で、画像の主題に匹敵するものはまったくありません。むしろ、これまでと同様に意味的に固定されており、この Imagen 画像の Google 画像検索結果では、検索語「imagen google」を追加 (および制限) パラメーターとして追加しない限り、画像の純粋な画像ベースの Web 検索は許可されません。

逆に、Yandex は、アマチュア芸術コミュニティから類似した (または少なくとも視覚的に関連した) 現実世界の画像を多数見つけます。

一般に、モデルのトレーニング時にインターネット上のすべての Web に表示される画像から特徴を抽出する必要がなく、画像合成システムの出力の新規性や独創性を何らかの方法で測定できればより良いでしょう。著作権で保護された素材が使用されている可能性がある非公開データセット内。

この問題に関連して、韓国科学技術院（KAIST AI）のキム・ジェチョルAI大学院の研究者は、世界的なICTおよび検索会社NAVER Corpと協力して、 希少度 これは、画像合成システムのより独創的な作品を識別するのに役立ちます。

ここの画像は StyleGAN-FFHQ によって生成されます。列は左から右に、最悪の結果から最良の結果を示します。「切り捨てトリック」指標 (以下を参照) とリアリズム指標には独自の目的がある一方、新しい「レアリティ」スコア (一番上の行) は、(単なるまとまりのある画像ではなく) 一貫性がありながらもオリジナルの画像を求めていることがわかります。この記事には画像サイズの制限があるため、詳細と解像度についてはソース論文を参照してください。出典：https://arxiv.org/pdf/2206.08549.pdf

新しい紙というタイトルです レアリティスコア：合成画像の珍しさを評価する新しい指標、KAISTのXNUMX人の研究者とNAVER Corp.のXNUMX人の研究者によるものです。

「チープ・トリック」を超えて

新しい論文が改善しようとしている以前の指標の中には、「切り捨てトリック」があります。 2019で提案英国のヘリオットワット大学とGoogleのDeepMindとの共同研究によるもの。

切り捨てトリックは基本的に、生成モデルのトレーニングに使用したものとは異なる潜在分布をサンプリングに使用します。

この方法を開発した研究者らは、それが機能することに驚いたが、元の論文では、生成される出力の種類が減少することを認めた。それにもかかわらず、切り捨てトリックは、データに内在するすべての可能性を実際に同化するわけではなく、本物のように見える結果を取得するための「安っぽいトリック」と言い換えることができるものという文脈で、おそらく効果的で人気があります。必要以上にソースデータに似ています。

切り捨てトリックに関して、新しい論文の著者は次のように述べています。

「それは、トレーニングデータセットでまれなサンプルを生成することを目的としたものではなく、一般的な画像をより安定して合成することを目的としています。私たちは、ジェネレーターがまれなサンプルを効果的に生成するように誘導できれば、既存の生成モデルは実際のデータ分布においてより豊富なサンプルを生成できるだろうと仮説を立てています。

一般的に、Frechet Inception Distance (FID) などの従来の指標に依存する傾向があります。激しい批判にさらされた 2021 年 XNUMX 月に)、生成モデルのトレーニング中の「進捗指標」としてのインセプションスコア (IS) およびカーネルインセプションディスタンス (KID) について、著者はさらにコメントしています*。

「この学習スキームにより、ジェネレーターは、実際の画像分布の大部分を占めない、独自で強い特性を持つまれなサンプルをあまり合成しなくなります。」公開データセットからの珍しいサンプルの例には、さまざまなアクセサリーを身に着けている人々が含まれます。 FF本社, AFHQの白い動物, Metfacesの珍しい彫像.

「希少なサンプルを生成する機能は、生成モデルのエッジ機能に関係するためだけでなく、バーチャルヒューマンなどの創造的なアプリケーションでは一意性が重要な役割を果たすため、重要です。

しかし、いくつかの最近の研究の定性的結果には、これらのまれな例が含まれることはほとんどありません。敵対的学習スキームの性質により、トレーニングデータセットと同様の画像分布が生成されると推測されます。したがって、明確な個性や希少性を備えた画像は、モデルによって合成された画像の中でごく一部にすぎません。

技術

研究者の新しいレアリティスコアは、で提示されたアイデアを採用しています。前作品 - の用法 K 最近傍法 (KNN) 画像合成システムにおける本物の (トレーニング) データと合成 (出力) データの配列を表します。

この新しい分析方法について、著者らは次のように主張しています。

「私たちは、通常のサンプルは互いに近くにあるのに対し、ユニークで希少なサンプルは特徴空間内でまばらに配置されるだろうと仮説を立てています。」

上の結果画像は、StyleGAN アーキテクチャでトレーニングされた、最小最近傍距離 (NND) から最大までの最近接距離 (NND) を示しています。 FF本社.

すべてのデータセットについて、最小の NND を持つサンプルは代表的な典型的な画像を示しています。逆に、最大の NND を持つサンプルは強い個性を持ち、最小の NND を持つ典型的な画像とは大きく異なります。

理論的には、この新しいメトリクスを識別器として使用するか、少なくともより複雑な識別器アーキテクチャに組み込むことで、重要な可能性がある概念の本質的な一貫性を維持しながら、生成システムを純粋な模倣からより独創的なアルゴリズムへと導くことができます。本物の画像制作のため (つまり '男', '女性', '車', '教会'など）。

比較と実験

研究者らはテストで、Rarity Score のパフォーマンスを、Truncation Trick と NVIDIA の 2019 年のパフォーマンスの両方と比較しました。リアリズムスコアそして、さまざまなフレームワークやデータセットにわたって、このアプローチにより「固有の」結果を個別に区別できることがわかりました。

論文で紹介されている結果は広範すぎてここに含めることはできませんが、研究者らは、生成手順でソース (本物) 画像と生成された (偽) 画像の両方の希少性を識別する新しい方法の能力を実証したようです。

論文内で再現された広範な視覚的結果から例を選択します (詳細については、上記のソース URL を参照してください)。左側は、元のデータセットに近傍がほとんどない (つまり、新規で珍しい) FFHQ からの本物の例です。右側は、StyleGAN によって生成された偽の画像で、新しい指標によって真に新規であると特定されました。この記事には画像サイズの制限があるため、詳細と解像度についてはソース論文を参照してください。

新しいレアリティスコアメトリクスにより、単一のアーキテクチャで「新しい」生成出力を識別できるようになるだけでなく、さまざまなアーキテクチャ (つまり、オートエンコーダ、VAE、GAN など) の生成モデル間の比較も可能になると研究者らは主張しています。）。

この論文では、モデルのトレーニング中に世代間の多様性を（かなり近視眼的に）調べる「従来の」指標とは対照的に、希少性スコアは、ユニークで珍しい画像を作成する生成フレームワークの機能に焦点を当てている点で、以前の指標とは異なると述べています。

限られたタスクを超えて

新しい論文の研究者らは、限られた領域のフレームワーク (たとえば、人や猫の写真を特に生成するように設計されたジェネレーターとデータセットの組み合わせなど) でテストを実施しましたが、レアリティスコアは、任意の画像合成手順に適用できる可能性があります。外部の潜在的な分布を挿入したり、真正性を優先して新規性を損なう他の「近道」に依存したりして真正性を高める（そして多様性を減らす）のではなく、トレーニングされたデータから導出された分布を使用して生成されたサンプルを識別することが望まれます。

実際、このようなメトリクスは、明らかな「外れ値」の結果、トレーニングデータ、および同様のプロンプトまたは入力からの結果 (つまり、画像-ベースのプロンプト)。

実際には、システムが視覚的および意味論的な概念をどの程度実際に同化させているかが明確に理解されていない場合 (トレーニングデータに関する限られた知識によって妨げられることがよくあります)、これは本物の「瞬間」を識別するための実行可能な方法となる可能性があります。生成システムにおける「インスピレーション」 – 適切な数の入力コンセプトとデータが、過度に派生したものやソースデータに近いものではなく、真に独創的なものを生み出すポイント。

* 著者のインライン引用をハイパーリンクに変換しました。

初版は20年2022月XNUMX日。