人工知能

ディープラーニングモデルはAI生成画像を認識するのに苦労する可能性がある

Published September 1, 2022

Updated April 5, 2026

Martin Anderson

新しい論文の結果によると、最先端のAIは、人間よりもAI生成画像を認識して解釈する能力が著しく低いことがわかりました。これは、機械学習モデルが合成データでトレーニングされることが増える将来に懸念される問題です。データが「本物」かどうかがわからない場合には、特に問題となる可能性があります。

ここでは、resnext101_32x8d_wsl予測モデルが「バゲット」カテゴリで苦労しています。テストでは、コアターゲットワード（この場合は「バゲット」）が上位5つの予測結果に含まれない場合、認識の失敗とみなされました。 Source: https://arxiv.org/pdf/2208.10760.pdf

新しい研究では、コンピュータビジョンに基づく2つのカテゴリの認識フレームワークをテストしました。オブジェクト認識と、視覚的な質問回答（VQA）です。

左側はオブジェクト認識システムからの推論の成功と失敗、右側はシーンや画像をより探究的かつ重要な方法で理解するように設計されたVQAタスクです。 Sources: https://arxiv.org/pdf/2105.05312.pdfとhttps://arxiv.org/pdf/1505.00468.pdf

10の最先端モデルが、DALL-E 2とMidjourneyによって生成された画像でテストされました。最も優れたモデルは、2つのテストの両方で60％と80％のトップ5の精度しか達成できませんでした。一方、ImageNetは、非合成の実世界のデータでトレーニングされたもので、同じカテゴリでそれぞれ91％と99％の精度を達成しています。人間のパフォーマンスは、通常、さらに高くなります。

ディストリビューションシフト（モデルドリフト、予測モデルがトレーニングデータから「実際の」データに移動したときに予測能力が低下する）に関する問題に対処するために、論文では次のように述べています。

「人間は生成された画像を認識し、簡単に質問に答えることができます。私たちは、次の2つのことを結論付けています。a）深層モデルは生成されたコンテンツを理解するのに苦労し、ファインチューニングを行うと改善される可能性があります。b）生成された画像と実際の写真の間には大きなディストリビューションシフトがあります。ディストリビューションシフトはカテゴリ依存であるようです。」

先週、Stable Diffusionの強力な潜在的拡散合成モデルがオープンソース化されたことにより、すでにインターネット上に大量の合成画像が流入しています。将来、業界標準のデータセット（Common Crawlなど）に「偽の」画像が流入する可能性があり、精度の変化が年々大きく影響を受ける可能性があります。

合成データは、コンピュータビジョン研究の分野で、リソースと予算が不足していることが多い分野で、超大規模なキュレーションに必要なリソースを提供することができると考えられてきました。しかし、DALL-E 2の出現と商業化により、Stable Diffusion画像の新しい流れは、すべてが「偽の」画像であることを示すラベル、注釈、ハッシュタグが付いているわけではありません。

画像合成フレームワークの開発のスピードは、画像をこれらのシステムから区別する能力を上回っています。これにより、「偽の画像」検出システムの需要が高まっています。これは、ディープフェイク検出システムと同様ですが、画像全体を評価するように設計されています。

新しい論文のタイトルは、「深層モデルは生成された画像をどれくらい理解できるか」です。サンフランシスコのマシンラーニングスタートアップQuintic AIのAli Borjiによって書かれています。

データ

研究は、Stable Diffusionのリリース前に行われ、実験では、DALL-E 2とMidjourneyによって生成された17のカテゴリの画像が使用されました。

テストされた認識とVQAシステムが最も重要なキーコンセプトを識別するように挑戦された画像の例です。

画像は、ウェブ検索とTwitterから取得され、DALL-E 2のポリシー（少なくとも当時）に従って、人間の顔を含む画像は含まれていませんでした。人間が認識できる、高品質の画像のみが選択されました。

オブジェクト認識とVQAタスクのために、それぞれ2つの画像セットがキュレーションされました。

オブジェクト認識の各テストカテゴリの画像数。

オブジェクト認識のテスト

オブジェクト認識のテストでは、10のモデルがテストされました。すべてのモデルはImageNetでトレーニングされています。AlexNet、ResNet152、MobileNetV2、DenseNet、ResNext、GoogleNet、ResNet101、Inception_V3、Deit、ResNext_WSLです。

一部のクラスは、他のクラスよりも粒度が細かかったため、平均化されたアプローチを適用する必要がありました。たとえば、ImageNetには「時計」に関する3つのクラスがあり、成功を判断するためのいくつかの種類の判断基準を定義する必要がありました。たとえば、取得したラベルの上位5つに「時計」が含まれている場合、成功とみなされました。

17のカテゴリ全体のモデルごとのパフォーマンス。

このラウンドで最も優れたモデルはresnext101_32x8d_wsで、トップ1（5つの推論のうち最も優れたもの）で約60％、トップ5（5つの推論のうち最も優れたものが含まれている）で約80％の精度を達成しました。

著者は、このモデルの優れたパフォーマンスは、ソーシャルメディアプラットフォームでの弱い教師あり予測にトレーニングされたためであると示唆しています。しかし、著者は、これらのリーディング結果は、ImageNetが実データで達成するもの（91％と99％）よりも著しく低いと指摘しています。著者は、これはImageNet画像と生成画像の分布の間にある大きなギャップによるものであると示唆しています。

システムにとって最も難しい5つのカテゴリは、凧、カメ、リス、サングラス、ヘルメットの順でした。論文では、凧クラスは、風船、パラシュート、傘と混同されることが多いと指摘していますが、これらの区別は人間の観察者にとっては簡単に区別できるものです。

極化カテゴリ：いくつかのターゲットカテゴリは、すべてのモデルを混乱させたか、またはすべてのモデルが識別するのが比較的簡単でした。

著者は、これらの結果は、すべてのオブジェクト認識モデルが共通の強みと弱点を共有していることを示唆している可能性があると示唆しています。

視覚的な質問回答のテスト

次に、著者は、オープンエンドと自由形式のVQA、バイナリ質問（「はい」または「いいえ」のみの回答）でVQAモデルをテストしました。論文では、最近の最先端のVQAモデルは、VQA-v2データセットで95％の精度を達成できることが示唆されています。

このテストのラウンドでは、著者は50の画像をキュレーションし、241の質問をこれらの画像について行いました。132の質問には肯定的な回答があり、109の質問には否定的な回答がありました。質問の平均長さは5.12ワードでした。

このラウンドでは、OFAモデルを使用しました。これは、タスクに依存しないフレームワークであり、最近、VQA-v2テストスタンダードセットでトップスコアを達成しました。OFAは、生成された画像で77.27％の精度を達成しました。これは、VQA-v2テストスタンダードセットでの94.7％のスコアよりも低いものです。

VQAセクションのテストからの質問と結果の例。’GT’は’Ground Truth’、つまり正解です。

論文の著者は、これは、生成された画像にVQA-v2データセットにはないセマンティックコンセプトが含まれている可能性があるためであると示唆しています。また、VQAテストの質問は、一般的なVQA-v2の質問よりも挑戦的である可能性があると示唆していますが、著者は、前者の理由がより可能性が高いと考えています。

データストリームの中のLSD

意見

AI生成画像の新しい増加は、自然界には存在しないコアコンセプトの即時的な結合と抽象化を提示することができ、従来の方法では生成するのが非常に時間がかかるため、弱い教師ありデータ収集システムに特に問題を引き起こす可能性があります。これらのシステムは、高容量の未ラベル化された合成データを処理するように設計されていないため、優雅に失敗することはできません。

そのような場合、システムは、画像に実際には存在しないオブジェクトを特徴とする「奇妙な」合成画像を、誤ったカテゴリに収集する可能性があります。

「宇宙飛行士が馬に乗っている」は、画像生成システムの新しい世代の最も象徴的なビジュアルとなりましたが、これらの「非現実的な」関係は、注意が必要な場合に実際の検出システムに入る可能性があります。 Source：https://twitter.com/openai/status/1511714545529614338?lang=en

これを事前に阻止できない場合、自動化されたパイプラインは、機械学習システムに、高レベルの関連付けをトレーニングする可能性があり、ダウンストリームのシステムやサブクラス、カテゴリに影響を及ぼす可能性があります。

あるいは、断片的な合成画像は、将来に新しいアーキテクチャが登場し、アドホックの合成画像を考慮しようとする場合、精度の「冷却効果」をもたらす可能性があります。

どちらの場合でも、Stable Diffusion時代の合成画像は、合成画像と機能の創造を可能にしたコンピュータビジョン研究の分野にとって、頭痛の種となる可能性があります。特に、データの収集とキュレーションが将来さらに自動化され、費用と時間が大幅に削減されることを期待しているからです。

最初に公開された：2022年9月1日。

Related Topics:image synthesis research Synthesis AI synthetic data

Martin Anderson

機械学習に関するライター、ヒューマンイメージシンセシスのドメインスペシャリスト。Metaphysic.aiの研究コンテンツ責任者を務めた。

Unite.AI

ディープラーニングモデルはAI生成画像を認識するのに苦労する可能性がある

データ

オブジェクト認識のテスト

視覚的な質問回答のテスト

データストリームの中のLSD

You may like