Andersonの視点

AIは秘密にデバイスブランドによって画像をランク付けする可能性がある、コンテンツではなく

Published August 20, 2025

Updated April 26, 2026

Martin Anderson

A robot preferring a Mac over other junked laptops in the blurred background. Flux 1D and Firefly, via Krita.

新しい研究によると、人気の画像中心のAIシステムは、写真の中身だけを見ており、写真が撮影された方法も検出している。カメラの種類や画像の品質などの隠れた詳細は、AIが何を見ているかについて間違った結果につながる可能性がある、たとえば、写真が別のデバイスから来たという理由だけで。

2012年に、明らかになったことによると、旅行ウェブサイトは、Appleデバイスで閲覧しているユーザーに高い価格を表示していた。これは、Appleブランドが高い支出力を意味すると考えていたためである。後の調査では、結論づけられたことによると、このデバイスに焦点を当てた「財布を嗅ぐ」ことは、電子商取引サイトではほぼ常態化していた。

同様に、特定の写真を撮影したスマートフォンまたはキャプチャーデバイスを、法医学的手段によって推測することができる。これは、モデルごとに限られた数のレンズの既知の特性に基づいている。这种場合、キャプチャーデバイスのモデルは通常、視覚的な痕跡によって推定される。また、2012年の事件と同様に、画像を撮影したカメラの種類を知ることは、潜在的に利用可能な特性である。

キャプチャーデバイスは通常、画像に大量のメタデータを埋め込むが、これらの機能はユーザーによって頻繁に無効化される。また、メタデータが有効になっている場合でも、ソーシャルメディアネットワークなどの配布プラットフォームは、ロジスティックまたはプライバシーの目的で、一部またはすべてのメタデータを削除する場合がある。

しかし、ユーザーがアップロードした画像のメタデータは、頻繁に書き換えられ（削除されではなく）または、画像の内容ではなく、画像が撮影された方法についての二次的な情報源として残される。2012年の事件が明らかにしたように、このような情報は商業プラットフォームにとって貴重であり、ハッカーや悪意のある行為者にとっても同様である。

双方向の視点

日本とチェコ共和国の新しい研究コラボレーションによると、カメラハードウェアと画像処理（たとえば、JPEG品質またはレンズのシャープニング）によって残される痕跡は、法医学的手段によって検出されるだけでなく、先端の視覚モデルの「全球的な理解」に暗黙的に符号化されている。

これには、CLIPやその他の大規模な視覚エンコーダが含まれる。これらは、検索エンジンからコンテンツのモデレーションまで、すべての分野で広く使用されている。この新しい研究は、これらのモデルが写真の中身だけを見ており、写真が撮影された方法も学習できることを示している。また、この隠れた信号は、時々可視的なコンテンツを上回ることがある。

著者がテストに使用したPairCamsデータセットからの画像のペアの例。各ペアは、同じオブジェクトまたはシーンを同じ瞬間に、非スマートフォン（左）とスマートフォン（右）で撮影したものを示している。ソース: https://arxiv.org/pdf/2508.10637

研究によると、AIモデルに画像のマスクされたまたは切り取られたバージョンが与えられても、カメラのメーカーとモデルを驚くほどの精度で推測できる。これは、これらのシステムが使用する画像の類似性を判断する表現空間が、カメラの種類などの無関係な要因と絡み合う可能性があり、予測不可能な結果につながる可能性があることを意味する。

たとえば、画像の分類や検索などの下流タスクでは、このような望ましくない「重み付け」により、システムが画像の内容に関係なく、特定のカメラの種類を優先する可能性がある。

論文では次のように述べられている。

‘メタデータラベルが視覚エンコーダに残ることは、意味情報を上回り、予測不可能な結果につながる可能性があり、汎用性、堅牢性、そして潜在的にモデルへの信頼性を損なう可能性がある。 ‘

‘より重要なことは、この影響が悪意的に利用される可能性がある。たとえば、敵対的な攻撃により、メタデータを操作してモデルを故意に欺くことができ、ヘルスケア、監視、または自律システムなどの感応性の高いドメインではリスクをもたらす可能性がある。’

論文では、Contrastive Visual-Language（CVL）システム、特にCLIPが、データからこのような推論を得る可能性が高いことが示されている。

クエリ画像の検索結果、基礎モデルが画像をランク付けする方法を示している。画像の内容に基づいてランク付けされるだけでなく、JPEG圧縮やカメラモデルなどの隠れたメタデータにも基づいてランク付けされる。

新しい論文は、視覚エンコーダにおける処理と取得の痕跡: CLIPはあなたのカメラについて何を知っているのか?というタイトルで、オサカ大学とプラハのチェコ工科大学の6人の研究者によって執筆された。

方法とデータ*

視覚エンコーダ、たとえばCLIPへの隠れたメタデータの影響をテストするために、著者は2つのカテゴリのメタデータを使用した。画像処理パラメータ（たとえばJPEG圧縮または色変換）と取得パラメータ（たとえばカメラのメーカーまたは露出設定）。

新しいモデルをトレーニングするのではなく、研究者は47の広く使用されている視覚エンコーダを凍結された、事前トレーニングされた状態で評価した。これには、CLIPのような対比視覚言語モデル、自己教師ありモデル、たとえばDINO、および従来の教師ありネットワークが含まれる。

画像処理パラメータについては、研究者は制御された変換をImageNetとiNaturalist 2018データセットに適用した。これには、6つのJPEG圧縮レベル、3つのシャープニング設定、3つのリサイズスケール、および4つの補間方法が含まれる。

iNaturalistデータセットからの画像と関連する注釈の例。ソース: https://arxiv.org/pdf/1707.06642

モデルは、画像の内容だけを使用して各変換設定を回復する能力をテストした。成功した予測は、エンコーダの内部表現にこれらの処理の選択に関する情報が保持されていることを示す。

取得パラメータを調査するために、研究者は356,459枚の画像データセット、FlickrExifをコンパイルした。これには、保存されたExifメタデータが含まれる。また、730枚の画像ペアで構成される別のデータセット、PairCamsを作成した。これは、同時にスマートフォンと非スマートフォンのカメラで撮影された。

FlickrExifデータセットは、Flickr APIを使用してExifメタデータを伴う画像をダウンロードすることによって構築された。2000から4000の安全な画像が、2000年初頭から2024年中頃までの毎月収集され、許可されたライセンスのみを含むようにフィルタリングされた。各個人の貢献者は、毎月10枚の画像に制限された。

PairCamsデータセットについては、毎回自動設定とフラッシュを使用せずに写真が撮影された。これにより、視覚エンコーダがカメラハードウェアの違いだけに反応する方法を比較することが可能になった。

著者がキュレーションしたPairCamsデータセットからの追加の例。

著者は、画像処理パラメータ（たとえば圧縮や色変換）と画像取得パラメータ（たとえばカメラのメーカーまたは露出設定）の2つのセットをテストした。

分析された画像処理と取得パラメータ、各パラメータのクラス数を示す。

テスト

視覚エンコーダの埋め込み内に画像処理とカメラの種類に関する情報が保存されているかどうかを判断するために、著者は、埋め込みから直接メタデータラベルを予測する分類器をトレーニングした。分類器がランダムに推測するのと同じぐらいの性能しか示さなかった場合、それはモデルが処理やデバイスに関する詳細を捉えていないことを示す。

しかし、ランダムな推測を上回る性能は、これらの技術的な痕跡が確かに符号化されており、下流タスクに影響を与える可能性があることを示す。

処理の痕跡をテストするために、著者は各トレーニング画像にランダムな処理設定（たとえば特定のJPEG圧縮レベル）を割り当てた。すべてのテスト画像はバッチごとに同じ設定を共有した。

平均分類精度は、さまざまなランダムシードでの繰り返し試行と組み合わされた。これにより、モデル内部の表現にこれらの技術的な詳細が一貫して捉えられているかどうかを判断することができる。

線形分類器を凍結モデルに適用して、画像処理パラメータをエンコーダ埋め込みから予測する分類精度。JPEG圧縮、シャープニング、リサイズ、補間について、3つのモデルカテゴリ（対比視覚言語、教師あり、自己教師あり）で結果を示す。ImageNet（上段）とiNaturalist 2018（下段）で評価する。ランダム推測の基準線は点線で示される。

4つの処理パラメータすべてで、対比視覚言語モデルは隠れた画像操作を認識する能力が最も高かった。いくつかのモデルは、ImageNet埋め込みからJPEG圧縮、シャープニング、リサイズ設定を予測する際に80%以上の精度を達成した。

教師ありエンコーダ、特にConvNeXtに基づくものも強力に実行された。自己教師ありモデルは一貫して弱かった。

補間は最も難しいパラメータを検出することができたが、トップのCVLと教師ありモデルはまだ両方のデータセットでランダム基準線の25%を上回る結果を達成した。

次に、カメラ関連の情報がモデル表現に埋め込まれているかどうかをテストするために、著者は、取得パラメータごとに別々のトレーニングセットとテストセットを作成した。

ほとんどのパラメータについては、少なくとも5,000の例があるクラスのみを使用した。500の画像はランダムに設定され、テスト用に残り、残りの例はダウンサンプリングされた。すべてのクラスに200のトレーニングサンプルがあるようにした。

「モデル（すべて）」および「モデル（スマート）」のパラメータについては、クラスごとに少なくとも500の画像があり、クラスごとに4:1の比率でトレーニングとテストのサブセットに分割された。

写真家は、トレーニング、バリデーション、テストセット全てで分離された。

単純な分類器をトレーニングして、画像の特徴からカメラ情報を予測した。

分類器が画像の意味的内容に影響されないことを確認するために、各画像の90%がセンターマスクされていた。

マスク比率に対するImageNetの検証精度。90%のマスクレベルで、すべてのモデルがランダム近くのパフォーマンスに低下し、意味的信号が効果的に除去されたことを示している。下部の画像はマスクレベルを示している。

画像の90%がマスクされていても、ほとんどの対比視覚言語モデルと教師ありConvNeXtエンコーダは、カメラ関連ラベルをランダムな推測を上回る精度で予測した。多くのCVLモデルは、スマートフォンと非スマートフォンの画像を区別する際に70%以上の精度を達成した。

他の教師ありエンコーダ、SigLIP、およびすべての自己教師ありモデルは、はるかに悪い結果を示した。マスクが適用されなかった場合、CVLモデルは再びカメラの種類によるクラスタリングを最も強く示した。これは、これらのモデルが他のモデルよりも取得情報をより深く埋め込んでいることを確認した。

2つの視覚エンコーダのt-SNE視覚化、画像がスマートフォンカメラで撮影されたかどうかを示す色付き。

下流の重要性

この問題が確認された後、隠れた処理の痕跡が画像の解釈を妨げる可能性を評価した。

同じ画像の2つのバージョンが異なる方法で処理された場合、埋め込みは画像の内容ではなく、処理スタイルに従ってしばしば組織化された。いくつかの場合、強く圧縮された犬の写真は、同じ圧縮設定のある無関係な画像とより似ていると扱われ、自身の非圧縮バージョンよりも。

5つの処理設定の下でImageNet（上）とiNaturalist（下）での意味的分類精度の、処理パラメータの影響。

結論として、彼らは警告する。

‘私たちは、メタデータラベルが基礎となる視覚エンコーダに符号化されていることを特定しましたが、この問題の根本原因を明確に特定することはできません。これをさらに調査することは、モデルを再トレーニングするコストと、頻繁に使用されるプライベートデータセットと公開されていない実装の詳細のため、課題です。 ‘

‘私たちは、特定の緩和策を提案しませんが、この問題を重要な将来の研究分野として強調しています。’

結論

文献では、「方法よりも内容」を示す痕跡や兆候に対する法医学的な関心が高まっています。フレーミングドメインまたは特定のデータセットを識別するのが容易であるほど、ディープフェイク検出器やデータやモデルの出所や年齢を分類するシステムなどの形でこの情報を利用するのが容易になります。

これはすべて、AIモデルをトレーニングする根本的な意図に反する。中核的な抽象概念は、生産手法から独立してキュレーションされ、生産手法の痕跡を残すべきではありません。実際、データセットとキャプチャデバイスには、歴史的観点を表すもの自身であるため、内容から切り離すことが実質的に不可能な特性とドメイン特性があります。

* この論文は、通常とは異なる形式で構成されており、可能な限りその独特な形式とプレゼンテーションに適応します。多くの資料が（存在しない）「方法」セクションに含まれるべきですが、さまざまな付録の部分に配置されています。主な論文を8ページに制限するため、明晰性を大幅に犠牲にしています。如果、私たちがこの改善の機会を逃した場合、時間の不足のため、謝罪します。

初めて発行されたのは、2025年8月20日です。