Andersonの視点

AIは秘密に画像をデバイスブランドでランク付けする可能性がある

mm
A robot preferring a Mac over other junked laptops in the blurred background. Flux 1D and Firefly, via Krita.

新しい研究によると、人気のある画像中心のAIシステムは、写真の中にあるものだけを見ており、写真がどのように撮影されたかも検出していることがわかった。カメラの種類や画像の品質などの隠れた詳細は、AIが何を見ているかについて間違った結果をもたらす可能性がある。

 

2012年に、旅行ウェブサイトがAppleデバイスを使用しているユーザーに高い価格を表示していることが明らかになった。後の調査では、このデバイスに焦点を当てた「財布スニッフィング」が電子商取引サイトで一般的になっていることがわかった。

同様に、特定の写真を撮影したスマートフォンまたはキャプチャーデバイスを、法医学的手段で推測することができる。レンズの特性に基づいて、モデルごとに推測することができる。

キャプチャーデバイスは通常、画像に大量のメタデータを埋め込むが、この機能はユーザーによって無効化されることがある。さらに、ソーシャルメディアネットワークなどの配布プラットフォームは、ログやプライバシー上の理由で、一部またはすべてのメタデータを削除することがある。

しかし、ユーザーがアップロードした画像のメタデータは、頻繁に書き換えられたり、解釈されたりする(削除されずに)残っていることが多い。2012年の事件が明らかにしたように、このような情報は商業プラットフォームにとって貴重であり、ハッカーや悪意のある行為者にとっても潜在的に有用である。

双方向の視点

日本とチェコ共和国の新しい研究協力により、カメラハードウェアと画像処理(JPEG品質やレンズシャープニングなど)によって残された痕跡は、法医学的手段で検出できるだけでなく、先進的なAIビジョンモデルの中で暗黙的に符号化されていることがわかった。

これには、CLIPや他の大規模な視覚エンコーダーが含まれる。CLIPは、検索エンジンからコンテンツモデレーションまで、幅広い分野で使用されている。新しい研究では、これらのモデルは写真の中にあるものだけを見ており、写真がどのように作成されたかも学習することができる。さらに、この隠れた信号は、可視的なコンテンツを上回ることがある。

PairCamsデータセットからの画像ペアの例。各ペアは同じオブジェクトまたはシーンを、同じ瞬間にスマートフォン(右)と非スマートフォン(左)で撮影したもの。

PairCamsデータセットからの画像ペアの例。各ペアは同じオブジェクトまたはシーンを、同じ瞬間にスマートフォン(右)と非スマートフォン(左)で撮影したもの。

研究では、AIモデルは、画像がマスクされたり、切り取られたりした場合でも、カメラのメーカーやモデルを驚くほどの精度で推測できることがわかった。これは、画像の類似性を判断するために使用される表現空間が、ユーザーのデバイスなどの無関係な要因と絡み合う可能性があることを意味する。

たとえば、画像分類や画像検索などのダウンストリームタスクでは、この不適切な「重み付け」により、システムが特定のカメラタイプを優先する可能性がある。

論文では、次のように述べられている。

‘メタデータラベルが視覚エンコーダーに残ることは、予測不可能な結果をもたらす可能性があり、汎用性、堅牢性、信頼性を損なう可能性がある。さらに、この影響は悪意的に利用される可能性があり、ヘルスケア、監視、または自律システムなどの重要な分野でリスクをもたらす可能性がある。’

‘さらに重要なのは、Contrastive Visual-Language(CVL)システムは、CLIPを含む、最も影響を受けやすいエンコーダーであることがわかった。’

検索結果の例。画像のコンテンツに基づいてランク付けされるだけでなく、JPEG圧縮やカメラモデルなどのメタデータも考慮される。

検索結果の例。画像のコンテンツに基づいてランク付けされるだけでなく、JPEG圧縮やカメラモデルなどのメタデータも考慮される。

新しい論文は、視覚エンコーダーにおける処理と取得の痕跡:CLIPはあなたのカメラについて何を知っているのかというタイトルで、オサカ大学とプラハのチェコ工科大学の6人の研究者によって執筆された。

方法とデータ*

CLIPなどの視覚エンコーダーに隠れたメタデータの影響をテストするために、研究者は2つのカテゴリのメタデータを使用した:画像処理パラメータ(JPEG圧縮やシャープニングなど)と取得パラメータ(カメラモデルや露出設定など)。

研究者は、新しいモデルをトレーニングするのではなく、47の一般的な視覚エンコーダーをそのまま使用し、CLIP、DINO、ConvNeXtなどのモデルを含む。

画像処理パラメータについては、研究者はImageNetとiNaturalist 2018データセットに制御された変換を適用し、6つのJPEG圧縮レベル、3つのシャープニング設定、3つのリサイズスケール、4つの補間方法を含む。

iNaturalistデータセットからの画像とアノテーションの例。

iNaturalistデータセットからの画像とアノテーションの例。

モデルは、画像コンテンツのみを使用して各変換設定を回復する能力をテストした。

取得パラメータについては、研究者は356,459枚の画像からなるFlickrExifデータセットと、730枚の画像ペアからなるPairCamsデータセットをコンパイルした。

FlickrExifデータセットは、Flickr APIを使用してExifメタデータを含む画像をダウンロードすることで作成された。

PairCamsデータセットは、スマートフォンと非スマートフォンの両方で撮影された画像ペアから構成される。

PairCamsデータセットからのさらに例。

PairCamsデータセットからのさらに例。

研究者は、画像処理パラメータと画像取得パラメータの2つのセットをテストした。

画像処理と取得パラメータの分析。各パラメータのクラス数を示す。

画像処理と取得パラメータの分析。各パラメータのクラス数を示す。

テスト

視覚エンコーダーの埋め込みに画像処理とカメラタイプの情報が保存されているかどうかを判断するために、研究者はクラス分類器をトレーニングした。

画像処理の痕跡をテストするために、研究者は各トレーニング画像にランダムな処理設定を割り当てた。

平均分類精度は、さまざまなランダムシードで繰り返し試行された。

画像処理パラメータの予測の分類精度。CLIP、ConvNeXt、DINOなどのモデルを使用した。

画像処理パラメータの予測の分類精度。CLIP、ConvNeXt、DINOなどのモデルを使用した。

結果は、CLIPなどの対比視覚言語モデルが、画像処理の技術的な操作を認識する能力が高いことを示した。

ConvNeXtなどの教師ありエンコーダーも強力なパフォーマンスを示した。

自己教師ありモデルは、弱いパフォーマンスを示した。

次に、研究者は、カメラ関連の情報がモデル表現に埋め込まれているかどうかをテストした。

結果は、CLIPなどのモデルが、画像の90%をマスクした状態でさえ、カメラの種類を予測する能力が高いことを示した。

マスク比率とImageNetの検証精度の関係。

マスク比率とImageNetの検証精度の関係。

結果は、CLIPなどのモデルが、画像のコンテンツに基づいてランク付けされるだけでなく、カメラの種類も考慮されることを示した。

ダウンストリームの重要性

研究者は、画像処理の痕跡が画像解釈に与える影響を評価した。

結果は、画像処理の痕跡が、画像のコンテンツよりも優先される可能性があることを示した。

これは、画像分類や画像検索などのダウンストリームタスクで、システムが特定のカメラタイプを優先する可能性があることを意味する。

研究者は、次のように述べている。

‘メタデータラベルが視覚エンコーダーに残ることは、予測不可能な結果をもたらす可能性があり、汎用性、堅牢性、信頼性を損なう可能性がある。さらに、この影響は悪意的に利用される可能性があり、ヘルスケア、監視、または自律システムなどの重要な分野でリスクをもたらす可能性がある。’

‘さらに重要なのは、Contrastive Visual-Language(CVL)システムは、CLIPを含む、最も影響を受けやすいエンコーダーであることがわかった。’

結論

研究者は、画像処理の痕跡が画像解釈に与える影響について警告している。

結果は、CLIPなどのモデルが、画像のコンテンツに基づいてランク付けされるだけでなく、カメラの種類も考慮されることを示した。

研究者は、次のように述べている。

‘メタデータラベルが視覚エンコーダーに残ることは、予測不可能な結果をもたらす可能性があり、汎用性、堅牢性、信頼性を損なう可能性がある。さらに、この影響は悪意的に利用される可能性があり、ヘルスケア、監視、または自律システムなどの重要な分野でリスクをもたらす可能性がある。’

‘さらに重要なのは、Contrastive Visual-Language(CVL)システムは、CLIPを含む、最も影響を受けやすいエンコーダーであることがわかった。’

* 論文は通常とは異なる形式で構成されており、可能な限りその不規則な形式と表現に適応する必要がある。多くの情報が(存在しない)「方法」セクションに散在しており、メインの論文を8ページに制限するために、明晰性を犠牲にしている。もし、時間の制約により、この点を改善する機会を逃した場合は、謝罪する。

最初に公開されたのは、2025年8月20日、水曜日。

機械学習に関するライター、ヒューマンイメージシンセシスのドメインスペシャリスト。Metaphysic.aiの研究コンテンツ責任者を務めた。