Connect with us

JPEG AIが実と合成の境界を薄れさせる

Andersonの視点

JPEG AIが実と合成の境界を薄れさせる

mm
Created with ChatGPT-4o and Adobe Firefly

今年2月、JPEG AI国際標準が公開されました。これは、機械学習技術を使用して、知覚質の低下なく、小さくて転送および保存が容易な画像コーデックを生成することを目的とした数年間の研究の結果です。

JPEG AIの公式公開ストリームからのPeak Signal-to-Noise Ratio (PSNR)とJPEG AIのML拡張アプローチの比較。ソース: https://jpeg.org/jpegai/documentation.html

JPEG AIの公式公開ストリームからのPeak Signal-to-Noise Ratio (PSNR)とJPEG AIのML拡張アプローチの比較。 ソース: https://jpeg.org/jpegai/documentation.html

この進展があまり注目されなかった理由の1つは、発表の核心となるPDFが(皮肉にも)Arxivなどの無料アクセスポートルを通じて利用できなかったことです。ただし、Arxivはすでに、方法のさまざまな側面、包括してJPEG AIの重要性を調査するいくつかの研究を発表しており、その中には方法の不慣れな圧縮アーティファクト法医学への影響があります。

1つの研究では、以前のJPEG AIのドラフトを含む圧縮アーティファクトを比較し、新しい方法はテキストをぼかす傾向があることを発見しました。これは、コーデックが証拠チェーンに貢献する可能性のあるケースでは、軽視できない問題です。ソース: https://arxiv.org/pdf/2411.06810

1つの研究では、以前のJPEG AIのドラフトを含む圧縮アーティファクトを比較し、新しい方法はテキストをぼかす傾向があることを発見しました。 ソース: https://arxiv.org/pdf/2411.06810

JPEG AIは、合成画像ジェネレーターのアーティファクトを模倣するように画像を変更するため、既存の法医学ツールは実と偽の画像を区別することが困難です。

JPEG AI圧縮後、最新のアルゴリズムは、ローカリゼーションマップ内の認証コンテンツと操作された領域を信頼性を持って区別できなくなります(2025年3月の論文)。左側のソース例は操作/偽の画像であり、標準の法医学技術では操作された領域が明確に定義されています(中央の画像)。ただし、JPEG AI圧縮により、偽の画像に信頼性の層が付与されます(右端の画像)。ソース: https://arxiv.org/pdf/2412.03261

JPEG AI圧縮後、最新のアルゴリズムは、ローカリゼーションマップ内の認証コンテンツと操作された領域を信頼性を持って区別できなくなります。 ソース: https://arxiv.org/pdf/2412.03261

1つの理由は、JPEG AIが、法医学ツールが検出を目的とする生成システムと同様のモデルアーキテクチャを使用してトレーニングされていることです。

新しい論文は、AI駆動の画像圧縮と実際のAI生成画像の方法論の類似性を示しています。ソース: https://arxiv.org/pdf/2504.03191

新しい論文は、AI駆動の画像圧縮と実際のAI生成画像の方法論の類似性を示しています。 ソース: https://arxiv.org/pdf/2504.03191

したがって、両方のモデルは、法医学的観点から見て、同様の基本的な視覚的特性を生成する可能性があります。

量子化

このクロスオーバーは、両方のアーキテクチャに共通する量子化のため発生します。これは、機械学習で連続データを離散データポイントに変換する方法として、また、トレーニング済みモデルのファイルサイズを大幅に削減できる最適化テクニックとして使用されます(カジュアルな画像合成の愛好家は、公式モデルリリースと、ローカルハードウェアで実行できるコミュニティ主導の量子化バージョンの間の待ち時間に慣れています)。

この文脈では、量子化は、画像の潜在的な表現の連続値を固定された離散的なステップに変換するプロセスを指します。JPEG AIは、このプロセスを使用して、画像を保存または転送するために必要なデータ量を削減します。内部の数値表現を簡素化することによってです。

量子化によりエンコードが効率化される一方で、生成モデルによって残されるアーティファクトに似た構造的な規則性を課すこともあります。知覚には十分に微妙ですが、法医学ツールに混乱を招きます。

対応として、新しい研究の著者は、JPEG AIの圧縮を検出するために、解釈可能な非ニューラル手法を提案しています。画像が再圧縮されたかどうかを判断し、圧縮された実画像とAIによって完全に生成された画像を区別します。

方法

色の相関

論文では、JPEG AI画像用に3つの「法医学的ヒント」を提案しています。まずは、JPEG AIの前処理ステップで導入される色チャンネルの相関画像品質の測定可能な歪み、および潜在的な空間の量子化パターンが含まれます。

色の相関に基づくアプローチについては、JPEG AIの前処理パイプラインは、画像の色チャンネル間に統計的依存関係を導入し、法医学的ヒントとして機能するシグネチャを作成します。

JPEG AIは、画像をRGBからYUV色空間に変換し、4:2:0の色サブサンプリングを実行します。これには、圧縮前に色差信号をダウンサンプリングすることが含まれます。このプロセスにより、赤、緑、青のチャンネルの高周波残基間に微妙な相関が生じます。圧縮されていない画像には存在せず、伝統的なJPEG圧縮または合成画像ジェネレーターによって生成されるものとは異なります。

JPEG AI圧縮が画像の色の相関をどのように変更するかを比較してみた図。赤チャンネルを使用した例です。パネル(a)は、圧縮されていない画像とJPEG AI圧縮画像を比較し、圧縮によりチャンネル間の相関が大幅に増加していることを示しています。パネル(b)は、JPEG AIの前処理の影響を分離し、色の変換とサブサンプリングだけでも相関が著しく増加していることを示しています。パネル(c)は、伝統的なJPEG圧縮も相関を少し増加させていることを示していますが、同じ程度ではありません。パネル(d)は、合成画像を調査し、Midjourney-V5とFireflyが相関の増加を示しているのに対し、他の画像は圧縮されていないレベルに近いことを示しています。

JPEG AI圧縮が画像の色の相関をどのように変更するかを比較してみた図。

上記の図は、論文から、JPEG AI圧縮が画像の色の相関をどのように変更するかを、赤チャンネルを使用した例で示しています。

パネルAは、圧縮されていない画像とJPEG AI圧縮画像を比較し、圧縮によりチャンネル間の相関が大幅に増加していることを示しています。パネルBは、JPEG AIの前処理の影響を分離し、色の変換とサブサンプリングだけでも相関が著しく増加していることを示しています。パネルCは、伝統的なJPEG圧縮も相関を少し増加させていることを示していますが、同じ程度ではありません。パネルDは、合成画像を調査し、Midjourney-V5とFireflyが相関の増加を示しているのに対し、他の画像は圧縮されていないレベルに近いことを示しています。

レート歪み

レート歪みのヒントは、画像の品質が、ピーク信号ノイズレシオ(PSNR)で測定されるように、繰り返し圧縮アクロスで予測可能なパターンで低下することを追跡することによって、JPEG AIの再圧縮を識別します。

研究では、JPEG AIで画像を繰り返し圧縮すると、PSNRで測定される画像品質が、各圧縮パスで徐々にですが測定可能な低下します。この低下は、JPEG AI画像が再圧縮されたかどうかを検出するための法医学的ヒントの基礎を形成します。

伝統的なJPEGとは異なり、ここでは画像ブロックの変更を追跡するのではなく、ビットレートとPSNRが繰り返し圧縮アクロスでどのように進化するかを監視する必要があります。各圧縮ラウンドは、前のラウンドよりも画像を少しだけ変更し、この減少する変更(ビットレートに対してプロットされる)は、画像が複数の圧縮ステージを通過したかどうかを明らかにします。

さまざまなコーデックでの繰り返し圧縮が画像品質に与える影響を示す図。JPEG AIとhttps://arxiv.org/pdf/1802.01436で開発されたニューラルコーデックの両方が、各追加圧縮ごとにPSNRの穏やかな低下を示しています。低ビットレートでも同様です。対照的に、伝統的なJPEG圧縮は、高ビットレートでない限り、複数の圧縮アクロスで相対的に安定した品質を維持します。このパターンは、再圧縮がAIベースのコーデックに測定可能なトレースを残すことを示しています。

さまざまなコーデックでの繰り返し圧縮が画像品質に与える影響を示す図。JPEG AIとhttps://arxiv.org/pdf/1802.01436で開発されたニューラルコーデックの両方が、各追加圧縮ごとにPSNRの穏やかな低下を示しています。

上記の図では、JPEG AIと別のAIベースのコーデック、および伝統的なJPEGのレート歪み曲線がプロットされています。JPEG AIとニューラルコーデックの両方が、すべてのビットレートでPSNRの安定した低下を示しています。一方、伝統的なJPEG圧縮は、高ビットレートでない限り、複数の圧縮アクロスで相対的に安定した品質を維持します。この動作は、JPEG AI画像が再圧縮されたかどうかをフラグにするための量化可能なシグナルを提供します。

ビットレートと画像品質が複数の圧縮ラウンドでどのように進化するかを抽出することによって、著者は、画像が再圧縮されたかどうかをフラグにするためのシグネチャを同様に構築しました。これは、JPEG AIの文脈では実用的な法医学的ヒントを提供します。

量子化

前述のように、JPEG AIが引き起こす法医学上の課題の1つは、拡散モデルによって生成される合成画像と視覚的に似ていることです。両方のシステムは、画像を圧縮された潜在的な空間に処理するエンコード・デコードアーキテクチャを使用し、微妙なアップサンプリング・アーティファクトを残すことがあります。

これらの共有された特性は検出器を混乱させる可能性があります。検出器はJPEG AI画像で再トレーニングされていても同様です。ただし、重要な構造的な違いがあります。JPEG AIは、効率的な圧縮のために潜在的な値を離散的なレベルに丸める量子化を適用します。一方、生成モデルは通常、量子化を適用しません。

新しい論文は、この違いを利用して、JPEG AI圧縮を間接的にテストする法医学的ヒントを設計しています。方法では、画像の潜在的な表現が丸めに対してどのように反応するかを分析します。画像がすでに量子化されていると仮定して、画像の潜在的な構造が丸められた値と一致する測定可能なパターンを示すと想定しています。

これらのパターンは、目には見えないかもしれませんが、統計的な違いを生み出し、圧縮された実画像と完全に合成された画像を区別するのに役立ちます。

平均Fourierスペクトルは、JPEG AI圧縮画像とMidjourney-V5やStable Diffusion XLなどの拡散モデルで生成された画像が、周波数領域で規則的なグリッド状のパターンを示していることを示しています。実画像ではこれらのパターンはありません。このスペクトル構造の重なりは、法医学ツールが圧縮された実画像と合成画像を混同する理由を説明しています。

平均Fourierスペクトルは、JPEG AI圧縮画像とMidjourney-V5やStable Diffusion XLなどの拡散モデルで生成された画像が、周波数領域で規則的なグリッド状のパターンを示していることを示しています。

重要な点は、著者がこのヒントがさまざまな生成モデルで機能し、コンテンツの重要なセクションが潜在的な空間にゼロアウトされても有効であることを示していることです。対照的に、合成画像はこの丸めテストに対してはるかに弱い反応を示します。これは、圧縮された画像と合成画像を区別するための実用的な方法を提供します。

結果は、圧縮と生成の根本的な違いを対象とする軽量で解釈可能なツールとして意図されており、表面のアーティファクトに依存するのではなく、代わりにそれに頼ることを意図しています。

データとテスト

圧縮

著者は、色の相関ヒントがJPEG AI圧縮(つまり、未圧縮ソースからの最初のパス)を信頼性を持って検出できるかどうかを評価するために、RAISEデータセットの高品質の未圧縮画像を使用しました。これらの画像は、さまざまなビットレートでJPEG AIリファレンス実装を使用して圧縮されました。

彼らは、色チャンネルの相関の統計的パターン(特に各チャンネルの残基ノイズが他のチャンネルとどのように一致するか)に基づいて、シンプルなランダムフォレストをトレーニングしました。画像のピクセルに直接トレーニングされたResNet50ニューラルネットワークと比較しました。

色の相関機能を使用したJPEG AI圧縮の検出精度、複数のビットレートで比較。方法は、圧縮アーティファクトが強い低ビットレートで最も効果的であり、圧縮レベルへの一般化がベースラインのResNet50モデルよりも優れています。

色の相関機能を使用したJPEG AI圧縮の検出精度、複数のビットレートで比較。

ResNet50は、テストデータがトレーニング条件と密接に一致する場合に高い精度を達成しましたが、さまざまな圧縮レベル間で一般化するのに苦労しました。相関に基づくアプローチは、シンプルではありましたが、ビットレート全体で一貫性があり、特に低圧縮レートでJPEG AIの前処理の影響が強い場合に優れています。

これらの結果は、ディープラーニングなしで、解釈可能で堅牢な統計的ヒントを使用してJPEG AI圧縮を検出できることを示しています。

再圧縮

JPEG AIの圧縮を信頼性を持って検出できるかどうかを評価するために、研究者は、さまざまなビットレートで圧縮された画像のセットをテストしました。画像のうち、一部は1回だけ圧縮され、もう一部は2回JPEG AIを使用して圧縮されました。

この方法では、画像のビットレートとPSNRが3回の圧縮パスでどのように進化するかを追跡する17次元の特徴ベクトルを抽出することが含まれます。この特徴セットは、各ステップでどれだけの品質が失われたか、潜在的な空間とハイパープライヤー レートがどのように動作するかを捉えます。伝統的なピクセルベースの方法ではこれらのメトリックにアクセスするのが難しいです。

研究者はこれらの特徴にランダムフォレストをトレーニングし、そのパフォーマンスを画像パッチにトレーニングされたResNet50と比較しました。

レート歪み特徴を使用したランダムフォレストの分類精度、JPEG AI画像が再圧縮されたかどうかを検出するための結果。方法は、初期圧縮が強い場合(つまり、低ビットレートの場合)に最も効果的であり、2回目の圧縮が1回目の圧縮よりも軽い場合でも、ピクセルベースのResNet50を一貫して上回ります。

レート歪み特徴を使用したランダムフォレストの分類精度、JPEG AI画像が再圧縮されたかどうかを検出するための結果。

ランダムフォレストは、初期圧縮が強い(つまり、低ビットレートの場合)ときに特に効果的であり、画像が複数の圧縮ステージを通過したかどうかを明らかにする明確な違いを示しました。ResNet50のイテレーションは、特にトレーニング中に見られなかった圧縮レベルをテストしたときに、一般化するのに苦労しました。

レート歪み特徴は、さまざまなシナリオ全体で一貫して安定したままだった。特に、JPEG AI以外のAIベースのコーデックにもアプローチが一般化することを示唆しており、JPEG AIの範囲を超えて機能することを示しています。

JPEG AIと合成画像

最終的なテストラウンドでは、著者は、量子化ベースの特徴がJPEG AI圧縮画像と完全に合成された画像(Midjourney、Stable DiffusionDALL-E 2Glide、およびAdobe Fireflyを使用)を区別できるかどうかをテストしました。

これを行うために、研究者は、Synthbusterデータセットのサブセットを使用しました。RAISEデータベースの実写真と、テキストプロンプトから生成された画像(RAISE-1kデータセットの自然な写真にインスパイアされた)を組み合わせました。

Synthbusterの合成画像の例。RAISE-1kデータセットの自然な写真からインスパイアされたテキストプロンプトを使用して、さまざまな拡散モデルで生成されました。プロンプトは、スタイリッシュまたはアーティスティックなレンダリングではなく、写実的なコンテンツとテクスチャを生成するように設計されています。

Synthbusterの合成画像の例。 ソース: https://ieeexplore.ieee.org/document/10334046

実画像は、さまざまなビットレートでJPEG AIを使用して圧縮され、分類は2つのタスクとして提示されました。1つはJPEG AIと特定のジェネレーターを比較すること、もう1つは特定のビットレートとStable Diffusion XLを比較することです。

量子化特徴(潜在的な表現からの相関を抽出)を、固定された256×256の領域から計算し、ランダムフォレスト分類器に供給しました。ベースラインとして、画像のピクセルパッチにトレーニングされたResNet50を使用しました。

量子化特徴を使用したランダムフォレストによる、JPEG AI圧縮画像と合成画像を区別するための分類精度。

量子化特徴を使用したランダムフォレストによる、JPEG AI圧縮画像と合成画像を区別するための分類精度。

ほとんどの条件下で、量子化に基づくアプローチは、ベースラインのResNet50を上回りました。特に、低ビットレートで圧縮アーティファクトが強い場合に優れています。

著者は次のように述べています:

‘ベースラインのResNet50は、Glide画像で66.1%の精度で最も良く機能しますが、他の場合は一般化が悪いです。量子化特徴は、圧縮の強さとジェネレータの種類全体で良好な一般化を示しています。

‘量子化後に0に丸められた係数の重要性は、トランケート機能の非常に優れたパフォーマンスに示されています。これは、多くの場合、ResNet50分類器と比較して同じレベルのパフォーマンスを示しています。

‘しかし、量子化特徴が使用するフル整数ベクトルは、依然として著しく優れています。結果は、量子化後に0になる量が、AI圧縮画像とAI生成画像を区別するための重要なヒントであることを確認しています。

‘しかし、それでも他の要因が貢献していることを示しています。JPEG AIの検出の場合、すべてのビットレートでフルベクトルの精度は91.0%を超えています。強い圧縮は、高い精度につながります。’

UMAPを使用した特徴空間の投影は、JPEG AIと合成画像の間の明確な分離を示しています。低ビットレートでは、クラス間の距離が増加します。

量子化特徴に基づく、JPEG AI圧縮画像と合成画像の2次元UMAP視覚化。左のプロットは、低ビットレートのJPEG AIが合成画像からより大きな分離を生み出すことを示しています。右のプロットは、さまざまなジェネレーターの画像が特徴空間内でどのように異なったクラスタを形成するかを示しています。

量子化特徴に基づく、JPEG AI圧縮画像と合成画像の2次元UMAP視覚化。

最後に、著者は、量子化特徴が、一般的なポストプロセッシング(たとえば、JPEGの再圧縮または画像のダウンサンプリング)に耐性があるかどうかを評価しました。パフォーマンスは、処理が重くなると低下しましたが、低下は緩やかでした。

量子化特徴のロバスト性を、ポストプロセッシング(JPEGの再圧縮と画像のリサイズ)に対して評価します。

量子化特徴のロバスト性を、ポストプロセッシング(JPEGの再圧縮と画像のリサイズ)に対して評価します。

結論

JPEG AIが広く採用される可能性は保証されていません。インフラストラクチャの負債が新しいコーデックの採用を妨げる可能性があるからです。AV1のような優れたコーデックでさえ、長期にわたる既存の方法を排除するのは難しいです。

JPEG AIとAIジェネレーターのシステムとの潜在的な衝突に関しては、現在のAI画像検出器に役立つ特徴的な量子化アーティファクトは、将来のシステムでは減少したり置き換えられたりする可能性があります(AIジェネレーターが常に法医学的痕跡を残すという仮定は、必ずしも正しくない)。

これは、JPEG AIの独自の量子化特性、および新しい論文で特定された他のヒントが、将来の最も効果的なAI生成システムの法医学的痕跡と衝突しない可能性があることを意味します。

ただし、JPEG AIが実と合成の境界を大きくぼかす「AIウォッシュ」として機能し続ける場合、採用を主張するには難しいでしょう。

 

2025年4月8日火曜日に初めて公開されました

機械学習に関するライター、ヒューマンイメージシンセシスのドメインスペシャリスト。Metaphysic.aiの研究コンテンツ責任者を務めた。