人工知能
ディズニー研究所、AIを用いた画像圧縮技術を向上させる – ただし、詳細を「妄想」する可能性も

ディズニーの研究部門は、Stable Diffusion V1.2モデルを利用した新しい画像圧縮方法を提供しています。この方法は、競合する方法よりも低ビットレートでよりリアルな画像を生成できるというものです。

ディズニーの圧縮方法と以前のアプローチの比較。著者らは、詳細の回復の改善と、数十万ドル相当のトレーニングを必要とせず、また最も近い競合方法よりも高速に動作するモデルを提供することを主張しています。ソース: https://studios.disneyresearch.com/app/uploads/2024/09/Lossy-Image-Compression-with-Foundation-Diffusion-Models-Paper.pdf
新しいアプローチ(従来のコーデックよりも複雑ですが、従来のコーデックとは異なります)は、任意のLatent Diffusion Model(LDM)上で動作できます。量的テストでは、精度と詳細性の点で以前の方法を上回り、トレーニングと計算コストを大幅に削減しました。
新しい研究の重要な洞察は、量子化誤差(すべての画像圧縮での中央プロセス)がノイズ(拡散モデルでの中央プロセス)に似ているということです。
したがって、従来の量子化画像は、ランダムノイズの代わりに、目的のビットレートで画像を再構築するために、LDMのノイズ除去プロセスで使用できます。

新しいディズニーメソッド(緑で強調表示)の、ライバルアプローチとの比較。
著者らは主張します:
‘[私たちは] 量子化誤差の除去をノイズ除去タスクとして形式化し、拡散を使用して送信された画像潜在的な損失情報を回復します。私たちのアプローチにより、完全な拡散生成プロセスの10%未満を実行でき、拡散モデルへのアーキテクチャの変更は不要であり、追加のファインチューニングなしでバックボーンを使用できます。 ‘
‘私たちの提案したコーデックは、以前の方法よりも量的リアリズムメトリックで優れており、他の方法が2倍のビットレートを使用する場合でも、ユーザーが私たちの再構築を好むことを確認しました。 ‘
しかし、拡散モデルを利用して圧縮能力を利用しようとする他のプロジェクトと同様に、出力は詳細を「妄想」する可能性があります。対照的に、JPEGなどのロスィ方法は、明らかに歪んだまたは過度に平滑化された詳細領域を生成しますが、これは圧縮の限界として一般的なビューアーによって認識できます。
代わりに、ディズニーのコーデックは、元の画像に存在しなかったコンテキストからの詳細を変更する可能性があります。これは、典型的なモデルで使用されるVariational Autoencoder(VAE)の粗い性質によるものです。
‘他の生成アプローチと同様に、私たちの方法は、受信側で類似の情報を合成しながら、特定の画像機能を破棄する可能性があります。特定の場合、しかし、これは不正確な再構築につながる可能性があります。たとえば、直線を曲げたり、小さなオブジェクトの境界を歪めたりします。 ‘
‘これらは、私たちが基礎として構築するモデルの既知の問題であり、VAEの比較的低い特徴次元に帰属できます。 ‘
これは、芸術的な表現やカジュアルな写真の真実性に影響を与える可能性がありますが、証拠として使用される画像の小さな詳細が重要な情報を構成する場合、たとえば法廷での証拠、顔認識のデータ、OCRのスキャンなど、さまざまな使用例でより深刻な影響を与える可能性があります。
AIを用いた画像圧縮の進歩のこの初期段階では、これらのシナリオはすべて遠い将来のものです。ただし、画像ストレージは、データストレージ、ストリーミング、電力消費など、さまざまな問題を抱えた世界的な課題です。したがって、AIを用いた圧縮は、精度とロジスティクスの間の魅力的なトレードオフを提供する可能性があります。歴史は、最良のコーデックが常に最も広いユーザーベースを獲得するわけではないことを示しています。ライセンスや独自形式の市場でのシェアなどの問題が採用に影響する場合があります。
ディズニーは長年にわたって、機械学習を圧縮方法として実験してきました。2020年には、新しい論文の1人の研究者が、改良されたビデオ圧縮のためにVAEベースのプロジェクトに参加していました。
新しいディズニーの論文は、10月初旬に更新されました。今日、同社は付随するYouTubeビデオを公開しました。プロジェクトは、Lossy Image Compression with Foundation Diffusion Modelsと題され、ディズニーのAIベースのプロジェクトと提携しているETHチューリッヒの4人の研究者によって行われました。研究者らは、付随する論文も提供しています。
方法
新しい方法では、VAEを使用して画像を圧縮された潜在的な表現にエンコードします。この段階では、入力画像は導出された特徴で構成されます。低レベルのベクトルベースの表現です。潜在的な埋め込みは、ビットストリームに量子化され、ピクセル空間に戻されます。
この量子化画像は、通常、拡散ベースの画像にシードするノイズのテンプレートとして使用されます。ノイズ除去ステップの数は変わります(ここでは、ノイズ除去ステップの増加と精度のトレードオフが存在します)。

新しいディズニーの圧縮方法のスキーマ。
量子化パラメータとノイズ除去ステップの合計数は、関連する変数を予測するニューラルネットワークをトレーニングすることで、制御できます。このプロセスは、適応量子化と呼ばれます。ディズニー システムでは、Entroformer フレームワークを使用して、エントロピー モデルを提供します。
著者らは述べています:
‘直感的には、私たちの方法は、拡散プロセス中に合成できる情報(量子化変換を介して)を破棄することを学習します。量子化中に導入されるエラーはノイズの追加に似ているため、拡散モデルはノイズ除去モデルとして機能し、コーディング中に導入された量子化ノイズを除去できます。 ‘
Stable Diffusion V2.1は、システムの拡散バックボーンです。コードとベースの重みが公開されているため選択されました。ただし、著者らは、スキーマがより広いモデルに適用可能であることを強調しています。
プロセスの経済性に重要なのは、タイムステップ予測です。これは、効率とパフォーマンスのバランスをとる最適なノイズ除去ステップの数を評価します。

タイムステップ予測、最適なノイズ除去ステップ数が赤い枠で示されています。ソースPDFに正確な解像度を参照してください。
潜在的な埋め込みのノイズの量を考慮する必要があります。
データとテスト
モデルは、Vimeo-90k データセットでトレーニングされました。画像は、各エポック(モデル トレーニング アーキテクチャによるデータセットの完全な摂取)ごとに、256x256px にランダムにトリミングされました。
モデルは、300,000 ステップで、学習率 1e-4 で最適化されました。これは、コンピュータ ビジョン プロジェクトで最も一般的で、一般的に実行可能な最低値です。データセットの概念と特徴の広い一般化と、詳細の再現の能力の間の妥協です。
著者らは、システムのロジスティックに関するいくつかの考慮事項についてコメントしています:
‘トレーニング中、DDIM サンプリング中に拡散モデルを複数回通過することによる勾配を逆伝播することは、コストが高すぎます。したがって、DDIM サンプリングの 1 つのイテレーションだけを実行し、直接完全にノイズ除去されたデータとして使用します。 ‘
テストに使用されたデータセットは、Kodak、CLIC2022、COCO 30k でした。データセットは、2023 年の Google オファー マルチリアリズム画像圧縮と条件付きジェネレーターで概説された方法論に従って事前に処理されました。
使用されたメトリックは、ピーク信号対ノイズ比(PSNR)、学習された感覚相似性メトリック(LPIPS)、マルチスケール構造類似性指数(MS-SSIM)、フレシェインセプション距離(FID)でした。
テストされたライバルフレームワークは、古いシステムと最近のオファーに分かれていました。古いシステムは、High-Fidelity Generative Image Compression(HiFiC)と、ILLM(HiFiCの改良版)でした。
拡散ベースのシステムは、Lossy Image Compression with Conditional Diffusion Models(CDC)と、High-Fidelity Image Compression with Score-based Generative Models(HFD)でした。

さまざまなデータセットを使用した、以前のフレームワークとの量的結果。
量的結果(上の図)について、研究者らは次のように述べています:
‘私たちの方法は、再構築された画像のリアリズムで新しい最良の成果を達成し、すべてのベースラインを上回ります。特定の歪みメトリック(LPIPSとMS-SSIM)では、すべての拡散ベースのコーデックを上回り、最も高性能な生成コーデックと競合しています。 ‘
‘予想通り、私たちの方法と他の生成方法は、PSNRで測定される場合に苦労します。私たちは、詳細の正確な複製よりも、知覚的に魅力的な再構築を優先します。 ‘
ユーザー研究では、2つの選択肢の強制選択(2AFC)方法が、トーナメント形式で使用されました。優れた画像は、後のラウンドに進みました。研究では、Elo レーティング システムが使用されました。これは、もともとチェス トーナメント用に開発されました。
したがって、参加者は、さまざまな生成方法を使用して、512x512px の画像を表示して選択します。さらに、すべての画像比較が同じユーザーから行われた場合に、モンテカルロ シミュレーションを使用して、10,000 回のイテレーションで中央値スコアを提示する別の実験が行われました。

ユーザー研究の推定Eloレーティング。比較ごとのEloトーナメント(左)と、各参加者ごとのEloレーティング(右)を示しています。値が高いほど優れています。
ここで、著者らは次のように述べています:
‘Eloスコアから明らかなように、私たちの方法は、他のすべての方法を大幅に上回っています。私たちの方法は、CDCと比較して平均で2倍のビットを使用します。Eloトーナメント戦略に関係なく、これは真実です。 ‘
元の論文および付随するPDFでは、さらに視覚的な比較が提供されています。これらの結果を公平に判断するために、ソースPDFを参照することをお勧めします。
論文は、提案された方法が、ライバルであるCDCよりも2倍速く動作する(3.49秒対6.87秒)ことを観察して終了します。さらに、ILLMは0.27秒で画像を処理できますが、このシステムでは厳しいトレーニングが必要であると述べています。
結論
ETH/ディズニーの研究者は、論文の結論で、システムが偽の詳細を生成する可能性について明確です。ただし、提供されたサンプルはこの問題に触れていません。
公平性を保つために、この問題はディズニーの新しいアプローチに限定されていません。拡散モデルを使用して画像を圧縮することの、避けられない結果です。
興味深いことに、5日前に、ETHチューリッヒの別の2人の研究者が、論文を発表しました。論文のタイトルは、Image Compressionのための条件付き妄想です。この論文では、AIベースの圧縮システムにおける「妄想」の最適レベルの可能性について検討しています。
著者らは、ドメインが汎用的(そして、議論の余地がない)場合、妄想が望ましいと主張しています:
‘テクスチャのようなコンテンツ(草、そばかす、石の壁など)の場合、特定のテクスチャに合うリアルなピクセルを生成することは、詳細を正確に複製するよりも重要です。テクスチャの分布から任意のサンプルを生成することは、一般的に十分です。 ‘
したがって、この2番目の論文では、圧縮が「創造的」で表現的であることを主張しています。元の非圧縮画像の核心的な特徴と特性を可能な限り正確に再現するのではなく、汎用的なコンテンツの場合です。
写真や創造的なコミュニティがこの「圧縮」の再定義を受け入れるかどうかは、誰にもわかりません。
*著者らのインライン引用をハイパーリンクに変換しました。
2024年10月30日(水曜日)に初めて公開されました。












