Artificial Intelligence

CNN ベースの画像サイズ変更による機械学習のパフォーマンスの向上

更新中 on 2022 年 12 月 9 日

Google Research は、データセット内の画像を前処理段階で縮小する方法を改善することで、画像ベースのコンピュータービジョントレーニングワークフローの効率と精度を向上させる新しい方法を提案しました。

紙 コンピュータービジョンタスク用に画像のサイズを変更する方法を学ぶ研究者の Hossein Talebi と Peyman Milanfar は、CNN を利用して新しいハイブリッド画像サイズ変更アーキテクチャを作成し、XNUMX つの一般的なコンピュータービジョンデータセットで得られた認識結果に顕著な改善をもたらしました。

認識とサイズ変更のための提案された共同フレームワーク。 出典：https://arxiv.org/pdf/2103.09950.pdf

この論文では、現在自動化された機械学習パイプラインで使用されている再スケーリング/サイズ変更方法は数十年時代遅れであり、基本的な双線形、双三次、最近傍法のみが頻繁に使用されていることが観察されています。サイズ変更 – すべてのピクセルを無差別に扱うメソッド。

対照的に、提案された方法は CNN を介して画像データを拡張し、その入力を最終的にモデルのアーキテクチャを通過するサイズ変更された画像に組み込みます。

AI トレーニングにおける画像の制約

画像を扱うモデルをトレーニングするために、機械学習フレームワークには前処理段階が含まれます。そこでは、さまざまなサイズ、色空間、解像度（トレーニングデータセットに寄与する）のさまざまな画像が体系的に切り取られ、一貫した寸法と安定した単一フォーマットにサイズ変更されます。

一般に、これには PNG 形式に基づいたある程度の妥協が必要となり、処理時間/リソース、ファイルサイズ、画質の間のトレードオフが確立されます。

ほとんどの場合、処理された画像の最終的なサイズは非常に小さくなります。以下に、初期のディープフェイクデータセットの一部が使用された 80×80 解像度の画像の例を示します。生成されました:

これは、初期のディープフェイクデータセットの一部が生成された 80x80 の解像度です。

顔 (およびその他の対象となる可能性のあるもの) が必要な正方形の比率に収まることはほとんどないため、画像を均質化するために黒いバーを追加する必要がある場合があります (または無駄なスペースは許容されます)。これにより、実際に使用できる画像データがさらに削減されます。

ここでは、顔領域全体を含めるためにできるだけ経済的にトリミングされるまで、より大きな画像領域から顔が抽出されています。ただし、左側に見られるように、残りの領域の大部分はトレーニング中に使用されず、サイズ変更されたデータの画質の重要性がさらに高まります。

ここでは、顔領域全体を含めるためにできるだけ経済的にトリミングされるまで、より大きな画像領域から顔が抽出されています。ただし、右側に見られるように、残りの領域の大部分はトレーニング中に使用されず、サイズ変更されたデータの画質の重要性がさらに高まります。

近年 GPU の機能が向上し、新世代の NVIDIA カードには以下の機能が搭載されています。増加する金額ビデオ RAM (VRAM) の増加に伴い、寄与する画像の平均サイズは増加し始めていますが、224×224 ピクセルは依然としてかなり標準的です (たとえば、これはレスネット-50 データセット）。

サイズ変更されていない 224×244 ピクセルの画像。

VRAM へのバッチのフィッティング

画像がすべて同じサイズでなければならない理由は次のとおりです。勾配降下、時間の経過とともにモデルを改善する方法では、均一なトレーニングデータが必要です。

画像を非常に小さくする必要がある理由は、トレーニング中に小さなバッチ (通常はバッチあたり 6 ～ 24 枚の画像) でトレーニング中に VRAM にロード (完全に解凍) する必要があるためです。バッチあたりの画像が少なすぎるため、トレーニング時間が長くなるだけでなく、うまく一般化するのに十分なグループ資料がありません。多すぎると、モデルが必要な特性と詳細を取得できない可能性があります (下記を参照)。

トレーニングアーキテクチャのこの「ライブロード」セクションは、潜在空間。ここでは、後で同様のタイプの未確認のデータに対して変換を実行するために必要な一般化された知識をすべて備えた状態にモデルが収束するまで、同じデータ (つまり、同じ画像) から特徴が繰り返し抽出されます。

このプロセスには通常は数日かかりますが、有益な一般化を達成するには、24 時間 7 日、年中無休で絶え間なく大量の思考を続けると XNUMX か月以上かかる場合もあります。 VRAM サイズの増加は、ある程度までしか役に立ちません。画像解像度のわずかな増加であっても、処理能力に桁違いの影響を及ぼし、それに関連して精度に必ずしも有利とは限らない影響を与える可能性があるからです。

より大きなバッチサイズに対応するためにより大きな VRAM 容量を使用することも、これによって得られるトレーニング速度の向上につながるため、良い面もあります。相殺される可能性が高い結果の精度が低くなります。

したがって、トレーニングアーキテクチャには非常に制約があるため、パイプラインの既存の制限内で改善に影響を与えることができるものはすべて注目すべき成果となります。

優れたダウンサイジングがどのように役立つか

トレーニングデータセットに含まれる画像の究極の品質は、特にトレーニングの結果に改善効果をもたらすことが証明されています。物体認識タスクで。 2018年、マックス・プランク知能システム研究所の研究者ら競合するリサンプリング方法の選択は、トレーニングのパフォーマンスと結果に特に影響を与えるということです。

さらに、Google の以前の研究 (新しい論文の著者が共著) では、次の方法で分類の精度を向上できることがわかっています。コントロールを維持するデータセット画像内の過剰圧縮アーティファクト。

Google Research の CNN アーキテクチャは、ダウンサンプリングアルゴリズムを提案しました。

新しいリサンプラーに組み込まれた CNN モデルは、バイリニアサイズ変更と、トレーニングされたネットワークからの出力をサイズ変更された画像に組み込むことができる「スキップ接続」機能を組み合わせています。

一般的なエンコーダ/デコーダアーキテクチャとは異なり、新しい提案はフィードフォワードボトルネックとして機能するだけでなく、任意のターゲットサイズやアスペクト比にアップスケーリングするための逆ボトルネックとしても機能する可能性があります。さらに、「標準」リサンプリング方法は、次のような他の適切な従来の方法に置き換えることができます。ランチョス.

高周波の詳細

新しい方法では、実質的に主要な特徴 (最終的にはトレーニングプロセスによって認識される) をソース画像に直接「焼き付けた」ように見える画像が生成されます。美的観点から見ると、その結果は型破りなものです。

2 つのネットワークに適用される新しい方法 – Inception V121。デンスネット-50; レスネット-2; そしてMobileNet-VXNUMX。 Google Research の画像ダウンサンプリング/サイズ変更手法の結果は、トレーニングプロセス中に識別される主要な特徴を予測して、明らかなピクセル集合を持つ画像を生成します。

研究者らは、これらの初期実験は画像認識タスク専用に最適化されており、テストではCNNを利用した「学習型リサイザー」がそのようなタスクでエラー率の改善を達成できたと指摘している。研究者らは将来、この方法を他のタイプの画像ベースのコンピュータビジョンアプリケーションに適用する予定である。