Artificial Intelligence
CNN ベースの画像サイズ変更による機械学習のパフォーマンスの向上
Google Research は、データセット内の画像を前処理段階で縮小する方法を改善することで、画像ベースのコンピューター ビジョン トレーニング ワークフローの効率と精度を向上させる新しい方法を提案しました。
紙 コンピュータービジョンタスク用に画像のサイズを変更する方法を学ぶ研究者の Hossein Talebi と Peyman Milanfar は、CNN を利用して新しいハイブリッド画像サイズ変更アーキテクチャを作成し、XNUMX つの一般的なコンピューター ビジョン データセットで得られた認識結果に顕著な改善をもたらしました。
この論文では、現在自動化された機械学習パイプラインで使用されている再スケーリング/サイズ変更方法は数十年時代遅れであり、基本的な双線形、双三次、最近傍法のみが頻繁に使用されていることが観察されています。 サイズ変更 – すべてのピクセルを無差別に扱うメソッド。
対照的に、提案された方法は CNN を介して画像データを拡張し、その入力を最終的にモデルのアーキテクチャを通過するサイズ変更された画像に組み込みます。
AI トレーニングにおける画像の制約
画像を扱うモデルをトレーニングするために、機械学習フレームワークには前処理段階が含まれます。そこでは、さまざまなサイズ、色空間、解像度(トレーニング データセットに寄与する)のさまざまな画像が体系的に切り取られ、一貫した寸法と安定した単一フォーマットにサイズ変更されます。
一般に、これには PNG 形式に基づいたある程度の妥協が必要となり、処理時間/リソース、ファイル サイズ、画質の間のトレードオフが確立されます。
ほとんどの場合、処理された画像の最終的なサイズは非常に小さくなります。以下に、初期のディープフェイク データセットの一部が使用された 80×80 解像度の画像の例を示します。 生成されました:
顔 (およびその他の対象となる可能性のあるもの) が必要な正方形の比率に収まることはほとんどないため、画像を均質化するために黒いバーを追加する必要がある場合があります (または無駄なスペースは許容されます)。これにより、実際に使用できる画像データがさらに削減されます。
近年 GPU の機能が向上し、新世代の NVIDIA カードには以下の機能が搭載されています。 増加する金額 ビデオ RAM (VRAM) の増加に伴い、寄与する画像の平均サイズは増加し始めていますが、224×224 ピクセルは依然としてかなり標準的です (たとえば、これは レスネット-50 データセット)。
VRAM へのバッチのフィッティング
画像がすべて同じサイズでなければならない理由は次のとおりです。 勾配降下、時間の経過とともにモデルを改善する方法では、均一なトレーニング データが必要です。
画像を非常に小さくする必要がある理由は、トレーニング中に小さなバッチ (通常はバッチあたり 6 ~ 24 枚の画像) でトレーニング中に VRAM にロード (完全に解凍) する必要があるためです。 バッチあたりの画像が少なすぎるため、トレーニング時間が長くなるだけでなく、うまく一般化するのに十分なグループ資料がありません。 多すぎると、モデルが必要な特性と詳細を取得できない可能性があります (下記を参照)。
トレーニング アーキテクチャのこの「ライブ ロード」セクションは、 潜在空間。 ここでは、後で同様のタイプの未確認のデータに対して変換を実行するために必要な一般化された知識をすべて備えた状態にモデルが収束するまで、同じデータ (つまり、同じ画像) から特徴が繰り返し抽出されます。
このプロセスには通常は数日かかりますが、有益な一般化を達成するには、24 時間 7 日、年中無休で絶え間なく大量の思考を続けると XNUMX か月以上かかる場合もあります。 VRAM サイズの増加は、ある程度までしか役に立ちません。画像解像度のわずかな増加であっても、処理能力に桁違いの影響を及ぼし、それに関連して精度に必ずしも有利とは限らない影響を与える可能性があるからです。
より大きなバッチ サイズに対応するためにより大きな VRAM 容量を使用することも、これによって得られるトレーニング速度の向上につながるため、良い面もあります。 相殺される可能性が高い 結果の精度が低くなります。
したがって、トレーニング アーキテクチャには非常に制約があるため、パイプラインの既存の制限内で改善に影響を与えることができるものはすべて注目すべき成果となります。
優れたダウンサイジングがどのように役立つか
トレーニング データセットに含まれる画像の究極の品質は、特にトレーニングの結果に改善効果をもたらすことが証明されています。 物体認識タスクで。 2018年、マックス・プランク知能システム研究所の研究者ら 競合する リサンプリング方法の選択は、トレーニングのパフォーマンスと結果に特に影響を与えるということです。
さらに、Google の以前の研究 (新しい論文の著者が共著) では、次の方法で分類の精度を向上できることがわかっています。 コントロールを維持する データセット画像内の過剰圧縮アーティファクト。
新しいリサンプラーに組み込まれた CNN モデルは、バイリニア サイズ変更と、トレーニングされたネットワークからの出力をサイズ変更された画像に組み込むことができる「スキップ接続」機能を組み合わせています。
一般的なエンコーダ/デコーダ アーキテクチャとは異なり、新しい提案はフィードフォワード ボトルネックとして機能するだけでなく、任意のターゲット サイズやアスペクト比にアップスケーリングするための逆ボトルネックとしても機能する可能性があります。 さらに、「標準」リサンプリング方法は、次のような他の適切な従来の方法に置き換えることができます。 ランチョス.
高周波の詳細
新しい方法では、実質的に主要な特徴 (最終的にはトレーニング プロセスによって認識される) をソース画像に直接「焼き付けた」ように見える画像が生成されます。 美的観点から見ると、その結果は型破りなものです。
研究者らは、これらの初期実験は画像認識タスク専用に最適化されており、テストではCNNを利用した「学習型リサイザー」がそのようなタスクでエラー率の改善を達成できたと指摘している。 研究者らは将来、この方法を他のタイプの画像ベースのコンピュータビジョンアプリケーションに適用する予定である。