‘劣化’ 合成顔が顔認識の精度向上に貢献する可能性
ミシガン州立大学の研究者は、ディープフェイクのシーンから一時離れて、顔認識システムの精度向上に貢献するために合成顔が役立つ方法を開発しました。新しく開発されたコントロール可能な顔合成モジュール(CFSM)は、有名人の画像を使用した一般的なオープンソースデータセットではなく、実際の監視カメラの映像に近い質の合成顔画像を生成することができます。実際の監視カメラの映像には、顔のぼけ、低解像度、センサノイズなどの欠点があり、これらは認識精度に影響を与える要因です。CFSMは、ディープフェイクシステムの目的である頭部のポーズ、表情、またはその他の特徴を正確にシミュレートすることを目的としていません。代わりに、ターゲット認識システムのスタイルに合わせて、様々な代替視点を生成するために、スタイル転送を使用します。システムは、ターゲットシステムのスタイルドメインを模倣し、解像度や「特異性」の範囲に応じて出力を適応させるように設計されています。使用例には、コストの問題でアップグレードされることがないため、新しい顔認識技術に貢献できないレガシーシステムが含まれます。現在、これらのシステムは、低品質の出力のため、貢献度が低くなっています。システムをテストした研究者は、低品質なデータを扱う画像認識システムの現状を大幅に上回る成果を得たことが分かりました。さらに、プロセスの有用な副産物が見つかったことにも気づきました。ターゲットデータセットを特徴づけ、比較することができるようになり、さまざまなCCTVシステム用のカスタムデータセットの生成やベンチマークテストが容易になりました。さらに、この方法は既存のデータセットに適用でき、事実上のドメイン適応を実行し、顔認識システムに適したものにできます。新しい論文は、制御可能な顔合成と顔認識のためのガイドというタイトルで、USオフィスの国立情報局(ODNI、IARPA)の支援を受けています。ミシガン州立大学のコンピュータサイエンスおよびエンジニアリング学部の4人の研究者によるものです。特集コンテンツ低品質顔認識(LQFR)は、過去数年で注目される研究分野になりました。市民や自治体の当局者は、ビデオ監視システムを耐久性と長期的な使用を意図して構築したため、多くのレガシーの監視ネットワークは、機械学習のデータソースとしての適応性の点で技術的負債の被害者になりました。幸いなことに、これは、拡散モデルやその他のノイズベースのモデルが解決するのに特に適しているタスクです。最近の最も人気のある画像合成システムは、パイプラインの一部として低解像度画像のアップスケーリングを実行します。これは、ニューラル圧縮技術(画像や動画をビットマップデータではなくニューラルデータとして保存する方法)にも不可欠です。顔認識の課題は、最小限の特徴から最大の精度を得ることです。最小限の特徴とは、最小の低解像度画像から抽出できるものです。これは、低解像度の画像から顔を識別できることの便利性だけでなく、モデルを訓練するために使用可能なVRAMのサイズに関する技術的制限もあります。この意味で、「特徴」という用語は混乱を招きます。特徴は、公園のベンチのデータセットからも取得できます。コンピュータビジョンの分野では、「特徴」とは、画像から取得される区別特性を指します。教会の線条、山、または顔データセットの顔の特徴の配置など、任意の画像から得られるものです。コンピュータビジョンのアルゴリズムは現在、画像やビデオのアップスケーリングを実行することができるため、さまざまな方法が提案されています。低解像度や劣化したレガシーの監視映像を「強化」するために、法的な目的、たとえば犯罪捜査に関連して特定の人物を特定のシーンに配置するために、使用することができます。誤同定の可能性のほか、理論的には、個人の同定を行うために、低解像度の映像をハイパーレゾルーション化または変換する必要はありません。顔認識システムは低レベルの特徴に注目しているため、そのレベルの解像度や明晰さは必要ありません。さらに、変換は実践的には高コストであり、有効性や合法性に関する追加の疑問を引き起こします。必要なものは「低レベル」の有名人顔認識システムが、レガシーシステムの現在の状態から特徴を抽出できるようにすることがもっと役に立つでしょう。つまり、高解像度のアイデンティティと劣化した画像の関係をよりよく理解する必要があります。ここでの問題は、標準の問題です。一般的なWebから収集されたデータセット、たとえば、MS-Celeb-1MやWebFace260M(他のいくつかあります)には、研究コミュニティによって採用されています。なぜなら、これらは、研究者が現在の最先端と比較して進歩を測定するための一貫したベンチマークを提供するからです。しかし、著者は、顔認識(FR)アルゴリズムがこれらのデータセットで訓練されたものは、多くの古い監視システムの出力の「ドメイン」に適していないと主張しています。論文には以下のように記載されています:‘(最先端)FRモデルは、リアルワールドの監視画像(制約なし)でうまく機能しません。なぜなら、大規模なトレーニングデータセット(半制約)が、Webクロールされた有名人の顔から得られ、野外での変化(固有のセンサノイズ、低解像度、モーションブルー、乱流効果など)が欠けているためです。 ‘‘たとえば、最先端モデルの1:1検証精度は、制約なしのIJB-Sデータセットで約30%低くなります。 ‘‘このようなパフォーマンスギャップの潜在的な解決策は、制約なしの顔データセットを構築することです。しかし、数万人の被写体を含むようなデータセットを構築することは、高い手作業によるラベル付けコストのため、非常に難しいことです。 ‘論文では、過去に監視システムの出力のさまざまなタイプを「マッチ」するために試みられたさまざまな方法について説明しています。しかし、これらの方法は「盲目的な」増幅を扱っていたことを指摘しています。一方、CFSMは、訓練中にターゲットシステムの実際の出力から直接のフィードバックを受け取り、スタイル転送を介してそのドメインを模倣することにより自己を適応させます。著者らは、Fast Gradient Sign Method(FGSM)を使用して、ターゲットシステムの実際の出力から取得されたスタイルや特徴を個別化し、「インポート」します。画像生成のパイプライン部分は、訓練によって改善され、ターゲットシステムに忠実になります。このターゲットシステムの低次元スタイル空間からのフィードバックは、低レベルな性質であり、最も広い派生視覚記述に対応しています。著者らは以下のように述べています:‘FRモデルからのフィードバックにより、合成画像はFRのパフォーマンスにさらに役立ち、FRモデルが訓練される能力が大幅に改善されます。 ‘テスト研究者は、MSUの以前の研究をテストのテンプレートとして使用しました。同じ実験プロトコルに基づいて、Webから収集された有名人の写真のみで構成されるMS-Celeb-1mをラベル付き訓練データセットとして使用しました。公平性のため、85,700クラスの3,900万画像を含むMS1M-V2も含めました。ターゲットデータは、香港中文大学のWiderFaceデータセットでした。これは、課題的な状況での顔検出タスク用に設計された画像の多様なセットです。このセットから7万枚の画像を使用しました。評価のために、システムは4つの顔認識ベンチマークに対してテストされました:IJB-B、IJB-C、IJB-S、TinyFace。CFSMは、MS-Celeb-1mの約10%の訓練データ、約40万枚の画像で訓練されました。125,000回のイテレーションで、バッチサイズ32、Adamオプティマイザ、学習率1e-4で訓練されました。ターゲット顔認識モデルは、バックボーンにResNet-50の改良版を使用し、訓練中にArcFace損失関数を有効にしました。さらに、CFSMを使用して比較検証を行うために、別のモデルを訓練しました(結果テーブルでは「ArcFace」と表記)。著者らは、主な結果について以下のように述べています:‘ArcFaceモデルは、顔識別と検証タスクの両方でベースラインを上回り、新しい最先端のパフォーマンスを達成します。 ‘レガシーシステムや低スペックの監視システムの特徴を抽出する能力も、著者らがこれらのフレームワーク間の分布の類似性を評価および比較することを可能にし、将来の研究で利用できる視覚的なスタイルでそれらを表現することができます。著者らはさらに以下のように述べています:‘(CFSM)は、攻撃者としてではなく、視覚タスクの認識精度を向上させるために、攻撃的操作が役立つことを示しています。さらに、ラベルや予測子に依存しない方法で、スタイルの違いを捉えるスタイルベースを基づいたデータセットの類似性メトリックを定義しています。 ‘‘私たちは、制約なしの顔認識のためのコントロール可能なガイド付き顔合成モデルの力と、データセットの違いに対する理解を示したと信じています。 ‘ * 著者のインライン引用をハイパーリンクに変換しました。初めて公開されたのは2022年8月1日です。