‘劣化’ 合成顔は、顔認識の精度を向上させるのに役立つかもしれない
ミシガン州立大学の研究者は、ディープフェイクのシーンから一時的に離れて、顔認識システムの精度を向上させるのに役立つように、合成顔の新しい方法を開発しました。新しく開発された制御可能な顔合成モジュール(CFSM)は、有名人の画像を使用する一般的なオープンソースデータセットではなく、リアルワールドのビデオ監視映像のスタイルで顔の再生成が可能です。CFSMは、顔認識システムの精度を向上させるために、低解像度、モーションブルー、ノイズなどの要因を考慮して、合成顔の生成を可能にします。CFSMは、ディープフェイクシステムの通常の目的である頭部のポーズ、表情、またはその他の特徴を正確にシミュレートすることを目的としていません。代わりに、スタイル転送を使用して、ターゲット認識システムのスタイルで、代替ビューの範囲を生成します。システムは、ターゲットシステムのスタイルドメインを模倣し、出力の解像度と「特異性」の範囲に応じて出力を適応させるように設計されています。ユースケースには、コストの問題でアップグレードされない可能性のあるレガシーシステムが含まれますが、現在、低品質の出力のため、新しい顔認識テクノロジーに貢献することができません。システムをテストした結果、研究者は、ノイズや低解像度のデータを扱う画像認識システムの精度が著しく向上したことを発見しました。さらに、プロセスの有用な副産物として、ターゲットデータセットを特徴づけ、比較することができるようになり、さまざまなCCTVシステム用のカスタムデータセットの生成が容易になります。さらに、この方法は既存のデータセットに適用でき、事実上のドメイン適応を実行し、顔認識システムに適したものにできます。新しい論文は、制御可能な顔合成とガイド付き顔認識と題され、US Office of the Director of National Intelligence(ODNI、IARPA)の支援を受けています。ミシガン州立大学のコンピュータサイエンスおよびエンジニアリング学部の4人の研究者によるものです。特集コンテンツ低品質顔認識(LQFR)は、近年、注目される研究分野となりました。市民や自治体の当局者は、ビデオ監視システムを耐久性と長期的な使用を目的として構築しましたが、多くのレガシーの監視ネットワークは、機械学習のデータソースとしての適応性の点で技術的負債の被害を受けています。幸いなことに、このタスクは、拡散モデルやその他のノイズベースのモデルが解決するのに特に適しています。最近の画像合成システムの多くは、パイプラインの一部として低解像度画像のアップスケーリングを実行します。また、ニューラル圧縮技術(画像や動画をニューラルデータとして保存する方法)にも不可欠です。顔認識の課題は、最小限の特徴から最大の精度を得ることです。特に、低解像度画像から特徴を抽出する必要があります。これは、技術的な制限や、モデルがトレーニングされるローカルGPUのVRAMのサイズの制限もあります。この意味で、「特徴」という用語は混乱を招きます。特徴は、パークベンチのデータセットからも得られる可能性があります。コンピュータビジョン分野では、「特徴」とは、画像から得られる区別特性を指します。教会の線条、山、または顔データセットの顔の特徴の配置など、任意の画像から得られるものです。コンピュータビジョンのアルゴリズムは現在、画像やビデオのアップスケーリングを実行することができるため、さまざまな方法が提案されています。レガシーの監視資料を「強化」するために、法的目的(たとえば、犯罪捜査における特定の人物の特定)で使用できる可能性があります。誤同定の可能性の他に、理論的には、個人の同定を行うために、低解像度の映像をハイパーレゾルーション化または変換する必要はありません。顔認識システムは、低レベルの特徴に注目しているため、そのレベルの解像度や明晰さは必要ありません。さらに、変換は実践的には高価であり、有効性や合法性に関する追加の疑問を引き起こします。より「貧弱」な有名人の必要性顔認識システムが、レガシーシステムの出力のまま、人間の特徴(特徴)の特徴を導き出すことができると役立つでしょう。高解像度のアイデンティティと低解像度画像の関係をよりよく理解する必要があります。問題は、標準の問題です。一般的なWeb収集データセット(MS-Celeb-1MやWebFace260Mなど)は、研究コミュニティによって採用されています。なぜなら、これらは研究者が現在の最先端技術と比較して進歩を測定するためのベンチマークを提供するからです。しかし、著者は、MS-Celeb-1mなどのデータセットでトレーニングされた顔認識(FR)アルゴリズムは、多くの古い監視システムの視覚的な「ドメイン」に適していないと主張しています。論文には以下のように記載されています:‘(最先端の)FRモデルは、リアルワールドの監視画像(制限なし)でうまく機能しません。なぜなら、Webクロールされた有名人の顔から得られる大規模なトレーニングデータセット(半制限付き)には、ノイズ、低解像度、モーションブルー、乱流効果などの「野外」変化が欠けているからです。 ‘‘たとえば、最先端のモデルの1:1検証精度は、制限なしのIJB-Sデータセットで約30%低くなります。 ‘‘このようなパフォーマンスギャップの潜在的な解決策は、制限なしの顔データセットを大規模に作成することです。しかし、数万人の被写体を含むようなトレーニングデータセットを構築することは、高い手動ラベリングコストのため、非常に困難です。 ‘著者は、さまざまな歴史的または低コストの監視システムの出力のバラエティに「適応」することを試みた以前の方法について説明しています。しかし、これらの方法は「盲目的な」増強を扱ったものでした。一方、CFSMは、トレーニング中にターゲットシステムの実際の出力から直接のフィードバックを受け取り、スタイル転送を介してそのドメインを模倣して適応します。著者は、Fast Gradient Sign Method(FGSM)を使用して、ターゲットシステムの実際の出力から得られたスタイルと特徴を個別化し、「インポート」します。画像生成のパイプライン部分は、トレーニングによって改善され、ターゲットシステムに忠実になります。このターゲットシステムの低次元スタイル空間からのフィードバックは、低レベルなものであり、最も広い派生視覚記述に相当します。著者は以下のように述べています:‘FRモデルからのフィードバックにより、合成画像はFRのパフォーマンスに有益であり、FRモデルに大幅に改善された汎化能力をもたらします。 ‘テスト研究者は、MSUの以前の研究をテストのテンプレートとして使用しました。同じ実験プロトコルに基づいて、MS-Celeb-1mをラベル付きトレーニングデータセットとして使用しました。公平性のため、3,900万枚の画像と85,700クラスを含むMS1M-V2も含めました。ターゲットデータは、香港中文大学のWiderFaceデータセットでした。これは、課題的な状況での顔検出タスク用に設計された、特に多様な画像のセットです。このセットから70,000枚の画像を使用しました。評価のために、システムは4つの顔認識ベンチマークに対してテストされました:IJB-B、IJB-C、IJB-S、TinyFace。CFSMは、MS-Celeb-1mの約10%のトレーニングデータ(約400万枚の画像)でトレーニングされ、125,000回のイテレーションでバッチサイズ32、Adamオプティマイザ、学習率1e-4でトレーニングされました。ターゲットの顔認識モデルは、バックボーンにResNet-50の改変を使用し、トレーニング中にArcFace損失関数を有効にしました。さらに、CFSMを使用したモデルも、削除と比較のための実験としてトレーニングされました(結果テーブルでは「ArcFace」と表記)。著者は、主な結果について以下のように述べています:‘ArcFaceモデルは、顔認識と検証タスクの両方でベースラインを上回り、新しい最先端のパフォーマンスを達成します。 ‘ターゲットシステムのさまざまな特徴からドメインを抽出する能力も、著者がこれらのフレームワーク間の分布の類似性を比較および評価し、各システムを視覚的なスタイルで表現できるようにします。著者はさらに以下のように述べています:‘(CFSMは)攻撃者としてではなく、視覚タスクの認識精度を向上させるために、敵対的な操作が役立つ可能性を示しています。さらに、ラベルや予測子に依存しない方法で、スタイルベースを学習して、データセットの類似性メトリックを定義します。 ‘‘我々は、制御可能な顔合成モデルの力と、顔認識の理解を提供し、データセットの違いについての洞察を提供するものであると信じています。 ‘ * 著者のインライン引用をハイパーリンクに変換しました。初めて2022年8月1日に公開されました。