スタブ JPEG圧縮により、白人以外の顔の顔認識エラー率が増加することが研究で判明 - Unite.AI
私達と接続

Artificial Intelligence

JPEG圧縮により、白人以外の顔の顔認識エラー率が増加することが研究で判明

mm
更新中 on
メイン画像:DALL-E 2.
メイン画像:DALL-E 2.

英国で行われた新しい研究では、JPEG 画像の非可逆圧縮技術が顔認識システムの有効性に悪影響を及ぼし、そのようなシステムが白人以外の人物を誤って識別する可能性が高くなる可能性があると結論付けています。

論文は次のように述べています。

「広範な実験設定を通じて、一般的な非可逆画像圧縮アプローチが、肌の色が濃いなどの特定の人種表現型カテゴリの顔認識パフォーマンスに、より顕著な悪影響を与えることを実証しました(最大 34.55%)。」

結果は次のことも示しています クロマサブサンプリング、顔画像のセクション全体で色情報 (明るさ情報ではなく) を減らすと、テストされたデータセットの範囲全体で誤一致率 (FMR) が増加します。その多くはコンピューター ビジョンの標準リポジトリです。

ソース イメージに対するさまざまなレートでのクロマ サブサンプリング操作は、ディテールが維持される程度、およびサブトーンが単純に互いに「ブレンド」され、ディテールが犠牲になって特徴が決まる程度に明確な影響を与えます。 この画像自体が圧縮される可能性があることに注意してください。正確な解像度についてはソース文書を参照してください。 出典: https://arxiv.org/pdf/2208.07613.pdf

ソース イメージに対するさまざまなレートでのクロマ サブサンプリング操作は、ディテールが維持される程度、およびサブトーンが単純に互いに「ブレンド」され、ディテールが犠牲になって特徴が決まる程度に明確な影響を与えます。 この画像自体が圧縮される可能性があることに注意してください。正確な解像度についてはソース論文を参照してください。。 出典: https://arxiv.org/pdf/2208.07613.pdf

クロマ サブサンプリングは、JPEG 圧縮における追加の経済対策として適用されます。これは、人間がこれらの「集合」を私たちよりも文字通りに解釈するコンピュータ ビジョン システムに比べて、カラー バンドの複雑さと範囲の減少を認識することが難しいためです。

新しい研究の研究者らは、圧縮プロセスからクロマ サブサンプリングを削除すると、問題を完全に取り除くわけではないものの、この悪影響が最大 15.95% 軽減されることを発見しました。

この研究では、非圧縮 (またはそれほど圧縮されていない) データでのトレーニングは、 推論時の画像が圧縮されている場合、問題は解決されます。 これは事実上、最終製品モデルに指定された圧縮問題のある画像が供給された場合、圧縮率の低い画像で顔認識モデルをトレーニングしてもバイアスは解決されないことを意味します。

著者らは次のように報告しています*:

「推論中に非可逆画像圧縮を使用すると、現代のコンピュータのパフォーマンスに悪影響を及ぼします」 顔認識アプローチ 人種に関連した顔の表現型グループ化(つまり、肌の色が濃い、一重まぶたの目の形)のサブセットについて、そしてその効果は、圧縮画像がモデルのトレーニングに使用されるかどうかに関係なく存在するということです。」

この論文は、画像圧縮がコンピュータ ビジョンの研究分野に与える影響を強調しています。これについては、次の文書で詳しく説明されています。 2021研究 メリーランド大学と Facebook AI の博士号を取得しています。

イッツ 解決するのが難しい問題; たとえ圧縮を必要とするストレージと帯域幅の問題が一夜にして解消されたとしても、また、この分野の XNUMX 年以上のデータセットに含まれるすべての低品質画像が高品質のソースから突然より良いレートで再圧縮されたとしても、これは、過去数十年にわたる学術ベンチマークツールの継続性の「リセット」を表しています。 CV コミュニティには実質的に次のような効果があります。 慣れる 問題が深刻な技術的負債に至るまで。

人種 バイアス 顔認識(FR)では になる a 注目のメディアトピック 近年では、影響を受けるシステムからこのウイルスを排除するための研究コミュニティの協調的な取り組みが促されています。 しかし、世界的な研究機関への依存は、 過度に制限されている 「ゴールドスタンダード」データセットの数。その多くは次のいずれかです。 人種的にバランスが取れていない or 不適切にラベル付けされている この点で、課題はさらに悪化します。

新しい論文の研究者らはさらに、画像取得基準と顔認識ベンチマークの一般的な実行によって設定された基準との間に不一致があることにも言及し、次のように述べています*。

'[既存の] 顔認識システムの画像取得標準 ISO / IEC 19794-5 および ICAO 9303 顔の画像品質を保証するために、画像ベース (つまり、照明、オクルージョン) と被写体ベース (つまり、ポーズ、表情、アクセサリー) の両方の品質基準を提案します。

したがって、顔画像も、次のような非可逆画像圧縮標準を使用して保存する必要があります。 JPEG  またはJPEG2000; また、性別、目の色、髪の色、表情、特性(眼鏡など)、姿勢の角度(ヨー、ピッチ、ロール)、ランドマークの位置などを識別できます。

ただし、一般的な顔認識ベンチマークは ISO/IEC 19794-5 および ICAO 9303 規格に準拠していません。 さらに、提案されたソリューションに疑問を呈するために、さまざまなカメラや環境条件の下で野生のサンプルが取得されることがよくあります。

「それにもかかわらず、そのようなデータセット内のほとんどの顔画像サンプルは非可逆 JPEG 圧縮によって圧縮されています。」

新しい研究の著者らは、将来の取り組みで、さまざまな顔認識フレームワークに対する非可逆画像量子化の影響を調査し、これらのシステムの公平性を改善する可能な方法を提供すると述べています。

  新しい紙 というタイトルです 非可逆画像圧縮は顔認識における人種的偏見に影響しますか?これは、インペリアル カレッジ ロンドンの XNUMX 人の研究者と、InsightFace の深層顔面分析の XNUMX 人によるものです。 ライブラリ.

データと手法

研究者たちは実験のために、 ImageMagick および libjpeg オープン ソース ライブラリを使用して、さまざまな圧縮増分でソース データ イメージのバージョンを作成します。

圧縮の効果の最初の概要として、著者らはピーク信号対雑音比の効果を研究しました (PSNR) Racial Faces in-the-Wild の XNUMX つの異なるレベルの JPEG 圧縮 (RFW) データセット。

Racial Faces-in-the-Wild データセットの PSNR スコアは、圧縮が圧縮画像の認識能力にどの程度影響するかを示しています。

Racial Faces-in-the-Wild データセットの PSNR スコアは、圧縮が圧縮画像の認識能力にどの程度影響するかを示しています。

他のテストの中でも、彼らは人種的に不均衡なデータセットと、人種的にバランスの取れたデータセットについて研究を実施しました。 人種的にバランスの取れたセットの場合、追加的な角度マージン損失 (アークフェイス) 関数 ResNet101v2、オリジナルでは VGGフェイス2 ベンチマーク データセットには、3.3 人の人種的に不均衡な被写体をフィーチャーした 8631 万枚の画像が含まれています。

テストには、研究者らは RFW データセットを使用しました。 システムは XNUMX つの異なる圧縮レベルで XNUMX 回トレーニングされ、XNUMX つの ArcFace モデルが作成されました。

人種的にバランスの取れたセットでは、最初は同じフレームワークが元の調整されたセットに採用されました。 BUPTバランス型 ベンチマーク データセットには、28,000 つのグループにまたがる XNUMX の顔が含まれています アフリカの, アジア人, インディアン, 白人、各レースは 7000 枚の画像で表されます。 人種的に不均衡なデータセットと同様に、この方法で XNUMX つの ArcFace モデルが取得されました。

さらに、研究者らは、パフォーマンスへの影響を測定するために、クロマ サブサンプリングを削除することで、圧縮トレーニングと非圧縮トレーニングの効果を再現しました。

結果

次に、これらの生成されたデータセットにわたる誤一致率 (FMR) が調査されました。 研究者が探していた基準は事前に定義されていた 表現型 人種的特徴に関連したもの スキンタイプ (1、2、3、4、5、または 6)、 まぶたの種類 (モノリッド/その他)、 鼻の形 (広い狭い)、 唇の形 (フル/スモール)、 ヘアタイプ (ストレート/ウェーブ/カーリー/ハゲ)、および 髪の色 – 2019 年から抽出された指標 人種表現型による顔認識内の隠れたバイアスの測定.

論文は次のように述べています。

'下方に選択されたすべての圧縮レベル q = {5, 10, 15, 95} において、追加の非可逆圧縮が適用されると FMR が増加することが観察され、圧縮レベル 5 (最高の圧縮率) が最も大幅な低下をもたらすことがわかります。一方、圧縮レベル 95 (最も低い圧縮率) では、目立った FMR パフォーマンスの差は生じません。」

論文の広範な結果グラフからのサンプルですが、ここで再現するには大きすぎて数が多すぎます。より良い解像度と完全な結果については、ソース論文を参照してください。 ここでは、非圧縮またはほとんど圧縮されていない品質を含む範囲で、VGGFace2 のますます劣化/圧縮された顔画像全体にわたる FMR パフォーマンスの全範囲を確認します。

論文の広範な結果グラフからのサンプルですが、ここで再現するには大きすぎて数が多すぎます。より良い解像度と完全な結果については、ソース論文を参照してください。 ここでは、非圧縮またはほとんど圧縮されていない品質を含む範囲で、VGGFace2 のますます劣化/圧縮された顔画像全体にわたる FMR パフォーマンスの全範囲を確認します。

この論文は次のように結論づけています。

「全体的に、私たちの評価では、推論時に非可逆圧縮された顔画像サンプルを使用すると、他のすべての表現型特徴にわたって、暗い肌の色調、広い鼻、巻き毛、一重瞼などの特定の表現型でパフォーマンスがより大幅に低下することがわかりました。

「ただし、トレーニング中に圧縮画像を使用すると、結果として得られるモデルの復元力が高まり、遭遇するパフォーマンスの低下が制限されます。つまり、人種的に一致した特定のサブグループ間ではパフォーマンスが低下したままになります。」 さらに、クロマ サブサンプリングを削除すると、非可逆圧縮の影響をより受けやすい特定の表現型カテゴリの FMR が改善されます。

 

* 著者のインライン引用をハイパーリンクに変換しました。

初版は22年2022月XNUMX日。