Connect with us

人工知能

JPEG圧縮は非カウカジア系の顔の顔認識エラーレートを増加させる、研究が発見

mm
Main image: DALL-E 2.

イギリスからの新しい研究は、JPEG画像のロッシー圧縮技術が顔認識システムの有効性に悪影響を及ぼし、非カウカジア系の人を誤って識別する可能性が高くなることを結論付けた。

この論文では:

‘広範な実験設定を通じて、一般的なロッシー画像圧縮アプローチが、特定の人種現象カテゴリ(例:暗い肌の色)に対して顔認識パフォーマンスに悪影響を及ぼすことを示した。(最大34.55%の悪影響)’

結果はまた、クロマサブサンプリングが、顔画像の色情報(明度情報ではなく)を削減することで、テストされたデータセットの範囲にわたるFalse Matching Rate(FMR)を増加させることを示唆している。多くの場合、これらはコンピュータビジョンの標準リポジトリである。

さまざまなレートでのクロマサブサンプリング操作は、詳細が保存される程度と、サブトーンが互いにブレンドされる程度に明確な影響を及ぼし、詳細と決定要因を犠牲にする。画像自体が圧縮されている可能性があるため、正確な解像度については論文のソースを参照してください。ソース: https://arxiv.org/pdf/2208.07613.pdf

さまざまなレートでのクロマサブサンプリング操作は、詳細が保存される程度と、サブトーンが互いにブレンドされる程度に明確な影響を及ぼし、詳細と決定要因を犠牲にする。画像自体が圧縮されている可能性があるため、正確な解像度については論文のソースを参照してください。ソース: https://arxiv.org/pdf/2208.07613.pdf. Source: https://arxiv.org/pdf/2208.07613.pdf

クロマサブサンプリングは、JPEG圧縮の追加の経済的な措置として適用される。なぜなら、人間は色域の複雑さと範囲の削減をコンピュータビジョンシステムよりも少ない程度に認識できるからである。

研究者は、圧縮プロセスからクロマサブサンプリングを削除すると、この悪影響を最大15.95%軽減できることを発見した。しかし、これは問題を完全に解決しない。

研究はまた、訓練データが非圧縮(または圧縮が少ない)である場合でも、推論時の画像が圧縮されていると、問題は解決されないことを主張している。実質的には、これは、顔認識モデルを圧縮が少ない画像で訓練しても、最終的な生産モデルが圧縮の問題がある画像を入力すると、偏見は解消されないことを意味する。

著者は報告している*:

‘ロッシー画像圧縮を推論時に使用すると、現代の顔認識アプローチのパフォーマンスに悪影響が及ぶことがわかり、特に人種に関連した顔の現象カテゴリ(例:暗い肌の色、モノリッドの目)に対してその影響が現れ、圧縮画像をモデル訓練に使用するかどうかに関係なくその影響が存在する。’

論文は、コンピュータビジョン研究分野への画像圧縮の影響を強調している。これは、メリーランド大学とFacebook AIによる2021年の研究で詳細に説明されている。

これは難しい問題である;ストレージと帯域幅の問題が一晩で解決され、コンピュータビジョン分野の20年以上のデータセットにある低品質の画像がすべて、高品質のソースからより良いレートで再圧縮されても、過去数十年の学術的なベンチマークツールの連続性の「リセット」になるだけである。CVコミュニティは、実質的にこの問題に慣れてしまっている。

顔認識(FR)における人種的偏見は、最近、偏見メディアのトピックとなり、熱い議論を呼んでいる。これにより、研究コミュニティは影響を受けるシステムからこれを排除するための集中した努力を払っている。しかし、世界的な研究機関が「金標準」のデータセットに過度に依存していることは、この課題を悪化させる。多くの場合、これらのデータセットは人種的にバランスの取れていないか、ラベル付けが不十分である。

研究者はさらに、画像取得の標準と顔認識ベンチマークの一般的な標準との間の不一致を指摘している。

‘顔認識システムのための画像取得の標準であるISO/IEC 19794-5やICAO 9303は、画像ベース(照明、オクルージョン)と被写体ベース(ポーズ、表情、アクセサリ)の品質標準を提案している。’

‘したがって、顔画像はロッシー画像圧縮標準であるJPEGやJPEG2000を使用して保存されるべきであり、性別、目色、髪色、表情、特徴(眼鏡)、ポーズ角度(ヨー、ピッチ、ロール)、ランドマーク位置で識別可能であるべきである。’

‘しかし、一般的な顔認識ベンチマークはISO/IEC 19794-5およびICAO 9303の標準に準拠していない。また、提案されたソリューションに課題を与えるために、インザワイルドサンプルはさまざまなカメラと環境条件下で取得される。’

‘しかし、これらのデータセット内の顔画像のほとんどはロッシーJPEG圧縮によって圧縮される。’

著者は、今後の努力がさまざまな顔認識フレームワークに対するロッシー画像量子化の影響を調査し、これらのシステムの公平性を向上させる可能性のある方法を提供することを述べている。

新しい論文は、ロッシー画像圧縮は顔認識内の人種的偏見に影響を与えるか?というタイトルで、イギリスのImperial College Londonの3人の研究者と、InsightFace深層顔分析ライブラリの1人によって執筆された。

データと方法

実験のために、研究者はImageMagickとlibjpegオープンソースライブラリを使用して、ソースデータ画像のさまざまな圧縮レベルのバージョンを作成した。

圧縮の影響の初期的な概要のために、著者はRacial Faces in-the-Wild(RFW)データセットに対する4つの異なるJPEG圧縮レベルのピーク信号ノイズレシオ(PSNR)を調査した。

Racial Faces-in-the-WildデータセットのPSNRスコア、圧縮画像の認識能力への影響の程度を示す。

Racial Faces-in-the-WildデータセットのPSNRスコア、圧縮画像の認識能力への影響の程度を示す。

他のテストの中で、彼らは人種的に不均衡なデータセットと、人種的にバランスの取れたデータセットを調査した。人種的にバランスの取れたセットの場合、彼らはAdditive Angular Margin Loss(ArcFace)関数を使用し、ResNet101v2とともに、元のVGGFace2ベンチマークデータセットでテストした。このデータセットには、8631人の人種的に不均衡な被写体を含む330万枚の画像が含まれている。

テストのために、研究者はRFWデータセットを使用した。システムは4回訓練され、4つの異なる圧縮レベルで訓練された結果、4つのArcFaceモデルが得られた。

人種的にバランスの取れたセットの場合、同じフレームワークが最初に、元の整列されたBUPT-Balancedベンチマークデータセットで使用された。 このデータセットには、各人種が7000枚の画像で表され、アフリカ系、アジア系、インド系、カウカジア系の4つのグループにわたる28000枚の顔が含まれている。 人種的に不均衡なデータセットと同様に、4つのArcFaceモデルがこの方法で得られた。

さらに、研究者はクロマサブサンプリングを削除することで、圧縮と非圧縮の訓練の影響を再現し、そのパフォーマンスへの影響を測定した。

結果

生成されたデータセットのFalse Matching Rate(FMR)は調査された。研究者が探していた基準は、人種的特徴に関連する予定されたフェノタイプで、肌の色(1、2、3、4、5、または6)、瞼の形(モノリッド/その他)、鼻の形(広い/狭い)、唇の形(豊か/小さな)、髪の形(ストレート/ウェーブ/カーリー/ボールド)、髪の色で、これらは2019年の論文顔認識における隠れた偏見の測定から得られた。

論文は次のように述べている:

‘すべての選択された圧縮レベルq = {5, 10, 15, 95}に対して、追加のロッシー圧縮を適用するとFMRが増加することが観察され、圧縮レベル5(最も高い圧縮レート)が最も大きなFMRパフォーマンスの低下をもたらし、圧縮レベル95(最も低い圧縮レート)ではFMRパフォーマンスの違いは見られない。’

論文の包括的な結果グラフのサンプル。これらのグラフはここでは再現できないため、ソース論文を参照してください。ここでは、VGGFace2の圧縮/劣化した顔画像のFMRパフォーマンスの範囲を示している。

論文の包括的な結果グラフのサンプル。これらのグラフはここでは再現できないため、ソース論文を参照してください。ここでは、VGGFace2の圧縮/劣化した顔画像のFMRパフォーマンスの範囲を示している。

論文は次のように結論付けている:

‘私たちの評価は、ロッシー圧縮された顔画像サンプルを推論時に使用すると、特定のフェノタイプ(例:暗い肌の色、広い鼻、カーリーヘア、モノリッドの目)に対してパフォーマンスが低下することを示した。 ‘

‘しかし、訓練中に圧縮画像を使用すると、結果として得られるモデルはより堅牢になり、パフォーマンスの低下が軽減される。特定の人種に関連したサブグループの間での低いパフォーマンスは残る。さらに、クロマサブサンプリングを削除すると、ロッシー圧縮によって影響を受けるフェノタイプカテゴリのFMRが改善される。’

 

* 著者のインライン引用をハイパーリンクに変換したもの。

2022年8月22日に初めて公開。

機械学習に関するライター、ヒューマンイメージシンセシスのドメインスペシャリスト。Metaphysic.aiの研究コンテンツ責任者を務めた。