Intelligence Artificielle
La compression JPEG augmente le taux d'erreur de reconnaissance faciale pour les visages non caucasiens, selon une étude

Une nouvelle étude britannique a conclu que les techniques de compression avec perte dans les images JPEG peuvent avoir une influence négative sur l'efficacité des systèmes de reconnaissance faciale, rendant ces systèmes plus susceptibles d'identifier de manière incorrecte une personne non caucasienne.
Le papier déclare:
« Grâce à une configuration expérimentale approfondie, nous démontrons que les approches courantes de compression d'image avec perte ont un impact négatif plus prononcé sur les performances de reconnaissance faciale pour des catégories de phénotypes raciaux spécifiques telles que les tons de peau plus foncés (jusqu'à 34.55 %). »
Les résultats indiquent également que sous-échantillonnage de la chrominance, qui réduit les informations de couleur (plutôt que les informations de luminosité) dans les sections d'une image de visage, augmente le taux de fausse correspondance (FMR) sur une gamme d'ensembles de données testés, dont beaucoup sont des référentiels standard pour la vision par ordinateur.

Les opérations de sous-échantillonnage de la chrominance sur une image source, à des taux variables, ont un effet évident sur le degré de préservation des détails et sur la fusion des sous-tons, sacrifiant ainsi les détails et déterminant les caractéristiques. Veuillez noter que cette image peut être compressée ; veuillez vous référer à l'article source pour une résolution précise.. Source : https://arxiv.org/pdf/2208.07613.pdf
Le sous-échantillonnage de la chrominance est appliqué comme mesure économique supplémentaire dans la compression JPEG, car les gens sont moins capables de percevoir les réductions de la complexité et de la gamme des bandes de couleurs que les systèmes de vision par ordinateur, qui prennent ces « agrégations » beaucoup plus littéralement que nous.
Les chercheurs de la nouvelle étude ont découvert que la suppression du sous-échantillonnage de chrominance du processus de compression réduit cet effet négatif jusqu'à 15.95 %, bien que cela ne résolve pas complètement le problème.
L'étude affirme également que la formation sur des données non compressées (ou moins compressées) pas résoudre le problème si les images de temps d'inférence sont compressées. En effet, cela signifie que la formation d'un modèle de reconnaissance faciale sur des images moins compressées ne résoudra pas le biais si le modèle de production final est alimenté avec des images présentant les problèmes de compression indiqués.
Les auteurs rapportent* :
'[L']utilisation de la compression d'image avec perte lors de l'inférence affecte négativement les performances des approches de reconnaissance faciale sur un sous-ensemble de regroupements de phénotypes faciaux liés à la race (c'est-à-dire des tons de peau plus foncés, une forme d'œil monolide) et que son effet est présent indépendamment du fait que l'imagerie compressée soit utilisée pour la formation du modèle.
L'article souligne les conséquences de la compression d'images sur le secteur de la recherche en vision par ordinateur, qui ont été expliquées en détail dans un étude de 2021 de l'Université du Maryland et Facebook AI.
Il s'agit d'un problème difficile à résoudre; même si les problèmes de stockage et de bande passante qui rendent la compression nécessaire étaient résolus du jour au lendemain, et même si toutes les images de mauvaise qualité qui peuplent vingt ans ou plus d'ensembles de données du secteur étaient soudainement recompressées à un meilleur rythme à partir de sources de haute qualité, cela représenterait une « réinitialisation » de la continuité des outils d'analyse comparative académique des dernières décennies. La communauté CV a, en effet, s'habituer au problème, au point qu'il représente une dette technique notable.
Racial biais en reconnaissance faciale (FR) a devenez a sujet médiatique brûlant ces dernières années, ce qui a suscité un effort concerté dans la communauté des chercheurs pour l'éliminer des systèmes touchés. Cependant, la dépendance à l'égard de l'organisme mondial de recherche vis-à-vis d'un excessivement limité nombre d'ensembles de données « étalon-or », dont beaucoup sont soit pas d'équilibre racial or mal étiqueté à cet égard, exacerbe le défi.
Les chercheurs du nouvel article notent en outre une dissonance entre les normes d'acquisition d'images et les normes établies par la série générale de références de reconnaissance faciale, déclarant* :
«Normes d'acquisition d'images [existantes] pour les systèmes de reconnaissance faciale tels que ISO / IEC 19794-5 et OACI 9303 proposer des normes de qualité basées sur l'image (c'est-à-dire l'éclairage, l'occlusion) et sur le sujet (c'est-à-dire la pose, l'expression, les accessoires) pour assurer la qualité de l'image faciale.
"En conséquence, les images faciales doivent également être stockées à l'aide de normes de compression d'image avec perte telles que JPEG ou JPEG2000 ; et identifiables pour le sexe, la couleur des yeux, la couleur des cheveux, l'expression, les propriétés (c'est-à-dire les lunettes), les angles de pose (lacet, tangage et roulis) et les positions de repère.
«Cependant, les références courantes de reconnaissance faciale ne sont pas conformes aux normes ISO / CEI 19794-5 et OACI 9303. De plus, des échantillons dans la nature sont souvent obtenus dans des conditions de caméra et d'environnement variables pour contester les solutions proposées.
« Néanmoins, la plupart des échantillons d’images faciales dans ces ensembles de données sont compressés via une compression JPEG avec perte. »
Les auteurs du nouveau travail déclarent que leurs efforts futurs examineront l'impact de la quantification d'image avec perte sur divers cadres de reconnaissance faciale et proposeront des méthodes possibles pour améliorer l'équité de ces systèmes.
Le nouveau papier est intitulé La compression d'image avec perte affecte-t-elle les préjugés raciaux dans la reconnaissance faciale ?, et provient de trois chercheurs de l'Imperial College de Londres, dont un de l'analyse du visage profond InsightFace bibliothèque.
Données et méthode
Pour leurs expériences, les chercheurs ont utilisé le ImageMagick et libjpeg bibliothèques open source pour créer des versions des images de données source à différents incréments de compression.
Pour un premier aperçu des effets de la compression, les auteurs ont étudié les effets du rapport signal sur bruit de crête (PSNR) sur quatre niveaux de compression JPEG différents sur le Racial Faces in-the-Wild (RFW) base de données.

Scores PSNR pour l'ensemble de données Racial Faces-in-the-Wild, démontrant à quel point la compression peut affecter les capacités de reconnaissance des images compressées.
Entre autres tests, ils ont mené des recherches sur un ensemble de données racialement déséquilibré et un autre qui était racialement équilibré. Pour l'ensemble racialement équilibré, ils ont utilisé la perte de marge angulaire additive (ArcFace) fonction avec ResNet101v2, sur l'original VGGFace2 ensemble de données de référence, qui contient 3.3 millions d'images présentant 8631 sujets racialement déséquilibrés.
Pour les tests, les chercheurs ont utilisé l'ensemble de données RFW. Le système a été formé quatre fois, à quatre niveaux de compression différents, ce qui a donné quatre modèles ArcFace.
Pour l'ensemble racialement équilibré, les mêmes cadres ont été initialement employés sur l'original aligné BUPT-Équilibré ensemble de données de référence, qui contient 28,000 XNUMX visages répartis dans les quatre groupes Africaine, Asiatique, Indianet Caucasienne, chaque race représentée par 7000 images. Comme pour l'ensemble de données racialement déséquilibré, quatre modèles ArcFace ont été obtenus de cette manière.
De plus, les chercheurs ont reproduit les effets de l'entraînement compressé et non compressé en supprimant le sous-échantillonnage de la chrominance, afin de mesurer son effet sur les performances.
Résultats
Le taux de fausses correspondances (FMR) dans ces ensembles de données générés a ensuite été étudié. Les critères recherchés par les chercheurs étaient prédéfinis phénotypes relatives aux caractéristiques raciales Type de peau (1, 2, 3, 4, 5 ou 6), Type de paupière (Monolide/Autre), Forme du nez (Large étroit), Forme des lèvres (Plein/Petit), Type de cheveux (droit/ondulé/bouclé/chauve), et Couleur des cheveux – métriques tirées du 2019 papier Mesurer les biais cachés dans la reconnaissance faciale via les phénotypes raciaux.
Le papier déclare:
« Nous observons que pour tous les niveaux de compression sélectionnés vers le bas q = {5, 10, 15, 95}, le FMR augmente lorsqu'une compression avec perte supplémentaire est appliquée, démontrant que le niveau de compression 5 (le taux de compression le plus élevé) entraîne la diminution la plus significative des performances FMR, tandis que le niveau de compression 95 (le taux de compression le plus bas) n'entraîne aucune différence notable de performances FMR. »

Un extrait des graphiques de résultats détaillés de l'article, trop volumineux et nombreux pour être reproduits ici. Veuillez consulter l'article source pour une meilleure résolution et les résultats complets. Nous observons ici l'étendue des performances FMR sur des images de visage de plus en plus dégradées/compressées pour VGGFace2, dans une plage incluant une qualité non compressée ou peu compressée.
Le papier conclut :
"Dans l'ensemble, notre évaluation révèle que l'utilisation d'échantillons d'images faciales compressées avec perte au moment de l'inférence diminue les performances de manière plus significative sur des phénotypes spécifiques, notamment le teint foncé, le nez large, les cheveux bouclés et les yeux monolides pour toutes les autres caractéristiques phénotypiques.
Cependant, l'utilisation d'images compressées pendant l'entraînement améliore la résilience des modèles obtenus et limite la dégradation des performances : les performances restent inférieures parmi certains sous-groupes ethniques spécifiques. De plus, la suppression du sous-échantillonnage de la chrominance améliore le FMR pour certaines catégories de phénotypes plus affectées par la compression avec perte.
* Ma conversion des citations en ligne des auteurs en hyperliens.
Première publication le 22 août 2022.