Kunstig intelligens

JPEG-komprimering øger fejlratens i ansigtsgenkendelse for ikke-kaucasiske ansigter, studie finder

Published August 22, 2022

Updated April 5, 2026

Martin Anderson

En ny studie fra Storbritannien er fremkommet til, at tabsgivende komprimeringsteknikker i JPEG-billeder kan have en ugunstig indvirkning på effektiviteten af ansigtsgenkendelsessystemer, hvilket gør disse systemer mere sandsynlige for at identificere en ikke-kaucasisk person forkert.

Papiret fastslår:

‘Via en omfattende eksperimentel opsætning demonstrerer vi, at almindelige tabsgivende billedkomprimeringsmetoder har en mere udtalt negativ indvirkning på ansigtsgenkendelsespræstation for bestemte racemæssige fenotypkategorier, såsom mørkere hudtoner (op til 34,55%).’

Resultaterne antyder også, at chroma-subsampling, som reducerer farveinformationen (i stedet for lysstyrken) over dele af et ansigtsbillede, øger fejlmatchningsraten (FMR) over en række testede datasæt, mange af hvilke er standard-repositorier for computer-vision.

Chroma-subsampling-operationer på et kildebillede, i varierende grader, har en tydelig effekt på, i hvilken udstrækning detaljer bevares, og i hvilken udstrækning subtoner blot ‘blender’ sammen, hvilket ofrer detaljer og bestemmer træk. Bemærk, at dette billede i sig selv kan være underlagt komprimering, og henvis til kildepapiret for præcis opløsning. Kilde: https://arxiv.org/pdf/2208.07613.pdf

Chroma-subsampling anvendes som en yderligere økonomisk foranstaltning i JPEG-komprimering, fordi mennesker er mindre i stand til at opfange reduceringer i kompleksiteten og omfanget af farvebånd end computer-vision-systemer, som tager disse ‘aggregeringer’ langt mere bogstaveligt end vi gør.

Forskerne bag den nye studie har fundet, at fjernelse af chroma-subsampling fra komprimeringsprocessen formindsker denne negative effekt med op til 15,95%, selvom det ikke helt fjerner problemet.

Studiet påstår også, at træning på ukomprimerede (eller mindre komprimerede) data ikke vil løse problemet, hvis billederne på inferenstidspunktet er komprimerede. Dette betyder effektivt, at træning af et ansigtsgenkendelsesmodel på mindre komprimerede billeder ikke vil løse fordommen, hvis den endelige produktionsmodel fodres med billeder, der har de nævnte komprimeringsproblemer.

Forfatterne rapporterer*:

‘[Brugen af] tabsgivende billedkomprimering under inferens påvirker negativt præstationen af moderne ansigtsgenkendelsesmetoder på en undergruppe af racemæssige fenotypgrupper (dvs. mørkere hudtoner, monolid øjeform) og at dens effekt er til stede uanset, om komprimerede billeder anvendes til modeltræning.’

Papiret understreger konsekvenserne af billedkomprimering på computer-vision-forskningssektoren, som blev beskrevet i detaljer i en studie fra 2021 fra University of Maryland og Facebook AI.

Det er et svært problem at løse; selv hvis lager- og båndbreddsproblemerne, der gør komprimering nødvendig, blev elimineret over nattemødet, og selv hvis alle de lavkvalitetsbilleder, der befolker 20 eller flere års datasæt i sektoren, pludselig blev genkomprimeret i en bedre rate fra højkvalitetskilder, ville det repræsentere en ‘reset’ af kontinuiteten af akademiske benchmark-værktøjer over de sidste få årtier. CV-fællesskabet har i virkeligheden været vant til problemet, sådan at det repræsenterer en betydelig teknisk gæld.

Racial fordom i ansigtsgenkendelse (FR) er blevet et varmt medieemne i de seneste år, hvilket har ført til en koncertet indsats i forskningssamfundet for at eliminere det fra berørte systemer. Forskernes afhængighed af den globale forskningskrop af et ekstremt begrænset antal ‘guldstandard’-datasæt, mange af hvilke enten ikke er racemæssigt balancerede eller dårligt mærket i denne henseende, forværrer udfordringen.

Forskerne bag den nye artikel bemærker desuden en diskordans mellem billedacquisitionsstandarder og standarderne, der er fastsat af den generelle række af ansigtsgenkendelsesbenchmarks, og fastslår*:

‘[Eksisterende] billedacquisitionsstandarder for ansigtsgenkendelsessystemer, såsom ISO/IEC 19794-5 og ICAO 9303, foreslår både billedbaserede (dvs. belysning, lukning) og subjektbaserede (dvs. pose, udtryk, tilbehør) kvalitetsstandarder for at sikre ansigtsbilledkvalitet. ‘

‘Herefter skal ansigtsbilleder også gemmes ved hjælp af tabsgivende billedkomprimeringsstandarder, såsom JPEG eller JPEG2000; og identificerbare for køn, øjenfarve, hårfarve, udtryk, egenskaber (dvs. briller), posevinkler (yaw, pitch og rulle) og vigtige placeringer. ‘

‘Men almindelige ansigtsgenkendelsesbenchmarks overholder ikke ISO/IEC 19794-5- og ICAO 9303-standarderne. Desuden erhverves i-vilde-prøver ofte under varierende kamera- og miljøbetingelser for at udfordre de foreslåede løsninger. ‘

‘Alligevel er de fleste ansigtsbilledprøver inden for sådanne datasæt komprimeret via tabsgivende JPEG-komprimering.’

Forfatterne af den nye artikel fastslår, at deres fremtidige indsats vil undersøge virkningen af tabsgivende billedkvantisering på diverse ansigtsgenkendelsesrammer og tilbyde mulige metoder til at forbedre ligheden af disse systemer.

Den nye artikel er tituleret Har tabsgivende billedkomprimering indvirkning på racial fordom i ansigtsgenkendelse? og kommer fra tre forskere ved Imperial College London, sammen med en fra InsightFace deep face analysis biblioteket.

Metode og data

Til deres eksperimenter brugte forskerne ImageMagick og libjpeg open source-biblioteker til at oprette versioner af kildebillederne i forskellige komprimeringsgrader.

For en foreløbig oversigt over effekterne af komprimering, studerede forfatterne effekterne af Peak signal-to-noise ratio (PSNR) på fire forskellige niveauer af JPEG-komprimering på Racial Faces in-the-Wild (RFW)-datasættet.

PSNR-scores for Racial Faces-in-the-Wild-datasættet, der demonstrerer, i hvilken udstrækning komprimering kan påvirke genkendelsesevnen for komprimerede billeder.

Blandt andre tests, udførte de forskning på et racemæssigt ubalanceret datasæt og et, der var racemæssigt balanceret. For det racemæssigt balancerede datasæt, brugte de Additive Angular Margin Loss (ArcFace)-funktionen med ResNet101v2 på det originale VGGFace2-benchmark-datasættet, der indeholder 3,3 millioner billeder med 8631 racemæssigt ubalancerede emner.

Til test, brugte forskerne RFW-datasættet. Systemet blev trænet fire gange, i fire forskellige komprimeringsgrader, hvilket resulterede i fire ArcFace-modeller.

For det racemæssigt balancerede datasæt, blev de samme rammer anvendt på det originale aligned BUPT-Balanced-benchmark-datasættet, der indeholder 28.000 ansigter, balanceret over fire grupper Afrikaner, Asiat, Indier og Kaukasier, hvor hvert race er repræsenteret af 7000 billeder. Som med det racemæssigt ubalancerede datasæt, blev fire ArcFace-modeller opnået på denne måde.

Desuden genskabte forskerne effekterne af komprimeret og ikke-komprimeret træning ved at fjerne chroma-subsampling, for at måle dets effekt på præstationen.

Resultater

Den fejlmatchningsrate (FMR) over disse genererede datasæt blev herefter studeret. Kriterierne, som forskerne ledte efter, var foruddefinerede fenotyper i forhold til racemæssige karakteristika Hudtype (1, 2, 3, 4, 5 eller 6), Øjenlågstype (Monolid/Andet), Næseshape (Bred/Snæver), Læbeshape (Fuld/Lille), Hårtyp (Lige/Bølget/Krøllet/Skaldet) og Hårfarve – målinger, der stammer fra 2019-artiklen At måle skjult fordom i ansigtsgenkendelse via racemæssige fenotyper.

Papiret fastslår:

‘Vi observerer, at for alle nedvalgte komprimeringsniveauer q = {5, 10, 15, 95}, fejlmatchningsraten øges, når yderligere tabsgivende komprimering anvendes, hvilket demonstrerer, at komprimeringsniveau 5 (den højeste komprimeringsrate) resulterer i den mest betydelige nedgang i FMR-præstation, mens komprimeringsniveau 95 (den laveste komprimeringsrate) ikke resulterer i nogen nævneværdig FMR-præstationsforskel.’

Et uddrag fra papirets omfattende resultattabeller, der er for store og talrige til at gengive her – se kildepapiret for bedre opløsning og fulde resultater. Her ser vi FMR-præstationsomfanget over stadig mere degraderede/komprimerede ansigtsbilleder for VGGFace2, i et område, der inkluderer ukomprimeret eller lidt komprimeret kvalitet.

Martin Anderson

Forfatter til maskinlæring, domæne-specialist i menneskesynthese af billeder. Tidligere leder af forskningsindhold på Metaphysic.ai.

Unite.AI

JPEG-komprimering øger fejlratens i ansigtsgenkendelse for ikke-kaucasiske ansigter, studie finder

Metode og data

Resultater

You may like