Umelá inteligencia

Štúdia zistila, že kompresia JPEG zvyšuje mieru chybovosti rozpoznávania tváre pre nekaukazské tváre

Aktualizované on Decembra 9, 2022

Hlavný obrázok: DALL-E 2.

Nová štúdia zo Spojeného kráľovstva dospela k záveru, že stratové kompresné techniky v obrázkoch JPEG môžu mať nepriaznivý vplyv na účinnosť systémov rozpoznávania tváre, vďaka čomu je pravdepodobnejšie, že takéto systémy nesprávne identifikujú osobu inej ako belochskej rasy.

Príspevok uvádza:

"Prostredníctvom rozsiahleho experimentálneho nastavenia demonštrujeme, že bežné prístupy stratovej kompresie obrazu majú výraznejší negatívny vplyv na výkon rozpoznávania tváre pre špecifické kategórie rasových fenotypov, ako sú tmavšie tóny pleti (až o 34.55%)."

Nasvedčujú tomu aj výsledky chroma subsampling, ktorý znižuje informácie o farbe (a nie informácie o jase) v častiach obrazu tváre, zvyšuje mieru falošnej zhody (FMR) v celom rade testovaných súborov údajov, z ktorých mnohé sú štandardné úložiská pre počítačové videnie.

Operácie podvzorkovania chromatickosti na zdrojovom obrázku pri rôznych rýchlostiach majú jasný vplyv na rozsah zachovania detailov a na rozsah, v akom sa podtóny jednoducho „zmiešajú“ do seba, obetujúc detaily a určujú vlastnosti. Upozorňujeme, že tento obrázok sám o sebe môže podliehať kompresii a presné rozlíšenie nájdete na zdrojovom papieri. Zdroj: https://arxiv.org/pdf/2208.07613.pdf

Chroma subsampling sa používa ako dodatočné ekonomické opatrenie pri kompresii JPEG, pretože ľudia sú menej schopní vnímať redukciu zložitosti a rozsahu farebných pásiem ako systémy počítačového videnia, ktoré berú tieto „agregácie“ oveľa doslovnejšie ako my.

Výskumníci pre novú štúdiu zistili, že odstránenie podvzorkovania chromatickosti z procesu kompresie znižuje tento negatívny efekt až o 15.95 %, hoci to problém úplne neodstráni.

Štúdia tiež tvrdí, že trénovanie na nekomprimovaných (alebo menej komprimovaných) údajoch bude nie vyriešte problém, ak sú obrázky v čase odvodenia komprimované. V skutočnosti to znamená, že trénovanie modelu rozpoznávania tváre na menej komprimovaných snímkach nevyrieši zaujatosť, ak sa do konečného produkčného modelu pridávajú obrázky, ktoré majú uvedené problémy s kompresiou.

Správa autorov*:

„Používanie stratovej kompresie obrazu počas vyvodzovania nepriaznivo ovplyvňuje výkon moderného zariadenia prístupy na rozpoznávanie tváre na podskupine zoskupení fenotypov tváre súvisiacich s rasou (tj tmavšie tóny pleti, monolidový tvar očí) a že jeho účinok je prítomný bez ohľadu na to, či sa komprimované snímky používajú na tréning modelu.“

Príspevok zdôrazňuje dôsledky kompresie obrazu na sektor výskumu počítačového videnia, ktoré boli podrobne opísané v a 2021 štúdie z University of Maryland a Facebook AI.

Je to ťažko riešiteľný problém; aj keby sa problémy s ukladaním a šírkou pásma, ktoré si vyžadujú kompresiu, odstránili cez noc, a aj keby sa všetky nekvalitné obrázky, ktoré zapĺňajú dvadsať alebo viac rokov množín údajov v sektore, náhle znova skomprimovali lepšou rýchlosťou z vysokokvalitných zdrojov, predstavujú „reset“ kontinuity nástrojov akademického benchmarkingu za posledných niekoľko desaťročí. Komunita životopisov má v skutočnosti zvyknúť si k problému, do bodu, keď predstavuje pozoruhodný technický dlh.

rasový predsudok v rozpoznávaní tváre (FR) má stať sa a horúca mediálna téma v posledných rokoch, čo vyvolalo sústredené úsilie vo výskumnej komunite na jeho odstránenie z postihnutých systémov. Avšak závislosť od globálneho výskumného orgánu na an nadmerne obmedzené množstvo súborov údajov „zlatého štandardu“, z ktorých mnohé sú nie sú rasovo vyvážené or zle označené v tomto ohľade prehlbuje výzvu.

Vedci nového článku navyše zaznamenali nesúlad medzi štandardmi získavania snímok a štandardmi stanovenými všeobecným testom na rozpoznávanie tváre, pričom uvádzajú*:

„[Existujúce] štandardy získavania obrazu pre systémy rozpoznávania tváre, ako napr ISO / IEC 19794 5- a ICAO 9303 navrhnúť štandardy kvality založené na obrázkoch (tj osvetlenie, oklúzia) aj na subjekte (tj póza, výraz, doplnky) na zabezpečenie kvality obrazu tváre.

„V súlade s tým by sa snímky tváre mali ukladať aj pomocou štandardov stratovej kompresie obrázkov, ako napr JPEG alebo JPEG2000; a identifikovateľné podľa pohlavia, farby očí, vlasov, výrazu, vlastností (napr. okuliare), uhlov polohy (vybočenie, sklon a natočenie) a orientačných pozícií.

„Bežné kritériá rozpoznávania tváre však nezodpovedajú normám ISO/IEC 19794-5 a ICAO 9303. Okrem toho sa vzorky vo voľnej prírode často získavajú v rôznych podmienkach kamery a prostredia, aby spochybnili navrhované riešenia.

"Napriek tomu väčšina vzoriek obrázkov tváre v rámci takýchto súborov údajov je komprimovaná stratovou kompresiou JPEG."

Autori novej práce uvádzajú, že ich budúce úsilie bude skúmať vplyv kvantizácie stratového obrazu na rôzne rámce rozpoznávania tvárí a ponúkne možné metódy na zlepšenie spravodlivosti týchto systémov.

nového papiera je s názvom Ovplyvňuje stratová kompresia obrazu rasovú zaujatosť v rámci rozpoznávania tváre?a pochádza od troch výskumníkov z Imperial College London, spolu s jedným z analýzy hĺbkovej tváre InsightFace knižnica.

Údaje a metóda

Pre svoje experimenty vedci použili tzv ImageMagick a libjpeg open source knižnice na vytváranie verzií zdrojových dátových obrazov pri rôznych prírastkoch kompresie.

Pre počiatočný prehľad o účinkoch kompresie autori študovali účinky maximálneho pomeru signálu k šumu (PSNR) na štyroch rôznych úrovniach kompresie JPEG na Racial Faces in-the-Wild (RFW) súbor údajov.

Skóre PSNR pre súbor údajov Racial Faces-in-the-Wild, čo ukazuje, do akej miery môže kompresia ovplyvniť rozpoznávacie schopnosti komprimovaných obrázkov.

Okrem iných testov uskutočnili výskum rasovo nevyváženého súboru údajov a ďalší, ktorý bol rasovo vyvážený. Pre rasovo vyvážený súbor použili Additive Angular Margin Loss (ArcFace) fungovať s ResNet101v2, na origináli VGGFace2 benchmark dataset, ktorý obsahuje 3.3 milióna obrázkov s 8631 rasovo nevyváženými subjektmi.

Na testovanie výskumníci použili súbor údajov RFW. Systém bol trénovaný štyrikrát, na štyroch rôznych úrovniach kompresie, výsledkom čoho boli štyri modely ArcFace.

Pre rasovo vyváženú množinu boli rovnaké rámce pôvodne použité na pôvodnom zarovnanom BUPT-Vyvážený benchmark dataset, ktorý obsahuje 28,000 XNUMX tvárí vyvážených medzi štyrmi skupinami africký, Ázijský, indickýa Kaukazský, každá rasa predstavuje 7000 XNUMX obrázkov. Rovnako ako v prípade rasovo nevyváženého súboru údajov boli týmto spôsobom získané štyri modely ArcFace.

Okrem toho výskumníci reprodukovali účinky komprimovaného a nekomprimovaného tréningu odstránením farebného podvzorkovania, aby zmerali jeho vplyv na výkon.

výsledky

Potom sa študovala miera falošnej zhody (FMR) naprieč týmito generovanými súbormi údajov. Kritériá, ktoré výskumníci hľadali, boli preddefinované fenotypy v súvislosti s rasovými vlastnosťami Typ pleti (1, 2, 3, 4, 5 alebo 6), Typ očných viečok (Monolid/Iné), Tvar nosa (Široký úzky), Tvar pier (Plná/Malá), Typ vlasov (rovný/vlnitý/kučeravý/plešatý) a Farba vlasov – metriky z roku 2019 papier Meranie skrytej zaujatosti v rámci rozpoznávania tváre prostredníctvom rasových fenotypov.

Príspevok uvádza:

„Pozorujeme, že pre všetky nižšie zvolené úrovne kompresie q = {5, 10, 15, 95} sa FMR zvýši, keď sa použije dodatočná stratová kompresia, čo dokazuje, že úroveň kompresie 5 (najvyššia miera kompresie) má za následok najvýznamnejší pokles. vo výkone FMR, zatiaľ čo úroveň kompresie 95 (najnižšia miera kompresie) nevedie k žiadnym viditeľným rozdielom vo výkone FMR.'

Ukážka z rozsiahlych výsledkových tabuliek v článku, ktoré sú príliš veľké a početné na to, aby sa tu mohli reprodukovať – lepšie rozlíšenie a úplné výsledky nájdete v zdrojovom dokumente. Tu vidíme rozsah výkonu FMR v rámci čoraz viac degradovaných/komprimovaných obrázkov tváre pre VGGFace2, v rozsahu, ktorý zahŕňa nekomprimovanú alebo málo komprimovanú kvalitu.

Záver článku:

„Celkovo sa pri našom hodnotení zistilo, že používanie vzoriek stratového komprimovaného obrazu tváre v čase odvodzovania výraznejšie znižuje výkon pri špecifických fenotypoch vrátane tmavého tónu pleti, širokého nosa, kučeravých vlasov a monolidových očí vo všetkých ostatných fenotypových črtách.

„Používanie komprimovaných snímok počas tréningu však robí výsledné modely odolnejšími a obmedzuje zhoršenie výkonu, s ktorým sa stretávame: nižší výkon medzi špecifickými rasovo orientovanými podskupinami zostáva. Okrem toho, odstránenie podvzorkovania chroma zlepšuje FMR pre špecifické kategórie fenotypov, ktoré sú viac ovplyvnené stratovou kompresiou.'

* Môj prevod inline citácií autorov na hypertextové odkazy.

Prvýkrát uverejnené 22. augusta 2022.