Umělá inteligence

Komprese JPEG zvyšuje chybovost rozpoznávání tváří pro ne-kaukazské tváře, zjistila studie

Published August 22, 2022

Updated April 5, 2026

Martin Anderson

Nová studie z Velké Británie dospěla k závěru, že ztrátové kompresní techniky v obrazech JPEG mohou mít negativní vliv na účinnost systémů rozpoznávání tváří, což způsobuje, že tyto systémy více pravděpodobně nesprávně identifikují osobu ne-kaukazské rasy.

Studie uvádí:

‘Prostřednictvím rozsáhlého experimentálního nastavení demonstrujeme, že běžné ztrátové kompresní přístupy mají více vyjádřený negativní dopad na výkon rozpoznávání tváří pro specifické rasové fenotypové kategorie, jako jsou tmavší tóny kůže (až o 34,55%).’

Výsledky také ukazují, že chroma subsampling, který snižuje barevné informace (nikoli však jasové informace) napříč částmi obličeje, zvyšuje míru falešného přiřazení (FMR) v rámci rozsahu testovaných dat, mnoha z nich jsou standardní repozitáře pro počítačové vidění.

Operace chroma subsampling na zdrojovém obraze, při různých rychlostech, mají zřejmý vliv na rozsah, ve kterém je zachován detail, a rozsah, ve kterém subtóny prostě ‘sloučí’ do sebe, obětují detail a určující rysy. Všimněte si, že tento obraz sám o sobě může být podroben kompresi, a odkázaný na zdroj papíru pro přesné rozlišení. Zdroj: https://arxiv.org/pdf/2208.07613.pdf

Chroma subsampling se používá jako další ekonomická opatření v kompresi JPEG, protože lidé jsou méně schopni vnímat snížení složitosti a rozsahu barevných pásem než počítačové vidění, které tyto ‘agregace’ bere daleko více doslova než my.

Výzkumníci nové studie zjistili, že odstranění chroma subsampling z procesu komprese snižuje tento negativní efekt až o 15,95%, i když zcela neodstraňuje problém.

Studie také tvrdí, že školení na nekomprimovaných (nebo méně komprimovaných) datech ne vyřeší problém, pokud jsou inference-časové obrázky komprimovány. Efektivně to znamená, že školení modelu rozpoznávání tváří na méně komprimované obrazové materiály nevyřeší předpojatost, pokud je konečná produkční model nakrměn obrázky, které mají uvedené problémy s kompresí.

Autoři uvádějí*:

‘[Použití] ztrátové komprese obrazu během inference nepříznivě ovlivňuje výkon moderních přístupů k rozpoznávání tváří na podmnožině rasově podmíněných skupin faciálních fenotypů (tj. tmavší tóny kůže, monolidní tvar očí) a že jeho účinek je přítomen bez ohledu na to, zda je komprimovaná obrazová materiál použita pro školení modelu.’

Papír podtrhuje důsledky komprese obrazu na počítačovém vidění, které byly popsány v studii z roku 2021 Univerzity Maryland a Facebook AI.

Je to obtížný problém; i kdyby byly problémy se skladováním a šířením dat, které činí kompresi nezbytnou, okamžitě odstraněny, a i kdyby všechny nízkokvalitní obrázky, které osídlily dvacet a více let dat v sektoru, byly najednou rekompromovány s lepší rychlostí z vysokokvalitních zdrojů, představovalo by to ‘reset’ kontinuity akademických benchmarkovacích nástrojů za posledních několik desetiletí. Komunita CV se, ve skutečnosti, zvykla na problém, do té míry, že představuje významný technický dluh.

Rasová předpojatost v rozpoznávání tváří (FR) se stala horkým médiem v posledních letech, což vedlo k soustředěnému úsilí ve výzkumné komunitě, aby se zbavila předpojatosti z postižených systémů. Nicméně, závislost globálního výzkumného tělesa na přemíru omezeném počtu ‘zlatých standardních’ dat, mnoha z nich buď nerasově vyvážených nebo špatně označených v tomto ohledu, zhoršuje výzvu.

Výzkumníci nové studie také poznamenali nesoulad mezi standardy získávání obrazu a standardy stanovenými obecným během benchmarků rozpoznávání tváří, uvádějící*:

‘[Existující] standardy získávání obrazu pro systémy rozpoznávání tváří, jako je ISO/IEC 19794-5 a ICAO 9303, navrhují obrazové (tj. osvětlení, zakrytí) a subjektové (tj. póza, výraz, příslušenství) standardy kvality, aby se zajistila kvalita obličeje.

‘Podle toho by měly být obličeje také uloženy pomocí ztrátových standardů komprese obrazu, jako je JPEG nebo JPEG2000; a identifikovatelné pro pohlaví, barvu očí, barvu vlasů, výraz, vlastnosti (tj. brýle), úhly póz (yaw, pitch, roll) a polohy orientačních bodů.

‘Nicméně, běžné benchmarky rozpoznávání tváří se neřídí standardy ISO/IEC 19794-5 a ICAO 9303. Navíc, vzorky z volného prostředí jsou často získány za různých kamerových a environmentálních podmínek, aby se vyzvaly navrhované řešení.

‘Nicméně, většina vzorků obličeje v takových datech je komprimována pomocí ztrátové komprese JPEG.’

Autoři nové práce uvádějí, že jejich budoucí úsilí bude zkoumat dopad ztrátové kvantizace obrazu na různé rámce rozpoznávání tváří a nabízet možné metody pro zlepšení spravedlivosti těchto systémů.

Nová práce se nazývá Ovlivňuje ztrátová komprese obrazu rasovou předpojatost v rozpoznávání tváří? a pochází od tří výzkumníků z Imperial College London, spolu s jedním z InsightFace deep face analysis knihovny.

Data a metoda

Pro své experimenty výzkumníci použili ImageMagick a libjpeg open source knihovny, aby vytvořili verze zdrojových datových obrázků při různých úrovních komprese.

Pro počáteční přehled účinků komprese autoři studovali účinky Peak signálu k šumu (PSNR) na čtyři různé úrovně komprese JPEG na Racial Faces in-the-Wild (RFW) dataset.

PSNR skóre pro Racial Faces-in-the-Wild dataset, demonstrující rozsah, ve kterém komprese může ovlivnit rozpoznávací schopnosti pro komprimované obrázky.

Mezi jinými testy provedli výzkum na rasově nevyváženém datasetu a na jiném, který byl rasově vyvážený. Pro rasově vyvážený set použili Additive Angular Margin Loss (ArcFace) funkci s ResNet101v2, na původním VGGFace2 benchmark dataset, který obsahuje 3,3 milionu obrázků s 8631 rasově nevyváženými subjekty.

Pro testování výzkumníci použili RFW dataset. Systém byl školen čtyřikrát, při čtyřech různých úrovních komprese, což vedlo k čtyřem ArcFace modelům.

Pro rasově vyvážený set byly použity stejné rámce na původním zarovnaném BUPT-Balanced benchmark dataset, který obsahuje 28 000 tváří vyvážených napříč čtyřmi skupinami Afričan, Asijský, Indický, a Kaukazský, každá rasa reprezentovaná 7000 obrázky. Stejně jako u rasově nevyváženého datasetu, byly získány čtyři ArcFace modely tímto způsobem.

Kromě toho výzkumníci reprodukovali účinky komprimovaných a nekomprimovaných tréninků odstraněním chroma subsampling, aby změřili jeho účinek na výkon.

Výsledky

Míra falešného přiřazení (FMR) napříč těmito generovanými daty byly poté studovány. Kritéria, která výzkumníci hledali, byla předem definovaná fenotypy související s rasovými charakteristikami Typ kůže (1, 2, 3, 4, 5 nebo 6), Typ víček (Monolid/Jiný), Tvar nosu (Široký/Úzký), Tvar rtů (Plný/Malý), Tvar vlasů (Rovný/Vlnitý/Kudrnatý/Holý), a Barva vlasů – metriky odvozené z práce Měření skryté předpojatosti v rozpoznávání tváří prostřednictvím rasových fenotypů.

Papír uvádí:

‘Pozorujeme, že pro všechny vybrané úrovně komprese q = {5, 10, 15, 95}, FMR se zvyšuje, když je aplikována další ztrátová komprese, demonstrující, že úroveň komprese 5 (nejvyšší rychlost komprese) vede k nejvýraznějšímu poklesu výkonu FMR, zatímco úroveň komprese 95 (nejnižší rychlost komprese) nevyvolává žádné zjevné rozdíly ve výkonu FMR.’

Vzorek z rozsáhlých výsledkových grafů, které jsou příliš velké a četné, aby se zde reprodukovaly – prosím, podívejte se na zdroj papíru pro lepší rozlišení a úplné výsledky. Zde vidíme rozsah výkonu FMR napříč stále více degradovanými/komprimovanými obrázky tváří pro VGGFace2, v rozsahu, který zahrnuje nekomprimovanou nebo málo komprimovanou kvalitu.

Papír uzavírá:

‘Celkově naše hodnocení zjistilo, že použití ztrátově komprimovaných vzorků obličeje v době inference snižuje výkon více významně pro specifické fenotypy, včetně tmavšího tónu kůže, širokého nosu, kudrnatých vlasů a monolidních očí napříč všemi ostatními fenotypovými rysy.

‘Nicméně, použití komprimované obrazové materiály během školení činí výsledné modely více odolnými a omezuje výkonové degradace, se kterými se setkáme: nižší výkon mezi specifickými rasově orientovanými sub-skupinami zůstává. Kromě toho, odstranění chroma subsampling zlepšuje FMR pro specifické fenotypové kategorie více postižené ztrátovou kompresí.’

* Moje konverze autorových inline citací na hypertextové odkazy.

Poprvé zveřejněno 22. srpna 2022.

Martin Anderson

Spisovatel o strojovém učení, doménový specialista na syntézu lidského obrazu. Bývalý vedoucí výzkumného obsahu ve společnosti Metaphysic.ai.
Osobní stránky: martinanderson.ai

Unite.AI

Komprese JPEG zvyšuje chybovost rozpoznávání tváří pro ne-kaukazské tváře, zjistila studie

Data a metoda

Výsledky

You may like