Connect with us

Inteligență artificială

Comprimarea JPEG crește rata de eroare a recunoașterii faciale pentru fețele non-caucaziene, arată un studiu

mm
Main image: DALL-E 2.

Un nou studiu din Regatul Unit a concluzionat că tehnicile de compresie cu pierderi în imagini JPEG pot avea o influență nefavorabilă asupra eficacității sistemelor de recunoaștere facială, făcând astfel de sisteme mai susceptibile să identifice greșit o persoană non-caucaziană.

Hârtia afirmă:

‘Prin intermediul unui setup experimental extins, demonstrăm că abordările comune de compresie a imaginilor cu pierderi au un impact negativ mai pronunțat asupra performanței recunoașterii faciale pentru anumite categorii de fenotipuri rasiale, cum ar fi tonurile de piele mai întunecate (cu până la 34,55%).’

Rezultatele indică, de asemenea, că subsamplingul cromatic, care reduce informația de culoare (și nu informația de luminozitate) pe secțiuni ale unei imagini cu față, crește rata de falsă potrivire (FMR) pe o gamă de seturi de date testate, multe dintre acestea fiind depozite standard pentru viziunea computerizată.

Operațiunile de subsampling cromatic pe o imagine sursă, la rate variate, au un efect clar asupra gradului în care detaliile sunt păstrate și asupra gradului în care subtonurile se amestecă pur și simplu una în alta, sacrificând detaliile și determinând caracteristicile. Vă rugăm să rețineți că această imagine în sine poate fi supusă compresiei și să faceți referire la lucrarea sursă pentru rezoluția exactă. Sursă: https://arxiv.org/pdf/2208.07613.pdf

Operațiunile de subsampling cromatic pe o imagine sursă, la rate variate, au un efect clar asupra gradului în care detaliile sunt păstrate și asupra gradului în care subtonurile se amestecă pur și simplu una în alta, sacrificând detaliile și determinând caracteristicile. Vă rugăm să rețineți că această imagine în sine poate fi supusă compresiei și să faceți referire la lucrarea sursă pentru rezoluția exactă. Sursă: https://arxiv.org/pdf/2208.07613.pdf

Subsamplingul cromatic este aplicat ca o măsură economică suplimentară în compresia JPEG, deoarece oamenii sunt mai puțin capabili să perceapă reducerile complexității și gamei benzilor de culoare decât sistemele de viziune computerizată, care iau aceste “agregări” mult mai literal decât o facem noi.

Cercetătorii noului studiu au constatat că eliminarea subsamplingului cromatic din procesul de compresie reduce acest efect negativ cu până la 15,95%, deși nu elimină complet problema.

Studiul afirmă, de asemenea, că instruirea pe date necomprimate (sau mai puțin comprimate) nu va rezolva problema dacă imaginile de la momentul inferenței sunt comprimate. În esență, acest lucru înseamnă că instruirea unui model de recunoaștere facială pe imagini mai puțin comprimate nu va rezolva biasul dacă modelul final de producție este alimentat cu imagini care au problemele de compresie menționate.

Autorii raportează*:

‘[Utilizarea] compresiei de imagine cu pierderi în timpul inferenței afectează negativ performanța abordărilor actuale de recunoaștere a feței pe un subset de grupări de fenotipuri rasiale (de exemplu, tonuri de piele mai întunecate, formă de ochi monolid) și că efectul său este prezent indiferent dacă imaginile comprimate sunt utilizate pentru antrenarea modelului.’

Hârtia subliniază consecințele compresiei de imagine asupra sectorului de cercetare a viziunii computerizate, care au fost detaliate într-un studiu din 2021 de la Universitatea din Maryland și Facebook AI.

Este o problemă dificilă de remediat; chiar dacă problemele de stocare și lățime de bandă care fac necesară compresia ar fi eliminate peste noapte, și chiar dacă toate imaginile de calitate scăzută care populează douăzeci de ani sau mai mult de seturi de date din sector ar fi recomprimate la o rată mai bună din surse de înaltă calitate, ar reprezenta o “resetare” a continuității instrumentelor de benchmarking academice de-a lungul ultimelor decenii. Comunitatea CV a devenit, în esență, obișnuită cu problema, până la punctul în care reprezintă o notabilă datorie tehnică.

Biasul rasial în recunoașterea feței a devenit un subiect de actualitate în mass-media în ultimii ani, ceea ce a determinat o încercare concertată în comunitatea de cercetare de a elimina acest bias din sistemele afectate. Cu toate acestea, dependența corpului de cercetare global de un număr excesiv de limitat de seturi de date “de aur”, multe dintre acestea fiind fie neracialmente echilibrate, fie etichetate slab în acest sens, accentuează provocarea.

Cercetătorii noului studiu notează, de asemenea, o disonanță între standardele de achiziție de imagini și standardele stabilite de către majoritatea benchmark-urilor de recunoaștere facială, afirmând*:

‘[Existente] standarde de achiziție de imagini pentru sisteme de recunoaștere a feței, cum ar fi ISO/IEC 19794-5 și ICAO 9303 propun atât standarde de calitate bazate pe imagine (de exemplu, iluminare, occluzie), cât și standarde de calitate bazate pe subiect (de exemplu, poziție, expresie, accesorii) pentru a asigura calitatea imaginilor faciale.’

‘În consecință, imaginile faciale ar trebui să fie stocate utilizând standarde de compresie de imagine cu pierderi, cum ar fi JPEG sau JPEG2000; și identificabile pentru sex, culoare a ochilor, culoare a părului, expresie, proprietăți (de exemplu, ochelari), unghiuri de poziție (yaw, pitch și roll) și poziții de repere.’

‘Cu toate acestea, benchmark-urile comune de recunoaștere a feței nu se conformează standardelor ISO/IEC 19794-5 și ICAO 9303. Mai mult, mostrele din sălbăticie sunt adesea obținute în condiții variate de cameră și mediu pentru a provoca soluțiile propuse.’

‘Cu toate acestea, majoritatea mostrelor de imagini faciale din astfel de seturi de date sunt comprimate prin compresia JPEG cu pierderi.’

Autorii noului studiu afirmă că eforturile lor viitoare vor examina impactul cuantificării de imagine cu pierderi asupra diverselor cadre de recunoaștere a feței și vor oferi metode posibile pentru a îmbunătăți echitatea acestor sisteme.

Date și Metodă

Pentru experimentele lor, cercetătorii au utilizat bibliotecile open source ImageMagick și libjpeg pentru a crea versiuni ale imaginilor sursă la diferite niveluri de compresie.

Pentru o prezentare generală a efectelor compresiei, autorii au studiat efectele raportului semnal-zgomot de vârf (PSNR) asupra a patru niveluri diferite de compresie JPEG pe setul de date Racial Faces in-the-Wild (RFW).

Scoruri PSNR pentru setul de date Racial Faces-in-the-Wild, demonstrând gradul în care compresia poate afecta capacitățile de recunoaștere pentru imagini comprimate.

Scoruri PSNR pentru setul de date Racial Faces-in-the-Wild, demonstrând gradul în care compresia poate afecta capacitățile de recunoaștere pentru imagini comprimate.

Printre alte teste, ei au efectuat cercetări pe un set de date rasial dezechilibrat și pe unul rasial echilibrat. Pentru setul rasial echilibrat, au utilizat funcția Pierdere Angulară Aditivă (ArcFace) cu ResNet101v2, pe setul de date original VGGFace2, care conține 3,3 milioane de imagini cu 8631 de subiecți rasial dezechilibrați.

Pentru testare, cercetătorii au utilizat setul de date RFW. Sistemul a fost instruit de patru ori, la patru niveluri diferite de compresie, rezultând patru modele ArcFace.

Pentru setul rasial echilibrat, aceleași cadre au fost inițial utilizate pe setul de date original aliniat BUPT-Balanced, care conține 28.000 de fețe echilibrate pe patru grupuri African, Asian, Indian și Caucasian, fiecare rasă reprezentată de 7000 de imagini. La fel ca și în setul de date rasial dezechilibrat, patru modele ArcFace au fost obținute în acest mod.

În plus, cercetătorii au reprodus efectele imaginilor comprimate și necomprimate în timpul instruirii prin eliminarea subsamplingului cromatic, pentru a măsura efectul său asupra performanței.

Rezultate

Rata de falsă potrivire (FMR) pe aceste seturi de date generate a fost apoi studiată. Criteriile pe care cercetătorii le căutau erau fenotipuri predefinite care se referă la caracteristici rasiale Tip de piele (1, 2, 3, 4, 5 sau 6), Tip de pleoapă (Monolid/Altele), Formă de nas (Lărgit/Îngust), Formă de buze (Plin/Subțire), Tip de păr (Drept/Unduit/Cârlionțat/Chel) și Culoare a părului – metrici extrase din lucrarea Măsurarea biasului ascuns în recunoașterea feței prin fenotipuri rasiale din 2019.

Hârtia afirmă:

‘Observăm că pentru toate nivelurile de compresie selectate q = {5, 10, 15, 95}, rata de falsă potrivire (FMR) crește atunci când se aplică compresia cu pierderi suplimentară, demonstrând că nivelul de compresie 5 (cel mai ridicat nivel de compresie) duce la cea mai semnificativă scădere a performanței FMR, în timp ce nivelul de compresie 95 (cel mai scăzut nivel de compresie) nu duce la nicio diferență semnificativă a performanței FMR.’

Un exemplu din graficele extinse de rezultate ale lucrării, care sunt prea mari și numeroase pentru a fi reproduse aici – vă rugăm să consultați lucrarea sursă pentru o rezoluție mai bună și rezultate complete. Aici, vedem gama de performanță FMR pe imagini cu fețe din ce în ce mai degradate/comprimate pentru VGGFace2, într-o gamă care include calitate necomprimată sau puțin comprimată.

Un exemplu din graficele extinse de rezultate ale lucrării, care sunt prea mari și numeroase pentru a fi reproduse aici – vă rugăm să consultați lucrarea sursă pentru o rezoluție mai bună și rezultate complete. Aici, vedem gama de performanță FMR pe imagini cu fețe din ce în ce mai degradate/comprimate pentru VGGFace2, într-o gamă care include calitate necomprimată sau puțin comprimată.

Hârtia conchide:

‘În general, evaluarea noastră constată că utilizarea mostrelor de imagini faciale comprimate cu pierderi la momentul inferenței scade performanța mai semnificativ pe anumite fenotipuri, incluzând tonuri de piele întunecate, nas larg, păr cârlionțat și ochi monolid, pe lângă toate celelalte caracteristici fenotipice.’

‘Cu toate acestea, utilizarea imaginilor comprimate în timpul instruirii face ca modelele rezultate să fie mai rezistente și limitează degradarea performanței întâlnită: performanța mai scăzută în rândul anumitor subgrupuri rasial aliniate rămâne. În plus, eliminarea subsamplingului cromatic îmbunătățește FMR pentru anumite categorii de fenotipuri mai afectate de compresia cu pierderi.’

 

* Conversia mea a citărilor inline ale autorilor în legături.

Publicat pentru prima dată pe 22 august 2022.

Scriitor pe machine learning, specialist în domeniul sintezei de imagini umane. Foster head of research content la Metaphysic.ai.