Tekoäly
JPEG-pakkaus lisää kasvojen tunnistusvirheiden määrää ei-valkoihoisilla kasvoilla, tutkimustulokset

Uusi brittiläinen tutkimus on päätellyt, että JPEG-kuvien häviölliset pakkaustekniikat voivat vaikuttaa haitallisesti kasvojentunnistusjärjestelmien tehokkuuteen, jolloin tällaiset järjestelmät tunnistavat todennäköisemmin väärin ei-valkoihoisen henkilön.
Paperissa todetaan:
"Laajalla kokeellisella järjestelyllä osoitamme, että yleisillä häviöllisillä kuvanpakkausmenetelmillä on selvempi negatiivinen vaikutus kasvojentunnistuksen suorituskykyyn tietyissä rotufenotyyppiluokissa, kuten tummemmissa ihosävyissä (jopa 34.55 %)."
Tulokset osoittavat myös sen kroman alinäytteenotto, joka vähentää väritietoja (eikä kirkkaustietoja) kasvokuvan osissa, lisää FMR (False Matching Rate) -arvoa useissa testatuissa tietojoukoissa, joista monet ovat tietokonenäön vakiovarastoja.

Lähdekuvan värin alinäytteenottotoiminnot vaihtelevilla nopeuksilla vaikuttavat selvästi siihen, missä määrin yksityiskohdat säilyvät, ja siihen, missä määrin alisävyt yksinkertaisesti "sulautuvat" toisiinsa, uhraten yksityiskohtia ja määrittäviä piirteitä. Huomaa, että tämä kuva itsessään saattaa joutua pakkaamisen kohteeksi, ja katso tarkka resoluutio lähdepaperista. Lähde: https://arxiv.org/pdf/2208.07613.pdf
Kroma-alinäytteenottoa käytetään lisätaloudellisena toimenpiteenä JPEG-pakkauksessa, koska ihmiset eivät pysty havaitsemaan värikaistojen monimutkaisuuden ja vaihteluvälin vähenemistä kuin tietokonenäköjärjestelmät, jotka ottavat nämä "aggregaatiot" paljon kirjaimellisemmin kuin me.
Uuden tutkimuksen tutkijat ovat havainneet, että kroma-alinäytteenoton poistaminen pakkausprosessista vähentää tätä negatiivista vaikutusta jopa 15.95 %, vaikka se ei poista ongelmaa kokonaan.
Tutkimus väittää myös, että pakkaamattomalla (tai vähemmän pakatulla) tiedolla harjoitteleminen onnistuu emme ratkaise ongelma, jos päättelyaikakuvat on pakattu. Käytännössä tämä tarkoittaa, että kasvojentunnistusmallin harjoitteleminen vähemmän pakatuilla kuvilla ei ratkaise harhaa, jos lopulliseen tuotantomalliin syötetään kuvia, joissa on mainitut pakkausongelmat.
Kirjoittajien raportti*:
"Häviöllisen kuvanpakkauksen käyttö päättelyn aikana vaikuttaa haitallisesti nykyajan suorituskykyyn kasvojentunnistusmenetelmiä rotuun liittyvän kasvojen fenotyyppien ryhmittelyn osajoukossa (eli tummemmat ihonsävyt, yksisilmäinen silmien muoto) ja että sen vaikutus on olemassa riippumatta siitä, käytetäänkö malliharjoittelussa kompressoituja kuvia."
Asiakirjassa korostetaan kuvan pakkaamisen vaikutuksia tietokonenäkötutkimuksen alalle, jotka on kuvattu yksityiskohtaisesti 2021 tutkimus Marylandin yliopistosta ja Facebook AI:sta.
Se on vaikea korjata ongelma; vaikka pakkausta edellyttävät tallennus- ja kaistanleveysongelmat poistettaisiin yhdessä yössä ja vaikka kaikki huonolaatuiset kuvat, jotka täyttävät XNUMX tai useamman vuoden tietojoukot alalla, yhtäkkiä pakattaisiin uudelleen paremmalla nopeudella korkealaatuisista lähteistä, se edustavat "nollausta" akateemisten benchmarking-työkalujen jatkuvuudesta viime vuosikymmeninä. CV-yhteisö on käytännössä tottua ongelmaan, siihen pisteeseen, jossa se edustaa huomattavaa teknistä velkaa.
rodullinen puolueellisuus kasvojentunnistuksessa (FR) on tulevat a kuuma media-aihe viime vuosina, mikä on aiheuttanut tutkimusyhteisön yhteisiä ponnisteluja sen poistamiseksi vaikuttavista järjestelmistä. Kuitenkin riippuvuus globaalista tutkimuslaitoksesta on liian rajoitettu "kultastandardin" tietojoukkojen määrä, joista monet ovat joko ei ole rodullisesti tasapainoinen or huonosti merkitty tässä suhteessa pahentaa haastetta.
Uuden artikkelin tutkijat havaitsevat lisäksi dissonanssin kuvanottostandardien ja yleisen kasvojentunnistuksen vertailuarvojen asettamien standardien välillä, toteamalla*:
"[Nykyiset] kuvanottostandardit kasvojentunnistusjärjestelmille, kuten ISO / IEC 19794-5 ja ICAO 9303 ehdottaa sekä kuvapohjaisia (eli valaistus, okkluusio) että aihekohtaisia (esim. asennot, ilme, asusteet) laatustandardeja kasvojen kuvanlaadun varmistamiseksi.
"Näin vuoksi kasvokuvat tulisi myös tallentaa käyttämällä häviöllisiä kuvanpakkausstandardeja, kuten JPEG tai JPEG2000; ja tunnistettavissa sukupuolen, silmien värin, hiusten värin, ilmeen, ominaisuuksien (eli lasit), asennon kulmien (kääntö, nousu ja rullaus) ja maamerkkiasennon perusteella.
"Yleiset kasvojentunnistuksen vertailuarvot eivät kuitenkaan ole ISO/IEC 19794-5- ja ICAO 9303 -standardien mukaisia. Lisäksi luonnossa esiintyviä näytteitä saadaan usein vaihtelevissa kamera- ja ympäristöolosuhteissa ehdotettujen ratkaisujen kyseenalaistamiseksi.
"Kuitenkin useimmat kasvokuvanäytteet tällaisissa tietojoukoissa pakataan häviöisellä JPEG-pakkauksella."
Uuden työn tekijät toteavat, että heidän tulevissa ponnisteluissaan selvitetään häviöllisen kuvan kvantisoinnin vaikutusta erilaisiin kasvojentunnistuskehyksiin ja tarjotaan mahdollisia menetelmiä näiden järjestelmien oikeudenmukaisuuden parantamiseksi.
- uusi paperi on otsikko Vaikuttaako häviöllinen kuvanpakkaus kasvojentunnistuksen rotuun?, ja se tulee kolmelta Imperial College Londonin tutkijalta sekä yhdeltä InsightFacen syväkasvoanalyysistä kirjasto.
Tiedot ja menetelmä
Kokeissaan tutkijat käyttivät ImageMagick ja libjpeg avoimen lähdekoodin kirjastot, joiden avulla voit luoda versioita lähdetietokuvista erilaisilla pakkausasteikoilla.
Ensimmäisen yleiskatsauksen saamiseksi pakkauksen vaikutuksista kirjoittajat tutkivat huippusignaali-kohinasuhteen vaikutuksia (PSNR) neljällä eri JPEG-pakkaustasolla Racial Faces in-the-Wild -tilassa (RFW) tietojoukko.

Racial Faces-in-the-Wild -tietojoukon PSNR-pisteet osoittavat, kuinka paljon pakkaus voi vaikuttaa pakattujen kuvien tunnistusominaisuuksiin.
Muiden testien ohella he suorittivat tutkimusta rodullisesti epätasapainoisesta tietojoukosta ja toisesta, joka oli rodullisesti tasapainoinen. Rodullisesti tasapainoisessa sarjassa he käyttivät Additive Angular Margin Loss (ArcFace) -toimintoa ResNet101v2, alkuperäisessä VGGFace2 vertailuarvoaineisto, joka sisältää 3.3 miljoonaa kuvaa, joissa on 8631 rodullisesti epätasapainoista henkilöä.
Testaukseen tutkijat käyttivät RFW-tietoaineistoa. Järjestelmää koulutettiin neljä kertaa neljällä eri pakkaustasolla, mikä johti neljään ArcFace-malliin.
Rodullisesti tasapainotetussa sarjassa samoja kehyksiä käytettiin alun perin alkuperäisessä linjassa BUPT-tasapainoinen vertailutietojoukko, joka sisältää 28,000 XNUMX kasvoja tasapainotettuina neljässä ryhmässä afrikkalainen, Aasian, intialainenja Valkoihoinen, jokaista rotua edustaa 7000 kuvaa. Kuten rodullisesti epätasapainoisessa tietojoukossa, neljä ArcFace-mallia saatiin tällä tavalla.
Lisäksi tutkijat toistivat pakatun ja pakkaamattoman harjoittelun vaikutukset poistamalla kroma-alinäytteenoton mitatakseen sen vaikutusta suorituskykyyn.
tulokset
Tämän jälkeen tutkittiin näiden luotujen tietojoukkojen vääriä vastaavuussuhdetta (FMR). Tutkijoiden etsimät kriteerit olivat ennalta määriteltyjä fenotyyppejä rodullisiin piirteisiin liittyen Ihotyyppi (1, 2, 3, 4, 5 tai 6), Silmäluomen tyyppi (monolidi/muu), Nenän muoto (Leveä kapea), Huulten muoto (täysi/pieni), Hiustyyppi (suora/aaltomainen/kihara/kalju) ja Hiusten väri – mittarit vuodelta 2019 paperi Piilotetun vinon mittaaminen kasvojentunnistuksessa rotufenotyyppien avulla.
Paperissa todetaan:
"Havaitsemme, että kaikilla alas valituilla pakkaustasoilla q = {5, 10, 15, 95} FMR kasvaa, kun käytetään ylimääräistä häviöllistä pakkausta, mikä osoittaa, että pakkaustaso 5 (korkein pakkaussuhde) johtaa merkittävimpään laskuun. FMR-suorituskyvyssä, kun taas pakkaustaso 95 (alin pakkaussuhde) ei johda havaittaviin FMR-suorituskykyeroihin.

Näyte paperin laajoista tuloskaavioista, jotka ovat liian suuria ja lukuisia tässä toistettavaksi – katso lähdepaperista parempi resoluutio ja täydelliset tulokset. Tässä näemme FMR-suorituskyvyn kirjon yhä huonommissa/pakatuissa kasvokuvissa VGGFace2:lle alueella, joka sisältää pakkaamattoman tai vähän pakkaamattoman laadun.
Paperin lopputulos:
"Kaiken kaikkiaan arviomme havaitsee, että häviöllisten pakattujen kasvokuvanäytteiden käyttäminen johtopäätöshetkellä heikentää suorituskykyä merkittävästi tietyissä fenotyypeissä, mukaan lukien tumma ihon sävy, leveä nenä, kiharat hiukset ja monolid silmät kaikissa muissa fenotyyppisissä piirteissä.
"Pakatun kuvan käyttö harjoituksen aikana tekee tuloksena olevista malleista kuitenkin joustavampia ja rajoittaa havaittua suorituskyvyn heikkenemistä: tiettyjen rodullisesti suuntautuneiden alaryhmien suorituskyky on heikompi. Lisäksi kroma-alinäytteenoton poistaminen parantaa FMR:ää tietyissä fenotyyppiluokissa, joihin häviöllinen pakkaus vaikuttaa enemmän.
* Muutokseni tekijöiden tekstin sisäisistä lainauksista hyperlinkeiksi.
Julkaistu ensimmäisen kerran 22.