Изкуствен интелект

Компресията на JPEG увеличава честотата на грешки при разпознаване на лица за лица, които не са от кавказката раса, установява проучване

Обновено on Декември 9, 2022

Основно изображение: DALL-E 2.

Ново проучване от Обединеното кралство стигна до заключението, че техниките за компресия със загуби в JPEG изображения могат да окажат неблагоприятно влияние върху ефективността на системите за лицево разпознаване, правейки такива системи по-вероятно да идентифицират неправилно лице, което не е кавказко.

В статията се посочва:

„Чрез обширна експериментална настройка ние демонстрираме, че обичайните подходи за компресиране на изображения със загуба имат по-ясно изразено отрицателно въздействие върху производителността на лицевото разпознаване за специфични расови фенотипни категории, като по-тъмни тонове на кожата (с до 34.55%).“

Това показват и резултатите наситеност на наситеността, което намалява информацията за цвета (вместо информацията за яркостта) в секциите на изображението на лицето, увеличава процента на фалшиво съвпадение (FMR) в набор от тествани набори от данни, много от които са стандартни хранилища за компютърно зрение.

Операциите за субсемплиране на наситеност върху изходно изображение, с различни скорости, имат ясен ефект върху степента, до която се запазват детайлите и степента, до която подтоновете просто се „преливат“ един в друг, жертвайки детайлите и определящите характеристики. Моля, имайте предвид, че това изображение само по себе си може да бъде подложено на компресия и вижте оригиналната хартия за точна резолюция. Източник: https://arxiv.org/pdf/2208.07613.pdf

Chroma subsampling се прилага като допълнителна икономическа мярка при компресирането на JPEG, тъй като хората са по-малко способни да възприемат намаляване на сложността и обхвата на цветови ленти, отколкото системите за компютърно зрение, които приемат тези „агрегации“ много по-буквално от нас.

Изследователите за новото проучване са открили, че премахването на подсемплирането на цветността от процеса на компресиране намалява този отрицателен ефект с до 15.95%, въпреки че не премахва напълно проблема.

Проучването също така твърди, че обучението върху некомпресирани (или по-малко компресирани) данни ще не разрешите проблема, ако изображенията във времето за извод са компресирани. Ефективно това означава, че обучението на модел за лицево разпознаване върху по-слабо компресирани изображения няма да разреши отклонението, ако крайният производствен модел се захранва с изображения, които имат посочените проблеми с компресията.

Авторите докладват*:

„[Използването] на компресиране на изображения със загуба по време на извод се отразява неблагоприятно на производителността на съвременните подходи за разпознаване на лица върху подмножество от свързано с раса лицево фенотипно групиране (т.е. по-тъмни тонове на кожата, монолидна форма на очите) и че неговият ефект е налице независимо от това дали компресирани изображения се използват за обучение на модел.'

Документът подчертава последиците от компресирането на изображения върху изследователския сектор на компютърното зрение, които са описани в някои подробности в 2021 проучване от Университета на Мериленд и Facebook AI.

Това е труден проблем за отстраняване; дори ако проблемите със съхранението и честотната лента, които правят необходимата компресия, бяха елиминирани за една нощ и дори ако всички изображения с ниско качество, които попълват двадесет или повече години набори от данни в сектора, внезапно бяха повторно компресирани с по-добра скорост от висококачествени източници, това би представляват „нулиране“ на приемствеността на инструментите за академичен бенчмаркинг през последните няколко десетилетия. CV общността на практика има свиквам към проблема, до точката, в която представлява значителен технически дълг.

расов отклонение в лицевото разпознаване (FR) има да стане a гореща медийна тема през последните години, подтиквайки съгласувани усилия в изследователската общност да го елиминира от засегнатите системи. Въпреки това, зависимостта от глобалния изследователски орган на an прекомерно ограничено брой набори от данни за „златен стандарт“, много от които са или не е расово балансиран or лошо етикетирани в това отношение изостря предизвикателството.

Изследователите на новия документ допълнително отбелязват дисонанс между стандартите за придобиване на изображения и стандартите, определени от общия набор от показатели за разпознаване на лица, заявявайки*:

„[Съществуващи] стандарти за придобиване на изображения за системи за разпознаване на лица като ISO / IEC 19794 5- намлява ICAO 9303 предлага както стандарти за качество, базирани на изображения (т.е. осветяване, оклузия), така и базирани на обект (т.е. поза, изражение, аксесоари), за да се гарантира качество на изображението на лицето.

„Съответно изображенията на лицето също трябва да се съхраняват, като се използват стандарти за компресиране на изображения със загуба, като напр JPEG или JPEG2000; и могат да бъдат идентифицирани по пол, цвят на очите, цвят на косата, изражение, свойства (т.е. очила), ъгли на поза (наклон, наклон и търкаляне) и позиции на ориентир.

„Въпреки това общите показатели за разпознаване на лица не отговарят на стандартите ISO/IEC 19794-5 и ICAO 9303. Освен това, пробите в дивата природа често се получават при различни камери и условия на околната среда, за да предизвикат предложените решения.

„Въпреки това, повечето проби от изображения на лица в такива набори от данни са компресирани чрез JPEG компресия със загуба.“

Авторите на новата работа заявяват, че бъдещите им усилия ще проучат въздействието на квантизирането на изображения със загуба върху различни рамки за разпознаване на лица и ще предложат възможни методи за подобряване на справедливостта на тези системи.

- нова хартия е озаглавен Влияе ли компресирането на изображения със загуба на расови пристрастия при разпознаването на лица?, и идва от трима изследователи от Imperial College London, заедно с един от дълбокия анализ на лицето InsightFace библиотека.

Данни и метод

За своите експерименти изследователите са използвали ImageMagick намлява libjpeg библиотеки с отворен код за създаване на версии на изображения на изходните данни при различни степени на компресиране.

За първоначален преглед на ефектите от компресията, авторите изследват ефектите на съотношението пиков сигнал/шум (PSNR) на четири различни нива на JPEG компресия на Racial Faces in-the-Wild (RFW) набор от данни.

PSNR резултати за набора от данни Racial Faces-in-the-Wild, демонстриращи степента, до която компресията може да повлияе на възможностите за разпознаване на компресирани изображения.

Наред с други тестове, те проведоха изследване върху расово небалансиран набор от данни и друг, който беше расово балансиран. За расово балансирания набор те използваха добавената загуба на ъглов марж (ArcFace) функция с ResNet101v2, на оригинала VGGFace2 сравнителен набор от данни, който съдържа 3.3 милиона изображения, включващи 8631 расово неуравновесени субекта.

За тестване изследователите са използвали набора от данни RFW. Системата беше обучена четири пъти, на четири различни нива на компресия, което доведе до четири модела ArcFace.

За расово балансирания комплект, същите рамки бяха първоначално използвани в оригинала BUPT-Балансиран набор от сравнителни данни, който съдържа 28,000 XNUMX лица, балансирани в четирите групи африкански, Азиатски, индийски, и Кавказки, като всяка раса е представена от 7000 изображения. Както при расово-небалансирания набор от данни, по този начин бяха получени четири модела ArcFace.

Освен това, изследователите възпроизвеждат ефектите от компресирано и некомпресирано обучение чрез премахване на подсемплирането на цветността, за да измерят ефекта му върху производителността.

Резултати

След това беше проучен процентът на фалшиво съвпадение (FMR) в тези генерирани набори от данни. Критериите, които изследователите търсеха, бяха предварително определени фенотипа свързани с расовите характеристики Тип кожа (1, 2, 3, 4, 5 или 6), Тип клепач (монолид/други), Форма на носа (широк/тесен), Форма на устните (Пълен/малък), Тип коса (Прав/Вълнообразен/Къдрав/Плешив) и Цвят на косата – показатели, извлечени от 2019 г хартия Измерване на скрити пристрастия в разпознаването на лица чрез расови фенотипове.

В статията се посочва:

„Наблюдаваме, че за всички избрани надолу нива на компресия q = {5, 10, 15, 95}, FMR се увеличава, когато се приложи допълнителна компресия със загуби, което показва, че ниво на компресия 5 (най-високата степен на компресия) води до най-значителното намаление в производителността на FMR, докато ниво на компресия 95 (най-ниската степен на компресия) не води до забележими разлики в производителността на FMR.'

Извадка от обширните диаграми с резултати на документа, които са твърде големи и многобройни, за да бъдат възпроизведени тук – моля, вижте изходния документ за по-добра резолюция и пълни резултати. Тук виждаме гамата от FMR производителност във все по-влошени/компресирани изображения на лица за VGGFace2, в диапазон, който включва некомпресирано или слабо компресирано качество.

Документът заключава:

„Като цяло нашата оценка установява, че използването на компресирани проби от лицеви изображения по време на извод намалява по-значително ефективността на специфични фенотипове, включително тъмен тон на кожата, широк нос, къдрава коса и монолидно око при всички други фенотипни характеристики.

„Въпреки това, използването на компресирани изображения по време на обучение прави получените модели по-устойчиви и ограничава възникналото влошаване на производителността: по-ниската производителност сред специфични расово обвързани подгрупи остава. Освен това, премахването на субсемплирането на хрома подобрява FMR за специфични категории фенотип, по-засегнати от компресията със загуби.'

* Моето преобразуване на вградените цитати на авторите в хипервръзки.

Първо публикувано на 22 август 2022 г.