Штучний інтелект

Стиснення JPEG збільшує рівень помилок розпізнавання обличчя для осіб неєвропейської національності, встановлює дослідження

Published August 22, 2022

Updated April 5, 2026

Martin Anderson

Нове дослідження у Великій Британії дійшло до висновку, що техніки втратного стиснення в зображеннях JPEG можуть мати негативний вплив на ефективність систем розпізнавання обличчя, роблячи такі системи більш схильними до неправильної ідентифікації особи неєвропейської національності.

Папера заявляє:

‘Через широкий експериментальний набір ми демонструємо, що загальні підходи до втратного стиснення зображень мають більш виражений негативний вплив на продуктивність розпізнавання обличчя для певних расових фенотипових категорій, таких як темні тонування шкіри (до 34,55%).’

Результати також вказують на те, що хрома-субдискретизація, яка зменшує кольорову інформацію (а не яскравість) по секціям зображення обличчя, збільшує рівень помилкової відповідності (FMR) у діапазоні тестових наборів даних, багато з яких є стандартними репозиторіями для комп’ютерного зору.

Операції хрома-субдискретизації на вихідному зображенні при різних швидкостях мають чіткий вплив на ступінь збереження деталей і ступінь, у якій субтони просто «змішуються» один з одним, жертвуючи деталями та визначаючи ознаки. Будь ласка, зверніть увагу, що це зображення сам по собі може бути піддано стисненню, і зверніться до джерельної статті для отримання точного розширення. Джерело: https://arxiv.org/pdf/2208.07613.pdf

Хрома-субдискретизація застосовується як додаткова економічна міра при стисненні JPEG, оскільки люди менш здатні сприймати зменшення складності та діапазону кольорових смуг, ніж системи комп’ютерного зору, які сприймають ці «агрегації» набагато буквальніше, ніж ми.

Дослідники нового дослідження виявили, що видалення хрома-субдискретизації зі процесу стиснення зменшує цей негативний ефект до 15,95%, хоча не повністю усуває проблему.

Студія також стверджує, що навчання на незстиснутих (або менш стиснутих) даних не вирішить проблему, якщо зображення часу висновку стиснуті. Ефективно, це означає, що навчання моделі розпізнавання обличчя на менш стиснутих зображеннях не вирішить упередженість, якщо кінцева модель виробництва буде годуватися зображеннями, які мають зазначені проблеми стиснення.

Автори повідомляють*:

‘[Використання] втратного стиснення зображень під час висновку негативно впливає на продуктивність сучасних підходів до розпізнавання обличчя на підмножині расових фенотипових груп (тобто темні тонування шкіри, монолідний вигляд очей) і що його вплив присутній незалежно від того, чи використовуються стиснуті зображення для навчання моделі.’

Папера підкреслює наслідки стиснення зображень на сектор досліджень комп’ютерного зору, які були викладені в деяких деталях у дослідженні 2021 року Університету Меріленду та Facebook AI.

Це важлива проблема; навіть якщо проблеми зберігання та пропускної здатності, які роблять стиснення необхідним, були усунені за одну ніч, і навіть якщо всі низькоякісні зображення, які населяють двадцять або більше років наборів даних у секторі, були раптом перествиснені з високоякісних джерел, це представляло б «сброс» безперервності академічних інструментів бенчмаркінгу за останні кілька десятиліть. Спільнота CV, по суті, звичаїлася до цієї проблеми, до тієї міри, що вона представляє помітний технічний борг.

Расова упередженість у розпізнаванні обличчя (FR) стала гарякою медійною темою за останні роки, що спонукало зусилля дослідницької спільноти усунути її з постраждалих систем. Однак залежність світового дослідницького органу від надмірно обмеженого числа «золотих стандартних» наборів даних, багатьох з яких або не расово збалансованих, або погано позначених в цьому відношенні, посилює проблему.

Дослідники нової статті додатково відзначають розбіжність між стандартами отримання зображень та стандартами, встановленими загальним потоком бенчмарків розпізнавання обличчя, заявляючи*:

‘[Існуючі] стандарти отримання зображень для систем розпізнавання обличчя, такі як ISO/IEC 19794-5 і ICAO 9303, пропонують як зображення-орієнтовані (тобто освітлення, окулювання), так і суб’єкт-орієнтовані (тобто поза, вираз, аксесуари) стандарти якості, щоб забезпечити якість зображення обличчя. ‘

‘Відповідно, зображення обличчя також повинні зберігатися за допомогою втратного стиснення зображень, таких як JPEG або JPEG2000; і ідентифіковані за ознаками статі, кольору очей, кольору волосся, виразу, властивостей (тобто окулярів), кутів пози (yaw, pitch, roll) і положень орієнтирів. ‘

‘Однак, загальні бенчмарки розпізнавання обличчя не відповідають стандартам ISO/IEC 19794-5 і ICAO 9303. Крім того, зразки в дикій природі часто отримуються під різними камерними та екологічними умовами, щоб викликати запропоновані рішення. ‘

‘Однак більшість зображень обличчя в таких наборах даних стиснені за допомогою втратного стиснення JPEG.’

Автори нової праці заявляють, що їхні майбутні зусилля будуть присвячені вивченню впливу втратної кванталізації зображень на різноманітні рамки розпізнавання обличчя та пропонуванню можливих методів покращення справедливості цих систем.

Нова стаття називається Чи впливає втратне стиснення зображень на расову упередженість у розпізнаванні обличчя? і походить від трьох дослідників Імперського коледжу Лондона, разом з одним з бібліотеки InsightFace глибокого аналізу обличчя бібліотеки.

Дані та метод

Для своїх експериментів дослідники використовували ImageMagick і libjpeg відкриті бібліотеки для створення версій вихідних даних-зображень на різних інкрементах стиснення.

Для початкового огляду впливу стиснення автори вивчили вплив співвідношення пікової сигнал-шуму (PSNR) на чотири різних рівні стиснення JPEG на наборі даних Racial Faces in-the-Wild (RFW).

Бали PSNR для набору даних Racial Faces-in-the-Wild, демонструючи ступінь, у якій стиснення може вплинути на можливості розпізнавання для стиснутих зображень.

Серед інших тестів вони провели дослідження на расово несбалансованому наборі даних та іншому, який був расово збалансований. Для расово збалансованого набору вони використовували функцію Additive Angular Margin Loss (ArcFace) з ResNet101v2, на оригінальному VGGFace2 бенчмарку, який містить 3,3 мільйона зображень, що представляють 8631 расово несбалансованих суб’єктів.

Для тестування дослідники використовували набір даних RFW. Система була навчена чотири рази, на чотирьох різних рівнях стиснення, що призвело до чотирьох моделей ArcFace.

Для расово збалансованого набору були спочатку використані ті самі рамки на оригінальному вирівняному BUPT-Balanced бенчмарку, який містить 28 000 облич, збалансованих по чотирьох групах Африканська, Азіатська, Індійська і Європейська, кожна раса представлена 7000 зображень. Як і у випадку з расово несбалансованим набором даних, чотири моделі ArcFace були отримані таким чином.

Крім того, дослідники відтворили вплив стиснених і незстиснених навчань, видаливши хрома-субдискретизацію, щоб виміряти її вплив на продуктивність.

Результати

Рівень помилкової відповідності (FMR) по цих згенерованих наборах даних були потім вивчені. Критерії, які дослідники шукали, були попередньо визначені фенотипи, пов’язані з расовими ознаками Тип шкіри (1, 2, 3, 4, 5 або 6), Тип повік (Монолідний/Інший), Форма носа (Широка/Вузька), Форма губ (Повні/Малі), Тип волосся (Пряме/Хвильове/Кучеряве/Лисе), і Колір волосся – метрики, взяті з статті 2019 року Вимірювання прихованої упередженості в розпізнаванні обличчя через расові фенотипи.

Папера заявляє:

‘Ми спостерігаємо, що для всіх вибраних рівнів стиснення q = {5, 10, 15, 95}, рівень помилкової відповідності (FMR) збільшується, коли застосовується додаткове втратне стиснення, демонструючи, що рівень стиснення 5 (найвищий рівень стиснення) призводить до найбільш значного зниження продуктивності FMR, тоді як рівень стиснення 95 (найнижчий рівень стиснення) не призводить до жодної помітної різниці в продуктивності FMR.’

Зразок з обширних результатів діаграм, які занадто великі та численні, щоб їх тут відтворити – зверніться до джерельної статті для отримання кращого розширення та повних результатів. Тут ми бачимо діапазон продуктивності FMR по дедеградованим/стиснутим зображенням обличчя для VGGFace2, у діапазоні, який включає незстиснуте або мало стиснуте якість.

Папера завершується:

‘Загалом, наше оцінювання виявило, що використання втратного стиснення зображень обличчя під час висновку знижує продуктивність більш значно для певних фенотипів, включаючи темний тон шкіри, широкий ніс, кучеряве волосся та монолідний вигляд очей по всіх інших фенотипових ознаках. ‘

‘Однак використання стиснених зображень під час навчання робить отримані моделі більш стійкими та обмежує зниження продуктивності, яке зустрічається: нижча продуктивність серед певних расово-орієнтованих підгруп залишається. Крім того, видалення хрома-субдискретизації покращує рівень помилкової відповідності (FMR) для певних фенотипових категорій, які більш піддаються втратному стисненню.’

* Моє перетворення авторських внутрішніх посилань на гіперпосилання.

Опубліковано вперше 22 серпня 2022 року.

Martin Anderson

Писатель про машинне навчання, домен-спеціаліст у сфері синтезу зображень людини. Колишній керівник дослідницького контенту в Metaphysic.ai.
Особистий сайт: martinanderson.ai
Контакт: [email protected]

Unite.AI

Стиснення JPEG збільшує рівень помилок розпізнавання обличчя для осіб неєвропейської національності, встановлює дослідження

Дані та метод

Результати

You may like