Искусственный интеллект

Сжатие JPEG увеличивает ошибку распознавания лиц для лиц неевропейского происхождения, показало исследование

Published August 22, 2022

Updated April 28, 2026

Martin Anderson

Новое исследование из Великобритании пришло к выводу, что методы сжатия с потерями в изображениях JPEG могут оказывать негативное влияние на эффективность систем распознавания лиц, что делает эти системы более склонными к неправильной идентификации лица человека неевропейского происхождения.

Исследование гласит:

‘С помощью обширной экспериментальной установки мы демонстрируем, что общие методы сжатия изображений с потерями имеют более выраженное негативное влияние на производительность распознавания лиц для определенных расовых фенотипов, таких как более темные тона кожи (до 34,55%).’

Результаты также показывают, что хрома-сабсэмплинг, который уменьшает цветовую информацию (а не яркость) по всему лицу, увеличивает коэффициент ложного совпадения (FMR) во всех проверенных наборах данных, многие из которых являются стандартными репозиториями для компьютерного зрения.

Операции хрома-сабсэмплинга на исходном изображении при различных скоростях имеют четкое влияние на сохранение деталей и на то, как подтоны просто ‘сливаются’ друг с другом, жертвуя деталями и определяющими особенностями. Пожалуйста, обратите внимание, что это изображение само по себе может быть сжато, и обратитесь к исходному исследованию для точного разрешения. Источник: https://arxiv.org/pdf/2208.07613.pdf

Хрома-сабсэмплинг применяется в качестве дополнительной экономической меры в сжатии JPEG, поскольку люди менее способны воспринимать уменьшение сложности и диапазона цветовых полос, чем системы компьютерного зрения, которые воспринимают эти ‘агрегации’ гораздо более буквально, чем мы.

Исследователи нового исследования обнаружили, что удаление хрома-сабсэмплинга из процесса сжатия уменьшает это негативное влияние до 15,95%, хотя не полностью устраняет проблему.

Исследование также утверждает, что обучение на несжатых (или менее сжатых) данных не решит проблему, если изображения, используемые во время вывода, сжаты. По сути, это означает, что обучение модели распознавания лиц на менее сжатых изображениях не решит предвзятость, если окончательная модель производства получает изображения, имеющие указанные проблемы сжатия.

Авторы сообщают*:

‘Использование сжатия с потерями во время вывода отрицательно влияет на производительность современных подходов к распознаванию лиц на определенной расовой фенотипической группе (т.е. более темные тона кожи, форма глаз монолид) и что его влияние присутствует независимо от того, используются ли сжатые изображения для обучения модели.’

Исследование подчеркивает последствия сжатия изображений для сектора исследований компьютерного зрения, которые были подробно описаны в исследовании 2021 года Университета Мэриленда и Facebook AI.

Это сложная проблема; даже если бы проблемы хранилища и пропускной способности, которые делают сжатие необходимым, были устранены за одну ночь, и даже если бы все низкокачественные изображения, которые населяют двадцать или более лет наборов данных в секторе, были вдруг пересжаты с высококачественных источников, это представляло бы ‘сброс’ непрерывности академических инструментов бенчмаркинга за последние несколько десятилетий. Сообщество CV, по сути, привыкло к этой проблеме, до такой степени, что она представляет собой значительный технический долг.

Расовая предвзятость в распознавании лиц (FR) стала актуальной темой в СМИ в последние годы, что привело к согласованным усилиям в исследовательском сообществе по устранению ее из затронутых систем. Однако зависимость мирового исследовательского сообщества от чрезмерно ограниченного количества ‘золотых стандартов’ наборов данных, многие из которых либо не расово сбалансированы, либо плохо помечены в этом отношении, усугубляет проблему.

Исследователи нового исследования также отмечают диссонанс между стандартами сбора изображений и стандартами, установленными общим набором бенчмарков распознавания лиц, заявляя*:

‘Существующие стандарты сбора изображений для систем распознавания лиц, такие как ISO/IEC 19794-5 и ICAO 9303, предлагают как изображение-основанные (т.е. освещение, окультация), так и субъект-основанные (т.е. поза, выражение, аксессуары) стандарты качества для обеспечения качества лицевого изображения. ‘

‘Соответственно, лицевые изображения также должны храниться с использованием стандартов сжатия с потерями, таких как JPEG или JPEG2000; и должны быть идентифицируемыми по полу, цвету глаз, цвету волос, выражению, свойствам (т.е. очкам), углам позы (yaw, pitch и roll) и положению ориентиров.’

‘Однако общие бенчмарки распознавания лиц не соответствуют стандартам ISO/IEC 19794-5 и ICAO 9303. Кроме того, в дикой природе образцы часто получаются в различных условиях камеры и окружающей среды для проверки предложенных решений. ‘

‘Тем не менее, большинство лицевых образцов внутри таких наборов данных сжимаются с помощью сжатия JPEG с потерями.’

Авторы нового исследования заявляют, что их будущие усилия будут направлены на изучение влияния сжатия изображений с потерями на различные фреймворки распознавания лиц и на предложение возможных методов для улучшения справедливости этих систем.

Новая работа озаглавлена Влияет ли сжатие изображений с потерями на расовую предвзятость в распознавании лиц? и исходит от трех исследователей из Имперского колледжа Лондона, вместе с одним из библиотеки глубокого анализа лиц InsightFace library.

Метод и данные

Для своих экспериментов исследователи использовали библиотеки ImageMagick и libjpeg с открытым исходным кодом для создания версий исходных изображений данных на различных уровнях сжатия.

Для первоначального обзора эффектов сжатия авторы изучали влияние пикового отношения сигнал-шум (PSNR) на четыре разных уровня сжатия JPEG на наборе данных Racial Faces in-the-Wild (RFW).

Оценки PSNR для набора данных Racial Faces-in-the-Wild, демонстрирующие степень, в которой сжатие может повлиять на способность распознавания для сжатых изображений.

Среди других тестов они провели исследование на расово несбалансированном наборе данных и на расово сбалансированном. Для расово сбалансированного набора они использовали функцию Additive Angular Margin Loss (ArcFace) с ResNet101v2 на исходном VGGFace2 бенчмарке, который содержит 3,3 миллиона изображений с 8631 расово несбалансированными объектами.

Для тестирования исследователи использовали набор данных RFW. Система была обучена четыре раза, на четырех разных уровнях сжатия, в результате чего получилось четыре модели ArcFace.

Для расово сбалансированного набора были использованы те же фреймворки, которые изначально использовались на исходном выровненном BUPT-Balanced бенчмарке, который содержит 28 000 лиц, сбалансированных по четырем группам Африканская, Азиатская, Индийская и Европейская, каждая раса представлена 7000 изображениями. Как и в случае с расово несбалансированным набором данных, четыре модели ArcFace были получены таким образом.

Кроме того, исследователи воспроизвели эффекты сжатых и несжатых тренировок, удалив хрома-сабсэмплинг, чтобы измерить его влияние на производительность.

Результаты

Затем был изучен коэффициент ложного совпадения (FMR) по этим сгенерированным наборам данных. Критерии, которые искали исследователи, были предопределенными фенотипами, связанными с расовыми характеристиками Тип кожи (1, 2, 3, 4, 5 или 6), Тип век (Монолид/Другой), Форма носа (Широкая/Узкая), Форма губ (Полные/Маленькие), Тип волос (Прямые/Волнистые/Кудрявые/Лысые), и Цвет волос – метрики, полученные из работы Измерение скрытой предвзятости в распознавании лиц через расовые фенотипы.

Исследование гласит:

‘Мы наблюдаем, что для всех выбранных уровней сжатия q = {5, 10, 15, 95} FMR увеличивается, когда применяется дополнительное сжатие с потерями, демонстрируя, что уровень сжатия 5 (самый высокий уровень сжатия) приводит к наиболее значительному снижению производительности FMR, в то время как уровень сжатия 95 (самый низкий уровень сжатия) не приводит к заметным различиям в производительности FMR.’

Образец из обширных таблиц результатов, которые слишком велики и многочисленны, чтобы воспроизвести здесь – пожалуйста, обратитесь к исходному исследованию для лучшего разрешения и полных результатов. Здесь мы видим диапазон производительности FMR по все более ухудшенным/сжатым изображениям лиц для VGGFace2, в диапазоне, который включает несжатое или мало сжатое качество.

Исследование заключает:

‘В целом, наше исследование показывает, что использование сжатых образцов лиц во время вывода снижает производительность более значительно для определенных фенотипов, включая темный тон кожи, широкий нос, кудрявые волосы и монолидные глаза по всем другим фенотипическим особенностям. ‘

‘Однако использование сжатых изображений во время обучения делает полученные модели более устойчивыми и ограничивает ухудшение производительности, которое встречается: более низкая производительность среди определенных расово-ориентированных подгрупп остается. Кроме того, удаление хрома-сабсэмплинга улучшает FMR для определенных категорий фенотипов, более пострадавших от сжатия с потерями.’

* Мое преобразование внутренних цитат авторов в гиперссылки.

Опубликовано впервые 22 августа 2022 года.

Martin Anderson

Писатель о машинном обучении, специалист в области синтеза человеческих изображений. Бывший руководитель исследовательского контента в Metaphysic.ai.

Unite.AI

Сжатие JPEG увеличивает ошибку распознавания лиц для лиц неевропейского происхождения, показало исследование

Метод и данные

Результаты

You may like