Connect with us

Sztuczna inteligencja

Kompresja JPEG zwiększa współczynnik błędów rozpoznawania twarzy dla osób niebiałych, stwierdza badanie

mm
Main image: DALL-E 2.

Nowe badanie przeprowadzone w Wielkiej Brytanii doszło do wniosku, że techniki kompresji stratnej w obrazach JPEG mogą mieć niekorzystny wpływ na skuteczność systemów rozpoznawania twarzy, powodując, że takie systemy są bardziej skłonne do nieprawidłowej identyfikacji osoby niebiałej.

Artykuł stwierdza:

‘Przy użyciu obszernego zestawu eksperymentalnego, demonstrujemy, że powszechne metody kompresji stratnej mają bardziej wyraźny negatywny wpływ na wyniki rozpoznawania twarzy dla określonych kategorii fenotypu rasowego, takich jak ciemniejsze odcienie skóry (o maksymalnie 34,55%).’

Wyniki wskazują również, że próbkowanie chromatyczne, które redukuje informacje kolorystyczne (zamiast informacji o jasności) w poszczególnych sekcjach obrazu twarzy, zwiększa współczynnik błędnych dopasowań (FMR) w zakresie danych testowych, z których wiele stanowi standardowe repozytoria dla widzenia komputerowego.

Operacje próbkowania chromatycznego na obrazie źródłowym, przy różnych stopniach, mają wyraźny wpływ na stopień, w jakim zachowany jest detal, i stopień, w jakim odcienie po prostu 'miesza' się ze sobą, poświęcając detal i określając cechy. Proszę zauważyć, że ten obraz sam w sobie może być poddany kompresji, i odnieść się do oryginalnego artykułu dla dokładnej rozdzielczości. Źródło: https://arxiv.org/pdf/2208.07613.pdf

Operacje próbkowania chromatycznego na obrazie źródłowym, przy różnych stopniach, mają wyraźny wpływ na stopień, w jakim zachowany jest detal, i stopień, w jakim odcienie po prostu ‘miesza’ się ze sobą, poświęcając detal i określając cechy. Proszę zauważyć, że ten obraz sam w sobie może być poddany kompresji, i odnieść się do oryginalnego artykułu dla dokładnej rozdzielczości. Źródło: https://arxiv.org/pdf/2208.07613.pdf

Próbkowanie chromatyczne stosowane jest jako dodatkowa środek ekonomiczny w kompresji JPEG, ponieważ ludzie są mniej zdolni do postrzegania redukcji złożoności i zakresu pasm kolorowych niż systemy widzenia komputerowego, które traktują te ‘agregacje’ znacznie bardziej dosłownie niż my.

Badacze nowego badania stwierdzili, że usunięcie próbkowania chromatycznego z procesu kompresji zmniejsza ten negatywny efekt o maksymalnie 15,95%, choć nie całkowicie usuwa problemu.

Badanie stwierdza również, że trening na danych niekompresowanych (lub mniej skompresowanych) nie rozwiązuje problemu, jeśli obraz jest skompresowany w czasie inferencji. Skutecznie, oznacza to, że trening modelu rozpoznawania twarzy na mniej skompresowanych obrazach nie rozwiązuje problemu, jeśli ostateczny model produkcyjny jest karmiony obrazami, które mają te problemy z kompresją.

Autorzy raportują*:

‘[Użycie] kompresji stratnej w czasie inferencji niekorzystnie wpływa na wyniki współczesnych podejść do rozpoznawania twarzy w podziale na grupy rasowe (tj. ciemniejsze odcienie skóry, kształt oczu monolid) i że jej wpływ jest obecny niezależnie od tego, czy skompresowane obrazy są używane do treningu modelu.’

Artykuł podkreśla konsekwencje kompresji obrazu w sektorze badań nad widzeniem komputerowym, które zostały wyjaśnione w pewnym szczegółem w badaniu z 2021 roku z Uniwersytetu w Maryland i Facebook AI.

Jest to trudny problem do rozwiązania; nawet gdyby problemy ze składowaniem i przepustowością, które czynią kompresję konieczną, zostały wyeliminowane za jednym zamachem, i nawet gdyby wszystkie niskiej jakości obrazy, które zaludniają ponad dwadzieścia lat zbiorów danych w sektorze, zostały nagle ponownie skompresowane w lepszej jakości z wysokiej jakości źródeł, stanowiłoby to ‘reset’ ciągłości narzędzi benchmarkingowych w sektorze przez ostatnie kilka dekad. Społeczność CV, w efekcie, przyzwyczaiła się do problemu, do punktu, w którym stanowi on znaczny dług techniczny.

Rasowy bias w rozpoznawaniu twarzy (FR) stał się gorącym tematem medialnym w ostatnich latach, wywołując zdecydowane wysiłki w społeczności badawczej, aby wyeliminować go z dotkniętych systemów. Jednak zależność od globalnego ciała badawczego od nadmiernie ograniczonej liczby ‘złotych standardowych’ zbiorów danych, z których wiele jest albo niezrównoważonych rasowo lub słabo oznakowanych w tym zakresie, zwiększa wyzwanie.

Badacze nowego artykułu dodatkowo zauważają dysonans między standardami pozyskiwania obrazów a standardami ustalonymi przez ogólny zestaw benchmarków rozpoznawania twarzy, stwierdzając*:

‘[Istniejące] standardy pozyskiwania obrazów dla systemów rozpoznawania twarzy, takie jak ISO/IEC 19794-5 i ICAO 9303 proponują zarówno standardy oparte na obrazie (tj. oświetlenie, zakrycie), jak i standardy oparte na podmiocie (tj. poza, wyraz, akcesoria), aby zapewnić jakość obrazu twarzy.

‘Zgodnie z tym, obrazy twarzy powinny być również przechowywane przy użyciu standardów kompresji stratnej, takich jak JPEG lub JPEG2000; oraz możliwe do identyfikacji dla płci, koloru oczu, koloru włosów, wyrazu, właściwości (tj. okulary), kątów pochylenia (yaw, pitch, roll) i położenia punktów charakterystycznych.

‘Jednak powszechne benchmarki rozpoznawania twarzy nie spełniają standardów ISO/IEC 19794-5 i ICAO 9303. Co więcej, próbki z natury są często pobierane w warunkach kamery i środowiskowych, aby wyzwolić proponowane rozwiązania.

‘Niemniej jednak, większość próbek obrazów twarzy w takich zbiorach danych jest skompresowana za pomocą stratnej kompresji JPEG.’

Autorzy nowej pracy stwierdzają, że ich przyszłe wysiłki będą badać wpływ stratnej kwantyzacji obrazu na różne ramy rozpoznawania twarzy i oferować możliwe metody poprawy uczciwości tych systemów.

Nowy artykuł nosi tytuł Czy kompresja stratna wpływa na rasowy bias w rozpoznawaniu twarzy?, i pochodzi od trzech badaczy z Imperial College London, wraz z jednym z biblioteki InsightFace do analizy twarzy głębokiej.

Dane i Metoda

Do swoich eksperymentów badacze użyli ImageMagick i libjpeg bibliotek open source, aby utworzyć wersje obrazów danych źródłowych w różnych stopniach kompresji.

Dla początkowego przeglądu efektów kompresji, autorzy badali wpływ współczynnika sygnału szumowego (PSNR) na czterech różnych poziomach kompresji JPEG na zestawie danych Racial Faces in-the-Wild (RFW).

Wyniki testów PSNR dla zestawu danych Racial Faces-in-the-Wild, demonstrujące stopień, w jakim kompresja może wpłynąć na możliwości rozpoznawania dla skompresowanych obrazów.

Wyniki testów PSNR dla zestawu danych Racial Faces-in-the-Wild, demonstrujące stopień, w jakim kompresja może wpłynąć na możliwości rozpoznawania dla skompresowanych obrazów.

Wśród innych testów, przeprowadzili badania na zestawie danych nierównowagi rasowej, oraz innym, który był zrównoważony rasowo. Dla zrównoważonego zestawu, użyli funkcji Additive Angular Margin Loss (ArcFace) z ResNet101v2, na oryginalnym zestawie danych VGGFace2, który zawiera 3,3 miliona obrazów z 8631 podmiotami nierównowagi rasowej.

Do testowania, badacze użyli zestawu danych RFW. System został wytrenowany czterokrotnie, przy czterech różnych poziomach kompresji, w wyniku czego powstały cztery modele ArcFace.

Dla zrównoważonego zestawu, te same ramy były początkowo zastosowane w oryginalnym zestawie danych BUPT-Balanced, który zawiera 28 000 twarzy zrównoważonych w czterech grupach afrykańskiej, azjatyckiej, indyjskiej i białej, z każdej rasy reprezentowanej przez 7000 obrazów. Jak w przypadku zestawu danych nierównowagi rasowej, cztery modele ArcFace zostały uzyskane w ten sposób.

Ponadto, badacze odtworzyli efekty kompresji i niekompresji podczas treningu, usuwając próbkowanie chromatyczne, aby zmierzyć jego wpływ na wyniki.

Wyniki

Następnie badano współczynnik błędnych dopasowań (FMR) w wygenerowanych zestawach danych. Kryteria, które badacze szukali, były predefiniowane fenotypy związane z cechami rasowymi Typ skóry (1, 2, 3, 4, 5 lub 6), Typ powieki (monolid/inny), Kształt nosa (szeroki/wąski), Kształt warg (pełny/mały), Typ włosów (proste/faliste/kędzierzawe/łysy), i Kolor włosów – metryki wyprowadzone z artykułu z 2019 roku Pomiar ukrytego biasu w rozpoznawaniu twarzy za pomocą fenotypów rasowych.

Artykuł stwierdza:

‘Obserwujemy, że dla wszystkich poziomów kompresji q = {5, 10, 15, 95}, FMR zwiększa się, gdy stosowana jest dodatkowa kompresja stratna, demonstrując, że poziom kompresji 5 (najwyższy poziom kompresji) powoduje najbardziej znaczny spadek wyników FMR, podczas gdy poziom kompresji 95 (najniższy poziom kompresji) nie powoduje żadnych zauważalnych różnic w wynikach FMR.’

Przykład z obszernych wyników artykułu, które są zbyt duże i liczne, aby je tutaj odtworzyć – proszę zobaczyć oryginalny artykuł dla lepszej rozdzielczości i pełnych wyników. Tutaj widzimy gamę wyników FMR dla coraz bardziej zdegradowanych/ skompresowanych obrazów twarzy dla VGGFace2, w zakresie, który obejmuje obrazy niekompresowane lub mało skompresowane.

Przykład z obszernych wyników artykułu, które są zbyt duże i liczne, aby je tutaj odtworzyć – proszę zobaczyć oryginalny artykuł dla lepszej rozdzielczości i pełnych wyników. Tutaj widzimy gamę wyników FMR dla coraz bardziej zdegradowanych/ skompresowanych obrazów twarzy dla VGGFace2, w zakresie, który obejmuje obrazy niekompresowane lub mało skompresowane.

Artykuł kończy się:

‘Ogólnie, nasza ocena wykazuje, że używanie skompresowanych próbek obrazów twarzy w czasie inferencji zmniejsza wyniki bardziej znacznie dla określonych fenotypów, w tym ciemniejszy odcień skóry, szeroki nos, kręcone włosy i monolidowe oczy, we wszystkich innych cechach fenotypowych.

‘Jednak użycie skompresowanych obrazów podczas treningu sprawia, że wyniki są bardziej odporne i ograniczają degradację wyników, które występują: niższe wyniki wśród określonych podgrup rasowych pozostają. Ponadto, usunięcie próbkowania chromatycznego poprawia FMR dla określonych kategorii fenotypów, które są bardziej dotknięte kompresją stratną.’

 

* Moja konwersja cytowań wstawionych autorów na odnośniki.

Po raz pierwszy opublikowane 22 sierpnia 2022.

Pisarz na temat uczenia maszynowego, specjalista ds. syntezowania obrazów ludzi. Były kierownik treści badawczych w Metaphysic.ai.