부본 JPEG 압축으로 비백인 얼굴의 얼굴 인식 오류율 증가, 연구 결과 - Unite.AI
Rescale 미팅 예약

인공 지능

JPEG 압축은 백인이 아닌 얼굴의 얼굴 인식 오류율을 증가시킨다는 연구 결과가 나왔습니다.

mm
업데이트 on
메인 이미지: DALL-E 2.
메인 이미지: DALL-E 2.

영국의 새로운 연구에서는 JPEG 이미지의 손실 압축 기술이 안면 인식 시스템의 효율성에 악영향을 미쳐 이러한 시스템이 백인이 아닌 사람을 잘못 식별할 가능성이 더 높다는 결론을 내렸습니다.

논문은 다음과 같이 말합니다.

'광범위한 실험 설정을 통해 우리는 일반적인 손실 이미지 압축 접근 방식이 더 어두운 피부 톤과 같은 특정 인종 표현형 범주에 대한 안면 인식 성능에 더 뚜렷한 부정적인 영향을 미친다는 것을 보여줍니다(최대 34.55%).'

결과는 또한 크로마 서브샘플링, 얼굴 이미지의 섹션 전체에서 색상 정보(밝기 정보가 아님)를 줄이면 테스트된 다양한 데이터 세트에서 FMR(False Matching Rate)이 증가하며, 그 중 다수는 컴퓨터 비전의 표준 저장소입니다.

다양한 속도로 소스 이미지에 대한 Chroma 서브샘플링 작업은 디테일이 보존되는 정도와 하위 톤이 단순히 서로 '혼합'되는 정도에 명확한 영향을 미치므로 디테일을 희생하고 특징을 결정합니다. 본 이미지 자체가 압축될 수 있음을 알려드리며, 정확한 해상도는 원지를 참고하시기 바랍니다. 출처: https://arxiv.org/pdf/2208.07613.pdf

다양한 속도로 소스 이미지에 대한 Chroma 서브샘플링 작업은 디테일이 보존되는 정도와 하위 톤이 단순히 서로 '혼합'되는 정도에 명확한 영향을 미치므로 디테일을 희생하고 특징을 결정합니다. 본 이미지 자체가 압축될 수 있음을 유의하시고, 정확한 해상도는 원문을 참고하시기 바랍니다.. 출처: https://arxiv.org/pdf/2208.07613.pdf

크로마 서브샘플링은 사람들이 우리보다 훨씬 더 문자 그대로 이러한 '집합'을 취하는 컴퓨터 비전 시스템보다 색상 밴드의 복잡성과 범위의 감소를 인식할 수 없기 때문에 JPEG 압축에서 추가적인 경제적 측정으로 적용됩니다.

새로운 연구의 연구원들은 압축 프로세스에서 크로마 서브샘플링을 제거하면 문제가 완전히 제거되지는 않지만 이 부정적인 영향을 최대 15.95%까지 줄인다는 사실을 발견했습니다.

이 연구는 또한 압축되지 않은(또는 덜 압축된) 데이터에 대한 교육이 지원 추론 시간 이미지가 압축된 경우 문제를 해결하십시오. 즉, 최종 생산 모델에 명시된 압축 문제가 있는 이미지를 제공하는 경우 덜 압축된 이미지에서 안면 인식 모델을 교육해도 편향이 해결되지 않습니다.

저자 보고서*:

추론 중에 손실 이미지 압축을 사용하면 동시대의 성능에 악영향을 미칩니다. 얼굴 인식 접근법 인종 관련 얼굴 표현형 그룹화(즉, 어두운 피부 톤, 눈꺼풀 모양)의 하위 집합에 대해 압축된 이미지가 모델 훈련에 사용되는지 여부에 관계없이 그 효과가 존재한다는 것입니다.'

이 논문은 컴퓨터 비전 연구 부문에 대한 이미지 압축의 결과를 강조합니다. 2021 연구 메릴랜드 대학교와 Facebook AI에서.

그것이야 해결하기 어려운 문제; 압축을 필요로 하는 스토리지 및 대역폭 문제가 하룻밤 사이에 제거되고 해당 부문의 XNUMX년 이상 데이터 세트를 채우는 모든 저품질 이미지가 고품질 소스에서 더 나은 속도로 갑자기 재압축되더라도 지난 수십 년 동안 학문적 벤치마킹 도구의 연속성을 '재설정'한 것입니다. CV 커뮤니티는 사실상 익숙해지다 문제에 주목할만한 기술 부채를 나타내는 지점까지.

인종 바이어스 안면 인식(FR)에서 a 뜨거운 미디어 주제 최근 몇 년 동안 연구 커뮤니티에서 영향을 받는 시스템에서 이를 제거하기 위한 공동의 노력을 촉구했습니다. 그러나 글로벌 연구 기관에 대한 의존도는 지나치게 제한적 '골드 스탠다드' 데이터세트의 수, 그 중 다수는 다음 중 하나입니다. 인종적으로 균형이 맞지 않음 or 잘못 표시된 이와 관련하여 도전을 악화시킵니다.

새 논문의 연구원들은 이미지 획득 표준과 안면 인식 벤치마크의 일반적인 실행에 의해 설정된 표준 사이의 부조화를 다음과 같이 추가로 언급합니다.

'[기존] 얼굴 인식 시스템을 위한 이미지 획득 표준 ISO / IEC 19794 - 5ICAO 9303 얼굴 이미지 품질을 보장하기 위해 이미지 기반(즉, 조명, 오클루전) 및 피사체 기반(즉, 포즈, 표정, 액세서리) 품질 표준을 모두 제안합니다.

따라서 얼굴 이미지도 다음과 같은 손실 이미지 압축 표준을 사용하여 저장해야 합니다. JPEG  또는 JPEG2000; 성별, 눈 색깔, 머리 색깔, 표정, 속성(예: 안경), 포즈 각도(요, 피치 및 롤) 및 랜드마크 위치를 식별할 수 있습니다.

그러나 일반적인 얼굴 인식 벤치마크는 ISO/IEC 19794-5 및 ICAO 9303 표준을 준수하지 않습니다. 또한 제안된 솔루션에 도전하기 위해 다양한 카메라 및 환경 조건에서 야생 샘플을 얻는 경우가 많습니다.

'그럼에도 불구하고 이러한 데이터 세트 내의 대부분의 얼굴 이미지 샘플은 손실 JPEG 압축을 통해 압축됩니다.'

새로운 작업의 저자는 향후 노력을 통해 손실 이미지 양자화가 다양한 얼굴 인식 프레임워크에 미치는 영향을 조사하고 이러한 시스템의 공정성을 개선할 수 있는 방법을 제공할 것이라고 밝혔습니다.

XNUMXD덴탈의 새 용지 제목이 손실 이미지 압축이 얼굴 인식 내 인종적 편견에 영향을 미칩니까?, 임페리얼 칼리지 런던(Imperial College London)의 연구원 XNUMX명과 InsightFace 딥페이스 분석 연구원 XNUMX명이 함께 제공합니다. 도서관.

데이터 및 방법

실험을 위해 연구원들은 다음을 사용했습니다. ImageMagicklibjpeg 오픈 소스 라이브러리를 사용하여 다양한 압축 증분으로 소스 데이터 이미지 버전을 생성합니다.

압축 효과의 초기 개요를 위해 저자는 피크 신호 ​​대 잡음비(Peak signal-to-noise ratio)의 효과를 연구했습니다.PSNR) Racial Faces in-the-Wild에 대한 네 가지 다른 수준의 JPEG 압축(RFW) 데이터세트.

Racial Faces-in-the-Wild 데이터 세트에 대한 PSNR 점수는 압축이 압축 이미지의 인식 기능에 영향을 줄 수 있는 정도를 보여줍니다.

Racial Faces-in-the-Wild 데이터 세트에 대한 PSNR 점수는 압축이 압축 이미지의 인식 기능에 영향을 줄 수 있는 정도를 보여줍니다.

다른 테스트 중에서 그들은 인종적으로 불균형한 데이터 세트와 인종적으로 균형 잡힌 다른 데이터 세트에 대한 연구를 수행했습니다. 인종적으로 균형 잡힌 세트의 경우 Additive Angular Margin Loss(아크페이스) 기능 ResNet101v2, 원본에 VGG페이스2 3.3명의 인종적으로 불균형한 주제가 포함된 8631만 개의 이미지가 포함된 벤치마크 데이터 세트.

테스트를 위해 연구원들은 RFW 데이터 세트를 사용했습니다. 이 시스템은 XNUMX가지 다른 압축 수준에서 XNUMX번 훈련되어 XNUMX가지 ArcFace 모델이 생성되었습니다.

인종적으로 균형 잡힌 세트의 경우 처음에는 동일한 프레임워크가 원래 정렬된 세트에 사용되었습니다. BUPT 균형 28,000개 그룹에 걸쳐 균형 잡힌 XNUMX개의 얼굴을 포함하는 벤치마크 데이터 세트 아프리카의, 아시아의, 옥수수코카서스 산맥의, 각 인종은 7000개의 이미지로 표시됩니다. 인종적으로 불균형한 데이터 세트와 마찬가지로 XNUMX개의 ArcFace 모델을 이런 방식으로 얻었습니다.

또한 연구원들은 성능에 미치는 영향을 측정하기 위해 크로마 서브샘플링을 제거하여 압축 및 비압축 교육의 효과를 재현했습니다.

결과

그런 다음 이렇게 생성된 데이터 세트에 대한 FMR(False Matching Rate)을 연구했습니다. 연구자들이 찾고 있던 기준은 미리 정의되어 있었습니다. 표현형 인종적 특성과 관련된 피부타입 (1, 2, 3, 4, 5 또는 6), 눈꺼풀 종류 (모놀리드/기타), 코 모양 (넓고 좁은), 입술 모양 (전체/소형), 머리 스타일 (스트레이트/웨이브/컬/대머리) 및 헤어 컬러 – 2019년부터 가져온 지표 종이 인종적 표현형을 통한 얼굴 인식 내 숨겨진 편견 측정.

논문은 다음과 같이 말합니다.

'아래로 선택된 모든 압축 수준 q = {5, 10, 15, 95}에 대해 추가 손실 압축이 적용될 때 FMR이 증가하는 것을 관찰하여 압축 수준 5(가장 높은 압축률)가 가장 큰 감소를 초래함을 보여줍니다. 압축 수준 95(가장 낮은 압축률)는 눈에 띄는 FMR 성능 차이를 나타내지 않습니다.'

여기에서 재현하기에는 너무 크고 수가 많은 논문의 광범위한 결과 차트의 샘플입니다. 더 나은 해상도와 전체 결과를 보려면 원본 논문을 참조하십시오. 여기서 우리는 VGGFace2에 대해 점점 저하/압축된 얼굴 이미지에서 비압축 또는 약간 압축된 품질을 포함하는 범위에서 FMR 성능의 범위를 봅니다.

여기에서 재현하기에는 너무 크고 수가 많은 논문의 광범위한 결과 차트의 샘플입니다. 더 나은 해상도와 전체 결과를 보려면 원본 논문을 참조하십시오. 여기서 우리는 VGGFace2에 대해 점점 저하/압축된 얼굴 이미지에서 비압축 또는 약간 압축된 품질을 포함하는 범위에서 FMR 성능의 범위를 봅니다.

이 논문은 다음과 같이 결론을 내립니다.

'전반적으로, 우리의 평가는 추론 시간에 손실이 있는 압축된 얼굴 이미지 샘플을 사용하는 것이 다른 모든 표현형 특징에 걸쳐 어두운 피부 톤, 넓은 코, 곱슬머리 및 단일 눈꺼풀을 포함한 특정 표현형에 대한 성능을 더 크게 감소시킨다는 것을 발견했습니다.

그러나 훈련 중에 압축된 이미지를 사용하면 결과 모델의 탄력성이 향상되고 발생하는 성능 저하가 제한됩니다. 인종적으로 정렬된 특정 하위 그룹 간에 낮은 성능이 유지됩니다. 또한 크로마 서브샘플링을 제거하면 손실 압축의 영향을 더 많이 받는 특정 표현형 범주에 대한 FMR이 향상됩니다.'

 

* 저자의 인라인 인용을 하이퍼링크로 변환했습니다.

22년 2022월 XNUMX일에 처음 게시되었습니다.