Trí tuệ nhân tạo
Nén JPEG Tăng Tỷ Lệ Lỗi Nhận Dạng Khuôn Mặt đối với Khuôn Mặt Không phải da trắng, Nghiên cứu Phát hiện

Một nghiên cứu mới từ Anh đã kết luận rằng các kỹ thuật nén mất dữ liệu trong hình ảnh JPEG có thể có ảnh hưởng bất lợi đến hiệu quả của các hệ thống nhận dạng khuôn mặt, khiến các hệ thống này dễ bị nhận dạng sai một người không phải da trắng.
Bài báo cho biết:
‘Thông qua một thiết lập thí nghiệm rộng lớn, chúng tôi chứng minh rằng các phương pháp nén hình ảnh mất dữ liệu phổ biến có tác động tiêu cực rõ rệt hơn đến hiệu suất nhận dạng khuôn mặt đối với các loại hình chủng tộc cụ thể như tông màu da sẫm (lên đến 34,55%).’
Kết quả cũng chỉ ra rằng chroma subsampling, giảm thông tin màu sắc (thay vì thông tin độ sáng) trên các phần của hình ảnh khuôn mặt, làm tăng Tỷ lệ Trùng Khớp Sai (FMR) trên một loạt các tập dữ liệu được thử nghiệm, nhiều trong số đó là các kho lưu trữ tiêu chuẩn cho thị giác máy tính.

Các hoạt động subsampling màu trên một hình ảnh nguồn, ở các tốc độ khác nhau, có tác động rõ ràng đến mức độ chi tiết được bảo tồn và mức độ các tông màu đơn giản ‘trộn’ vào nhau, hy sinh chi tiết và xác định các đặc điểm. Xin lưu ý rằng hình ảnh này có thể bị nén và tham khảo bài báo nguồn để có độ phân giải chính xác. Nguồn: https://arxiv.org/pdf/2208.07613.pdf
Chroma subsampling được áp dụng như một biện pháp tiết kiệm kinh tế trong nén JPEG vì con người ít có khả năng nhận thức giảm độ phức tạp và phạm vi của các dải màu so với các hệ thống thị giác máy tính, những hệ thống này coi những ‘tổng hợp’ này một cách nghiêm ngặt hơn chúng ta.
Các nhà nghiên cứu của nghiên cứu mới đã phát hiện ra rằng việc loại bỏ subsampling màu khỏi quá trình nén làm giảm tác động tiêu cực này lên đến 15,95%, mặc dù nó không loại bỏ hoàn toàn vấn đề.
Nghiên cứu cũng khẳng định rằng việc đào tạo trên dữ liệu không bị nén (hoặc ít bị nén) sẽ không giải quyết vấn đề nếu các hình ảnh thời gian suy luận bị nén. Về cơ bản, điều này có nghĩa là đào tạo một mô hình nhận dạng khuôn mặt trên hình ảnh ít bị nén sẽ không giải quyết sự thiên vị nếu mô hình sản xuất cuối cùng được cung cấp hình ảnh có các vấn đề nén đã nêu.
Các tác giả báo cáo*:
‘[Sử dụng] nén hình ảnh mất dữ liệu trong thời gian suy luận ảnh hưởng tiêu cực đến hiệu suất của các phương pháp nhận dạng khuôn mặt hiện đại trên một tập hợp con của các nhóm chủng tộc liên quan đến khuôn mặt (tức là tông màu da sẫm, hình dạng mắt monolid) và rằng tác động của nó tồn tại bất kể liệu hình ảnh nén được sử dụng cho đào tạo mô hình hay không.’
Bài báo nhấn mạnh các hậu quả của nén hình ảnh đối với lĩnh vực nghiên cứu thị giác máy tính, những hậu quả này đã được nêu chi tiết trong một nghiên cứu năm 2021 từ Đại học Maryland và Facebook AI.
Đây là một vấn đề khó giải quyết; ngay cả khi các vấn đề lưu trữ và băng thông khiến nén trở nên cần thiết được loại bỏ ngay lập tức, và ngay cả khi tất cả các hình ảnh chất lượng thấp trong hai mươi năm hoặc nhiều hơn của các tập dữ liệu trong lĩnh vực này đột nhiên được nén lại ở tốc độ tốt hơn từ các nguồn chất lượng cao, nó sẽ đại diện cho một ‘đặt lại’ của các công cụ chuẩn bị học thuật trong vài thập kỷ qua. Cộng đồng CV, về cơ bản, đã quen với vấn đề, đến mức nó đại diện cho một khoản nợ kỹ thuật đáng kể.
Sự thiên vị chủng tộc trong nhận dạng khuôn mặt (FR) đã trở thành một chủ đề nóng trong giới truyền thông trong những năm gần đây,促使 một nỗ lực chung trong cộng đồng nghiên cứu để loại bỏ nó khỏi các hệ thống bị ảnh hưởng. Tuy nhiên, sự phụ thuộc của cơ thể nghiên cứu toàn cầu vào một số lượng hạn chế ‘các tập dữ liệu tiêu chuẩn’ quá mức, nhiều trong số đó là không cân bằng về chủng tộc hoặc gán nhãn kém trong khía cạnh này, làm tăng thêm thách thức.
Các nhà nghiên cứu của bài báo mới cũng lưu ý một sự không đồng nhất giữa các tiêu chuẩn thu thập hình ảnh và các tiêu chuẩn được đặt ra bởi các chuẩn mực nhận dạng khuôn mặt chung, tuyên bố*:
‘[Các] tiêu chuẩn thu thập hình ảnh cho các hệ thống nhận dạng khuôn mặt như ISO/IEC 19794-5 và ICAO 9303 đề xuất cả tiêu chuẩn chất lượng dựa trên hình ảnh (tức là độ sáng, che khuất) và tiêu chuẩn chất lượng dựa trên đối tượng (tức là tư thế, biểu cảm, phụ kiện) để đảm bảo chất lượng hình ảnh khuôn mặt. ‘
‘Theo đó, hình ảnh khuôn mặt cũng nên được lưu trữ bằng cách sử dụng các tiêu chuẩn nén hình ảnh mất dữ liệu như JPEG hoặc JPEG2000; và có thể xác định được giới tính, màu mắt, màu tóc, biểu cảm, thuộc tính (tức là kính), góc tư thế (yaw, pitch và roll) và vị trí điểm mốc. ‘
‘Tuy nhiên, các chuẩn mực nhận dạng khuôn mặt chung không tuân thủ các tiêu chuẩn ISO/IEC 19794-5 và ICAO 9303. Hơn nữa, các mẫu trong tự nhiên thường được thu thập dưới các điều kiện máy ảnh và môi trường khác nhau để thách thức các giải pháp được đề xuất. ‘
‘Tuy nhiên, hầu hết các mẫu hình ảnh khuôn mặt trong các tập dữ liệu như vậy đều được nén thông qua nén JPEG mất dữ liệu.’
Các tác giả của công việc mới tuyên bố rằng các nỗ lực trong tương lai của họ sẽ kiểm tra tác động của lượng tử hóa hình ảnh mất dữ liệu đối với các khuôn khổ nhận dạng khuôn mặt đa dạng và đề xuất các phương pháp có thể để cải thiện sự công bằng của các hệ thống này.
Bài báo mới có tiêu đề Liệu nén hình ảnh mất dữ liệu có ảnh hưởng đến sự thiên vị chủng tộc trong nhận dạng khuôn mặt?, và đến từ ba nhà nghiên cứu tại Imperial College London, cùng với một nhà nghiên cứu từ thư viện phân tích khuôn mặt sâu InsightFace thư viện.
Dữ liệu và Phương pháp
Đối với các thí nghiệm của họ, các nhà nghiên cứu sử dụng các thư viện mã nguồn mở ImageMagick và libjpeg để tạo ra các phiên bản của hình ảnh dữ liệu nguồn ở các mức nén khác nhau.
Để có một cái nhìn tổng quan ban đầu về các hiệu ứng của nén, các tác giả đã nghiên cứu các hiệu ứng của Tỷ lệ tín hiệu trên tiếng ồn đỉnh (PSNR) trên bốn mức nén JPEG khác nhau trên tập dữ liệu Racial Faces in-the-Wild (RFW).

Điểm PSNR cho tập dữ liệu Racial Faces-in-the-Wild, thể hiện mức độ mà nén có thể ảnh hưởng đến khả năng nhận dạng đối với hình ảnh nén.
Trong số các thử nghiệm khác, họ đã tiến hành nghiên cứu trên một tập dữ liệu mất cân bằng về chủng tộc, và một tập dữ liệu khác được cân bằng về chủng tộc. Đối với tập dữ liệu cân bằng về chủng tộc, họ sử dụng hàm Additive Angular Margin Loss (ArcFace) với ResNet101v2, trên tập dữ liệu chuẩn mực VGGFace2 ban đầu, chứa 3,3 triệu hình ảnh với 8631 đối tượng mất cân bằng về chủng tộc.
Để thử nghiệm, các nhà nghiên cứu sử dụng tập dữ liệu RFW. Hệ thống được đào tạo bốn lần, ở bốn mức nén khác nhau, kết quả là bốn mô hình ArcFace.
Đối với tập dữ liệu cân bằng về chủng tộc, các khuôn khổ tương tự ban đầu được sử dụng trên tập dữ liệu chuẩn mực BUPT-Balanced ban đầu, chứa 28.000 khuôn mặt cân bằng trên bốn nhóm African, Asian, Indian, và Caucasian, mỗi chủng tộc được đại diện bởi 7000 hình ảnh. Giống như tập dữ liệu mất cân bằng về chủng tộc, bốn mô hình ArcFace được thu được theo cách này.
Ngoài ra, các nhà nghiên cứu đã tái tạo các hiệu ứng của đào tạo nén và không nén bằng cách loại bỏ subsampling màu, để đo lường hiệu ứng của nó trên hiệu suất.
Kết quả
Tỷ lệ Trùng Khớp Sai (FMR) trên các tập dữ liệu được tạo ra như vậy sau đó được nghiên cứu. Các tiêu chí mà các nhà nghiên cứu đang tìm kiếm là các kiểu hình chủng tộc định trước liên quan đến các đặc điểm chủng tộc Loại da (1, 2, 3, 4, 5 hoặc 6), Loại mắt (Monolid/Khác), Hình dạng mũi (Rộng/Hẹp), Hình dạng môi (To/Nhỏ), Loại tóc (Thẳng/Lượn sóng/Lòng xoáy/Trọc), và Màu tóc – các chỉ số được rút ra từ bài báo năm 2019 Đo sự thiên vị ẩn trong nhận dạng khuôn mặt thông qua các kiểu hình chủng tộc.
Bài báo cho biết:
‘Chúng tôi quan sát thấy rằng đối với tất cả các mức nén đã chọn q = {5, 10, 15, 95}, FMR tăng khi áp dụng nén mất dữ liệu bổ sung, chứng tỏ rằng mức nén 5 (tốc độ nén cao nhất) dẫn đến sự suy giảm đáng kể nhất trong hiệu suất FMR, trong khi mức nén 95 (tốc độ nén thấp nhất) không dẫn đến sự khác biệt đáng kể nào trong hiệu suất FMR.’

Một mẫu từ các biểu đồ kết quả rộng lớn của bài báo, quá lớn và nhiều để tái tạo ở đây – vui lòng xem bài báo nguồn để có độ phân giải tốt hơn và kết quả đầy đủ. Ở đây, chúng ta thấy phạm vi hiệu suất FMR trên các hình ảnh khuôn mặt bị suy giảm/hình ảnh nén ngày càng tăng cho VGGFace2, trong một phạm vi bao gồm chất lượng không bị nén hoặc ít bị nén.
Bài báo kết luận:
‘Tổng thể, đánh giá của chúng tôi cho thấy rằng việc sử dụng mẫu hình ảnh khuôn mặt bị nén mất dữ liệu tại thời gian suy luận làm giảm hiệu suất đáng kể hơn đối với các kiểu hình cụ thể, bao gồm tông màu da sẫm, mũi rộng, tóc xoăn và mắt monolid trên tất cả các đặc điểm kiểu hình khác. ‘
‘Tuy nhiên, việc sử dụng hình ảnh nén trong đào tạo làm cho các mô hình kết quả trở nên mạnh mẽ hơn và hạn chế sự suy giảm hiệu suất gặp phải: hiệu suất thấp hơn trong các nhóm con cụ thể vẫn còn. Ngoài ra, việc loại bỏ subsampling màu cải thiện FMR cho các loại kiểu hình cụ thể bị ảnh hưởng nhiều hơn bởi nén mất dữ liệu.’
* Chuyển đổi của tôi từ các trích dẫn nội tuyến của tác giả sang các liên kết.
Được xuất bản lần đầu tiên vào ngày 22 tháng 8 năm 2022.










