Kecerdasan buatan

Kompresi JPEG Meningkatkan Tingkat Kesalahan Pengenalan Wajah untuk Wajah Non-Kaukasus, Temuan Studi

Published August 22, 2022

Updated April 28, 2026

Martin Anderson

Sebuah studi baru dari UK telah menyimpulkan bahwa teknik kompresi lossy pada gambar JPEG dapat memiliki pengaruh merugikan pada efektivitas sistem pengenalan wajah, membuat sistem tersebut lebih rentan untuk mengidentifikasi secara salah seorang non-Kaukasus.

Makalah tersebut menyatakan:

‘Melalui pengaturan eksperimental yang luas, kami menunjukkan bahwa pendekatan kompresi gambar lossy yang umum memiliki dampak negatif yang lebih besar pada kinerja pengenalan wajah untuk kategori fenotip ras tertentu seperti warna kulit yang lebih gelap (hingga 34,55%).’

Hasil penelitian juga menunjukkan bahwa chroma subsampling, yang mengurangi informasi warna (bukan kecerahan) di seluruh bagian gambar wajah, meningkatkan Tingkat Kesalahan Pencocokan (FMR) di berbagai dataset yang diuji, banyak di antaranya merupakan repositori standar untuk penglihatan komputer.

Operasi chroma subsampling pada gambar sumber, dengan tingkat yang bervariasi, memiliki efek yang jelas pada seberapa besar detail yang dipertahankan, dan seberapa besar sub-tones hanya ‘tercampur’ satu sama lain, mengorbankan detail dan menentukan fitur. Perlu diingat bahwa gambar ini sendiri mungkin tunduk pada kompresi, dan merujuk ke makalah sumber untuk resolusi yang akurat. Sumber: https://arxiv.org/pdf/2208.07613.pdf

Chroma subsampling diterapkan sebagai langkah ekonomi tambahan dalam kompresi JPEG karena orang kurang dapat membedakan pengurangan kompleksitas dan rentang warna-band dibandingkan dengan sistem penglihatan komputer, yang mengambil ‘agregasi’ ini lebih literal daripada yang kita lakukan.

Peneliti dari studi baru telah menemukan bahwa menghilangkan chroma subsampling dari proses kompresi mengurangi efek negatif ini hingga 15,95%, meskipun tidak sepenuhnya menghilangkan masalah.

Studi ini juga menyatakan bahwa pelatihan pada data yang tidak terkompresi (atau kurang terkompresi) tidak akan menyelesaikan masalah jika gambar waktu inferensi terkompresi. Secara efektif, ini berarti bahwa pelatihan model pengenalan wajah pada gambar yang kurang terkompresi tidak akan menyelesaikan bias jika model produksi akhir diberi gambar yang memiliki masalah kompresi yang disebutkan.

Penulis melaporkan*:

‘[Penggunaan] kompresi gambar lossy selama inferensi mempengaruhi kinerja pendekatan pengenalan wajah kontemporer pada subset kelompok fenotip ras (yaitu warna kulit yang lebih gelap, bentuk mata monolid) dan bahwa efeknya ada terlepas dari apakah gambar terkompresi digunakan untuk pelatihan model.’

Makalah tersebut menekankan konsekuensi dari kompresi gambar pada sektor penelitian penglihatan komputer, yang dijelaskan secara rinci dalam studi 2021 dari Universitas Maryland dan Facebook AI.

Ini adalah masalah yang sulit untuk diatasi; bahkan jika masalah penyimpanan dan bandwidth yang membuat kompresi diperlukan dihilangkan seketika, dan bahkan jika semua gambar berkualitas rendah yang memenuhi dua dekade dataset di sektor ini tiba-tiba dikompresi ulang dengan tingkat yang lebih baik dari sumber berkualitas tinggi, itu akan mewakili ‘reset’ dari kontinuitas alat benchmarking akademis selama beberapa dekade terakhir. Komunitas CV, pada dasarnya, telah terbiasa dengan masalah ini, sehingga menjadi utang teknis yang signifikan.

Bias rasial dalam pengenalan wajah (FR) telah menjadi topik media yang hangat dalam beberapa tahun terakhir, memicu upaya terkoordinasi dalam komunitas penelitian untuk menghilangkannya dari sistem yang terkena. Namun, ketergantungan tubuh penelitian global pada jumlah dataset ‘standar emas’ yang berlebihan, banyak di antaranya tidak seimbang secara rasial atau berlabel buruk dalam hal ini, memperburuk tantangan.

Peneliti dari makalah baru juga mencatat disonansi antara standar akuisisi gambar dan standar yang ditetapkan oleh umumnya benchmark pengenalan wajah, menyatakan*:

‘[Standar yang ada] untuk sistem pengenalan wajah seperti ISO/IEC 19794-5 dan ICAO 9303 mengusulkan standar kualitas berbasis gambar (yaitu iluminasi, oklusi) dan standar kualitas berbasis subjek (yaitu pose, ekspresi, aksesori) untuk memastikan kualitas gambar wajah. ‘

‘Oleh karena itu, gambar wajah juga harus disimpan menggunakan standar kompresi gambar lossy seperti JPEG atau JPEG2000; dan dapat diidentifikasi untuk jenis kelamin, warna mata, warna rambut, ekspresi, properti (yaitu kacamata), sudut pose (yaw, pitch, dan roll), dan posisi landmark. ‘

‘Namun, benchmark pengenalan wajah yang umum tidak sesuai dengan standar ISO/IEC 19794-5 dan ICAO 9303. Selain itu, sampel in-the-wild sering diperoleh di bawah kondisi kamera dan lingkungan yang bervariasi untuk menantang solusi yang diusulkan. ‘

‘Namun, sebagian besar sampel gambar wajah dalam dataset tersebut dikompresi melalui kompresi JPEG lossy.’

Penulis makalah baru menyatakan bahwa upaya mereka di masa depan akan memeriksa dampak kuantisasi gambar lossy pada kerangka kerja pengenalan wajah yang beragam, dan menawarkan metode yang mungkin untuk meningkatkan keadilan sistem tersebut.

Makalah baru ini berjudul Apakah kompresi gambar lossy mempengaruhi bias rasial dalam pengenalan wajah?, dan berasal dari tiga peneliti di Imperial College London, bersama dengan satu dari perpustakaan analisis wajah deep InsightFace library.

Data dan Metode

Untuk eksperimen mereka, peneliti menggunakan perpustakaan sumber terbuka ImageMagick dan libjpeg untuk membuat versi gambar data sumber pada berbagai tingkat kompresi.

Untuk gambaran awal dari efek kompresi, penulis mempelajari efek rasio sinyal-ke-noise puncak (PSNR) pada empat tingkat kompresi JPEG yang berbeda pada dataset Racial Faces in-the-Wild (RFW).

Skor PSNR untuk dataset Racial Faces-in-the-Wild, menunjukkan seberapa besar kompresi dapat mempengaruhi kemampuan pengenalan untuk gambar terkompresi.

Di antara tes lainnya, mereka melakukan penelitian pada dataset yang tidak seimbang secara rasial, dan lainnya yang seimbang secara rasial. Untuk dataset yang seimbang secara rasial, mereka menggunakan fungsi Additive Angular Margin Loss (ArcFace) dengan ResNet101v2, pada dataset benchmark asli VGGFace2, yang berisi 3,3 juta gambar yang menampilkan 8631 subjek yang tidak seimbang secara rasial.

Untuk pengujian, peneliti menggunakan dataset RFW. Sistem tersebut dilatih empat kali, pada empat tingkat kompresi yang berbeda, menghasilkan empat model ArcFace.

Untuk dataset yang seimbang secara rasial, kerangka kerja yang sama awalnya digunakan pada dataset benchmark asli BUPT-Balanced, yang berisi 28.000 wajah yang seimbang di seluruh empat kelompok Afrika, Asia, India, dan Kaukasus, masing-masing ras diwakili oleh 7000 gambar. Seperti pada dataset yang tidak seimbang secara rasial, empat model ArcFace diperoleh dengan cara ini.

Selain itu, peneliti mereproduksi efek dari pelatihan terkompresi dan tidak terkompresi dengan menghilangkan chroma subsampling, untuk mengukur efeknya pada kinerja.

Hasil

Tingkat Kesalahan Pencocokan (FMR) di seluruh dataset yang dihasilkan kemudian dipelajari. Kriteria yang dicari oleh peneliti adalah fenotip yang telah ditentukan sebelumnya yang terkait dengan karakteristik ras Jenis Kulit (1, 2, 3, 4, 5 atau 6), Jenis Kelopak Mata (Monolid/Lainnya), Bentuk Hidung (Lebar/Sempit), Bentuk Bibir (Penuh/Kecil), Jenis Rambut (Lurus/Bergelombang/Keriting/Botak), dan Warna Rambut – metrik yang diambil dari makalah 2019 Mengukur Bias Tersembunyi dalam Pengenalan Wajah melalui Fenotip Ras.

Makalah tersebut menyatakan:

‘Kami mengamati bahwa untuk semua tingkat kompresi yang dipilih q = {5, 10, 15, 95}, FMR meningkat ketika kompresi lossy tambahan diterapkan, menunjukkan bahwa tingkat kompresi 5 (tingkat kompresi tertinggi) menghasilkan penurunan kinerja FMR yang paling signifikan, sedangkan tingkat kompresi 95 (tingkat kompresi terendah) tidak menghasilkan perbedaan kinerja FMR yang terlihat.’

Contoh dari bagan hasil yang luas dalam makalah, yang terlalu besar dan berjumlah banyak untuk direproduksi di sini – lihat makalah sumber untuk resolusi yang lebih baik dan hasil lengkap. Di sini, kita melihat kisaran kinerja FMR di seluruh gambar wajah yang semakin rusak/terkompresi untuk VGGFace2, dalam kisaran yang mencakup kualitas tidak terkompresi atau terkompresi sedikit.

Makalah tersebut menyimpulkan:

‘Secara keseluruhan, evaluasi kami menemukan bahwa menggunakan sampel gambar wajah yang terkompresi lossy pada waktu inferensi menurunkan kinerja lebih signifikan pada fenotip tertentu, termasuk warna kulit yang lebih gelap, hidung yang lebar, rambut yang keriting, dan mata monolid di seluruh fitur fenotipik lainnya. ‘

‘Namun, penggunaan gambar terkompresi selama pelatihan membuat model yang dihasilkan lebih tahan dan membatasi degradasi kinerja yang ditemukan: kinerja yang lebih rendah di antara sub-grup yang sejalan secara rasial tetap ada. Selain itu, menghilangkan chroma subsampling meningkatkan FMR untuk kategori fenotip tertentu yang lebih terpengaruh oleh kompresi lossy.’

* Konversi saya dari kutipan inline penulis ke tautan.

Dipublikasikan pertama kali 22 Agustus 2022.

Martin Anderson

Penulis tentang machine learning, spesialis domain dalam sintesis gambar manusia. Mantan kepala konten penelitian di Metaphysic.ai.

Unite.AI

Kompresi JPEG Meningkatkan Tingkat Kesalahan Pengenalan Wajah untuk Wajah Non-Kaukasus, Temuan Studi

Data dan Metode

Hasil

You may like