Sudut Anderson
Wajah Sintetis ‘Degraded’ Dapat Membantu Meningkatkan Pengenalan Gambar Wajah

Peneliti dari Universitas Michigan State telah merancang cara untuk wajah sintetis agar dapat membantu sistem pengenalan gambar menjadi lebih akurat.
Modul sintesis wajah yang dapat dikontrol (CFSM) yang mereka kembangkan dapat meregenerasi wajah dalam gaya footage pengawasan video dunia nyata, bukan bergantung pada gambar dengan kualitas yang lebih tinggi yang digunakan dalam dataset sumber terbuka yang populer dari selebriti, yang tidak mencerminkan semua kesalahan dan kekurangan dari sistem CCTV yang sebenarnya, seperti blur wajah, resolusi rendah, dan noise sensor – faktor-faktor yang dapat mempengaruhi akurasi pengenalan.

Arsitektur konseptual untuk Modul Sintesis Wajah yang Dapat Dikontrol (CFSM). Sumber: http://cvlab.cse.msu.edu/pdfs/Liu_Kim_Jain_Liu_ECCV2022.pdf
CFSM tidak dimaksudkan untuk mensimulasikan pose kepala, ekspresi, atau ciri-ciri lain yang biasanya menjadi tujuan sistem deepfake, tetapi untuk menghasilkan berbagai pandangan alternatif dalam gaya sistem pengenalan target, menggunakan style transfer.
Sistem ini dirancang untuk meniru domain gaya dari sistem target, dan menyesuaikan outputnya sesuai dengan resolusi dan jangkauan ‘keanehan’ di dalamnya. Kasus penggunaan termasuk sistem warisan yang tidak mungkin ditingkatkan karena biaya, tetapi yang dapat memberikan kontribusi kecil pada generasi baru teknologi pengenalan wajah, karena kualitas output yang buruk yang mungkin pernah menjadi yang terdepan.
Pengujian sistem, peneliti menemukan bahwa sistem tersebut membuat kemajuan yang signifikan pada sistem pengenalan gambar yang harus menangani jenis data yang berisik dan berkualitas rendah.

Pelatihan model pengenalan wajah untuk menyesuaikan diri dengan keterbatasan sistem target. Sumber: http://cvlab.cse.msu.edu/pdfs/Liu_Kim_Jain_Liu_ECCV2022_supp.pdf
Mereka juga menemukan produk sampingan yang berguna dari proses tersebut – bahwa dataset target sekarang dapat dikarakterisasi dan dibandingkan dengan yang lain, membuat perbandingan, benchmarking, dan pembuatan dataset khusus untuk sistem CCTV yang berbeda menjadi lebih mudah di masa depan.
Lebih lanjut, metode ini dapat diterapkan pada dataset yang ada, melakukan de facto domain adaptation dan membuatnya lebih sesuai untuk sistem pengenalan wajah.
Makalah baru ini berjudul Controllable and Guided Face Synthesis for Unconstrained Face Recognition, didukung sebagian oleh Kantor Direktur Intelijen Nasional AS (ODNI, di IARPA), dan berasal dari empat peneliti di Departemen Ilmu Komputer dan Teknik di MSU.
Isi Utama
Pengenalan wajah berkualitas rendah (LQFR) telah menjadi bidang studi yang terkenal selama beberapa tahun terakhir. Karena otoritas sipil dan munisipal membangun sistem pengawasan video untuk menjadi tangguh dan tahan lama (tidak ingin mengalokasikan sumber daya untuk masalah tersebut secara berkala), banyak ‘warisan’ jaringan pengawasan telah menjadi korban utang teknis, dalam hal kemampuan mereka sebagai sumber data untuk pembelajaran mesin.

Tingkat resolusi wajah yang berbeda-beda di berbagai sistem pengawasan video sejarah dan lebih baru. Sumber: https://arxiv.org/pdf/1805.11519.pdf
Beruntung, ini adalah tugas yang dapat diselesaikan oleh model difusi dan model berbasis noise lainnya. Banyak sistem sintesis gambar yang paling populer dan efektif dalam beberapa tahun terakhir melakukan upscaling gambar dengan resolusi rendah sebagai bagian dari pipeline mereka, sementara ini juga sangat penting untuk teknik kompresi neural (metode untuk menyimpan gambar dan film sebagai data neural bukan data bitmap).
Bagian dari tantangan pengenalan wajah adalah untuk mendapatkan akurasi maksimum dari jumlah fitur minimum yang dapat diekstrak dari gambar dengan resolusi rendah yang paling kecil dan paling tidak menjanjikan. Batasan ini ada tidak hanya karena berguna untuk dapat mengidentifikasi (atau membuat) wajah pada resolusi rendah, tetapi juga karena keterbatasan teknis pada ukuran gambar yang dapat melewati ruang laten yang muncul dari model yang sedang dilatih dalam VRAM yang tersedia di GPU lokal.
Dalam arti ini, istilah ‘fitur’ membingungkan, karena fitur tersebut juga dapat diperoleh dari dataset bangku taman. Dalam sektor penglihatan komputer, ‘fitur’ merujuk pada karakteristik pembeda yang diperoleh dari gambar – apa pun gambar, apakah itu garis-garis sebuah gereja, sebuah gunung, atau disposisi fitur wajah dalam dataset wajah.
Karena algoritma penglihatan komputer sekarang mahir dalam meningkatkan kualitas gambar dan video, berbagai metode telah diajukan untuk ‘memperbaiki’ bahan pengawasan warisan yang berkualitas rendah atau rusak, sehingga mungkin dapat digunakan untuk tujuan hukum, seperti menempatkan seseorang di tempat kejadian, dalam kaitannya dengan penyelidikan kejahatan.
Selain kemungkinan kesalahan identifikasi, yang terkadang mengumpulkan headline, sebenarnya tidak perlu untuk meningkatkan kualitas atau mengubah gambar dengan resolusi rendah untuk membuat identifikasi positif seseorang, karena sistem pengenalan wajah yang mengandalkan fitur tingkat rendah seharusnya tidak memerlukan tingkat resolusi dan kejelasan tersebut. Lebih lanjut, transformasi tersebut mahal dalam praktiknya, dan menimbulkan pertanyaan tambahan, berulang tentang validitas dan legalitas potensial mereka.
Keperluan untuk Lebih Banyak Selebriti ‘Down-At-Heel’
Sistem pengenalan wajah akan lebih berguna jika dapat menurunkan fitur (yaitu fitur pembelajaran mesin dari fitur manusia) dari output sistem warisan yang ada, dengan memahami hubungan antara ‘resolusi tinggi’ identitas dan gambar yang rusak yang tersedia dalam kerangka pengawasan video yang ada dan tidak dapat digantikan.
Masalahnya adalah masalah standar: dataset yang umum digunakan seperti MS-Celeb-1M dan WebFace260M (di antara yang lain), telah dilampirkan oleh komunitas penelitian karena mereka menyediakan benchmark konsisten yang dapat diukur oleh peneliti untuk kemajuan incremental atau besar terhadap keadaan saat ini.

Contoh dari dataset MS-Celeb1m yang populer dari Microsoft. Sumber: https://www.microsoft.com/en-us/research/project/ms-celeb-1m-challenge-recognizing-one-million-celebrities-real-world/
Namun, penulis berpendapat bahwa algoritma pengenalan wajah (FR) yang dilatih pada dataset ini tidak sesuai untuk ‘domain’ visual dari output banyak sistem pengawasan yang lebih tua.
Makalah tersebut menyatakan*:
‘[State-of-the-art] (SoTA) model FR tidak bekerja dengan baik pada citra pengawasan dunia nyata (tidak terkendali) karena masalah pergeseran domain, yaitu, dataset pelatihan besar-besaran (setengah terkendali) yang diperoleh melalui wajah selebriti yang diambil dari web, kekurangan variasi di alam liar, seperti noise sensor bawaan, resolusi rendah, blur gerak, efek turbulensi, dll.
‘Sebagai contoh, akurasi verifikasi 1:1 yang dilaporkan oleh salah satu model SoTA pada dataset IJB-S yang tidak terkendali sekitar 30% lebih rendah daripada pada dataset LFW yang setengah terkendali.
‘Sebuah solusi potensial untuk kesenjangan kinerja ini adalah untuk menyusun dataset wajah yang tidak terkendali besar-besaran. Namun, membangun dataset pelatihan seperti itu dengan puluhan ribu subjek sangat sulit dengan biaya pelabelan manual yang tinggi.’
Makalah tersebut mengingat berbagai metode sebelumnya yang telah mencoba ‘menyesuaikan’ dengan jenis output dari sistem pengawasan sejarah, tetapi mencatat bahwa metode-metode tersebut telah menangani ‘augmentasi buta’. Sebaliknya, CFSM menerima umpan balik langsung dari output dunia nyata dari sistem target selama pelatihan, dan menyesuaikan diri melalui style transfer untuk meniru domain tersebut.

Aktris Natalie Portman, tidak asing dengan segelintir dataset yang mendominasi komunitas penglihatan komputer, tampil di antara identitas dalam contoh CFSM yang melakukan penyesuaian domain yang sesuai dengan gaya berdasarkan umpan balik dari domain model target yang sebenarnya.
Arsitektur yang dirancang oleh penulis menggunakan Fast Gradient Sign Method (FGSM) untuk membedakan dan ‘mengimpor’ gaya dan karakteristik yang diperoleh dari output sebenarnya dari sistem target. Bagian pipeline yang ditujukan untuk generasi gambar akan meningkat dan menjadi lebih setia kepada sistem target dengan pelatihan. Umpan balik dari ruang gaya berdimensi rendah dari sistem target bersifat rendah tingkat, dan sesuai dengan deskriptor visual yang paling luas yang diperoleh.
Penulis mengomentari:
‘Dengan umpan balik dari model FR, gambar yang disintesis lebih bermanfaat bagi kinerja FR, yang mengarah pada kemampuan generalisasi yang jauh lebih baik dari model FR yang dilatih dengan mereka.’
Uji Coba
Peneliti menggunakan pekerjaan sebelumnya dari MSU sebagai template untuk menguji sistem mereka. Berdasarkan protokol eksperimental yang sama, mereka menggunakan MS-Celeb-1m, yang terdiri eksklusif dari foto selebriti yang diambil dari web, sebagai dataset pelatihan yang dilabeli. Untuk keadilan, mereka juga menyertakan MS1M-V2, yang berisi 3,9 juta gambar yang menampilkan 85.700 kelas.
Dataset target adalah WiderFace dataset, dari Universitas Hong Kong. Ini adalah sebuah dataset gambar yang sangat beragam yang dirancang untuk tugas deteksi wajah dalam situasi yang menantang. 70.000 gambar dari dataset ini digunakan.
Untuk evaluasi, sistem diuji melawan empat benchmark pengenalan wajah: IJB-B, IJB-C, IJB-S, dan TinyFace.
CFSM dilatih dengan ∼10% data pelatihan dari MS-Celeb-1m, sekitar 0,4 juta gambar, selama 125.000 iterasi dengan ukuran batch 32 di bawah optimizer Adam dengan tingkat pembelajaran yang sangat rendah 1e-4.
Model pengenalan wajah target menggunakan modifikasi ResNet-50 sebagai backbone, dengan fungsi kerugian ArcFace diaktifkan selama pelatihan. Selain itu, model juga dilatih dengan CFSM sebagai ablasio dan latihan perbandingan (disebut sebagai ‘ArcFace’ dalam tabel hasil di bawah).
Penulis mengomentari hasil utama:
‘Model ArcFace outperforms semua baseline dalam tugas identifikasi dan verifikasi wajah, dan mencapai kinerja SoTA baru.’
Kemampuan untuk mengekstrak domain dari berbagai karakteristik sistem pengawasan warisan atau yang kurang spek juga memungkinkan penulis untuk membandingkan dan mengevaluasi kesamaan distribusi di antara kerangka kerja ini, dan untuk menyajikan setiap sistem dalam hal gaya visual yang dapat dimanfaatkan dalam pekerjaan selanjutnya.
Penulis mencatat tambahan bahwa sistem mereka dapat menggunakan beberapa teknologi yang hingga saat ini hanya dianggap sebagai masalah yang harus dipecahkan oleh komunitas penelitian dan visi:
‘[CFSM] menunjukkan bahwa manipulasi musuh bisa melampaui menjadi penyerang, dan dapat meningkatkan akurasi pengenalan dalam tugas penglihatan. Sementara itu, kami mendefinisikan sebuah metrik kesamaan dataset berdasarkan basis gaya yang dipelajari, yang menangkap perbedaan gaya dalam cara yang tidak bergantung pada label atau prediktor.’
‘Kami percaya bahwa penelitian kami telah menunjukkan kekuatan model sintesis wajah yang dapat dikontrol dan terarah untuk pengenalan wajah yang tidak terkendali dan memberikan pemahaman tentang perbedaan dataset.’
* Konversi saya dari kutipan inline penulis ke tautan.
Publikasi pertama 1 Agustus 2022.














