Sudut Anderson

Memprediksi Estimasi Kecantikan Wajah untuk Siaran Langsung

mm
Image by ChatGPT, with superimposed image from the paper https://arxiv.org/pdf/2501.02509

Hingga saat ini, Facial Attractiveness Prediction (FAP) telah dipelajari terutama dalam konteks penelitian psikologis, dalam industri kecantikan dan kosmetik, dan dalam konteks bedah kosmetik. Ini adalah bidang studi yang menantang, karena standar kecantikan cenderung nasional daripada global.

Ini berarti bahwa tidak ada satu dataset AI yang efektif, karena rata-rata yang diperoleh dari sampling wajah/rating dari semua budaya akan sangat bias (di mana negara yang lebih padat penduduknya akan mendapatkan traksi tambahan), atau else berlaku untuk tidak ada budaya sama sekali (di mana rata-rata dari beberapa ras/rating akan setara dengan tidak ada ras yang sebenarnya).

Sebagai gantinya, tantangan adalah mengembangkan metodologi konseptual dan alur kerja yang dapat diproses dengan data yang spesifik untuk setiap negara atau budaya, untuk memungkinkan pengembangan model FAP yang efektif untuk setiap wilayah.

Penggunaan FAP dalam penelitian kecantikan dan psikologis sangat marginal, atau khusus industri; oleh karena itu, sebagian besar dataset yang dikurasi hingga saat ini hanya berisi data yang terbatas, atau belum dipublikasikan sama sekali.

Ketersediaan online predictor kecantikan yang mudah, sebagian besar ditujukan untuk audiens Barat, tidak selalu mewakili keadaan terkini dalam FAP, yang tampaknya saat ini didominasi oleh penelitian Asia Timur (terutama Cina), dan dataset Asia Timur yang sesuai.

Contoh dataset dari makalah 2020 'Asian Female Facial Beauty Prediction Using Deep Neural Networks via Transfer Learning and Multi-Channel Feature Fusion'. Sumber: https://www.semanticscholar.org/paper/Asian-Female-Facial-Beauty-Prediction-Using-Deep-Zhai-Huang/59776a6fb0642de5338a3dd9bac112194906bf30

Contoh dataset dari makalah 2020 ‘Asian Female Facial Beauty Prediction Using Deep Neural Networks via Transfer Learning and Multi-Channel Feature Fusion’. Sumber: https://www.semanticscholar.org/paper/Asian-Female-Facial-Beauty-Prediction-Using-Deep-Zhai-Huang/59776a6fb0642de5338a3dd9bac112194906bf30

Penggunaan komersial yang lebih luas untuk estimasi kecantikan termasuk aplikasi kencan online, dan sistem AI generatif yang dirancang untuk ‘menyentuh’ gambar wajah orang (karena aplikasi tersebut memerlukan standar kecantikan yang kuat sebagai metrik efektivitas).

Menggambar Wajah

Individu yang menarik terus menjadi aset berharga dalam periklanan dan pembangunan pengaruh, membuat insentif keuangan di sektor ini menjadi peluang yang jelas untuk memajukan dataset dan kerangka FAP yang mutakhir.

Sebagai contoh, model AI yang dilatih dengan data dunia nyata untuk menilai dan menilai kecantikan wajah dapat memungkinkan mengidentifikasi acara atau individu dengan potensi dampak iklan yang tinggi. Kemampuan ini akan sangat relevan dalam konteks siaran video langsung, di mana metrik seperti ‘pengikut’ dan ‘suka’ saat ini hanya berfungsi sebagai indikator implisit kemampuan seseorang (atau bahkan tipe wajah) untuk menarik perhatian audiens.

Ini adalah metrik yang superficial, tentu saja, dan suara, presentasi, dan sudut pandang juga memainkan peran penting dalam mengumpulkan audiens. Oleh karena itu, kurasi dataset FAP memerlukan pengawasan manusia, serta kemampuan untuk membedakan kecantikan wajah dari ‘kecantikan palsu’ (tanpa yang, influencer seperti Alex Jones bisa berakhir mempengaruhi kurva FAP rata-rata untuk koleksi yang dirancang hanya untuk memperkirakan kecantikan wajah).

LiveBeauty

Untuk mengatasi kekurangan dataset FAP, peneliti dari Cina menawarkan dataset FAP besar pertama, yang berisi 100.000 gambar wajah, bersama dengan 200.000 anotasi manusia yang memperkirakan kecantikan wajah.

Contoh dari dataset LiveBeauty baru. Sumber: https://arxiv.org/pdf/2501.02509

Contoh dari dataset LiveBeauty baru. Sumber: https://arxiv.org/pdf/2501.02509

Bernama LiveBeauty, dataset ini menampilkan 10.000 identitas yang berbeda, semua diambil dari (tidak disebutkan) platform siaran langsung pada Maret 2024.

Penulis juga memperkenalkan FPEM, metode FAP multi-modal yang baru. FPEM mengintegrasikan pengetahuan wajah holistik dan fitur estetika multi-modal via Personalized Attractiveness Prior Module (PAPM), Multi-modal Attractiveness Encoder Module (MAEM), dan Cross-Modal Fusion Module (CMFM).

Makalah tersebut menyatakan bahwa FPEM mencapai kinerja yang mutakhir pada dataset LiveBeauty baru, dan dataset FAP lainnya. Penulis mencatat bahwa penelitian ini memiliki potensi aplikasi untuk meningkatkan kualitas video, rekomendasi konten, dan retouching wajah dalam siaran langsung.

Penulis juga berjanji untuk membuat dataset tersedia ‘segera’ – meskipun harus diakui bahwa batasan lisensi yang melekat pada domain sumber tampaknya akan diteruskan ke sebagian besar proyek yang mungkin menggunakan karya tersebut.

Makalah baru ini berjudul Facial Attractiveness Prediction in Live Streaming: A New Benchmark and Multi-modal Method, dan berasal dari sepuluh peneliti di seluruh Alibaba Group dan Shanghai Jiao Tong University.

Metode dan Data

Dari setiap siaran 10 jam dari platform siaran langsung, peneliti mengambil satu gambar per jam untuk tiga jam pertama. Siaran dengan jumlah pengunjung halaman tertinggi dipilih.

Data yang dikumpulkan kemudian dikenakan beberapa tahap pra-pengolahan. Yang pertama adalah pengukuran ukuran wajah, yang menggunakan model deteksi wajah berbasis CPU 2018 FaceBoxes untuk menghasilkan kotak pembatas di sekitar fitur wajah. Pipa ini memastikan sisi yang lebih pendek dari kotak pembatas melebihi 90 piksel, menghindari daerah wajah kecil atau tidak jelas.

Tahap kedua adalah deteksi kabur, yang diterapkan pada daerah wajah dengan menggunakan varians dari operator Laplacian pada kanal Y dari crop wajah. Varians ini harus lebih besar dari 10, yang membantu menyaring gambar yang kabur.

Tahap ketiga adalah estimasi pose wajah, yang menggunakan model estimasi pose 2021 3DDFA-V2:

Contoh dari model estimasi 3DDFA-V2. Sumber: https://arxiv.org/pdf/2009.09960

Contoh dari model estimasi 3DDFA-V2. Sumber: https://arxiv.org/pdf/2009.09960

Di sini, alur kerja memastikan bahwa sudut pitch dari wajah yang dipotong tidak lebih dari 20 derajat, dan sudut yaw tidak lebih dari 15 derajat, yang mengecualikan wajah dengan pose ekstrem.

Tahap keempat adalah penilaian proporsi wajah, yang juga menggunakan kemampuan segmentasi dari model 3DDFA-V2, memastikan bahwa proporsi daerah wajah yang dipotong lebih dari 60% dari gambar, mengecualikan gambar di mana wajah tidak menonjol. yaitu, kecil dalam gambar keseluruhan.

Akhirnya, tahap kelima adalah penghapusan karakter duplikat, yang menggunakan model pengenalan wajah mutakhir (tanpa atribut), untuk kasus di mana identitas yang sama muncul lebih dari satu kali dalam tiga gambar yang dikumpulkan untuk video 10 jam.

Evaluasi Manusia dan Anotasi

Dua puluh annotator direkrut, terdiri dari enam laki-laki dan 14 perempuan, mencerminkan demografi platform siaran langsung yang digunakan*. Wajah ditampilkan pada layar 6,7 inci dari iPhone 14 Pro Max, dalam kondisi laboratorium yang konsisten.

Evaluasi dibagi menjadi 200 sesi, masing-masing menggunakan 50 gambar. Subjek diminta untuk menilai kecantikan wajah sampel pada skor 1-5, dengan jeda lima menit antara setiap sesi, dan semua subjek berpartisipasi dalam semua sesi.

Oleh karena itu, keseluruhan 10.000 gambar dievaluasi di seluruh dua puluh subjek manusia, menghasilkan 200.000 anotasi.

Analisis dan Pra-Pengolahan

Pertama, pemeriksaan pasca-layar subjek dilakukan menggunakan rasio outlier dan Koefisien Korelasi Rank Spearman (SROCC). Subjek yang peringkatnya memiliki SROCC kurang dari 0,75 atau rasio outlier lebih dari 2% dianggap tidak dapat diandalkan dan dihapus, dengan 20 subjek akhirnya diperoleh..

Skor Opini Rata-rata (MOS) kemudian dihitung untuk setiap gambar wajah, dengan mengambil rata-rata skor yang diperoleh dari subjek yang valid. MOS berfungsi sebagai label kebenaran tanah kecantikan untuk setiap gambar, dan skor dihitung dengan mengambil rata-rata semua skor individu dari setiap subjek yang valid.

Akhirnya, analisis distribusi MOS untuk semua sampel, serta untuk sampel perempuan dan laki-laki, menunjukkan bahwa mereka menampilkan bentuk Gaussian, yang konsisten dengan distribusi kecantikan wajah dunia nyata:

Contoh distribusi MOS LiveBeauty.

Contoh distribusi MOS LiveBeauty.

Sebagian besar individu cenderung memiliki kecantikan wajah rata-rata, dengan lebih sedikit individu di ekstrem kecantikan yang sangat rendah atau sangat tinggi.

Selanjutnya, analisis skewness dan kurtosis menunjukkan bahwa distribusi tersebut ditandai dengan ekor yang tipis dan terkonsentrasi di sekitar skor rata-rata, dan bahwa kecantikan yang tinggi lebih umum di antara sampel perempuan dalam video siaran langsung yang dikumpulkan.

Arsitektur

Strategi pelatihan dua tahap digunakan untuk model FPEM dan Fusi Hibrida dalam LiveBeauty, dibagi menjadi empat modul: Personalized Attractiveness Prior Module (PAPM), Multi-modal Attractiveness Encoder Module (MAEM), Cross-Modal Fusion Module (CMFM), dan Decision Fusion Module (DFM).

Skema konseptual untuk pipa pelatihan LiveBeauty.

Skema konseptual untuk pipa pelatihan LiveBeauty.

Modul PAPM mengambil gambar sebagai input dan mengekstrak fitur visual multi-skala menggunakan Swin Transformer, dan juga mengekstrak fitur wajah yang sadar menggunakan model FaceNet yang telah dilatih sebelumnya. Fitur-fitur ini kemudian digabungkan menggunakan blok perhatian silang untuk membuat fitur ‘kecantikan’ pribadi.

Juga dalam Tahap Pelatihan Awal, MAEM menggunakan gambar dan deskripsi teks kecantikan, memanfaatkan CLIP untuk mengekstrak fitur estetika multi-modal.

Teks deskripsi yang ditemplatkan berupa ‘foto seseorang dengan {a} kecantikan’ (di mana {a} dapat berupa jelek, kurang, biasa, baik atau sempurna). Proses ini memperkirakan kesamaan kosin antara embedding teks dan visual untuk mencapai tingkat kecantikan.

Dalam Fase Fusi Hibrida, CMFM memperbarui embedding teks menggunakan fitur kecantikan pribadi yang dihasilkan oleh PAPM, sehingga menghasilkan embedding teks pribadi. Kemudian, menggunakan strategi regresi kesamaan untuk membuat prediksi.

Akhirnya, DFM menggabungkan prediksi individual dari PAPM, MAEM, dan CMFM untuk menghasilkan skor kecantikan tunggal, dengan tujuan mencapai konsensus yang kuat

Fungsi Kerugian

Untuk metrik kerugian, PAPM dilatih menggunakan kerugian L1, sebuah ukuran perbedaan absolut antara skor kecantikan yang diprediksi dan skor kecantikan sebenarnya (kebenaran tanah).

Modul MAEM menggunakan fungsi kerugian yang lebih kompleks yang menggabungkan kerugian skoring (LS) dengan kerugian peringkat yang digabungkan (LR). Kerugian peringkat (LR) terdiri dari kerugian kesetiaan (LR1) dan kerugian peringkat dua arah (LR2).

LR1 membandingkan kecantikan relatif dari pasangan gambar, sedangkan LR2 memastikan bahwa distribusi probabilitas kecantikan yang diprediksi memiliki satu puncak dan menurun di kedua arah. Pendekatan ini bertujuan untuk mengoptimalkan baik skoring akurat dan peringkat yang benar dari gambar berdasarkan kecantikan.

CMFM dan DFM dilatih menggunakan kerugian L1 sederhana.

Pengujian

Dalam pengujian, peneliti membandingkan LiveBeauty dengan sembilan pendekatan sebelumnya: ComboNet; 2D-FAP; REX-INCEP; CNN-ER (ditampilkan dalam REX-INCEP); MEBeauty; AVA-MLSP; TANet; Dele-Trans; dan EAT.

Metode baseline yang sesuai dengan Penilaian Estetika Gambar (IAA) juga diuji. Ini termasuk ViT-B; ResNeXt-50; dan Inception-V3.

Selain LiveBeauty, dataset lain yang diuji adalah SCUT-FBP5000 dan MEBeauty. Di bawah ini, distribusi MOS dari dataset ini dibandingkan:

Distribusi MOS dari dataset benchmark.

Distribusi MOS dari dataset benchmark.

Masing-masing dataset tamu ini dibagi 60%-40% dan 80%-20% untuk pelatihan dan pengujian, secara terpisah, untuk mempertahankan konsistensi dengan protokol aslinya. LiveBeauty dibagi dengan dasar 90%-10%.

Untuk inisialisasi model dalam MAEM, VT-B/16 dan GPT-2 digunakan sebagai pengkode gambar dan teks, masing-masing, diinisialisasi dengan pengaturan dari CLIP. Untuk PAPM, Swin-T digunakan sebagai pengkode gambar yang dapat dilatih, sesuai dengan SwinFace.

AdamW optimizer digunakan, dan jadwal pembelajaran pembelajaran diatur dengan pemanasan linier di bawah skema annealing kosin. Tingkat pembelajaran berbeda-beda selama fase pelatihan, tetapi masing-masing memiliki ukuran batch 32, untuk 50 epoch.

Hasil pengujian.

Hasil pengujian.

Hasil pengujian pada tiga dataset FAP ditampilkan di atas. Dari hasil ini, makalah tersebut menyatakan:

‘Metode yang kami usulkan mencapai peringkat pertama dan mengungguli peringkat kedua sekitar 0,012, 0,081, 0,021 dalam hal nilai SROCC pada LiveBeauty, MEBeauty, dan SCUT-FBP5000, masing-masing, yang menunjukkan keunggulan metode yang kami usulkan.

‘Metode IAA lebih rendah daripada metode FAP, yang menunjukkan bahwa metode penilaian estetika generik mengabaikan fitur wajah yang terlibat dalam sifat subjektif kecantikan wajah, yang menghasilkan kinerja yang buruk pada tugas FAP.

‘Kinerja semua metode menurun secara signifikan pada MEBeauty. Ini karena sampel pelatihan terbatas dan wajah yang beragam secara etnis di MEBeauty, yang menunjukkan bahwa ada keragaman besar dalam kecantikan wajah.

‘Semua faktor ini membuat prediksi kecantikan wajah pada MEBeauty lebih menantang.’

Pertimbangan Etis

Penelitian tentang kecantikan adalah upaya yang berpotensi memecah belah, karena dengan menetapkan standar kecantikan yang seharusnya empiris, sistem tersebut cenderung memperkuat bias seputar usia, ras, dan banyak bagian lain dari penelitian visi komputer yang terkait dengan manusia.

Bisa dibilang bahwa sistem FAP secara inheren cenderung untuk memperkuat dan mempertahankan perspektif yang bias dan parsial tentang kecantikan. Penilaian ini mungkin muncul dari anotasi yang dipimpin manusia – sering dilakukan pada skala yang terlalu terbatas untuk generalisasi domain yang efektif – atau dari menganalisis pola perhatian dalam lingkungan online seperti platform streaming, yang, secara argumentatif, jauh dari meritokratis.

 

* Makalah tersebut merujuk pada domain sumber yang tidak disebutkan dalam bentuk tunggal dan jamak.

Dipublikasikan pertama kali pada hari Rabu, 8 Januari 2025

Penulis tentang machine learning, spesialis domain dalam sintesis gambar manusia. Mantan kepala konten penelitian di Metaphysic.ai.