Kecerdasan buatan

Memprediksi Kecantikan Wajah untuk Siaran Langsung

Published January 8, 2025

Updated April 26, 2026

Martin Anderson

Image by ChatGPT, with superimposed image from the paper https://arxiv.org/pdf/2501.02509

Hingga saat ini, Prediksi Kecantikan Wajah (FAP) telah dipelajari terutama dalam konteks penelitian psikologis, dalam industri kecantikan dan kosmetik, dan dalam konteks bedah kosmetik. Ini adalah bidang studi yang menantang, karena standar kecantikan cenderung bersifat nasional daripada global.

Hal ini berarti bahwa tidak ada satu dataset berbasis AI yang efektif, karena rata-rata yang diperoleh dari sampel wajah/penilaian dari semua budaya akan sangat bias, (di mana negara yang lebih padat penduduknya akan mendapatkan traksi tambahan), atau berlaku untuk tidak ada budaya (di mana rata-rata dari beberapa ras/penilaian akan setara dengan tidak ada ras yang sebenarnya).

Sebagai gantinya, tantangan adalah mengembangkan metodologi konseptual dan alur kerja yang dapat diproses menjadi data khusus negara atau budaya, untuk memungkinkan pengembangan model FAP yang efektif per wilayah.

Studi kasus untuk FAP dalam penelitian kecantikan dan psikologis cukup marginal, atau khusus industri; oleh karena itu, sebagian besar dataset yang dikurasi hingga saat ini hanya berisi data terbatas, atau belum dipublikasikan sama sekali.

Ketersediaan prediktor kecantikan online yang mudah, sebagian besar ditujukan untuk audiens Barat, tidak secara keseluruhan mewakili keadaan terkini dalam FAP, yang tampaknya saat ini didominasi oleh penelitian Asia Timur (terutama Cina), dan dataset Asia Timur yang sesuai.

Contoh dataset dari makalah 2020 ‘Asian Female Facial Beauty Prediction Using Deep Neural Networks via Transfer Learning and Multi-Channel Feature Fusion’. Sumber: https://www.semanticscholar.org/paper/Asian-Female-Facial-Beauty-Prediction-Using-Deep-Zhai-Huang/59776a6fb0642de5338a3dd9bac112194906bf30

Penggunaan komersial yang lebih luas untuk estimasi kecantikan termasuk aplikasi kencan online, dan sistem AI generatif yang dirancang untuk ‘menyentuh’ gambar avatar orang (karena aplikasi tersebut memerlukan standar kecantikan yang dikuantifikasi sebagai metrik efektivitas).

Menggambar Wajah

Individu yang menarik terus menjadi aset berharga dalam periklanan dan pembangunan pengaruh, membuat insentif keuangan di sektor ini menjadi kesempatan yang jelas untuk meningkatkan dataset dan kerangka FAP yang mutakhir.

Misalnya, model AI yang dilatih dengan data dunia nyata untuk menilai dan menilai kecantikan wajah dapat secara potensial mengidentifikasi acara atau individu dengan potensi dampak iklan yang tinggi. Kemampuan ini akan sangat relevan dalam konteks siaran video langsung, di mana metrik seperti ‘pengikut’ dan ‘suka’ saat ini hanya berfungsi sebagai implisit indikator kemampuan seseorang (atau bahkan jenis wajah) untuk menarik perhatian audiens.

Ini adalah metrik yang superficial, tentu saja, dan suara, presentasi, dan sudut pandang juga memainkan peran yang signifikan dalam mengumpulkan audiens. Oleh karena itu, kurasi dataset FAP memerlukan pengawasan manusia, serta kemampuan untuk membedakan kecantikan wajah dari ‘spektakuler’ (tanpa yang mana, influencer out-of-domain seperti Alex Jones bisa berakhir memengaruhi kurva FAP rata-rata untuk koleksi yang dirancang hanya untuk memperkirakan kecantikan wajah).

LiveBeauty

Untuk mengatasi kelangkaan dataset FAP, peneliti dari Cina menawarkan dataset FAP skala besar pertama, yang berisi 100.000 gambar wajah, bersama dengan 200.000 anotasi manusia yang memperkirakan kecantikan wajah.

Contoh dari dataset LiveBeauty baru. Sumber: https://arxiv.org/pdf/2501.02509

Berjudul LiveBeauty, dataset ini menampilkan 10.000 identitas yang berbeda, semua ditangkap dari (tidak disebutkan) platform siaran langsung pada Maret 2024.

Penulis juga mempresentasikan FPEM, metode FAP multi-modal baru. FPEM mengintegrasikan pengetahuan prioritas wajah holistik dan fitur estetika semantic multi-modal melalui Modul Prioritas Kecantikan Personal (PAPM), Modul Pengkode Attractiveness Multi-Modal (MAEM), dan Modul Fusi Cross-Modal (CMFM).

Makalah tersebut menyatakan bahwa FPEM mencapai kinerja mutakhir pada dataset LiveBeauty baru, dan dataset FAP lainnya. Penulis mencatat bahwa penelitian ini memiliki potensi aplikasi untuk meningkatkan kualitas video, rekomendasi konten, dan retouching wajah dalam siaran langsung.

Penulis juga berjanji untuk membuat dataset tersedia ‘segera’ – meskipun harus diakui bahwa setiap batasan lisensi yang melekat pada domain sumber tampaknya kemungkinan akan diteruskan ke sebagian besar proyek yang mungkin menggunakan karya tersebut.

Makalah baru ini berjudul Facial Attractiveness Prediction in Live Streaming: A New Benchmark and Multi-modal Method, dan berasal dari sepuluh peneliti dari Alibaba Group dan Universitas Jiao Tong Shanghai.

Metode dan Data

Dari setiap siaran 10 jam dari platform siaran langsung, peneliti mengumpulkan satu gambar per jam untuk tiga jam pertama. Siaran dengan jumlah tampilan halaman tertinggi dipilih.

Data yang dikumpulkan kemudian dikenakan beberapa tahap pra-pengolahan. Yang pertama adalah pengukuran ukuran wilayah wajah, yang menggunakan model deteksi FaceBoxes berbasis CPU 2018 untuk menghasilkan kotak pembatas di sekitar garis wajah. Pipa ini memastikan sisi yang lebih pendek dari kotak pembatas melebihi 90 piksel, menghindari wilayah wajah yang kecil atau tidak jelas.

Langkah kedua adalah deteksi kabur, yang diterapkan pada wilayah wajah dengan menggunakan varians dari operator Laplacian di saluran tinggi (Y) dari tanaman wajah. Varians ini harus lebih besar dari 10, yang membantu menyaring gambar yang kabur.

Langkah ketiga adalah estimasi pose wajah, yang menggunakan model estimasi pose 3DDFA-V2 2021:

Contoh dari model estimasi 3DDFA-V2. Sumber: https://arxiv.org/pdf/2009.09960

Di sini, alur kerja memastikan bahwa sudut pitch dari wajah yang dipotong tidak lebih dari 20 derajat, dan sudut yaw tidak lebih dari 15 derajat, yang mengecualikan wajah dengan pose ekstrem.

Langkah keempat adalah penilaian proporsi wajah, yang juga menggunakan kemampuan segmentasi dari model 3DDFA-V2, memastikan bahwa proporsi wilayah wajah yang dipotong lebih dari 60% dari gambar, mengecualikan gambar di mana wajah tidak menonjol. yaitu, kecil dalam gambar secara keseluruhan.

Terakhir, langkah kelima adalah penghapusan karakter duplikat, yang menggunakan model pengenalan wajah mutakhir (tanpa atribut), untuk kasus di mana identitas yang sama muncul lebih dari satu kali dalam tiga gambar yang dikumpulkan untuk video 10 jam.

Evaluasi dan Anotasi Manusia

Dua puluh annotator direkrut, terdiri dari enam pria dan 14 wanita, mencerminkan demografi platform siaran langsung yang digunakan*. Wajah ditampilkan pada layar 6,7 inci dari iPhone 14 Pro Max, dalam kondisi laboratorium yang konsisten.

Evaluasi dibagi menjadi 200 sesi, masing-masing menggunakan 50 gambar. Subjek diminta untuk menilai kecantikan wajah sampel pada skor 1-5, dengan jeda lima menit antara setiap sesi, dan semua subjek berpartisipasi dalam semua sesi.

Oleh karena itu, keseluruhan dari 10.000 gambar dievaluasi di seluruh dua puluh subjek manusia, menghasilkan 200.000 anotasi.

Analisis dan Pra-Pengolahan

Pertama, penyaringan subjek pasca-layar dilakukan menggunakan rasio outlier dan Koefisien Korelasi Peringkat Spearman (SROCC). Subjek yang penilaiannya memiliki SROCC kurang dari 0,75 atau rasio outlier lebih dari 2% dianggap tidak dapat diandalkan dan dihilangkan, dengan 20 subjek akhirnya diperoleh..

Skor Opini Rata-rata (MOS) kemudian dihitung untuk setiap gambar wajah, dengan mengambil rata-rata skor yang diperoleh oleh subjek yang valid. MOS berfungsi sebagai label kecantikan yang sebenarnya untuk setiap gambar, dan skor dihitung dengan mengambil rata-rata semua skor individual dari setiap subjek yang valid.

Terakhir, analisis distribusi MOS untuk semua sampel, serta untuk sampel perempuan dan laki-laki, menunjukkan bahwa mereka menampilkan bentuk gaya Gaussian, yang konsisten dengan distribusi kecantikan wajah dunia nyata:

Contoh distribusi MOS LiveBeauty.

Sebagian besar individu cenderung memiliki kecantikan wajah rata-rata, dengan lebih sedikit individu di ekstrem yang sangat rendah atau sangat tinggi.

Lebih lanjut, analisis kesimetrian dan kurtosis menunjukkan bahwa distribusi tersebut ditandai dengan ekor yang tipis dan terkonsentrasi di sekitar skor rata-rata, dan bahwa kecantikan yang tinggi lebih umum di antara sampel perempuan dalam video siaran langsung yang dikumpulkan.

Arsitektur

Strategi pelatihan dua tahap digunakan untuk model FPEM dan Fase Fusi Hibrida di LiveBeauty, dibagi menjadi empat modul: Modul Prioritas Kecantikan Personal (PAPM), Modul Pengkode Attractiveness Multi-Modal (MAEM), Modul Fusi Cross-Modal (CMFM), dan Modul Fusi Keputusan (DFM).

Skema konseptual untuk pipa pelatihan LiveBeauty.

Modul PAPM mengambil gambar sebagai input dan mengekstrak fitur visual multi-skala menggunakan Swin Transformer, dan juga mengekstrak fitur yang sadar wajah menggunakan model FaceNet yang telah dilatih sebelumnya. Fitur-fitur ini kemudian digabungkan menggunakan blok perhatian silang untuk membuat fitur ‘kecantikan’ yang dipersonalisasi.

Juga dalam Fase Pelatihan Preliminer, MAEM menggunakan gambar dan deskripsi teks kecantikan, memanfaatkan CLIP untuk mengekstrak fitur estetika semantic multi-modal.

Deskripsi teks yang disiapkan berupa ‘foto seseorang dengan {a} kecantikan’ (di mana {a} dapat buruk, kurang, adil, baik atau sempurna). Proses ini memperkirakan kesamaan kosin antara penyematan teks dan visual untuk mendapatkan probabilitas tingkat kecantikan.

Dalam Fase Fusi Hibrida, CMFM memperbarui penyematan teks menggunakan fitur kecantikan yang dipersonalisasi yang dihasilkan oleh PAPM, sehingga menghasilkan penyematan teks yang dipersonalisasi. Kemudian, CMFM menggunakan strategi regresi kesamaan untuk membuat prediksi.

Terakhir, DFM menggabungkan prediksi individual dari PAPM, MAEM, dan CMFM untuk menghasilkan skor kecantikan tunggal dan final, dengan tujuan mencapai konsensus yang kuat

Fungsi Kerugian

Untuk metrik kerugian, PAPM dilatih menggunakan kerugian L1, yaitu ukuran perbedaan absolut antara skor kecantikan yang diprediksi dan skor kecantikan yang sebenarnya (kebenaran dasar).

Modul MAEM menggunakan fungsi kerugian yang lebih kompleks yang menggabungkan kerugian skoring (LS) dengan kerugian peringkat yang digabungkan (LR). Kerugian peringkat (LR) terdiri dari kerugian keaslian (LR1) dan kerugian peringkat dua arah (LR2).

LR1 membandingkan kecantikan relatif dari pasangan gambar, sedangkan LR2 memastikan bahwa distribusi probabilitas yang diprediksi dari tingkat kecantikan memiliki satu puncak dan menurun di kedua arah. Pendekatan gabungan ini bertujuan untuk mengoptimalkan baik skoring akurat dan peringkat gambar yang benar berdasarkan kecantikan.

CMFM dan DFM dilatih menggunakan kerugian L1 sederhana.

Pengujian

Dalam pengujian, peneliti membandingkan LiveBeauty dengan sembilan pendekatan sebelumnya: ComboNet; 2D-FAP; REX-INCEP; CNN-ER (ditampilkan dalam REX-INCEP); MEBeauty; AVA-MLSP; TANet; Dele-Trans; dan EAT.

Metode baseline yang sesuai dengan Protokol Penilaian Estetika Gambar (IAA) juga diuji. Ini adalah ViT-B; ResNeXt-50; dan Inception-V3.

Selain LiveBeauty, dataset lain yang diuji adalah SCUT-FBP5000 dan MEBeauty. Di bawah, distribusi MOS dari dataset ini dibandingkan:

Distribusi MOS dari dataset benchmark.

Masing-masing dataset tamu ini dibagi 60%-40% dan 80%-20% untuk pelatihan dan pengujian, secara terpisah, untuk mempertahankan konsistensi dengan protokol aslinya. LiveBeauty dibagi dengan dasar 90%-10%.

Untuk inisialisasi model dalam MAEM, VT-B/16 dan GPT-2 digunakan sebagai pengkode gambar dan teks, secara berurutan, diinisialisasi oleh pengaturan dari CLIP. Untuk PAPM, Swin-T digunakan sebagai pengkode gambar yang dapat dilatih, sesuai dengan SwinFace.

AdamW optimizer digunakan, dan jadwal pembelajaran pengatur diatur dengan pemanasan linier di bawah skema penurunan kosin. Tingkat pembelajaran berbeda-beda selama fase pelatihan, tetapi masing-masing memiliki ukuran batch 32, untuk 50 epoch.

Hasil dari pengujian

Hasil dari pengujian pada tiga dataset FAP ditunjukkan di atas. Dari hasil ini, makalah tersebut menyatakan:

‘Metode yang kita usulkan mencapai peringkat pertama dan mengungguli peringkat kedua sekitar 0,012, 0,081, 0,021 dalam hal nilai SROCC pada LiveBeauty, MEBeauty, dan SCUT-FBP5500, secara berurutan, yang menunjukkan superioritas metode yang kita usulkan.

‘Metode IAA lebih rendah daripada metode FAP, yang menunjukkan bahwa metode penilaian estetika generik mengabaikan fitur wajah yang terlibat dalam sifat subjektif kecantikan wajah, yang menyebabkan kinerja yang buruk pada tugas FAP.

‘Kinerja semua metode menurun secara signifikan pada MEBeauty. Ini karena sampel pelatihan terbatas dan wajah yang beragam secara etnis di MEBeauty, yang menunjukkan bahwa ada keragaman besar dalam kecantikan wajah.

‘Semua faktor ini membuat prediksi kecantikan wajah di MEBeauty lebih menantang.’

Pertimbangan Etis

Penelitian tentang kecantikan adalah upaya yang potensial memecah belah, karena dengan menetapkan standar kecantikan yang seharusnya empiris, sistem tersebut cenderung memperkuat dan memperkuat bias seputar usia, ras, dan banyak bagian lain dari penelitian visi komputer yang terkait dengan manusia.

Bisa dibilang bahwa sistem FAP secara inheren cenderung memperkuat dan memperkuat perspektif yang parsial dan bias tentang kecantikan. Penilaian ini mungkin muncul dari anotasi yang dipimpin oleh manusia – sering dilakukan pada skala yang terlalu terbatas untuk generalisasi domain yang efektif – atau dari menganalisis pola perhatian di lingkungan online seperti platform siaran, yang jauh dari menjadi meritokratis.

* Makalah tersebut merujuk pada domain sumber yang tidak disebutkan baik dalam bentuk tunggal maupun jamak.

Dipublikasikan pertama kali pada hari Rabu, 8 Januari 2025