Yapay Zekâ
Yüz Güzellik Tahmini için Canlı Yayınlar İçin Yüz Güzellik Tahmini

Bugüne kadar, Yüz Güzellik Tahmini (FAP), psikolojik araştırma, güzellik ve kozmetik endüstrisi ve estetik cerrahi bağlamında主要 olarak incelenmiştir. Bu, bir çalışma alanıdır, çünkü güzellik standartları genellikle ulusal rather than küresel eğilimdedir.
Bu, hiçbir tek etkili AI tabanlı verisetinin uygulanabilir olmadığı anlamına gelir, çünkü tüm kültürlerden yüzler / derecelendirmeler örneklenerek elde edilen ortalama değerler çok yanlı olacaktır (daha kalabalık ülkeler ek bir ivme kazanacaktır) veya hiçbir kültüre uygulanamaz (birden fazla ırkın / derecelendirmelerin ortalama değeri, hiçbir gerçek ırka karşılık gelmeyecektir).
Bunun yerine, ülke veya kültüre özgü verileri işleyerek etkili per-region FAP modellerinin geliştirilmesini sağlamak için kavramsal metodolojiler ve iş akışları geliştirme zorluğu vardır.
Güzellik ve psikolojik araştırmalarda FAP için kullanım örnekleri oldukça marjinaldir, yoksa endüstriye özgüdür; bu nedenle, şimdiye kadar derlenen çoğu veri seti yalnızca sınırlı veri içerir veya hiç yayımlanmamıştır.
Çevrimiçi çekicilik tahmin.edicilerin kolay erişilebilirliği, çoğunlukla batı izleyicilerine yönelik, FAP’nin şu anda doğu Asya araştırması (çoğunlukla Çin) ve ilgili doğu Asya veri setleri tarafından domine edildiği current durumunu temsil etmeyebilir.

Dataset examples from the 2020 paper ‘Asian Female Facial Beauty Prediction Using Deep Neural Networks via Transfer Learning and Multi-Channel Feature Fusion’. Source: https://www.semanticscholar.org/paper/Asian-Female-Facial-Beauty-Prediction-Using-Deep-Zhai-Huang/59776a6fb0642de5338a3dd9bac112194906bf30
Güzellik tahmini için daha geniş ticari kullanımlar, çevrimiçi flört uygulamaları ve insanların gerçek avatar resimlerini “düzeltmek” için tasarlanmış yapay zeka sistemlerini içerir (bu uygulamalar, etkinlik ölçütü olarak bir güzellik standardına ihtiyaç duyar).
Çizilen Yüzler
Çekici bireyler, reklamcılık ve etkileyici inşaasında değerli bir varlık olmaya devam etmektedir, bu sektörlerdeki mali teşvikler, FAP veri setleri ve çerçevelerinin geliştirilmesinde açık bir fırsat sunmaktadır.
Örneğin, gerçek dünya verilerini kullanarak yüz güzelliğini değerlendiren ve derecelendiren bir AI modeli, potansiyel olarak yüksek reklam etkisi olan olayları veya bireyleri tanımlayabilir. Bu yetenek, özellikle canlı video akışı bağlamında ilgili olacaktır, burada “takipçiler” ve “beğeniler” gibi metrikler, bir bireyin (veya hatta bir yüz tipinin) izleyiciyi çekme yeteneğinin yalnızca zımni göstergeleri olarak hizmet vermektedir.
Bu, elbette, bir yüzey metriğidir ve ses, sunum ve görüş açısı da izleyici toplama konusunda önemli bir rol oynamaktadır. Bu nedenle, FAP veri setlerinin oluşturulması, insan denetimi ve yüz güzelliğinden “sahte” güzelliği ayırt etme yeteneği gerektirir (bunun olmaması durumunda, Alex Jones gibi alan dışı etkileyiciler, yalnızca yüz güzelliğini tahmin etmek için tasarlanmış bir koleksiyon için FAP eğrisini etkileyebilir).
CanlıGüzellik
FAP veri setlerinin eksikliğini gidermek için, Çin’den araştırmacılar, 100.000 yüz resmi ve 200.000 insan tarafından yapılan yüz güzelliği tahmini ile birlikte ilk büyük ölçekli FAP veri setini sunuyorlar.

Yeni CanlıGüzellik veri setinden örnekler. Source: https://arxiv.org/pdf/2501.02509
CanlıGüzellik olarak adlandırılan veri seti, 10.000 farklı kimliği içerir ve tümü 2024 Mart ayında (belirtilmeyen) canlı yayın platformlarından elde edilmiştir.
Araştırmacılar ayrıca, FPEM olarak adlandırılan bir novel multi-modal FAP yöntemi sunuyorlar. FPEM, bir Kişisel Güzellik Önceliği Modülü (PAPM), bir Çoklu-Modlu Güzellik Kodlayıcı Modülü (MAEM) ve bir Çapraz-Modlu Birleştirme Modülü (CMFM) aracılığıyla holistik yüz önceliği bilgisini ve çoklu-modlu estetik anlamsal özellikleri entegre eder.
Makale, FPEM’in yeni CanlıGüzellik veri setinde ve diğer FAP veri setlerinde state-of-the-art performans sergilediğini iddia etmektedir. Araştırmacılar, araştırmanın canlı yayında video kalitesini iyileştirme, içerik önerme ve yüz düzeltme için potansiyel uygulamalara sahip olduğunu belirtiyorlar.
Araştırmacılar ayrıca, veri setini “yakında” kullanılabilir hale getireceklerini vaat ediyorlar – ancak kaynak alanından kaynaklanan herhangi bir lisans kısıtlamasının, bu çalışmadan yararlanabilecek çoğu projeye geçmesi muhtemeldir.
Yeni makale, Canlı Yayınlar için Yüz Güzellik Tahmini: Yeni Bir Referans ve Çoklu-Modlu Yöntem olarak adlandırılmıştır ve Alibaba Grubu ve Shanghai Jiao Tong Üniversitesi’nden on araştırmacının ortak çalışmasıdır.
Yöntem ve Veri
Her 10 saatlik yayından, araştırmacılar ilk üç saat için saat başına bir resim çıkardılar. En yüksek sayfa görüntülemelerine sahip yayılar seçildi.
Toplanan veriler, daha sonra birkaç ön işleme aşamasına tabi tutuldu. İlk aşama, yüz bölgesi boyutu ölçümüdür, bu da 2018 CPU tabanlı FaceBoxes algılama modelini kullanarak yüz hatları etrafında bir sınırlayıcı kutu oluşturur. İşlem akışı, sınırlayıcı kutunun daha kısa kenarının 90 pikselden fazla olmasına dikkat eder, böylece küçük veya belirsiz yüz bölgeleri engellenir.
İkinci aşama, bulanık algılamadır, bu da yüz bölgesine Laplacian operatörünün yükseklik (Y) kanalındaki varyansı kullanarak uygulanır. Bu varyansın 10’dan büyük olması gerekir, bu da bulanık resimleri filtrelemeye yardımcı olur.
Üçüncü aşama, yüz pozlama tahminidir, bu da 2021 3DDFA-V2 poz tahmini modelini kullanır:

3DDFA-V2 tahmini modelinden örnekler. Source: https://arxiv.org/pdf/2009.09960
Burada, iş akışı, kırpılmış yüzün pitch açısının 20 dereceden fazla olmamasını ve yaw açısının 15 dereceden fazla olmamasını sağlar, bu da aşırı pozlar olan yüzleri dışlar.
Dördüncü aşama, yüz orantı değerlendirmesidir, bu da 3DDFA-V2 modelinin segmentasyon yeteneklerini kullanarak kırpılmış yüz bölgesi oranının resmin %60’ından fazla olmasını sağlar, bu da yüzün baskın olmadığı resimleri dışlar.
Son olarak, beşinci aşama, çift karakter kaldırmadır, bu da (atıfta bulunulmayan) bir devlet-sanatlı yüz tanıma modelini kullanır, aynı kimliğin birden fazla resimde görünmesi durumunda.
İnsan Değerlendirmesi ve Açıklama
Yirmi annotatör, altı erkek ve 14 kadın, kullanılan canlı platformun demografisini yansıtan bir şekilde işe alındı*. Yüzler, laboratuvar koşullarında tutarlı bir şekilde, iPhone 14 Pro Max’ın 6.7 inç ekranında gösterildi.
Değerlendirme, her biri 50 resim kullanan 200 seans boyunca bölündü. Konular, örneklerin yüz güzelliğini 1-5 puan arasında derecelendirmeye davet edildi, her seans arasında beş dakikalık bir mola verildi ve tüm konular tüm seanslara katıldı.
Bu nedenle, 10.000 resim tümü, yirmi insan konuları arasında değerlendirildi ve 200.000 açıklama elde edildi.
Analiz ve Ön İşleme
İlk olarak, konu sonrası ekranı, aykırı oran ve Spearman’ın Sıralama Bağıntı Katsayısı (SROCC) kullanılarak gerçekleştirildi. Aykırı oranı %2’den fazla olan veya SROCC’si 0.75’den az olan konular güvensiz olarak kabul edildi ve kaldırıldı, sonunda 20 konu kaldı..
Her yüz resmi için, geçerli konulardan elde edilen puanların ortalaması alınarak bir Mean Opinion Score (MOS) hesaplandı. MOS, her resim için ground truth çekicilik etiketi olarak hizmet eder ve puan, tüm geçerli konulardan alınan bireysel puanların ortalaması alınarak hesaplanır.
Son olarak, tüm örnekler için MOS dağılımlarının analizi, ayrıca kadın ve erkek örnekleri için, gerçek dünya yüz çekiciliği dağılımları ile tutarlı olan Gaussian-style bir şekil sergilediğini gösterdi:

CanlıGüzellik MOS dağılımları örnekleri.
Çoğu bireyin ortalama yüz çekiciliğine sahip olduğu, çok az bireyin çok düşük veya çok yüksek çekicilikte olduğu görülmektedir.
Ayrıca, eğrilik ve basıklık değerlerinin analizi, dağılımların ince kuyruklara ve ortalama puan etrafında yoğunlaştığını, ayrıca yüksek çekiciliğin kadın örnekleri arasında daha yaygın olduğunu gösterdi.
Mimari
FPEM ve CanlıGüzellik’teki Hibrit Birleştirme Aşaması için iki aşamalı bir eğitim stratejisi kullanıldı, dört modül üzerinden: Kişisel Güzellik Önceliği Modülü (PAPM), Çoklu-Modlu Güzellik Kodlayıcı Modülü (MAEM), Çapraz-Modlu Birleştirme Modülü (CMFM) ve Karar Birleştirme Modülü (DFM).

CanlıGüzellik eğitim pipeline’nin kavramsal şeması.
PAPM modülü, bir resim alır ve Swin Transformer kullanarak çok ölçekli görsel özellikler çıkarır ve ayrıca önceden eğitilmiş FaceNet modeli kullanarak yüz-aware özellikler çıkarır. Bu özellikler, bir çapraz-dikkat bloğu kullanarak birleştirilir ve kişiselleştirilmiş bir “çekicilik” özelliği oluşturulur.
Ayrıca, Ön Eğitim Aşamasında, MAEM, bir resim ve çekicilik hakkında metin açıklamaları kullanır ve CLIP kullanarak çoklu-modlu estetik anlamsal özellikler çıkarır.
Şablonlu metin açıklamaları, ‘{a} çekiciliği olan bir kişinin fotoğrafı'</i} biçimindedir (burada {a} kötü, zayıf, adil, iyi veya mükemmel olabilir). Süreç, metin ve görsel gömme arasındaki kosin benzerliği tahmin eder ve bir çekicilik düzeyi olasılığına ulaşır.
Hibrit Birleştirme Aşamasında, CMFM, PAPM tarafından üretilen kişiselleştirilmiş çekicilik özelliğini kullanarak metin gömmelerini rafine eder ve kişiselleştirilmiş metin gömmelerini üretir. Ardından, bir benzerlik 回帰 stratejisi kullanarak bir tahmin yapar.
Son olarak, DFM, PAPM, MAEM ve CMFM’den bireysel tahminleri birleştirir ve tek bir nihai çekicilik puanı üretir, güçlü bir uzlaşı elde etme hedefiyle.
Kayıp Fonksiyonları
Kayıp metrikleri için, PAPM, L1 kaybı kullanarak eğitilir, bu da tahmin edilen çekicilik puanı ile gerçek (ground truth) çekicilik puanı arasındaki mutlak farkın bir ölçüsüdür.
MAEM modülü, daha karmaşık bir kayıp fonksiyonu kullanır, bu da bir puanlama kaybı (LS) ile birleştirilmiş bir sıralama kaybı (LR) içerir. Sıralama kaybı (LR), bir sadakat kaybı (LR1) ve bir iki yönlü sıralama kaybı (LR2) içerir.
LR1, resim çiftlerinin göreli çekiciliğini karşılaştırır, LR2 ise tahmin edilen çekicilik olasılık dağılımının tek bir zirveye sahip olduğunu ve her iki yönde azaldığını sağlar. Bu birleşik yaklaşım, hem doğru puanlama hem de resimlerin çekiciliğine göre doğru sıralamasını optimize etmeyi amaçlar.
CMFM ve DFM, basit bir L1 kaybı kullanarak eğitilir.
Testler
Testlerde, araştırmacılar CanlıGüzellik’i önceki dokuz yaklaşımla karşılaştırdı: ComboNet; 2D-FAP; REX-INCEP; CNN-ER (REX-INCEP’te yer alır); MEBeauty; AVA-MLSP; TANet; Dele-Trans; ve EAT.
Görsel Estetik Değerlendirme (IAA) protokolüne uyan temel yöntemler de test edildi. Bunlar ViT-B; ResNeXt-50; ve Inception-V3 idi.
CanlıGüzellik’in yanı sıra, test edilen diğer veri setleri SCUT-FBP5000 ve MEBeauty idi. Aşağıda, bu veri setlerinin MOS dağılımları karşılaştırılır:

Referans veri setlerinin MOS dağılımları.
Bu konuk veri setleri, orijinal protokollerini korumak için ayrı ayrı %60-%40 ve %80-%20 olarak bölündü. CanlıGüzellik, %90-%10 olarak bölündü.
MAEM için model başlatma, VT-B/16 ve GPT-2’yi sırasıyla görüntü ve metin kodlayıcıları olarak kullandı, CLIP’ten ayarlar kullanılarak başlatıldı. PAPM için, Swin-T, SwinFace ile uyumlu olarak eğitilebilen bir görüntü kodlayıcı olarak kullanıldı.
AdamW optimizatörü kullanıldı ve öğrenme oranı zamanlayıcısı lineer ısınma altında bir kosin azalan şemasıyla ayarlandı. Öğrenme oranları, eğitim aşamalarına göre farklıydı, ancak her biri 32’lik bir toplu işleme boyutuna sahipti, 50 dönem için.

Test sonuçları
Üç FAP veri setinde yapılan test sonuçları yukarıda gösterilir. Bu sonuçlardan, makale şöyle diyor:
‘Önerdiğimiz yöntem, SROCC değerlerinde CanlıGüzellik, MEBeauty ve SCUT-FBP5500’de sırasıyla yaklaşık 0.012, 0.081 ve 0.021 ile ilk sırada yer alıyor ve ikinci sıradaki yöntemi geçiyor, bu da önerdiğimiz yöntemin üstünlüğünü gösteriyor.
‘IAA yöntemleri, FAP yöntemlerine göre daha düşük performans gösteriyor, bu da genel estetik değerlendirme yöntemlerinin yüz güzelliğinin subjektif doğasını göz ardı ettiğini ve FAP görevlerinde zayıf performans sergilediğini gösteriyor.
‘Tüm yöntemlerin performansı, MEBeauty’de önemli ölçüde düşüyor. Bu, eğitim örneklerinin sınırlı olduğu ve yüzlerin etnik olarak çeşitli olduğu MEBeauty’de yüz güzelliğinde büyük bir çeşitlilik olduğu anlamına geliyor.
‘Tüm bu faktörler, MEBeauty’de yüz güzelliğini tahmin etmeyi daha zor hale getiriyor.’
Etik Düşünceler
Çekicilik araştırması, bir yandan da yaş, ırk ve birçok diğer bilgisayar görme araştırması ile ilgili önyargıları pekiştirme ve sürdürme eğiliminde olduğu için potansiyel olarak bölücü bir girişimdir.
Bir FAP sisteminin, insan tarafından yönetilen açıklamalardan veya online ortamlardaki dikkat kalıplarının analizinden kaynaklanabilecek önyargılı ve yanlı çekicilik görüşlerini pekiştirmeye ve sürdürmeye eğilimli olduğu söylenebilir.
* Makale, hem tekil hem de çoğul olarak kaynak alanına/alanlarına atıfta bulunur.
İlk olarak 8 Ocak 2025 Çarşamba günü yayımlandı












