Connect with us

AI’nin Güzellik Peşinde

Anderson’un Açısı

AI’nin Güzellik Peşinde

mm
AI-generated image featuring a woman whose face is being analyzed by a Terminator-style HUD. GPT-1.5.

Yeni bir AI destekli güzellik değerlendirme sistemi, yüzlerin ne kadar çekici göründüğünü puanlar ve tipik derin öğrenme modellerinden daha hızlı eğitilir, böylece büyük ölçekli otomatik güzellik puanlamayı daha pratik hale getirebilir.

 

Yüz Güzellik Tahmini (FBP), büyük bir iş ve araştırma literatüründe oldukça güçlü bir alandır. AI ve makine öğrenimi uygulamalarındaki önyargı ile mücadele arkasındaki neredeyse tüm ilkeleri praktikte bozar ve birçok yönden algoritmik algılarda kadınların nesneleştirilmesini ve indirgeyiciliğini destekler, ancak bu, birkaç çok milyar dolarlık endüstrinin ilgisini çekmeye devam etmektedir. Bu endüstrilerin çoğu, kozmetik, kozmetik yüz cerrahisi, canlı yayın ve moda gibi, doğrudan kadınlara yöneliktir:

1'den 5'e kadar puanlanan kadınlar, 'Asya Kadın Yüz Güzellik Tahmini Kullanarak Derin Sinir Ağları ve Çok Kanallı Özellik Birleştirme' makalesinden. Kaynak - https://www.semanticscholar.org/paper/Asian-Female-Facial-Beauty-Prediction-Using-Deep-Zhai-Huang/59776a6fb0642de5338a3dd9bac112194906bf30

1’den 5’e kadar puanlanan kadınlar, ‘Asya Kadın Yüz Güzellik Tahmini Kullanarak Derin Sinir Ağları ve Çok Kanallı Özellik Birleştirme’ makalesinden. Kaynak

Bu açık kadın merkezli iş alanlarının ötesinde, reklamcılık ve diğer birçok endüstri, eğlence ve yayıncılık da, hem erkekler hem de kadınlar için ‘çekici’ olanın ne olduğunu anlamada önemli paylara sahiptir.

Güzellik algılarının bölgeler arasında değişmesi, küresel olarak uygulanabilir veri setlerinin elde edilemeyeceği ve yeni araştırmaların ya parokyal kalması ya da çeşitli kültürel veriler boyunca uygulanabilecek ‘yüksek düzeyli’ yöntemlere odaklanması gerektiği anlamına gelir.

2015 SCUT-FBP projesi için bir yüz güzelliği değerlendirme sistemi arayüzü. Kaynak - https://arxiv.org/pdf/1511.02459

2015 SCUT-FBP projesi için bir yüz güzelliği değerlendirme sistemi arayüzü. Kaynak

Sıklıkla, coğrafi konum, tek sınırlama değildir, çünkü çekicilik odaklı veri setleri, her iki cinsiyet boyunca eşit etkinliği sağlayamayabilir veya belirli bir uygulama amacıyla oluşturulmuş olabilir ve bu, koleksiyonun diğer alanlardaki kullanımını sınırlayabilir.

Örneğin, 2025 yılında, bildirildiği üzere, canlı yayınlarda çekiciliği değerlendirmek için 100.000’den fazla kimlik içeren bir veri setinin geliştirildiğini raporladım. Bu veri setinin yakın kesme standartları, daha geniş projelerde önemli bir uyarlamaya ihtiyaç duyabilir, bu girişimin arkasındaki muazzam çaba rağmen.

Yüz Gerçekleştirmesi

Yukarıdaki bağlantılar ve resimlerden anlaşılacağı gibi, Asya araştırma kurumları, genellikle Batı muadillerinden farklı kültürel kısıtlamalar altında çalışmaz. Batı’da, bilimsel bir illüstrasyonun beş Batılı kadını en az çekici olandan en çok çekici olana kadar puanlaması, yukarıda gösterilen çalışmada görüldüğü gibi, yayınlamak için cesaret gerektirir.

Savunulabilir ki, bu tür Asya kökenli sistemlerin kamuoyunda etkili olduğu kanıtlandığında, yerel eleştiriden korkmadan böyle bir araştırmayı kullanabilen veya uyarlayabilen Batı çıkarları olabilir. ‘Kadınları puanlama’ görevi, bu şekilde eleştiriden uzak bir yere devredilir.

Bu, yaygın olup olmadığını veya daha az kamuoyuna açık Batı eşdeğer sistemlerinin açık kaynak işbirliği ve kamu denetimi dışında geliştirilip geliştirilmediğini bilmek mümkün olmasa da, büyük sayıda profesyonel sektörün doğru çekicilik değerlendirmelerinden yararlanabileceği için, hedeflemenin küresel bir ilgi odağı olduğu makuldür.

En Güçlülerin Hayatta Kalması

Büyük web tarayıcı corpora gibi Tik Tok, Instagram ve YouTube’un, takipçiler, beğeniler ve trafik ile çekiciliği ilişkilendirerek güzelliğin mükemmel hakemleri olacağı düşünülabilir, çünkü bu, ortak ve makul bir ilişkidir (ancak bazı istisnalar ile).

Benzer şekilde, mevcut koleksiyonlar – ImageNet ve LAION gibi – ‘zirveye çıkan’ aktörleri ve modelleri içerenler, genellikle çekici bireyleri içerir (ancak genellikle çok fazla veri noktası ile çok az insan), daha geniş kültürel mekanizmaların çekicilik için bir proxy olarak hareket etmesini sağlar.

Ancak, bu, insanların zaman içinde (neredeyse coğrafi olarak) neyin çekici olduğunu değiştirmesi hesabına नहin girer. Bu nedenle, yine, yüksek düzeyli ve veri bağımsız sistemlere ihtiyaç vardır, bireysel ve şüpheli koleksiyonlar veya kürasyonlar değil, bunlar değişen zevklere yansıtmayı başaramaz.

Karma Cilt

Bu zorluklarla başa çıkmak için son akademik girişimi, Çin’den geliyor, burada devir öğrenimi ve Geniş Öğrenme Sistemi (BLS), doğruluk ve hesaplama maliyeti arasındaki uzun süredir devam eden ticaretini ele almak için birleştiriliyor.

Geleneksel sinir ağları, yalnızca ağır eğitimle güçlü sonuçlar elde ederken, daha hafif sistemler gibi BLS, hızlı bir şekilde eğitilir, ancak yeterli ayrıntıyı yakalamakta zorluk çekebilir. Yeni çalışma, bu açığı, önceden eğitilmiş bir görsel modeli kullanarak yüz özelliklerini çıkarmak ve bunları daha sonra hızlı bir BLS tabanlı sisteme puanlama için aktarmak için köprü kurarak kapatır, böylece özellikler yeniden öğrenmek yerine yeniden kullanılabilir ve eğitim verimli bir şekilde tutulur:

LSAFBD veri setinden örnek görüntüler, 1'den 5'e kadar insan tarafından atanan güzellik puanlarına göre gruplandırılmış kadın yüzleri gösterir, burada puanlar, eğitim ve yüz güzelliği tahmini modellerini varyasyonlar boyunca değerlendirmek için denetlenen etiketler olarak kullanılan çoklu annotatörlerden elde edilmiştir.

LSAFBD veri setinden örnek görüntüler, 1’den 5’e kadar insan tarafından atanan güzellik puanlarına göre gruplandırılmış kadın yüzleri gösterir. Kaynak

İlk varyant, E-BLS, çıkarılan özellikleri doğrudan hafif sisteme beslerken, ikinci varyant, ER-BLS, değerlendirme için önce çıkarılan özellikleri standartlaştırarak ve rafine ederek bir ara adım ekler, böylece tutarlılığı geliştirir ve süreci yavaşlatmaz.

Yazarlar tarafından yürütülen testler, onların yaklaşımının, her bir yöntemin kendisine ve diğer rakip yöntemlere göre üstün olduğunu iddia ettikleri şeyi kanıtladığını kanıtlar.

Yeni makale, Yüz Güzellik Tahmini için Devir Öğrenimi ve Geniş Öğrenme Sisteminin Birleştirilmesi başlığını taşır ve Wuyi Üniversitesi’nden altı araştırmacı tarafından gelir.

Yöntem

Bahsi geçen Geniş Öğrenme Sistemi, derin sinir ağlarına hafif bir alternatif olup, çok katmanlı yığmayı atlar ve bunun yerine öğrenmeyi daha basit bağlantıların geniş bir kümesine yayarak, modellerin hızlı bir şekilde eğitilmesini sağlar, ancak genellikle daha ince görsel ayrıntıları kaçırma pahasına.

İki varyantın ilki, E-BLS, EfficientNet tabanlı devir öğrenimi ile BLS’yi birleştirir, bir yüzden ayrıntılı görsel özellikleri çıkarır ve bunları BLS’ye geçirir, böylece son tahmini verir ve tam bir derin sinir ağını sıfırdan eğitmeye gerek kalmaz:

E-BLS modelinin mimari şeması, hedef veri setlerinden yüz görüntülerinin önce önceden eğitilmiş bir EfficientNet özellik çıkarıcısına geçirildiğini, ardından çıkan özellik haritalarının bir Broad Learning System (BLS)'ye beslendiğini gösterir.

E-BLS modelinin mimari şeması.

EfficientNet, ImageNet-1k üzerinde önceden eğitilmiş ve büyük ölçüde değişmeden bırakılmış, her girdi görüntüsünü yüzü tanımlayan yapılandırılmış bir özellik değerleri kümesine dönüştürürken, BLS bu değerleri alır ve bunları transforme eder ve birleştiren basit, rastgele bağlı düğümler ağı aracılığıyla işler ve sonunda son çekicilik puanını üretir.

BLS, derin katmanlı yapılara dayanmadığından, E-BLS, düğümler eklenerek güncellenebilir, bu da eğitimi hızlı tutar ve modeli yeni veri sunulurken geliştirmeyi kolaylaştırır.

İkinci varyant, ER-BLS, E-BLS’ye dayanarak, EfficientNet özellik çıkarıcı ile BLS arasında bir ara işleme aşaması ekler, çıkarılan özellikleri değerlendirme için hazırlamak amacıyla:

ER-BLS modelinin mimarisi, yüz görüntülerinin önce önceden eğitilmiş bir EfficientNet özellik çıkarıcısına geçirildiğini, ardından bir bağlantı katmanına geçirildiğini, burada havuzlama, normalleştirme ve radyal tabanlı fonksiyon (RBF) dönüşümü uygulanır, sonra da Broad Learning System (BLS)'ye geçirilerek son yüz güzelliği puanı üretilir.

ER-BLS modelinin mimarisi.

E-BLS’de olduğu gibi, EfficientNet özellikleri doğrudan BLS’ye geçirilmez, ER-BLS önce onları bir rafineleme katmanına geçirir, bu da veriyi standartlaştırır ve şekillendirir, gürültüyü azaltmaya yardımcı olur ve özellikleri farklı görüntüler boyunca daha tutarlı hale getirir. Bu adım, özellikle yüzler aydınlatma, poz veya diğer görsel koşullarda değiştiğinde, sistemin genellemesini iyileştirmek için tasarlanmıştır.

Rafine edilen özellikleri, E-BLS’de kullanılan aynı BLS yapılarına geçirilir, burada özellik düğümleri ve geliştirme düğümleri bilgiyi transforme eder ve birleştirir, sonunda son çekicilik puanını üretir.

Veri ve Testler

Yaklaşımlarını test etmek için yazarlar, Güney Çin Üniversitesi’nden 5.500 ön yüz görüntüsünü içeren SCUT-FBP5500 veri setini kullandılar:

SCUT-FBP5500 veri setinden örnek yüz görüntüleri, 1'den 5'e kadar puanlanmıştır.

SCUT-FBP5500 veri setinden örnek yüz görüntüleri, 1’den 5’e kadar puanlanmıştır.

Her görüntü, 60 gönüllü tarafından 1-5 ölçeğinde puanlandı, ‘çok çekici değil’ (1) ‘çok çekici’ (5) arasında değişen bir güzellik puanı verildi:

Görüntülerin güzellik puanlarına göre dağılımı.

Görüntülerin güzellik puanlarına göre dağılımı.

Kullanılan diğer veri seti, yazarlar tarafından derlenen Büyük Ölçekli Asya Kadın Güzellik Veri Seti (LSAFBD) idi.

LSAFBD veri setinden örnek yüz görüntüleri, 1'den 5'e kadar puanlanmıştır.

LSAFBD veri setinden örnek yüz görüntüleri, 1’den 5’e kadar puanlanmıştır.

Veri seti, 144x144px çözünürlükte 80.000 etiketsiz görüntü içerir, varyasyonlar poz ve arka planı içerir ve yaşı içerir. Bu görüntüler, önceki veri seti için aynı kriterlere göre 75 gönüllü tarafından 0-4 ölçeğinde puanlandı:

LSAFBD veri setinin dağılımı.

LSAFBD veri setinin dağılımı.

Her veri seti, 8/20 oranıyla eğitim ve test segmentlerine bölündü ve çapraz doğrulama kullanılarak sonuçlar chạylar boyunca stabilize edildi. BLS bileşeni, özellik pencerelerinin sayısı, her pencere için düğümlerin sayısı ve geliştirme düğümlerinin sayısı aracılığıyla yapılandırıldı, etkili kombinasyonlar için Hyperopt kullanıldı.

Bir temel olarak, standart bir BLS modeli aynı ayarlarla eğitildi, ardından bir dizi devir öğrenimi modeli tanıtıldı, bunlar arasında ResNet50, Inception-V3, DenseNet121, InceptionResNetV2, EfficientNetB7, MobileNetV2, NASNet ve Xception – tümü ImageNet-1k ağırlıkları ile başlatıldı ve son katmanları dondurulmamış olarak eğitildi.

Eğitim, öğrenme oranı 0.001 (ilerleme durduğunda azaltıldı) ve toplu işleme boyutu 16, 50 dönem boyunca kullanıldı, düzenleme ve düzeltme lineer aktivasyon (ReLU) uygulanmıştır.

Performans, Pearson korelasyonu ile birlikte doğruluk kullanarak değerlendirildi, toplam eğitim süresi ile birlikte, sonuçlar beş çalıştırma boyunca ortalama olarak hesaplandı.

Yazarlar, eğitim kurulumunu bir Intel-i7 3.6 GHz CPU ve 64GB RAM ile ‘masaüstü bilgisayar’ olarak bildirirler:

SCUT-FBP5500'de performans karşılaştırması, E-BLS ve ER-BLS'nin, ResNet50, EfficientNetB7, InceptionV3 ve Xception dahil derin CNN modellerine karşı rekabetçi doğruluk elde ettiğini, ancak önemli ölçüde daha az eğitim süresi gerektiğini gösterir.

SCUT-FBP5500’de performans karşılaştırması, E-BLS ve ER-BLS’nin, ResNet50, EfficientNetB7, InceptionV3 ve Xception dahil derin CNN modellerine karşı rekabetçi doğruluk elde ettiğini, ancak önemli ölçüde daha az eğitim süresi gerektiğini gösterir.

Sonuçlar, E-BLS’nin doğruluğunu %65,85’ten %73,13’e, ER-BLS’nin ise %74,69’a çıkardığını gösterdi, tüm karşılaştırılmış modelleri aştı. Eğitim süresi, derin CNN’lerden önemli ölçüde daha düşük kaldı, yaklaşık 1.300 saniye, derin CNN’ler için birkaç bin ila 25.000 saniyeye kadar.

LSAFBD’de yapılan testler, E-BLS’nin doğruluğu geliştirdiğini, ER-BLS’nin ise tüm karşılaştırılmış yöntemler arasında en yüksek doğruluğa ulaştığını gösterdi:

LSAFBD'de performans, ER-BLS ve E-BLS'nin, tüm temel ve devir öğrenimi modellerinden daha yüksek doğruluk elde ettiğini, ancak yalnızca bir kısmının eğitim süresini gerektirdiğini gösterir, bu da verimlilikte tutarlı bir avantajı gösterirken, öngörülen kaliteyi feda etmemiştir.

LSAFBD’de performans, ER-BLS ve E-BLS’nin, tüm temel ve devir öğrenimi modellerinden daha yüksek doğruluk elde ettiğini, ancak yalnızca bir kısmının eğitim süresini gerektirdiğini gösterir, bu da verimlilikte tutarlı bir avantajı gösterirken, öngörülen kaliteyi feda etmemiştir.

Her iki varyant da, derin CNN modellerine göre önemli ölçüde daha düşük eğitim süresini korudu, performans ve hesaplama maliyeti arasında daha verimli bir denge olduğunu gösteren bir sonuç.

Sonuç

Bu, bir şekilde, ‘eski moda’ bir yayınlamadır, çünkü AI destekli güzellik değerlendirme sistemleri gibi eski favorileri kullanması ve en düşük düzeyde eğitim ekipmanını kullanmasıyla anlaşılabilir.

Bununla birlikte, bu, insan deneyimi ve öznel yorum ile ağır bir şekilde temas eden ve anlık estetik trendlerini aşan, gerçekten dayanıklı bir işlem hattı sunabilen bir şemayı gerektiren, oldukça dayanıklı bir hedefle ilgilidir.

 

İlk olarak Perşembe, 19 Mart 2026’da yayımlandı

Makine öğrenimi üzerine yazar, insan görüntü sentezinde alan uzmanı. Metaphysic.ai'de eski araştırma içeriği başkanı.
Kişisel site: martinanderson.ai
İletişim: [email protected]