Connect with us

AI’s Pursuit of Beauty

Andersonův úhel

AI’s Pursuit of Beauty

mm
AI-generated image featuring a woman whose face is being analyzed by a Terminator-style HUD. GPT-1.5.

Nový AI poháněný systém hodnocení krásy ohodnotí, jak atraktivní tváře vypadají, zatímco se učí rychleji než typické hluboké učení modely, potenciálně dělá velkou měřítko automatizované beauty-scoring více praktické.

 

Facial Beauty Prediction (FBP) je velký byznys a poměrně silný směr ve výzkumné literatuře. I když porušuje prakticky každý princip boje proti předpojatosti v AI a postupech strojového učení, a i když mnoha způsoby podporuje objektifikaci a redukcionismus v algoritmických vnímáních žen, přitahuje přesto zájem několika multi-miliardových dolarových průmyslů, většina z nich je zaměřena přímo na ženy, jako je kosmetika, kosmetická chirurgie obličeje, livestreaming, a móda, mezi ostatními:

Ženy ohodnocené od 1 do 5, z článku 'Asian Female Facial Beauty Prediction Using Deep Neural Networks via Transfer Learning and Multi-Channel Feature Fusion'. Source - https://www.semanticscholar.org/paper/Asian-Female-Facial-Beauty-Prediction-Using-Deep-Zhai-Huang/59776a6fb0642de5338a3dd9bac112194906bf30

Ženy ohodnocené od 1 do 5, z článku ‘Asian Female Facial Beauty Prediction Using Deep Neural Networks via Transfer Learning and Multi-Channel Feature Fusion’. Source

Mimo tyto zřejmé ženské obchodní enklávy, reklama a mnoho dalších průmyslů, včetně zábavy a vydavatelství, mají významné podíly v pochopení, co obě pohlaví považují za ‘atraktivní’, nezbytně na základě kultury.

Skutečnost, že agregované vnímání krásy se liší napříč regiony, znamená, že nelze získat definitivní globálně použitelná data, a že nové výzkumy musí buď zůstat lokální, nebo se soustředit na ‘high-level’ metody, které lze aplikovat napříč různými kulturními daty.

Rozhraní pro systém hodnocení krásy obličeje pro projekt SCUT-FBP z roku 2015. Source - https://arxiv.org/pdf/1511.02459

Rozhraní pro systém hodnocení krásy obličeje pro projekt SCUT-FBP z roku 2015. Source

Často není geografická poloha jediným omezením, protože datové sady zaměřené na atraktivitu mohou mít problémy s poskytováním stejné účinnosti napříč pohlavími, nebo mohou být kurátovány s určitým účelem v mente – a to může omezit použití sbírky v jiných oblastech.

Například v roce 2025 jsem hlásil o vývoji relativně rozsáhlé (100 000+ identit) datové sady pro hodnocení atraktivity v livestreamingu, jehož standardy by mohly potřebovat významné adaptace pro širší projekty, navzdory enormnímu úsilí za touto iniciativou.

Facial Rendition

Jak je zřejmé z odkazů a obrázků výše, asijské výzkumné instituce často nejsou omezeny stejnými kulturními omezeními jako jejich západní protějšky, kteří by byli těžce zasaženi, kdyby se odvážili publikovat vědeckou ilustraci, která ohodnotí pět západních žen od nejméně až po nejvíce atraktivní, jak je vidět v výše uvedeném studiu.

Lze argumentovat, že kde jsou asijské systémy tohoto druhu prokázány jako účinné ve veřejném prostoru, bez strachu z místního odsouzení, západní zájmy mohou použít nebo adaptovat takový výzkum do proprietárních, soukromých implementací. Úkol ‘hodnocení žen’ je v tomto scénáři převeden do lokality, kde lze jej sledovat bez kritiky.

Zda je toto běžné nebo zda méně veřejně známé západní ekvivalentní systémy tendují být vyvinuty mimo otevřenou spolupráci a z veřejného dohledu, je rozumné předpokládat, že cílový cíl je globálního zájmu, kvůli velkému počtu profesionálních sektorů, které mohou nebo by mohly profitovat z přesných hodnocení atraktivity.

Survival of the Fittest

Může se zdát, že masivní webové datové sady, jako je Tik Tok, Instagram a YouTube, by prokázaly vynikající arbitry krásy, tím, že korelují sledující, líbí a provoz s atraktivitou, protože toto je běžné a rozumné spojení (i když s některými výjimkami).

Podobně, existující sbírky – jako ImageNet a LAION – obsahující herce a modely, kteří “vzešli na vrchol” – budou obvykle obsahovat atraktivní jedince (i když často s příliš mnoha datovými body příliš málo lidí), umožňující širším kulturním mechanismům jednat jako proxy pro atraktivitu.

Nicméně, toto nebere v úvahu měnící se chutě v tom, co lidé považují za atraktivní v průběhu času (natož geograficky). Proto, opět, jsou potřebné high-level a data-agnostic systémy, ne individuální a spekulativní sbírky nebo kurátory, které selžou při odrážení měnících se chutí.

Combination Skin

Nejnovější akademický vstup, který se pokusí o tyto výzvy, pochází z Číny, kde přenosové učení a Broad Learning System (BLS) jsou kombinovány, aby řešily dlouho trvající kompromis mezi přesností a výpočetní nákladností.

Konvenční neuronové sítě tendují k dosažení silných výsledků pouze s těžkým tréninkem, zatímco lehčí systémy, jako je BLS, se učí rychle, ale mají problémy s zachycením dostatečných detailů. Nová práce mostí tuto mezeru, menggunakan předtrénovaný vizuální model pro extrakci obličejových funkcí, které jsou poté předány rychlému BLS-založenému systému pro hodnocení, umožňující funkcím být znovu použity místo naučených od začátku, zatímco udržuje efektivní trénink:

Ukázkové obrázky ze sady LSAFBD, zobrazující ženské tváře seskupené podle lidsky přiřazených krásných skórů od 1 do 5, kde hodnocení byla odvozena z více anotátorů a použita jako dohledované štítky pro trénování a hodnocení modelů předpovědi krásy obličeje napříč variacemi v póze, osvětlení a vzhledu.

Ukázkové obrázky ze sady LSAFBD, zobrazující ženské tváře seskupené podle lidsky přiřazených krásných skórů od 1 do 5. Hodnocení byla získaná z více anotátorů, a použita jako dohledované štítky pro trénování a hodnocení modelů předpovědi krásy obličeje napříč variacemi v póze, osvětlení a vzhledu. Source

První z dvou variant, E-BLS, kombinuje EfficientNet-založené přenosové učení s BLS, extrahující podrobné vizuální funkce z obličeje, a poté předávající je do BLS, což vede k finálnímu předpovědi, které se vyhnou potřebě trénovat plnou hlubokou neuronovou síť od začátku:

Architektonický schema pro model E-BLS, zobrazující, jak obličejové obrázky z cílových sad, jako je SCUT-FBP5500 a LSAFBD, jsou nejprve předány přes předtrénovaný extraktor funkcí EfficientNet, jehož parametry jsou přeneseny z ImageNet a ponechány pevné, poté jsou výsledné mapy funkcí předány do Broad Learning System (BLS), kde jsou uzly funkcí a uzly zlepšení kombinovány prostřednictvím trénovatelných vah pro produkci finální skóre krásy obličeje.

Architektonický schema pro model E-BLS.

EfficientNet, předtrénovaný na ImageNet-1k, a z velké části ponechaný nezměněn, převádí každý vstupní obrázek na kompaktní sadu hodnot funkcí, které popisují obličej strukturovaným způsobem, zatímco BLS bere tyto hodnoty a zpracovává je prostřednictvím sítě jednoduchých, náhodně propojených uzlů, které transformují a kombinují informace, než produkují finální skóre atraktivity.

Protože BLS nezávisí na hlubokých vrstvách, E-BLS může být aktualizován přidáním více uzlů místo retrénování celého systému, což udržuje trénink rychlý a usnadňuje zlepšení modelu, jakmile jsou zavedena nová data.

Druhá z dvou variant, ER-BLS, staví na E-BLS přidáním dalšího zpracovatelského stupně mezi extraktorem funkcí EfficientNet a BLS, s cílem zlepšit, jak jsou extrahované funkce připraveny před použitím pro předpověď:

Architektonický schema modelu ER-BLS, kde obličejové obrázky jsou zpracovány předtrénovaným extraktorem funkcí EfficientNet, poté rafinovány prostřednictvím propojovací vrstvy pomocí poolingu, normalizace a transformace radial basis function (RBF). Výstup je poté předán do Broad Learning System (BLS), pro produkci finální skóre krásy obličeje.

Architektonický schema modelu ER-BLS.

Místo přímého předání surových funkcí EfficientNet do BLS, ER-BLS nejprve předává je prostřednictvím rafinační vrstvy, která standardizuje a přetváří data, pomáhající snížit šum a činí funkce více konzistentními napříč různými obrázky. Tento krok je navržen pro zlepšení, jak dobře systém generalizuje, zejména když obličeje se liší v osvětlení, póze nebo jiných vizuálních podmínkách, které by jinak mohly zavést nestabilitu do předpovědí.

Rafinované funkce jsou poté předány do stejné struktury BLS, jako je v E-BLS, kde uzly funkcí a uzly zlepšení transformují a kombinují informace pro produkci finální skóre atraktivity.

Metoda

Uvedený Broad Learning System je lehkou alternativou k hlubokým neuronovým sítím, která přeskočí skládání více vrstev, a místo toho rozšiřuje učení napříč širokou sadou jednodušších spojů, umožňující modelům učit se rychle – ale obvykle na úkor chybějících jemných vizuálních detailů.

Data a testy

Pro testování svého přístupu autoři využili datovou sadu SCUT-FBP5500, sbírku předpovědi krásy obličeje z Jižní čínské univerzity, obsahující 5 500 frontálních obrázků obličeje o velikosti 350x350px, s rozmanitými rasy, pohlavími a věky:

Ukázkové obrázky ze datové sady SCUT-FBP5500, ohodnocené od nejméně (1) po nejvíce (5) atraktivní.

Ukázkové obrázky ze datové sady SCUT-FBP5500, ohodnocené od nejméně (1) po nejvíce (5) atraktivní.

Každý obrázek byl ohodnocen krásným skóre 60 dobrovolníky, na škále 1-5, sahající od extrémně neatraktivní (1) po extrémně atraktivní (5):

Rozdělení poměru obrázků podle hodnocení krásy.

Rozdělení poměru obrázků podle hodnocení krásy.

Druhá databáze, která byla použita, byla Large-Scale Asian Female Beauty Dataset (LSAFBD), sbírka kurátovaná autory sami.

Ukázkové obrázky ze datové sady LSAFBD, ohodnocené od nejméně (1) po nejvíce (5) atraktivní.

Ukázkové obrázky ze datové sady LSAFBD, ohodnocené od nejméně (1) po nejvíce (5) atraktivní.

Sbírka se skládá z 80 000 nelabelovaných obrázků o rozlišení 144x144px, s variacemi v póze a pozadí, jakož i věku. Tyto byly ohodnoceny 75 dobrovolníky pro stejná kritéria jako předchozí datová sada, tentokrát na škále 0-4:

Rozdělení pro datovou sadu LSAFBD.

Rozdělení pro datovou sadu LSAFBD.

Každá datová sada byla rozdělena do trénovací a testovací části v poměru 8/20, a křížová validace byla použita pro stabilizaci výsledků napříč běhy. Komponent BLS byla nakonfigurována prostřednictvím počtu funkcí oken; počtu uzlů na okno; a počtu uzlů zlepšení, s Hyperopt použitým pro hledání efektivní kombinace.

Pro stanovení základny byl standardní model BLS trénován za identických podmínek, poté, co série modelů přenosového učení byly zavedeny, včetně ResNet50, Inception-V3, DenseNet121, InceptionResNetV2, EfficientNetB7, MobileNetV2, NASNet, a Xception – všechny inicializovány s váhami ImageNet-1k, a trénovány se svými konečnými vrstvami odmraženými.

Trénink používal rychlost učení 0,001 (sníženou, když se pokrok zastavil), a velikost dávky 16, napříč 50 epochami, s regularizací a rectifikovanými lineárními jednotkami (ReLU) aplikovanými po celou dobu.

Výkon byl hodnocen pomocí přesnosti a Pearsonovy korelace, spolu s celkovým tréninkovým časem, s výsledky průměrovány napříč pěti běhy.

Autoři uvádějí tréninkový setup jako Intel-i7 3,6 GHz CPU a 64GB RAM na ‘desktopovém počítači’:

Porovnání výkonu na SCUT-FBP5500, kde E-BLS a ER-BLS dosahují konkurenční přesnost proti hlubokým modelům CNN, včetně ResNet50, EfficientNetB7, InceptionV3 a Xception, zatímco vyžadují podstatně méně tréninkového času – zdůrazňující efektivitu zisku kombinace přenosového učení s Broad Learning System.

Porovnání výkonu na SCUT-FBP5500, kde E-BLS a ER-BLS dosahují konkurenční přesnost proti hlubokým modelům CNN, včetně ResNet50, EfficientNetB7, InceptionV3 a Xception, zatímco vyžadují podstatně méně tréninkového času – zdůrazňující efektivitu zisku kombinace přenosového učení s Broad Learning System.

Výsledky ukázaly, že E-BLS zlepšil přesnost z 65,85 % na 73,13 %, zatímco ER-BLS dosáhl 74,69 %, překonávající všechny srovnávané modely. Tréninkový čas zůstal podstatně nižší než u hlubokých modelů CNN, přibližně 1 300 sekund, oproti několika tisícům až přes 25 000 sekund.

Pro testy na LSAFBD výsledky ukázaly, že E-BLS zlepšil přesnost oproti plain BLS, zatímco ER-BLS dosáhl nejvyšší přesnosti mezi všemi srovnávanými metodami:

Výkon na LSAFBD, kde ER-BLS a E-BLS dodávají vyšší přesnost než všechny základní a přenosové modely, zatímco vyžadují pouze zlomek jejich tréninkového času, ukazující konzistentní výhodu v efektivitě bez obětování predikční kvality.

Výkon na LSAFBD, kde ER-BLS a E-BLS dodávají vyšší přesnost než všechny základní a přenosové modely, zatímco vyžadují pouze zlomek jejich tréninkového času, ukazující konzistentní výhodu v efektivitě bez obětování predikční kvality.

Obě varianty udržely podstatně nižší tréninkový čas než hluboké modely CNN, ukazující na více efektivnější rovnováhu mezi výkonem a výpočetní nákladností.

Závěr

Toto je somewhat ‘throwback’ publikace, jak je patrné z jejího použití před-boom favoritů, jako jsou CNN, a z jejího nejnižšího úrovně tréninkového vybavení, které jsem potkal v novém článku za mnoho let.

Nicméně, zabývá se překvapivě odolným cílem v počítačovém vidění; jedním, který se dotýká silně lidské zkušenosti a subjektivního výkladu, a který vyžaduje schéma, které přesahuje estetické trendy okamžiku, a může poskytnout skutečně odolný pipeline pro úkol.

 

Poprvé publikováno ve čtvrtek, 19. března 2026

Spisovatel o strojovém učení, doménový specialista na syntézu lidského obrazu. Bývalý vedoucí výzkumného obsahu ve společnosti Metaphysic.ai.
Osobní stránky: martinanderson.ai