Connect with us

Urmărirea frumuseții de către IA

Unghiul lui Anderson

Urmărirea frumuseții de către IA

mm
AI-generated image featuring a woman whose face is being analyzed by a Terminator-style HUD. GPT-1.5.

Un nou sistem de evaluare a frumuseții bazat pe IA clasifică cât de atractive par fețele, în timp ce se antrenează mai repede decât modelele obișnuite de învățare profundă, făcând posibilă o evaluare automată la scară largă a frumuseții.

 

Predicția frumuseții faciale (FBP) este o afacere de mare anvergură și o direcție de cercetare puternică. Chiar dacă încalcă practic toate principiile combaterii prejudecăților în practicile IA și machine learning, și chiar dacă în multe moduri susține obiectificarea și reducționismul în percepțiile algoritmice ale femeilor, ea atrage totuși interesul mai multor industrii cu miliarde de dolari, majoritatea dintre ele fiind orientate direct către femei, cum ar fi cosmeticele, chirurgia facială cosmetică, transmisiunile live și moda, printre altele:

Femei evaluate de la 1 la 5, din lucrarea 'Asian Female Facial Beauty Prediction Using Deep Neural Networks via Transfer Learning and Multi-Channel Feature Fusion'. Sursă - https://www.semanticscholar.org/paper/Asian-Female-Facial-Beauty-Prediction-Using-Deep-Zhai-Huang/59776a6fb0642de5338a3dd9bac112194906bf30

Femei evaluate de la 1 la 5, din lucrarea ‘Asian Female Facial Beauty Prediction Using Deep Neural Networks via Transfer Learning and Multi-Channel Feature Fusion’. Sursă

Dincolo de aceste enclave comerciale centrate pe femei, publicitatea și alte industrii, inclusiv divertismentul și publicarea, au un interes semnificativ în înțelegerea a ceea ce atât bărbații, cât și femeile consideră ‘atractiv’, necesarmente pe o bază culturală.

Faptul că percepțiile agregate ale frumuseții variază în diferite regiuni înseamnă că nu se pot obține seturi de date definitive aplicabile la nivel global, și că noile cercetări trebuie să rămână parohiale sau să se concentreze pe metode ‘de nivel înalt’ care pot fi aplicate pe diferite porțiuni de date culturale.

Interfață pentru un sistem de evaluare a frumuseții faciale pentru proiectul SCUT-FBP din 2015. Sursă - https://arxiv.org/pdf/1511.02459

Interfață pentru un sistem de evaluare a frumuseții faciale pentru proiectul SCUT-FBP din 2015. Sursă

Adesea, locația geografică nu este singura restricție, deoarece seturile de date axate pe atractivitate pot avea dificultăți în a oferi eficacitate egală pentru ambele genuri, sau pot fi create cu un anumit scop în minte – și acest lucru poate restricționa utilizarea colecției în alte domenii.

De exemplu, în 2025, am raportat despre dezvoltarea unui set de date relativ de mare anvergură (100.000+ de identități) pentru a evalua atractivitatea în transmisiunile live, ale cărui standarde tăiate ar putea necesita o adaptare semnificativă pentru proiecte mai ample, în ciuda efortului enorm din spatele inițiativei.

Reprezentare facială

Așa cum se poate observa din legăturile și imaginile de mai sus, organismele de cercetare asiatice nu funcționează întotdeauna sub aceleași restricții culturale ca și omologii lor occidentali, care ar fi puțin probabil să îndrăznească să publice o ilustrație științifică care evaluează cinci femei occidentale de la mai puțin la mai atractive, așa cum se vede în studiul ilustrat mai sus.

Se poate argumenta că, acolo unde sistemele asiatice de acest fel sunt dovedite a fi eficiente în public, fără teama de critici locale, interesele occidentale pot utiliza sau adapta astfel de cercetări în implementări private și proprietare. În acest scenariu, sarcina de ‘evaluare a femeilor’ este delegată într-o zonă în care poate fi urmărită fără critică.

Indiferent dacă acest lucru este comun sau dacă sistemele occidentale mai puțin publicizate tind să fie dezvoltate departe de colaborarea open source și de supravegherea publică, este rezonabil să se presupună că obiectivul țintă este de interes global, datorită numărului mare de sectoare profesionale care pot sau ar putea beneficia de evaluări precise ale atractivității.

Supraviețuirea celui mai apt

Se poate părea că corpusurile masive și accesibile pe web, cum ar fi Tik Tok, Instagram și YouTube, ar fi arbitri excelenți ai frumuseții, prin corelarea urmăritorilor, a aprecierilor și a traficului cu atractivitatea, deoarece aceasta este o asociere comună și rezonabilă (cu câteva excepții).

La fel, colecțiile existente – cum ar fi ImageNet și LAION – care prezintă actori și modele care au ‘urcat în top’ – vor prezenta, de obicei, indivizi atractivi (deși adesea cu prea multe puncte de date pentru prea puține persoane), permițând mecanismelor culturale mai largi să acționeze ca un proxy pentru atractivitate.

Cu toate acestea, acest lucru nu ține cont de schimbările gusturilor în ceea ce oamenii consideră atractiv de-a lungul timpului (și mai puțin geografic). Prin urmare, din nou, sunt necesare sisteme de nivel înalt și agnostice față de date, și nu colecții sau curățiri individuale și specioase care nu vor reuși să reflecte gusturile în schimbare.

Piele combinată

Ultima intrare academică care abordează aceste provocări vine din China, unde învățarea prin transfer și Sistemul de învățare largă (BLS) sunt combinate pentru a aborda schimbul de lungă durată între acuratețe și costul computațional.

Rețelele neuronale convenționale tind să obțină rezultate puternice doar cu antrenament greu, în timp ce sistemele mai ușoare, cum ar fi BLS, se antrenează rapid, dar luptă pentru a capta suficiente detalii. Lucrarea nouă podeste această lacună prin utilizarea unui model vizual preantrenat pentru a extrage caracteristici faciale, care sunt apoi transmise unui sistem BLS rapid pentru evaluare, permițând caracteristicilor să fie reutilizate în loc de a fi învățate de la zero, în timp ce menține antrenamentul eficient:

Imagini de exemplu din setul de date LSAFBD, care prezintă fețe feminine grupate de la 1 la 5, în funcție de scorurile de frumusețe atribuite de mai mulți annotatori și utilizate ca etichete supervizate pentru antrenarea și evaluarea modelelor de predicție a frumuseții faciale pe variante de poziție, iluminare și aparență.

Imagini de exemplu din setul de date LSAFBD, care prezintă fețe feminine grupate de la 1 la 5. Sursă

Prima variantă introdusă în lucrare (E-BLS, vezi mai jos), alimentează caracteristicile extrase direct în sistemul ușor, în timp ce a doua, ER-BLS (vezi mai jos), adaugă o etapă intermediară simplă care standardizează și rafinează aceste caracteristici înainte de evaluare, ajutând la îmbunătățirea consistenței fără a încetini procesul.

Testele efectuate de autori demonstrează, susțin ei, că abordarea lor este superioară fiecăruia dintre metode, individual, și altor metode concurente.

Noul articol se intitulează Predicția frumuseții faciale prin fuziunea învățării prin transfer și a sistemului de învățare largă și provine de la șase cercetători de la Universitatea Wuyi, Jiangmen.

Metodă

Sistemul de învățare largă menționat anterior este o alternativă ușoară la rețelele neuronale profunde, care sări peste stivuirea multiplelor straturi și, în schimb, răspândește învățarea pe o gamă largă de conexiuni mai simple, permițând modelului să se antreneze rapid – dar, de obicei, la costul lipsei de detalii vizuale fine.

Prima variantă, E-BLS, combină învățarea eficientă bazată pe transfer cu BLS, extrăgând caracteristici vizuale detaliate dintr-o față și apoi transmițându-le către BLS, implicând o predicție finală care evită nevoia de a antrena o rețea neuronală profundă de la zero:

Schema arhitecturală pentru modelul E-BLS, care arată cum imaginile faciale din seturile de date țintă, cum ar fi SCUT-FBP5500 și LSAFBD, sunt mai întâi trecute printr-un extractor de caracteristici EfficientNet preantrenat, ale cărui parametri sunt transferați de la ImageNet și păstrați fixați, înainte ca hărțile de caracteristici rezultate să fie introduse într-un Sistem de învățare largă (BLS), unde nodurile de caracteristici și nodurile de îmbunătățire sunt combinate prin greutăți antrenabile pentru a produce scorul final de frumusețe facială.

Schema arhitecturală pentru modelul E-BLS.

Învățarea eficientă, preantrenată pe ImageNet-1k, și păstrată în mare parte neschimbată, convertește fiecare imagine de intrare într-un set compact de valori de caracteristici care descriu fața într-un mod structurat, în timp ce BLS ia aceste valori și le procesează printr-o rețea de noduri simple, conectate aleatoriu, care transformă și combină informația, înainte de a produce scorul final de atractivitate.

Deoarece BLS nu se bazează pe structuri stratificate profunde, E-BLS poate fi actualizat prin adăugarea de noduri suplimentare, în loc de reantrenarea întregului sistem. Acest lucru menține antrenamentul rapid și face mai ușoară îmbunătățirea modelului pe măsură ce sunt introduse noi date.

A doua variantă, ER-BLS, se bazează pe E-BLS prin adăugarea unei etape de procesare intermediare între extractorul de caracteristici EfficientNet și BLS, cu scopul de a îmbunătăți modul în care aceste caracteristici extrase sunt pregătite înainte de a fi utilizate pentru predicție:

Arhitectura modelului ER-BLS, în care imaginile faciale sunt procesate de un extractor de caracteristici EfficientNet preantrenat, apoi rafinate printr-un strat de conexiune care utilizează poolarea, normalizarea și transformarea radială a funcției de bază (RBF). Ieșirea este apoi transmisă către Sistemul de învățare largă (BLS), pentru a produce scorul final de frumusețe facială.

Arhitectura modelului ER-BLS.

În loc de a transmite caracteristicile brute EfficientNet direct în BLS, ER-BLS le transmite mai întâi printr-un strat de rafinare care le standardizează și le restructurează, ajutând la reducerea zgomotului și la îmbunătățirea consistenței caracteristicilor pe diferite imagini. Acest pas este proiectat pentru a îmbunătăți modul în care sistemul se generalizează, în special atunci când fețele variază în iluminare, poziție sau alte condiții vizuale care ar putea introduce instabilitate în predicții.

Caracteristicile rafinate sunt apoi transmise în aceeași structură BLS utilizată în E-BLS, unde nodurile de caracteristici și nodurile de îmbunătățire transformă și combină informația pentru a produce scorul final de atractivitate.

Date și teste

Pentru a testa abordarea lor, autorii au utilizat setul de date SCUT-FBP5500, o colecție de predicție a frumuseții faciale de la Universitatea din China de Sud, care conține 5.500 de imagini faciale frontale la 350x350px, cu diverse rase, genuri și vârste:

Imagini faciale de exemplu din setul de date SCUT-FBP5500, evaluate de la mai puțin (1) la mai atractive (5).

Imagini faciale de exemplu din setul de date SCUT-FBP5500, evaluate de la mai puțin (1) la mai atractive (5).

Fiecare imagine a fost evaluată cu un scor de frumusețe de 60 de voluntari, pe o scară de la 1 la 5, de la extrem de neatractivă (1) la extrem de atractivă (5):

Împărțirea proporțiilor de imagini după scorul de frumusețe.

Împărțirea proporțiilor de imagini după scorul de frumusețe.

Celălalt set de date utilizat a fost Large-Scale Asian Female Beauty Dataset (LSAFBD), o colecție curată de autorii înșiși.

Imagini faciale de exemplu din setul de date LSAFBD, evaluate de la mai puțin (1) la mai atractive (5).

Imagini faciale de exemplu din setul de date LSAFBD, evaluate de la mai puțin (1) la mai atractive (5).

Colecția constă din 80.000 de imagini nelabelate la o rezoluție de 144x144px, cu variații în poziție și fundal, precum și vârstă. Acestea au fost evaluate de 75 de voluntari pentru aceleași criterii ca și setul de date anterior, de data aceasta pe o scară de la 0 la 4:

Împărțirile pentru setul de date LSAFBD.

Împărțirile pentru setul de date LSAFBD.

Fiecare set de date a fost împărțit în segmente de antrenament și testare într-un raport de 8/20, și validarea cruzată a fost utilizată pentru a stabiliza rezultatele pe parcursul execuțiilor. Componenta BLS a fost configurată prin numărul de ferestre de caracteristici; numărul de noduri pe fereastră; și numărul de noduri de îmbunătățire, cu Hyperopt utilizat pentru a căuta combinații eficiente.

Pentru a stabili o bază de comparație, un model BLS standard a fost antrenat în condiții identice, după care o serie de modele de învățare prin transfer au fost introduse, incluzând ResNet50, Inception-V3, DenseNet121, InceptionResNetV2, EfficientNetB7, MobileNetV2, NASNet și Xception – toate inițializate cu greutăți ImageNet-1k și antrenate cu straturile finale decongelate.

Antrenamentul a utilizat o rată de învățare de 0,001 (redusă atunci când progresul a stagnat), și o dimensiune a lotului de 16, pe parcursul a 50 de epoci, cu regularizare și activare liniară rectificată (ReLU) aplicate pe tot parcursul.

Performanța a fost evaluată utilizând acuratețea și corelația Pearson, alături de timpul total de antrenament, cu rezultate mediate pe parcursul a cinci execuții.

Autorii raportează configurația de antrenament ca fiind un procesor Intel-i7 de 3,6 GHz și 64GB RAM pe un ‘computer de birou’:

Compararea performanței pe SCUT-FBP5500, unde E-BLS și ER-BLS ating acuratețe competitive împotriva modelelor de CNN profunde, incluzând ResNet50, EfficientNetB7, InceptionV3 și Xception, în timp ce necesită o perioadă de antrenament semnificativ mai scurtă – subliniind câștigurile de eficiență ale combinării învățării prin transfer cu un Sistem de învățare largă.

Compararea performanței pe SCUT-FBP5500, unde E-BLS și ER-BLS ating acuratețe competitive împotriva modelelor de CNN profunde, incluzând ResNet50, EfficientNetB7, InceptionV3 și Xception, în timp ce necesită o perioadă de antrenament semnificativ mai scurtă – subliniind câștigurile de eficiență ale combinării învățării prin transfer cu un Sistem de învățare largă.

Rezultatele au indicat că E-BLS a îmbunătățit acuratețea de la 65,85% la 73,13%, în timp ce ER-BLS a atins 74,69%, depășind toate modelele comparate. Timpul de antrenament a rămas semnificativ mai scurt decât cel al rețelelor neuronale profunde, la aproximativ 1.300 de secunde, față de câteva mii până la peste 25.000 de secunde.

Pentru testele pe LSAFBD, rezultatele au arătat că E-BLS a îmbunătățit acuratețea față de BLS simplu, în timp ce ER-BLS a atins acuratețea cea mai ridicată printre toate metodele comparate:

Performanță pe LSAFBD, unde ER-BLS și E-BLS oferă acuratețe mai ridicată decât toate modelele de bază și de învățare prin transfer, în timp ce necesită doar o fracțiune din timpul de antrenament, indicând un avantaj consistent în eficiență fără a sacrifica calitatea predictivă.

Performanță pe LSAFBD, unde ER-BLS și E-BLS oferă acuratețe mai ridicată decât toate modelele de bază și de învățare prin transfer, în timp ce necesită doar o fracțiune din timpul de antrenament, indicând un avantaj consistent în eficiență fără a sacrifica calitatea predictivă.

Ambele variante au menținut un timp de antrenament semnificativ mai scurt decât modelele de CNN profunde, indicând un echilibru mai eficient între performanță și cost computațional.

Concluzie

Acesta este, într-un fel, o publicație ‘retro’, așa cum se poate observa din utilizarea unor favorite de dinainte de boom, cum ar fi rețelele neuronale convolutive, și din utilizarea echipamentului de antrenament de nivelul cel mai de jos pe care l-am întâlnit într-un articol nou în mult timp.

Cu toate acestea, abordează un obiectiv surprinzător de rezistent în domeniul viziunii computaționale; unul care atinge puternic experiența umană și interpretarea subiectivă și care cere un cadru care să depășească tendințele estetice ale momentului și să poată furniza o adevărată conductă rezistentă pentru sarcină.

 

Publicat pentru prima dată joi, 19 martie 2026

Scriitor pe machine learning, specialist în domeniul sintezei de imagini umane. Foster head of research content la Metaphysic.ai.