Inteligență artificială

Estimarea atractivității faciale pentru fluxuri live

Published January 8, 2025

Updated April 26, 2026

Martin Anderson

Image by ChatGPT, with superimposed image from the paper https://arxiv.org/pdf/2501.02509

Până în prezent, predicția atractivității faciale (FAP) a fost studiată în principal în contextul cercetării psihologice, în industria frumuseții și a produselor cosmetice și în contextul chirurgiei cosmetice. Este un domeniu de studiu dificil, deoarece standardele de frumusețe tind să fie naționale, mai degrabă decât globale.

Acest lucru înseamnă că nu există un singur set de date eficient bazat pe IA, deoarece mediile obținute prin eşantionarea fețelor și a notelor din toate culturile ar fi foarte biasate (unde națiunile mai populate ar câștiga tracțiune suplimentară), sau ar fi aplicabile nici unei culturi (unde media notelor multiple rase/arătări ar echivala cu nici o rasă reală).

În schimb, provocarea constă în dezvoltarea metodologiilor conceptuale și a fluxurilor de lucru în care pot fi procesate datele specifice țării sau culturii, pentru a permite dezvoltarea unor modele FAP eficiente pe regiuni.

Cazurile de utilizare ale FAP în cercetarea frumuseții și psihologiei sunt destul de marginale, altfel specifice industriei; prin urmare, majoritatea seturilor de date create până în prezent conțin doar date limitate sau nu au fost publicate deloc.

Disponibilitatea facilă a predictorilor de atractivitate online, în mare parte destinați publicului occidental, nu reprezintă neapărat stadiul actual al FAP, care pare a fi dominat în prezent de cercetarea est-asiatică (în special China) și de seturile de date corespunzătoare est-asiatice.

Exemple de seturi de date din lucrarea din 2020 ‘Asian Female Facial Beauty Prediction Using Deep Neural Networks via Transfer Learning and Multi-Channel Feature Fusion’. Sursă: https://www.semanticscholar.org/paper/Asian-Female-Facial-Beauty-Prediction-Using-Deep-Zhai-Huang/59776a6fb0642de5338a3dd9bac112194906bf30

Utilizările comerciale mai largi pentru estimarea frumuseții includ aplicațiile de dating online și sistemele de inteligență artificială generativă proiectate pentru a ‘îmbunătăți’ imagini reale ale oamenilor (deoarece astfel de aplicații necesită un standard cantitativ de frumusețe ca metrică a eficacității).

Desenarea fețelor

Persoanele atractive continuă să fie un activ valoros în publicitate și construirea influenței, făcând ca stimulentele financiare din aceste sectoare să fie o oportunitate clară pentru promovarea stadiului actual al seturilor de date și cadrului FAP.

De exemplu, un model de inteligență artificială antrenat cu date din lumea reală pentru a evalua și a nota frumusețea feței ar putea identifica potențial evenimente sau indivizi cu un impact publicitar ridicat. Această capacitate ar fi deosebit de relevantă în contextul transmisiunilor video live, unde metrice precum ‘urmăritorii’ și ‘aprecierile’ servesc în prezent doar ca indicatori impliciti ai capacității unei persoane (sau chiar a unui tip de față) de a captiva o audiență.

Acesta este, desigur, un metric superficial, și vocea, prezentarea și punctul de vedere joacă, de asemenea, un rol semnificativ în atragerea audienței. Prin urmare, curarea seturilor de date FAP necesită supraveghere umană, precum și capacitatea de a distinge atractivitatea facială de ‘specioasă’ (fără de care influențatori din afara domeniului, cum ar fi Alex Jones, ar putea afecta curba medie FAP a unei colecții destinate exclusiv pentru a estima frumusețea feței).

LiveBeauty

Pentru a aborda lipsa seturilor de date FAP, cercetători din China oferă primul set de date FAP la scară largă, conținând 100.000 de imagini cu fețe, împreună cu 200.000 de annotări umane care estimează frumusețea feței.

Exemple din noul set de date LiveBeauty. Sursă: https://arxiv.org/pdf/2501.02509

Denominat LiveBeauty, setul de date prezintă 10.000 de identități diferite, toate capturate de pe (ne specificate) platforme de transmisie live în martie 2024.

Autorii prezintă, de asemenea, FPEM, o metodă FAP multi-modală nouă. FPEM integrează cunoștințe holistice despre față și caracteristici estetice multi-modale semantice prin intermediul unui Modul de Prioritate a Atractivității Personalizate (PAPM), un Modul de Codificare a Atractivității Multi-Modale (MAEM) și un Modul de Fuziune Cross-Modală (CMFM).

Articolul susține că FPEM atinge performanța de top pe noul set de date LiveBeauty și pe alte seturi de date FAP. Autorii notează că cercetarea are aplicații potențiale pentru îmbunătățirea calității videoului, recomandarea conținutului și retușarea feței în transmisia live.

Autorii promit, de asemenea, să facă setul de date disponibil ‘curând’ – deși trebuie să se recunoască că orice restricții de licențiere inerente în domeniul sursă par să fie probabil să se transmită majorității proiectelor care ar putea utiliza acest lucru.

Noul articol se intitulează Facial Attractiveness Prediction in Live Streaming: A New Benchmark and Multi-modal Method și provine de la zece cercetători de la Alibaba Group și Universitatea Shanghai Jiao Tong.

Metodă și date

De la fiecare transmisie de 10 ore de la platformele de transmisie live, cercetătorii au selectat o imagine pe oră pentru primele trei ore. Transmisiunile cu cele mai multe vizualizări de pagină au fost selectate.

Datele colectate au fost supuse apoi mai multor etape de preprocesare. Prima dintre acestea este măsurarea dimensiunii regiunii feței, care utilizează modelul de detectare FaceBoxes din 2018 pentru a genera o cutie de delimitare în jurul linamentelor feței. Pipeline-ul asigură că partea mai scurtă a cutiei de delimitare depășește 90 de pixeli, evitând regiunile feței mici sau neclare.

A doua etapă este detectarea blurului, care se aplică regiunii feței prin utilizarea varianței operatorului Laplacian în canalul de înălțime (Y) al recoltării feței. Această varianță trebuie să fie mai mare de 10, ceea ce ajută la filtrarea imaginilor blurate.

A treia etapă este estimarea poziției feței, care utilizează modelul de estimare a poziției 3DDFA-V2 din 2021:

Exemple din modelul de estimare 3DDFA-V2. Sursă: https://arxiv.org/pdf/2009.09960

Aici, fluxul de lucru asigură că unghiul de pitch al feței recoltate nu este mai mare de 20 de grade, iar unghiul de yaw nu este mai mare de 15 grade, ceea ce exclude fețele cu poziții extreme.

A patra etapă este evaluarea proporției feței, care utilizează, de asemenea, capacitățile de segmentare ale modelului 3DDFA-V2, asigurând că regiunea feței recoltate este mai mare de 60% din imagine, excluzând imaginile în care fața nu este proeminentă. adică, mică în imaginea generală.

În cele din urmă, a cincea etapă este ștergerea caracterelor duplicate, care utilizează un model de recunoaștere a feței de ultimă generație (fără a fi atribuit), pentru cazurile în care aceeași identitate apare în mai mult de una dintre cele trei imagini colectate pentru un videoclip de 10 ore.

Evaluarea și notarea umană

Douăzeci de annotatori au fost recrutați, constând în șase bărbați și 14 femei, reflectând demografia platformei live utilizate*. Fețele au fost afișate pe ecranul de 6,7 inch al unui iPhone 14 Pro Max, în condiții de laborator constante.

Evaluarea a fost împărțită în 200 de sesiuni, fiecare dintre care a utilizat 50 de imagini. Subiecților li s-a cerut să evalueze atractivitatea feței mostrelor pe o scară de 1-5, cu o pauză de cinci minute impusă între fiecare sesiune, și toți subiecții au participat la toate sesiunile.

Prin urmare, întregul set de 10.000 de imagini a fost evaluat de către cei douăzeci de subiecți umani, ajungând la 200.000 de note.

Analiză și preprocesare

Mai întâi, s-a efectuat o selecție a subiecților după ecranizare, utilizând raportul de outlier și coeficientul de corelație Spearman (SROCC). Subiecților ale căror note aveau un SROCC mai mic de 0,75 sau un raport de outlier mai mare de 2% au fost considerați neverosimili și au fost eliminați, ajungându-se la 20 de subiecți în cele din urmă..

Apoi, s-a calculat un Scor de Opinie Medie (MOS) pentru fiecare imagine a feței, prin medierea notelor obținute de subiecții valizi. MOS servește ca etichetă de atractivitate de referință pentru fiecare imagine, iar nota este calculată prin medierea tuturor notelor individuale de la fiecare subiect valabil.

În cele din urmă, analiza distribuțiilor MOS pentru toate mostrele, precum și pentru mostrele feminine și masculine, a indicat că acestea au prezentat o formă gaussiană, care este consistentă cu distribuțiile reale de atractivitate a feței:

Exemple de distribuții MOS LiveBeauty.

Majoritatea indivizilor tind să aibă o atractivitate facială medie, cu mai puțini indivizi la extremele unei atractivități foarte scăzute sau foarte ridicate.

Mai mult, analiza asimetriei și curtosisului a arătat că distribuțiile au fost caracterizate de cozi subțiri și concentrate în jurul notei medii, și că atractivitatea ridicată a fost mai prevalentă printre mostrele feminine în videoclipurile live colectate.

Arhitectură

A fost utilizată o strategie de antrenament în două etape pentru modelul FPEM și faza de fuziune hibridă în LiveBeauty, împărțită în patru module: un Modul de Prioritate a Atractivității Personalizate (PAPM), un Modul de Codificare a Atractivității Multi-Modale (MAEM), un Modul de Fuziune Cross-Modală (CMFM) și un Modul de Fuziune a Deciziei (DFM).

Schema conceptuală pentru pipeline-ul de antrenament LiveBeauty.

Modulul PAPM ia o imagine ca intrare și extrage caracteristici vizuale multi-scală utilizând un Swin Transformer, și extrage, de asemenea, caracteristici conștiente de față utilizând un model FaceNet preantrenat. Aceste caracteristici sunt combinate utilizând un bloc de atenție încrucișată pentru a crea o caracteristică de ‘atractivitate’ personalizată.

De asemenea, în faza de antrenament preliminar, MAEM utilizează o imagine și descrieri textuale de atractivitate, utilizând CLIP pentru a extrage caracteristici estetice semantice multi-modale.

Descrierile textuale șablonizate sunt sub forma ‘o fotografie a unei persoane cu {a} atractivitate’ (unde {a} poate fi rea, săracă, mediocră, bună sau perfectă). Procesul estimează similaritatea cosinusoidală între încorporările textuale și vizuale pentru a ajunge la o probabilitate de atractivitate.

În faza de fuziune hibridă, CMFM rafinează încorporările textuale utilizând caracteristica de atractivitate personalizată generată de PAPM, generând astfel încorporări textuale personalizate. Apoi, utilizează o strategie de regresie a similarității pentru a face o predicție.

În cele din urmă, DFM combină predicțiile individuale de la PAPM, MAEM și CMFM pentru a produce un singur scor de atractivitate final, cu scopul de a atinge un consens solid

Funcții de pierdere

Pentru metrici de pierdere, PAPM este antrenat utilizând o pierdere L1, o măsură a diferenței absolute între nota de atractivitate prezisă și nota reală (de referință) de atractivitate.

Modulul MAEM utilizează o funcție de pierdere mai complexă care combină o pierdere de notare (LS) cu o pierdere de clasament combinat (LR). Pierderea de clasament (LR) include o pierdere de fidelitate (LR1) și o pierdere de clasament bidirecțională (LR2).

LR1 compară atractivitatea relativă a perechilor de imagini, în timp ce LR2 asigură că distribuția de probabilitate prezisă a nivelurilor de atractivitate are un singur vârf și scade în ambele direcții. Acest abordaj combinat își propune să optimizeze atât notarea precisă, cât și clasamentul corect al imaginilor pe baza atractivității.

CMFM și DFM sunt antrenate utilizând o pierdere L1 simplă.

Teste

În teste, cercetătorii au comparat LiveBeauty cu nouă abordări anterioare: ComboNet; 2D-FAP; REX-INCEP; CNN-ER (prezentat în REX-INCEP); MEBeauty; AVA-MLSP; TANet; Dele-Trans; și EAT.

Metodele de bază care respectă un protocol de evaluare a esteticii imaginilor (IAA) au fost testate, de asemenea. Acestea au fost ViT-B; ResNeXt-50; și Inception-V3.

Pe lângă LiveBeauty, celelalte seturi de date testate au fost SCUT-FBP5000 și MEBeauty. Mai jos sunt comparate distribuțiile MOS ale acestor seturi de date:

Distribuții MOS ale seturilor de date de referință.

Respectiv, aceste seturi de date invitate au fost împărțite 60%-40% și 80%-20% pentru antrenament și testare, separate, pentru a menține consistența cu protocoalele lor originale. LiveBeauty a fost împărțită într-un raport de 90%-10%.

Pentru inițializarea modelului în MAEM, VT-B/16 și GPT-2 au fost utilizate ca codificatori de imagine și text, inițializați prin setări din CLIP. Pentru PAPM, Swin-T a fost utilizat ca codificator de imagine antrenabil, în conformitate cu SwinFace.

Optimizerul AdamW a fost utilizat, și un programator de rată de învățare a fost setat cu încălzire liniară sub o schemă de înclinare cosinusoidală. Ratele de învățare au diferit în timpul fazelor de antrenament, dar fiecare a avut o dimensiune de lot de 32, pentru 50 de epoci.

Rezultate din teste

Rezultatele testelor pe cele trei seturi de date FAP sunt prezentate mai sus. Din aceste rezultate, articolul afirmă:

‘Metoda noastră propusă ocupă locul întâi și depășește locul al doilea cu aproximativ 0,012, 0,081, 0,021 în ceea ce privește valorile SROCC pe LiveBeauty, MEBeauty și SCUT-FBP5500, ceea ce demonstrează superioritatea metodei noastre propuse.

‘Metodele IAA sunt inferioare metodelor FAP, ceea ce demonstrează că metodele generice de evaluare a esteticii ignoră caracteristicile feței implicate în natura subiectivă a atractivității feței, conducând la o performanță slabă în sarcinile FAP.

‘Performanța tuturor metodelor scade semnificativ pe MEBeauty. Acest lucru se datorează faptului că mostrele de antrenament sunt limitate și fețele sunt etnic diverse în MEBeauty, ceea ce indică o diversitate mare a atractivității feței.

‘Toți acești factori fac ca predicția atractivității feței în MEBeauty să fie mai dificilă.’

Considerații etice

Cercetarea atractivității este o întreprindere potențial divizivă, deoarece prin stabilirea unor standarde empirice de frumusețe, astfel de sisteme tind să consolideze prejudecăți cu privire la vârstă, rasă și multe alte secțiuni ale cercetării viziunii computaționale legate de oameni.

Se poate argumenta că un sistem FAP este în mod inerent predispus să consolideze și să perpetueze perspective parțiale și biasate asupra atractivității. Aceste judecăți pot apărea din notele umane conduse – adesea efectuate pe scară prea mică pentru o generalizare eficientă a domeniului – sau din analiza modelelor de atenție în medii online, cum ar fi platformele de transmisie live, care sunt, în mod evident, departe de a fi meritocratice.

* Articolul se referă la domeniul sursă ne specificat atât în singular, cât și în plural.

Publicat pentru prima dată miercuri, 8 ianuarie 2025