Refresh

This website www.unite.ai/ca/estimating-facial-attractiveness-prediction-for-livestreams/ is currently offline. Cloudflare's Always Online™ shows a snapshot of this web page from the Internet Archive's Wayback Machine. To check for the live version, click Refresh.

Connecteu-vos amb nosaltres

Intel·ligència Artificial

Estimació de la predicció de l'atractiu facial per a les transferències en directe

mm
actualitzat on
Imatge de ChatGPT, amb imatge superposada del paper https://arxiv.org/pdf/2501.02509

Fins ara, la predicció de l'atractiu facial (FAP) s'ha estudiat principalment en el context de la investigació psicològica, en la indústria de la bellesa i la cosmètica i en el context de la cirurgia estètica. És un camp d'estudi desafiant, ja que els estàndards de bellesa solen ser-ho nacional més que global.

Això vol dir que no és viable cap conjunt de dades eficaç basat en IA, perquè les mitjanes mitjanes obtingudes a partir del mostreig de cares/valoracions de totes les cultures serien molt esbiaixades (on les nacions més poblades tindrien tracció addicional), en cas contrari s'aplicarien a gens de cultura (on la mitjana mitjana de diverses curses/valoracions equivaldria a cap cursa real).

En canvi, el repte és desenvolupar-se metodologies conceptuals i els fluxos de treball en què es podrien processar dades específiques de país o cultura, per permetre el desenvolupament de models FAP efectius per regió.

Els casos d'ús de la FAP en la recerca de bellesa i psicològica són força marginals, sinó específics de la indústria; per tant, la majoria dels conjunts de dades seleccionats fins ara només contenen dades limitades o no s'han publicat en absolut.

La fàcil disponibilitat de predictors d'atractiu en línia, principalment dirigits al públic occidental, no representa necessàriament l'estat de l'art en FAP, que actualment sembla dominat per la investigació de l'Àsia oriental (principalment la Xina) i els conjunts de dades corresponents de l'Àsia oriental.

Exemples de conjunt de dades del document de 2020 "Predicció de bellesa facial femenina asiàtica mitjançant xarxes neuronals profundes mitjançant aprenentatge de transferència i fusió de funcions multicanal". Font: https://www.semanticscholar.org/paper/Asian-Female-Facial-Beauty-Prediction-Using-Deep-Zhai-Huang/59776a6fb0642de5338a3dd9bac112194906bf30

Exemples de conjunt de dades del document de 2020 "Predicció de bellesa facial femenina asiàtica mitjançant xarxes neuronals profundes mitjançant aprenentatge de transferència i fusió de funcions multicanal". Source: https://www.semanticscholar.org/paper/Asian-Female-Facial-Beauty-Prediction-Using-Deep-Zhai-Huang/59776a6fb0642de5338a3dd9bac112194906bf30

Els usos comercials més amplis per a l'estimació de la bellesa inclouen aplicacions de cites en línia, i sistemes d'IA generativa dissenyats per "Retocar" imatges reals d'avatar de persones (ja que aquestes aplicacions requerien un estàndard quantificat de bellesa com a mètrica d'eficàcia).

Dibuixant cares

Les persones atractives continuen sent un actiu valuós en la publicitat i la creació d'influència, fent que els incentius financers d'aquests sectors siguin una oportunitat clara per avançar en conjunts de dades i marcs de FAP d'última generació.

Per exemple, un model d'IA entrenat amb dades del món real per avaluar i valorar la bellesa facial podria identificar esdeveniments o persones amb un alt potencial d'impacte publicitari. Aquesta capacitat seria especialment rellevant en contextos de transmissió de vídeo en directe, on les mètriques com ara "seguidors" i "M'agrada" actualment només serveixen com a implícit indicadors de la capacitat d'un individu (o fins i tot d'un tipus facial) per captivar un públic.

Aquesta és una mètrica superficial, per descomptat, i la veu, la presentació i el punt de vista també tenen un paper important en la reunió de públic. Per tant, la curació de conjunts de dades FAP requereix una supervisió humana, així com la capacitat de distingir l'atractiu facial de l'atractiu "especiós" (sense la qual, els influencers fora del domini com Alex Jones podrien acabar afectant la corba FAP mitjana d'una col·lecció dissenyada únicament). per estimar la bellesa facial).

Viu la bellesa

Per fer front a l'escassetat de conjunts de dades FAP, els investigadors de la Xina ofereixen el primer conjunt de dades FAP a gran escala, que conté 100,000 imatges facials, juntament amb 200,000 anotacions humanes que estimen la bellesa facial.

Mostres del nou conjunt de dades de LiveBeauty. Font: https://arxiv.org/pdf/2501.02509

Mostres del nou conjunt de dades de LiveBeauty. Font: https://arxiv.org/pdf/2501.02509

Intitulado Viu la bellesa, el conjunt de dades inclou 10,000 identitats diferents, totes capturades des de plataformes de transmissió en directe (no especificades) el març del 2024.

Els autors també presenten FPEM, un nou mètode FAP multimodal. FPEM integra coneixements previs facials holístics i semàntica estètica multimodal característiques mitjançant un mòdul personalitzat d'atractiu previ (PAPM), un mòdul codificador d'atractiu multimodal (MAEM) i un mòdul de fusió intermodal (CMFM).

El document afirma que FPEM aconsegueix un rendiment d'última generació en el nou conjunt de dades LiveBeauty i altres conjunts de dades FAP. Els autors assenyalen que la investigació té aplicacions potencials per millorar la qualitat del vídeo, la recomanació de contingut i el retoc facial en transmissió en directe.

Els autors també prometen que el conjunt de dades estigui disponible "aviat", tot i que s'ha de reconèixer que qualsevol restricció de llicència inherent al domini d'origen sembla probable que es transmeti a la majoria dels projectes aplicables que puguin fer ús del treball.

La nou document es titula Predicció de l'atractiu facial en la transmissió en directe: un nou mètode de referència i multimodal, i prové de deu investigadors del Grup Alibaba i de la Universitat Jiao Tong de Xangai.

Mètode i dades

A partir de cada transmissió de 10 hores des de les plataformes de transmissió en directe, els investigadors van seleccionar una imatge per hora durant les tres primeres hores. S'han seleccionat les emissions amb les pàgines vistes més altes.

Les dades recollides van ser sotmeses a diverses etapes de preprocessament. El primer d'aquests és mesura de la mida de la regió de la cara, que utilitza el 2018 basat en CPU FaceBoxes model de detecció per generar un quadre delimitador al voltant dels lineaments facials. La canalització assegura que el costat més curt del quadre delimitador superi els 90 píxels, evitant regions de cara petites o poc clares.

El segon pas és detecció de desenfocament, que s'aplica a la regió de la cara utilitzant la variància de la Operador laplacià al canal d'alçada (Y) del cultiu facial. Aquesta variància ha de ser superior a 10, cosa que ajuda a filtrar les imatges borroses.

El tercer pas és estimació de la postura de la cara, que utilitza el 2021 3DDFA-V2 model d'estimació de la postura:

Exemples del model d'estimació 3DDFA-V2. Font: https://arxiv.org/pdf/2009.09960

Exemples del model d'estimació 3DDFA-V2. Font: https://arxiv.org/pdf/2009.09960

Aquí, el flux de treball garanteix que l'angle de pas de la cara retallada no sigui superior a 20 graus i l'angle de guiñada no superior a 15 graus, cosa que exclou les cares amb posicions extremes.

El quart pas és valoració de la proporció facial, que també utilitza les capacitats de segmentació del model 3DDFA-V2, assegurant que la proporció de la regió de la cara retallada sigui superior al 60% de la imatge, excloent les imatges on la cara no és destacada. és a dir, petit en el panorama general.

Finalment, el cinquè pas és eliminació de caràcters duplicats, que utilitza un model de reconeixement facial (no atribuït) d'última generació, per als casos en què la mateixa identitat apareix en més d'una de les tres imatges recollides per a un vídeo de 10 hores.

Avaluació humana i anotació

Es van reclutar vint anotadors, formats per sis homes i 14 dones, que reflecteixen la demografia de la plataforma en directe utilitzada*. Les cares es mostraven a la pantalla de 6.7 polzades d'un iPhone 14 Pro Max, en condicions de laboratori coherents.

L'avaluació es va dividir en 200 sessions, cadascuna de les quals va utilitzar 50 imatges. Es va demanar als subjectes que puntuessin l'atractiu facial de les mostres amb una puntuació d'1-5, amb un descans de cinc minuts entre cada sessió i tots els subjectes participant en totes les sessions.

Per tant, es va avaluar la totalitat de les 10,000 imatges en vint subjectes humans, arribant a 200,000 anotacions.

Anàlisi i preprocessament

En primer lloc, es va realitzar la detecció posterior del subjecte mitjançant una relació atípica i Coeficient de correlació de rang de Spearman (SROCC). Subjectes les qualificacions dels quals tenien un SROCC inferior a 0.75 o un més anormal ràtio superior al 2% es va considerar poc fiable i es van eliminar, amb 20 subjectes finalment obtinguts.

A continuació, es va calcular una puntuació mitjana d'opinió (MOS) per a cada imatge de cara, fent la mitjana de les puntuacions obtingudes pels subjectes vàlids. El MOS serveix com a veritat terrestre etiqueta d'atractiu per a cada imatge, i la puntuació es calcula fent la mitjana de totes les puntuacions individuals de cada assignatura vàlida.

Finalment, l'anàlisi de les distribucions MOS per a totes les mostres, així com per a mostres femenines i masculines, va indicar que presentaven un Forma d'estil gaussià, que és coherent amb les distribucions de l'atractiu facial del món real:

Exemples de distribucions LiveBeauty MOS.

Exemples de distribucions LiveBeauty MOS.

La majoria dels individus tendeixen a tenir un atractiu facial mitjà, amb menys individus als extrems d'atractiu molt baix o molt alt.

A més, anàlisi de asimetria i curtosi els valors van mostrar que les distribucions es caracteritzaven per cues primes i es concentraven al voltant de la puntuació mitjana, i això l'alt atractiu era més freqüent entre les mostres femenines als vídeos en directe recopilats.

arquitectura

Es va utilitzar una estratègia d'entrenament en dues etapes per al model multimodal millorat de Facial Prior (FPEM) i la fase de fusió híbrida a LiveBeauty, dividida en quatre mòduls: un mòdul anterior d'atractiu personalitzat (PAPM), un mòdul codificador d'atractiu multimodal ( MAEM), un mòdul de fusió multimodal (CMFM) i un mòdul de fusió de decisions (DFM).

Esquema conceptual per a la canalització de formació de LiveBeauty.

Esquema conceptual per a la canalització de formació de LiveBeauty.

El mòdul PAPM pren una imatge com a entrada i extreu característiques visuals multiescala mitjançant a Swin Transformer, i també extreu característiques facials amb un preentrenat FaceNet model. A continuació, aquestes característiques es combinen mitjançant a atenció creuada bloc per crear una funció d'"atractiu" personalitzada.

També en la Fase de Formació Preliminar, el MAEM utilitza una imatge i descripcions de text d'atractiu, aprofitant CLIP per extreure característiques semàntiques estètiques multimodals.

Les descripcions de text amb plantilla tenen la forma de "una foto d'una persona amb {a} atractiu" (on {té} pot ser dolent, poor, fira, bo or perfecte). El procés estima el semblança del cosinus entre incrustacions textuals i visuals per arribar a una probabilitat de nivell d'atractiu.

En la fase de fusió híbrida, el CMFM perfecciona les incrustacions textuals mitjançant la característica d'atractiu personalitzat generada pel PAPM, generant així incrustacions textuals personalitzades. A continuació, utilitza a regressió de semblança estratègia per fer una predicció.

Finalment, el DFM combina les prediccions individuals del PAPM, MAEM i CMFM per produir una única puntuació final d'atractiu, amb l'objectiu d'aconseguir un consens sòlid.

Funcions de pèrdua

per mètriques de pèrdua, el PAPM s'entrena mitjançant un Pèrdua L1, una mesura de la diferència absoluta entre la puntuació d'atractiu previst i la puntuació d'atractiu real (veritat bàsica).

El mòdul MAEM utilitza una funció de pèrdua més complexa que combina una pèrdua de puntuació (LS) amb una pèrdua de classificació combinada (LR). La pèrdua de classificació (LR) inclou una pèrdua de fidelitat (LR1) i a pèrdua de classificació en dues direccions (LR2).

LR1 compara l'atractiu relatiu dels parells d'imatges, mentre que LR2 assegura que la distribució de probabilitat prevista dels nivells d'atractiu té un únic pic i disminueix en ambdues direccions. Aquest enfocament combinat pretén optimitzar tant la puntuació precisa com la classificació correcta de les imatges en funció de l'atractiu.

El CMFM i el DFM s'entrenen mitjançant una pèrdua simple de L1.

Proves

A les proves, els investigadors van enfrontar LiveBeauty amb nou enfocaments anteriors: ComboNet; 2D-FAP; REX-INCEP; CNN-ER (presentat a REX-INCEP); MEBbellesa; AVA-MLSP; TANet; Dele-Trans, I COME.

Mètodes de referència d'acord amb an Valoració estètica de la imatge (IAA) també es va provar. Aquests eren ViT-B; ResNeXt-50, I Inici-V3.

A més de LiveBeauty, els altres conjunts de dades provats eren SCUT-FBP5000 i MEBeauty. A continuació, es comparen les distribucions MOS d'aquests conjunts de dades:

Distribucions MOS dels conjunts de dades de referència.

Distribucions MOS dels conjunts de dades de referència.

Respectivament, aquests conjunts de dades de convidats eren dividit 60%-40% i 80%-20% per a la formació i les proves, per separat, per mantenir la coherència amb els seus protocols originals. LiveBeauty es va dividir entre un 90% i un 10%.

Per a la inicialització del model a MAEM, es van utilitzar VT-B/16 i GPT-2 com a codificadors d'imatge i text, respectivament, inicialitzats mitjançant la configuració de CLIP. Per a PAPM, Swin-T es va utilitzar com a codificador d'imatge entrenable, d'acord amb SwinFace.

La Adam W es va utilitzar l'optimitzador i a taxa d'aprenentatge planificador posat amb escalfament lineal sota un recuit de cosinus esquema. Les taxes d'aprenentatge variaven entre les fases de formació, però cadascuna tenia a Mida del lot de 32, per 50 èpoques.

Resultats de les proves

Resultats de les proves

Els resultats de les proves dels tres conjunts de dades FAP es mostren més amunt. D'aquests resultats, el document diu:

"El nostre mètode proposat aconsegueix el primer lloc i supera el segon lloc en uns 0.012, 0.081, 0.021 en termes de valors SROCC a LiveBeauty, MEBeauty i SCUT-FBP5500 respectivament, cosa que demostra la superioritat del nostre mètode proposat.

"[Els] mètodes IAA són inferiors als mètodes FAP, cosa que manifesta que els mètodes genèrics d'avaluació estètica passen per alt els trets facials implicats en la naturalesa subjectiva de l'atractiu facial, donant lloc a un baix rendiment en les tasques FAP.

"[El] rendiment de tots els mètodes cau significativament a MEBeauty. Això es deu al fet que les mostres d'entrenament són limitades i les cares són ètnicament diverses a MEBeauty, cosa que indica que hi ha una gran diversitat en l'atractiu facial.

"Tots aquests factors fan que la predicció de l'atractiu facial a MEBeauty sigui més difícil".

Consideracions ètiques

La investigació sobre l'atractiu és una recerca potencialment divisiva, ja que en establir estàndards suposadament empírics de bellesa, aquests sistemes tendiran a reforçar els biaixos al voltant de l'edat, la raça i moltes altres seccions de la investigació de la visió per computador en relació amb els humans.

Es podria argumentar que un sistema FAP és inherent predisposat per reforçar i perpetuar perspectives parcials i esbiaixades sobre l'atractiu. Aquests judicis poden sorgir d'anotacions dirigides per humans, sovint realitzades a escales massa limitades per a una generalització efectiva del domini, o de l'anàlisi dels patrons d'atenció en entorns en línia com les plataformes de streaming, que, sens dubte, estan lluny de ser meritocràtiques.

 

* El document fa referència als dominis font sense nom tant en singular com en plural.

Publicat per primera vegada el dimecres 8 de gener de 2025

Escriptor d'aprenentatge automàtic, especialista en dominis en síntesi d'imatges humanes. Antic cap de continguts de recerca de Metaphysic.ai.
Lloc personal: martinanderson.ai
Poseu-vos en contacte amb: [protegit per correu electrònic]
Twitter: @manders_ai