Kunstig intelligens
Estimering av ansiktsattraktivitet for direktesendinger

Til dags dato har Facial Attractiveness Prediction (FAP) hovedsakelig blitt studert i sammenheng med psykologisk forskning, i skjønnhets- og kosmetikkbransjen og i sammenheng med kosmetisk kirurgi. Dette er et utfordrende studiefelt, siden skjønnhetsstandarder tenderer til å være nasjonale snarere enn globale.
Dette betyr at ingen enkelt effektiv AI-basert datasett er gjennomførbar, fordi gjennomsnittsverdiene som er hentet fra prøver av ansikter/vurderinger fra alle kulturer ville være svært forvrengt (der mer folkerike nasjoner ville få ekstra trakkraft), eller gjelder for ingen kultur i det hele tatt (der gjennomsnittsverdiene av flere raser/vurderinger ville være lik null).
I stedet er utfordringen å utvikle konseptuelle metoder og arbeidsflyter som land- eller kulturspesifikke data kan prosesseres i, for å muliggjøre utviklingen av effektive per-region FAP-modeller.
Bruksområdene for FAP i skjønnhets- og psykologisk forskning er ganske marginale, eller industripsesifikke; derfor inneholder de fleste datasettene som er kuratert til dags dato bare begrenset data, eller har ikke blitt publisert i det hele tatt.
Den lette tilgjengeligheten av online attraktivitetsprediktorer, som hovedsakelig er rettet mot vestlige publikum, representerer ikke nødvendigvis den siste utviklingen i FAP, som ser ut til å være dominert av østasiatisk forskning (primært Kina), og tilhørende østasiatiske datasett.

Dataseteksempler fra 2020-papiret ‘Asian Female Facial Beauty Prediction Using Deep Neural Networks via Transfer Learning and Multi-Channel Feature Fusion’. Kilde: https://www.semanticscholar.org/paper/Asian-Female-Facial-Beauty-Prediction-Using-Deep-Zhai-Huang/59776a6fb0642de5338a3dd9bac112194906bf30
Brede kommersielle bruksområder for skjønnhetsvurdering inkluderer nettverksapplikasjoner og generative AI-systemer som er designet for å ‘retusjere’ virkelige avatarbilder av mennesker (siden slike applikasjoner krever en kvantifisert skjønnhetsstandard som en målestokk for effektivitet).
Tegning av ansikter
Attraktive individer er fortsatt en verdifull ressurs i reklame og påvirkningsbygging, og det finansielle incitamentet i disse sektorene er en tydelig mulighet for å fremme state-of-the-art FAP-datasett og -rammeverk.
For eksempel kunne en AI-modell som er trent med virkelige data for å vurdere og rangere ansiktskjønnhet potensielt identifisere hendelser eller individer med høy potensial for reklamevirkning. Denne evnen ville være spesielt relevant i live videostrømmingskontekster, der målinger som ‘følgere’ og ‘likes’ for tiden bare tjener som implisitte indikatorer for en persons (eller selv en ansiktstyps) evne til å fange en publikums oppmerksomhet.
Dette er en overflatisk målestokk, og stemme, presentasjon og synspunkt spiller også en betydelig rolle i å samle en publikum. Derfor krever kurasjon av FAP-datasett menneskelig tilsyn, samt evnen til å skille ansiktsfra ‘spekios’ attraktivitet (uten hvilket, utenom-domene påvirkere som Alex Jones kunne endte med å påvirke den gjennomsnittlige FAP-kurven for en samling som er designet bare for å estimere ansiktskjønnhet).
LiveBeauty
For å møte mangelen på FAP-datasett, tilbyr forskere fra Kina det første store FAP-datasettet, som inneholder 100 000 ansiktsbilder, sammen med 200 000 menneskelige annotasjoner som estimerer ansiktskjønnhet.

Eksempler fra det nye LiveBeauty-datasettet. Kilde: https://arxiv.org/pdf/2501.02509
Kalt LiveBeauty, inneholder datasettet 10 000 forskjellige identiteter, som alle er fanget fra (uspesifiserte) live-strømmingsplattformer i mars 2024.
Forfatterne presenterer også FPEM, en ny multi-modal FAP-metode. FPEM integrerer holistisk ansiktsfor-kunnskap og multi-modal estetisk semantisk funksjoner via en Personalized Attractiveness Prior Module (PAPM), en Multi-modal Attractiveness Encoder Module (MAEM) og en Cross-Modal Fusion Module (CMFM).
Papiret hevder at FPEM oppnår state-of-the-art-ytelse på det nye LiveBeauty-datasettet og andre FAP-datasett. Forfatterne merker at forskningen har potensielle bruksområder for å forbedre video-kvalitet, innhold-anbefaling og ansiktsretusjering i live-strømming.
Forfatterne lover også å gjøre datasettet tilgjengelig ‘snart’ – selv om det må innrømmes at eventuelle lisensbegrensninger i kilde-domenet synes å ville overføres til de fleste prosjekter som kan bruke arbeidet.
Det nye papiret heter Facial Attractiveness Prediction in Live Streaming: A New Benchmark and Multi-modal Method, og kommer fra ti forskere over Alibaba Group og Shanghai Jiao Tong University.
Metode og data
Fra hver 10-timers sending fra live-strømmingsplattformene, samlet forskerne inn ett bilde per time for de første tre timene. Sendinger med de høyeste sidevisningene ble valgt.
De samlede dataene ble deretter underlagt flere forbehandlingsfaser. Den første av disse er ansiktsregion-størrelsesmåling, som bruker 2018 CPU-basert FaceBoxes-deteksjonsmodell til å generere en avgrensningsboks rundt ansiktslinjementene. Pipelinen sikrer at avgrensningsboksens kortere side overstiger 90 piksler, og unngår små eller uklare ansiktsregioner.
Den andre fasen er uskarphetsdeteksjon, som brukes på ansiktsregionen ved å bruke variansen av Laplacian-operatoren i høyde (Y)-kanalen av ansiktets avkorting. Denne variansen må være større enn 10, hvilket hjelper til å filtrere ut uskarpe bilder.
Den tredje fasen er ansiktsposisjonsestimering, som bruker 2021 3DDFA-V2-posestimeringsmodellen:

Eksempler fra 3DDFA-V2-estimeringsmodellen. Kilde: https://arxiv.org/pdf/2009.09960
Her sikrer arbeidsflyten at pitch-vinkelen til avkortet ansikt ikke er større enn 20 grader, og yaw-vinkelen ikke er større enn 15 grader, hvilket ekskluderer ansikter med ekstreme posisjoner.
Den fjerde fasen er ansiktsproporsjonsvurdering, som også bruker segmenteringsfunksjonene til 3DDFA-V2-modellen, og sikrer at avkortet ansiktsregionproporsjon er større enn 60 % av bildet, og ekskluderer bilder der ansiktet ikke er fremtredende. dvs. små i hele bildet.
Til slutt er den femte fasen duplikat-figur-fjerning, som bruker en (uattribert) state-of-the-art ansiktsgjenkjenningmodell, for tilfeller der samme identitet opptrer i mer enn ett av de tre bildene som er samlet inn for en 10-timers video.
Menneskelig vurdering og annotering
Tjue annotatorer ble rekruttert, bestående av seks menn og 14 kvinner, som reflekterer demografien til live-plattformen som ble brukt*. Ansikter ble vist på 6,7-tommers skjermen på en iPhone 14 Pro Max, under konsistente laboratorieforhold.
Vurderingen ble delt over 200 sesjoner, hver av dem brukte 50 bilder. Fagpersoner ble bedt om å vurdere ansiktsattraktiviteten til prøvene på en skala fra 1 til 5, med en fem-minutters pause påtvunget mellom hver sesjon, og alle fagpersoner deltok i alle sesjoner.
Derfor ble hele de 10 000 bildene vurdert over tjue menneskelige fagpersoner, og resulterte i 200 000 annotasjoner.
Analyse og forbehandling
Først ble fagperson-post-skjerming utført ved hjelp av outlier-forhold og Spearman’s Rank Correlation Coefficient (SROCC). Fagpersoner hvis vurderinger hadde en SROCC på mindre enn 0,75 eller en outlier-forhold på mer enn 2 % ble ansett som ugyldige og ble fjernet, med 20 fagpersoner til slutt.
En gjennomsnittlig vurderingsscore (MOS) ble deretter beregnet for hvert ansiktsbilde, ved å gjennomsnittle scorene som ble oppnådd av de gyldige fagpersonene. MOS tjener som den grunn-sannhet-attraktivitetsmerke for hvert bilde, og scoren blir beregnet ved å gjennomsnittle alle de enkelte scorene fra hver gyldig fagperson.
Til slutt, analysen av MOS-fordelingene for alle prøver, samt for kvinnelige og mannlige prøver, indikerte at de viste en Gaussian-stil, som er konsistent med virkelige ansiktsattraktivitetsfordelinger:

Eksempler på LiveBeauty MOS-fordelinger.
De fleste individer tenderer til å ha gjennomsnittlig ansiktsattraktivitet, med færre individer på ytterpunktene av svært lav eller svært høy attraktivitet.
Videre, analysen av skjevhet og kurtose-verdier viste at fordelingene var karakterisert av tynne haler og konsentrert rundt gjennomsnittsscoren, og at høy attraktivitet var mer utbredt blant de kvinnelige prøvene i de samlede live-strømmingsvideoene.
Arkitektur
En to-trinns treningsstrategi ble brukt for Facial Prior Enhanced Multi-modal-modellen (FPEM) og Hybrid Fusion-fasen i LiveBeauty, delt over fire moduler: en Personalized Attractiveness Prior Module (PAPM), en Multi-modal Attractiveness Encoder Module (MAEM), en Cross-Modal Fusion Module (CMFM) og en Decision Fusion Module (DFM).

Konseptuell skjema for LiveBeauty-treningspipeline.
PAPM-modulen tar et bilde som inndata og trekker ut multi-skala visuelle funksjoner ved hjelp av en Swin Transformer, og trekker også ut ansiktsbevisste funksjoner ved hjelp av en forhånds-trent FaceNet-modell. Disse funksjonene kombineres deretter ved hjelp av en kryss-oppmerksomhets-blokk for å skape en personlig ‘attraktivitets’-funksjon.
Også i den foreløpige treningsfasen, bruker MAEM et bilde og tekstbeskrivelser av attraktivitet, og utnytter CLIP til å trekke ut multi-modale estetiske semantiske funksjoner.
Tekstbeskrivelsene er i formen ‘et bilde av en person med {a} attraktivitet’ (der {a} kan være dårlig, svak, rettferdig, god eller perfekt). Prosessen estimerer kosin-ligningen mellom tekstlige og visuelle innlegg for å nå en attraktivitetsnivå-sannsynlighet.
I Hybrid Fusion-fasen, refinerer CMFM tekstlige innlegg ved hjelp av den personlige attraktivitetsfunksjonen som er generert av PAPM, og genererer deretter personlige tekstlige innlegg. Den bruker deretter en ligningsregresjon-strategi for å gjøre en prediksjon.
Til slutt kombinerer DFM de enkelte prediksjonene fra PAPM, MAEM og CMFM for å produsere en enkelt, sluttfaktor for attraktivitet, med målet om å oppnå en solid konsensus.
Tapsfunksjoner
For taps-mål, blir PAPM trent ved hjelp av en L1-tap, en målestokk for den absolutte forskjellen mellom den predikerte attraktivitets-scoren og den faktiske (grunn-sannhet)-attraktivitets-scoren.
MAEM-modulen bruker en mer komplisert taps-funksjon som kombinerer en scoring-tap (LS) med en sammenslått rangering-tap (LR). Rangering-tapen (LR) består av en trofasthet-tap (LR1) og en to-retning-rangering-tap (LR2).
LR1 sammenligner den relative attraktiviteten til bilde-par, mens LR2 sikrer at den predikerte sannsynlighetsfordelingen av attraktivitetsnivåer har en enkelt topp og avtar i begge retninger. Denne kombinasjonen sikrer både nøyaktig scoring og korrekt rangering av bilder basert på attraktivitet.
CMFM og DFM blir trent ved hjelp av en enkel L1-tap.
Tester
I tester, satte forskerne LiveBeauty mot ni tidligere tilnærminger: ComboNet; 2D-FAP; REX-INCEP; CNN-ER (presentert i REX-INCEP); MEBeauty; AVA-MLSP; TANet; Dele-Trans; og EAT.
Basismetoder som samsvarer med en Image Aesthetic Assessment (IAA)-protokoll, ble også testet. Disse var ViT-B; ResNeXt-50; og Inception-V3.
Foruten LiveBeauty, var de andre datasettene som ble testet SCUT-FBP5000 og MEBeauty. Under, blir MOS-fordelingene til disse datasettene sammenlignet:

MOS-fordelinger for benchmark-datasettene.
Respektivt, ble disse gjest-datasettene delt 60%-40% og 80%-20% for trening og testing, separat, for å opprettholde konsistens med deres opprinnelige protokoller. LiveBeauty ble delt på en 90%-10%-basis.
For modell-initialisering i MAEM, ble VT-B/16 og GPT-2 brukt som bilde- og tekst-encodere, henholdsvis, initialisert av innstillinger fra CLIP. For PAPM, ble Swin-T brukt som en trening-baar bilde-encoder, i samsvar med SwinFace.
AdamW-optimalisatoren ble brukt, og en læringshastighets-planlegger ble satt med lineær oppvarming under en kosin-avtak-skjema. Læringshastigheter varierte over treningsfasene, men hver hadde en batch-størrelse på 32, for 50 epoker.

Resultater fra tester
Resultatene fra tester på de tre FAP-datasettene vises ovenfor. Av disse resultatene, sier papiret:
‘Vår foreslåtte metode oppnår førsteplassen og overgår andreplassen med omtrent 0,012, 0,081, 0,021 i forhold til SROCC-verdier på LiveBeauty, MEBeauty og SCUT-FBP5500, hvilket demonstrerer overlegenheten til vår foreslåtte metode.
‘[De] IAA-metodene er underlegne FAP-metodene, hvilket viser at de generiske estetiske vurderingsmetodene overseer ansiktsfunksjonene som er involvert i den subjektive naturen til ansiktsattraktivitet, og fører til dårlig ytelse på FAP-oppdrag.
‘[Ytelsen] til alle metoder synker betydelig på MEBeauty. Dette skyldes at treningsprøvene er begrenset og ansiktene er etnisk mangfoldige i MEBeauty, hvilket indikerer at det er en stor mangfoldighet i ansiktsattraktivitet.
‘Alle disse faktorene gjør prediksjonen av ansiktsattraktivitet i MEBeauty mer utfordrende.’
Etiske overveielser
Forskning i attraktivitet er et potensielt splittende foretak, siden ved å etablere såkalte empiriske skjønnhetsstandarder, slike systemer vil tendere til å forsterke fordommer rundt alder, rase og mange andre seksjoner av datavisjonsforskning som det gjelder mennesker.
Det kan argumenteres for at et FAP-system er innebygget forutbestemt til å forsterke og videreføre partielle og forvrengte perspektiver på attraktivitet. Disse vurderingene kan oppstå fra menneske-ledede annotasjoner – ofte utført på skalaer som er for små for effektiv domene-generering – eller fra å analysere oppmerksomhetsmønster i nett-miljøer som strømmingsplattformer, som langt ifra er meritokratiske.
* Papiret henviser til den ubestemte kilde-domenet både i entall og flertall.
Først publisert onsdag, 8. januar 2025












