Kunstmatige intelligentie

Schatting van gezichts schoonheid voor livestreams

Published January 8, 2025

Updated April 26, 2026

Martin Anderson

Image by ChatGPT, with superimposed image from the paper https://arxiv.org/pdf/2501.02509

Tot nu toe is Facial Attractiveness Prediction (FAP) voornamelijk bestudeerd in de context van psychologisch onderzoek, in de schoonheids- en cosmetica-industrie en in de context van cosmetische chirurgie. Het is een moeilijk onderzoeksgebied, omdat schoonheidsnormen de neiging hebben nationaal in plaats van mondiaal te zijn.

Dit betekent dat geen enkele effectieve AI-gebaseerde dataset bruikbaar is, omdat de gemiddelde waarden die worden verkregen door het bemonsteren van gezichten/beoordelingen van alle culturen zeer bevooroordeeld zouden zijn (waar meer bevolkte landen extra tractie zouden krijgen), of anderszins van toepassing zouden zijn op geen enkele cultuur (waar het gemiddelde van meerdere rassen/beoordelingen zou neerkomen op geen enkel echt ras).

In plaats daarvan is de uitdaging om conceptuele methodologieën en workflows te ontwikkelen waarin land- of cultuurspecifieke gegevens kunnen worden verwerkt, om de ontwikkeling van effectieve per-regio FAP-modellen mogelijk te maken.

De use cases voor FAP in de schoonheids- en psychologische onderzoek zijn vrij marginaal, of anderszins branche-specifiek; daarom bevatten de meeste tot nu toe gecreëerde datasets alleen beperkte gegevens, of zijn ze helemaal niet gepubliceerd.

De gemakkelijke beschikbaarheid van online aantrekkelijkheidspredictors, meestal gericht op westerse publiek, vertegenwoordigen niet noodzakelijkerwijs de stand van de techniek in FAP, die momenteel lijkt te worden gedomineerd door Oost-Aziatisch onderzoek (voornamelijk China), en overeenkomstige Oost-Aziatische datasets.

Datasetvoorbeelden uit het paper van 2020 ‘Asian Female Facial Beauty Prediction Using Deep Neural Networks via Transfer Learning and Multi-Channel Feature Fusion’. Bron: https://www.semanticscholar.org/paper/Asian-Female-Facial-Beauty-Prediction-Using-Deep-Zhai-Huang/59776a6fb0642de5338a3dd9bac112194906bf30

Breder commerciële toepassingen voor schoonheidschatting omvatten online dating apps en generatieve AI-systemen die zijn ontworpen om ‘op te maken’ realistische avatarbeelden van mensen (aangezien dergelijke toepassingen een gekwantificeerde schoonheidsstandaard nodig hebben als een metric voor effectiviteit).

Tekenen van gezichten

Aantrekkelijke individuen blijven een waardevolle asset in reclame en invloed, waardoor de financiële stimulansen in deze sectoren een duidelijke kans bieden voor het verbeteren van de staat van de techniek FAP-datasets en -frameworks.

Bijvoorbeeld kan een AI-model dat is getraind met real-world data om de faciale schoonheid te beoordelen en te beoordelen, potentieel gebeurtenissen of individuen identificeren met een hoog potentieel voor reclame-impact. Deze mogelijkheid zou vooral relevant zijn in live video-streamingcontexten, waar metrics zoals ‘volgers’ en ‘likes’ momenteel alleen dienen als impliciete indicatoren van een individu’s (of zelfs een gezichtstype) vermogen om een publiek te boeien.

Dit is een oppervlakkige metric, natuurlijk, en stem, presentatie en gezichtspunt spelen ook een significante rol in het verzamelen van een publiek. Daarom vereist de curatie van FAP-datasets menselijke toezicht, evenals het vermogen om onderscheid te maken tussen faciale en ‘specieuze’ aantrekkelijkheid (zonder welke, out-of-domain influencers zoals Alex Jones zou kunnen eindigen met het beïnvloeden van de gemiddelde FAP-curve voor een collectie die specifiek is ontworpen om de faciale schoonheid te schatten).

LiveBeauty

Om de tekortkoming van FAP-datasets aan te pakken, bieden onderzoekers uit China de eerste grote FAP-dataset, met 100.000 gezichtsbeelden, samen met 200.000 menselijke annotaties die de faciale schoonheid schatten.

Voorbeelden uit de nieuwe LiveBeauty-dataset. Bron: https://arxiv.org/pdf/2501.02509

Genoemd LiveBeauty, bevat de dataset 10.000 verschillende identiteiten, allemaal vastgelegd van (niet gespecificeerde) live streaming-platforms in maart 2024.

De auteurs presenteren ook FPEM, een novale multi-modale FAP-methode. FPEM integreert holistische faciale prior kennis en multi-modale aesthetische semantische functies via een Personalized Attractiveness Prior Module (PAPM), een Multi-modal Attractiveness Encoder Module (MAEM) en een Cross-Modal Fusion Module (CMFM).

Het paper beweert dat FPEM state-of-the-art prestaties bereikt op de nieuwe LiveBeauty-dataset en andere FAP-datasets. De auteurs merken op dat het onderzoek potentieel toepassingen heeft voor het verbeteren van video-kwaliteit, content-aanbeveling en faciale retouche in live streaming.

De auteurs beloven ook om de dataset beschikbaar te maken ‘spoedig’ – hoewel het moet worden toegegeven dat eventuele licentiebeperkingen die inherent zijn aan de bron domein waarschijnlijk zullen worden doorgegeven aan de meerderheid van toepasselijke projecten die gebruik zouden kunnen maken van het werk.

Het nieuwe paper heeft de titel Facial Attractiveness Prediction in Live Streaming: A New Benchmark and Multi-modal Method en komt van tien onderzoekers uit de Alibaba Group en Shanghai Jiao Tong University.

Methode en gegevens

Van elk 10-uur uitgezonden programma van de live streaming-platforms, verzamelden de onderzoekers één beeld per uur voor de eerste drie uur. Uitzendingen met de hoogste paginaweergaven werden geselecteerd.

De verzamelde gegevens werden vervolgens onderworpen aan verschillende voorverwerkingsstappen. De eerste van deze is gezichtsregio grootte meting, die de 2018 CPU-gebaseerde FaceBoxes detectiemodel gebruikt om een bounding box rond de faciale lijnen te genereren. De pipeline zorgt ervoor dat de kortere zijde van de bounding box meer dan 90 pixels overschrijdt, waardoor kleine of onduidelijke gezichtsregio’s worden vermeden.

De tweede stap is blur detectie, die wordt toegepast op de gezichtsregio door het gebruik van de variantie van de Laplacian operator in het hoogte (Y) kanaal van de faciale crop. Deze variantie moet groter zijn dan 10, wat helpt om vage beelden te filteren.

De derde stap is gezichtshouding schatting, die het 2021 3DDFA-V2 houdingsschatmodel gebruikt:

Voorbeelden uit het 3DDFA-V2 schatmodel. Bron: https://arxiv.org/pdf/2009.09960

Hier zorgt de workflow ervoor dat de pitchhoek van het gesneden gezicht niet groter is dan 20 graden, en de yawhoek niet groter is dan 15 graden, waardoor gezichten met extreme houdingen worden uitgesloten.

De vierde stap is gezichtsproportie beoordeling, die ook de segmentatiecapaciteiten van het 3DDFA-V2 model gebruikt, waardoor de gesneden gezichtsregio proportie groter is dan 60% van het beeld, waardoor beelden waarin het gezicht niet prominent aanwezig is, worden uitgesloten. d.w.z. klein in de totale afbeelding.

Ten slotte is de vijfde stap duplicate karakter verwijdering, die een (niet toegeschreven) state-of-the-art gezichtsherkenningmodel gebruikt, voor gevallen waarin dezelfde identiteit in meer dan één van de drie beelden voorkomt die zijn verzameld voor een 10-uur video.

Menselijke evaluatie en annotatie

Twintig annotators werden gerekruteerd, bestaande uit zes mannen en 14 vrouwen, die de demografie van het live-platform weerspiegelen*.

Gezichten werden weergegeven op het 6,7-inch scherm van een iPhone 14 Pro Max, onder consistente laboratoriumomstandigheden.

De evaluatie werd gesplitst over 200 sessies, elk met 50 beelden. Onderwerpen werden gevraagd om de faciale aantrekkelijkheid van de monsters te beoordelen op een score van 1-5, met een vijfminuten pauze tussen elke sessie, en alle onderwerpen namen deel aan alle sessies.

Daarom werden alle 10.000 beelden geëvalueerd door twintig menselijke onderwerpen, wat resulteerde in 200.000 annotaties.

Analyse en voorverwerking

Eerst werd subject post-screening uitgevoerd met behulp van outlier ratio en Spearman’s Rank Correlation Coefficient (SROCC). Onderwerpen wiens beoordelingen een SROCC hadden van minder dan 0,75 of een outlier ratio van meer dan 2% werden als onbetrouwbaar beschouwd en verwijderd, met 20 onderwerpen die uiteindelijk werden verkregen..

Een Mean Opinion Score (MOS) werd vervolgens berekend voor elk gezichtsbeeld, door het gemiddelde van de scores te berekenen die werden verkregen door de geldige onderwerpen. De MOS dient als de ground truth aantrekkelijkheid label voor elk beeld, en de score wordt berekend door het gemiddelde van alle individuele scores van elk geldig onderwerp te berekenen.

Ten slotte toonde de analyse van de MOS-verdelingen voor alle monsters, evenals voor vrouwelijke en mannelijke monsters, aan dat ze een Gaussian-style vorm vertoonden, wat consistent is met reële faciale aantrekkelijkheidsverdelingen:

Voorbeelden van LiveBeauty MOS-verdelingen.

De meeste individuen hebben gemiddelde faciale aantrekkelijkheid, met minder individuen aan de extremen van zeer lage of zeer hoge aantrekkelijkheid.

Verder toonde de analyse van scheefheid en kurtosis waarden aan dat de verdelingen werden gekenmerkt door dunne staarten en geconcentreerd rond de gemiddelde score, en dat hoge aantrekkelijkheid vaker voorkwam onder de vrouwelijke monsters in de verzamelde live streaming-video’s.

Architectuur

Een tweefasen trainingsstrategie werd gebruikt voor de Facial Prior Enhanced Multi-modal (FPEM) en de Hybrid Fusion Phase in LiveBeauty, gesplitst over vier modules: een Personalized Attractiveness Prior Module (PAPM), een Multi-modal Attractiveness Encoder Module (MAEM), een Cross-Modal Fusion Module (CMFM) en de een Decision Fusion Module (DFM).

Conceptueel schema voor LiveBeauty’s trainingspijplijn.

De PAPM-module neemt een beeld als invoer en extracteert multi-schaal visuele functies met behulp van een Swin Transformer, en extracteert ook face-aware functies met behulp van een pregetraind FaceNet model. Deze functies worden vervolgens gecombineerd met behulp van een cross-attention block om een persoonlijke ‘aantrekkelijkheid’ functie te creëren.

Ook in de Preliminary Training Phase, gebruikt MAEM een beeld en tekstbeschrijvingen van aantrekkelijkheid, met behulp van CLIP om multi-modale aesthetische semantische functies te extraheren.

De geëtiketteerde tekstbeschrijvingen zijn in de vorm van ‘een foto van een persoon met {a} aantrekkelijkheid’ (waar {a} kan zijn slecht, arm, redelijk, goed of perfect). Het proces schat de cosine gelijkenis tussen tekstuele en visuele embeddings om een aantrekkelijkheidsniveau waarschijnlijkheid te bereiken.

In de Hybrid Fusion Phase, verfijnt de CMFM de tekstuele embeddings met behulp van de persoonlijke aantrekkelijkheid functie gegenereerd door de PAPM, waardoor persoonlijke tekstuele embeddings worden gegenereerd. Het gebruikt vervolgens een gelijkenis regressie strategie om een voorspelling te doen.

Ten slotte combineert de DFM de individuele voorspellingen van de PAPM, MAEM en CMFM om een enkele, definitieve aantrekkelijkheidsscore te produceren, met als doel een stevige consensus te bereiken

Verliesfuncties

Voor verliesmetrics, wordt de PAPM getraind met behulp van een L1 verlies, een maat voor het absolute verschil tussen de voorspelde aantrekkelijkheidsscore en de werkelijke (ground truth) aantrekkelijkheidsscore.

De MAEM-module gebruikt een complexere verliesfunctie die een scoreverlies (LS) combineert met een gefuseerde rangschikking verlies (LR). Het rangschikking verlies (LR) bestaat uit een geloofwaardigheidsverlies (LR1) en een twee-richtings rangschikking verlies (LR2).

LR1 vergelijkt de relatieve aantrekkelijkheid van beeldparen, terwijl LR2 ervoor zorgt dat de voorspelde waarschijnlijkheidsverdeling van aantrekkelijkheidsniveaus een enkele piek heeft en afneemt in beide richtingen. Deze gecombineerde benadering heeft als doel zowel de nauwkeurige score als de correcte rangschikking van beelden op basis van aantrekkelijkheid te optimaliseren.

De CMFM en de DFM worden getraind met behulp van een eenvoudig L1 verlies.

Tests

In tests, zetten de onderzoekers LiveBeauty tegenover negen eerdere benaderingen: ComboNet; 2D-FAP; REX-INCEP; CNN-ER (gepresenteerd in REX-INCEP); MEBeauty; AVA-MLSP; TANet; Dele-Trans; en EAT.

Baseline methoden die voldoen aan een Image Aesthetic Assessment (IAA) protocol werden ook getest. Deze waren ViT-B; ResNeXt-50; en Inception-V3.

Naast LiveBeauty, werden de andere datasets getest SCUT-FBP5000 en MEBeauty. Hieronder worden de MOS-verdelingen van deze datasets vergeleken:

MOS-verdelingen van de benchmark datasets.

Respectievelijk werden deze gastdatasets gesplitst 60%-40% en 80%-20% voor training en testen, afzonderlijk, om consistentie met hun oorspronkelijke protocollen te behouden. LiveBeauty werd gesplitst op een 90%-10% basis.

Voor modelinitialisatie in MAEM, werden VT-B/16 en GPT-2 gebruikt als de beeld- en tekstencoders, respectievelijk, geïnitialiseerd door instellingen van CLIP. Voor PAPM, werd Swin-T gebruikt als een trainable beeldencoder, in overeenstemming met SwinFace.

De AdamW optimizer werd gebruikt, en een leerrijpscheduler werd ingesteld met lineaire opwarming onder een cosine annealing schema. Leerrijpen verschilden over de trainingsfasen, maar elk had een batchgrootte van 32, voor 50 epochs.

Resultaten van tests

Resultaten van tests op de drie FAP-datasets worden hierboven weergegeven. Van deze resultaten, zegt het paper:

‘Onze voorgestelde methode bereikt de eerste plaats en overtreft de tweede plaats met ongeveer 0,012, 0,081, 0,021 in termen van SROCC-waarden op LiveBeauty, MEBeauty en SCUT-FBP5500 respectievelijk, wat de superioriteit van onze voorgestelde methode aantoont.

‘[De] IAA-methoden zijn inferieur aan de FAP-methoden, wat aantoont dat de generieke aesthetische beoordelingsmethoden de faciale kenmerken die betrokken zijn bij de subjectieve aard van faciale aantrekkelijkheid, negeren, wat leidt tot slechte prestaties op FAP-taken.

‘[De] prestaties van alle methoden dalen aanzienlijk op MEBeauty. Dit komt omdat de trainingsmonsters beperkt zijn en de gezichten etnisch divers zijn in MEBeauty, wat aangeeft dat er een grote diversiteit is in faciale aantrekkelijkheid.

‘Al deze factoren maken de voorspelling van faciale aantrekkelijkheid in MEBeauty moeilijker.’

Ethische overwegingen

Onderzoek naar aantrekkelijkheid is een potentieel verdeeld onderwerp, aangezien het vaststellen van vermeende empirische schoonheidsnormen, dergelijke systemen de neiging hebben om vooroordelen over leeftijd, ras en veel andere secties van computer visie onderzoek met betrekking tot mensen te versterken.

Het kan worden betoogd dat een FAP-systeem inherent voorbestemd is om vooroordelen en bevooroordeelde perspectieven op aantrekkelijkheid te versterken en in stand te houden. Deze oordelen kunnen voortkomen uit door de mens geleide annotaties – vaak uitgevoerd op schalen die te beperkt zijn voor effectieve domein generalisatie – of uit het analyseren van aandachtpatronen in online omgevingen zoals streaming-platforms, die verre van meritocratisch zijn.

* Het paper verwijst naar de ongenoemde bron domein/s in zowel enkelvoud als meervoud.

Eerst gepubliceerd op woensdag 8 januari 2025