Connect with us

Estimering av förutsägelse av ansiktsattraktivitet för direktutsändningar

Artificiell intelligens

Estimering av förutsägelse av ansiktsattraktivitet för direktutsändningar

mm
Image by ChatGPT, with superimposed image from the paper https://arxiv.org/pdf/2501.02509

Hittills har Facial Attractiveness Prediction (FAP) främst studerats i sammanhang med psykologisk forskning, inom skönhet och kosmetikindustrin och i sammanhang med kosmetisk kirurgi. Det är ett utmanande forskningsområde, eftersom skönhetsstandarder tenderar att vara nationella snarare än globala.

Detta innebär att ingen enda effektiv AI-baserad dataset är livskraftig, eftersom medelvärdena som erhålls från urval av ansikten/betyg från alla kulturer skulle vara mycket förvrängda (där mer folkrika nationer skulle få ytterligare dragkraft), annars tillämpliga på ingen kultur alls (där medelvärdet av flera raser/betyg skulle motsvara ingen faktisk ras).

I stället är utmaningen att utveckla konceptuella metoder och arbetsflöden som kan bearbetas med lands- eller kulturspecifika data, för att möjliggöra utvecklingen av effektiva FAP-modeller per region.

Användningsfallen för FAP inom skönhet och psykologisk forskning är ganska marginella, annars branschspecifika; därför innehåller de flesta av de dataset som har sammanställts hittills endast begränsade data, eller har inte publicerats alls.

Den lätta tillgången till online attraktivitetsprediktorer, som främst riktar sig till västerländska publik, representerar inte nödvändigtvis den senaste utvecklingen inom FAP, som för närvarande tycks domineras av östasiatisk forskning (främst Kina), och motsvarande östasiatiska dataset.

Datasetexempel från 2020-papperet 'Asian Female Facial Beauty Prediction Using Deep Neural Networks via Transfer Learning and Multi-Channel Feature Fusion'. Källa: https://www.semanticscholar.org/paper/Asian-Female-Facial-Beauty-Prediction-Using-Deep-Zhai-Huang/59776a6fb0642de5338a3dd9bac112194906bf30

Datasetexempel från 2020-papperet ‘Asian Female Facial Beauty Prediction Using Deep Neural Networks via Transfer Learning and Multi-Channel Feature Fusion’. Källa: https://www.semanticscholar.org/paper/Asian-Female-Facial-Beauty-Prediction-Using-Deep-Zhai-Huang/59776a6fb0642de5338a3dd9bac112194906bf30

Större kommersiella användningsområden för skönhetsestimering inkluderar online-datingsajter, och generativa AI-system som är utformade för att “rätta till” riktiga avatarbilder av människor (eftersom sådana tillämpningar kräver en kvantifierad standard för skönhet som en måttstock för effektivitet).

Att rita ansikten

Attraktiva individer fortsätter att vara en värdefull tillgång i reklam och påverkansbyggande, vilket gör att de finansiella incitamenten i dessa sektorer är en tydlig möjlighet för att främja utvecklingen av FAP-dataset och -ramverk.

Till exempel kunde en AI-modell som tränats med verkliga data för att bedöma och betygsätta ansiktsSkönhet potentiellt identifiera händelser eller individer med hög potential för reklamverkan. Denna förmåga skulle vara särskilt relevant i livevideoströmningssammanhang, där mått som “följare” och “gillamarkeringar” för närvarande endast tjänar som implicita indikatorer på en individs (eller till och med en ansiktstyps) förmåga att fascinera en publik.

Detta är ett ytligt mått, naturligtvis, och röst, presentation och synvinkel spelar också en betydande roll i att samla en publik. Därför kräver kureringen av FAP-dataset mänsklig tillsyn, samt förmågan att skilja ansiktsdrag från “spektakulära” attraktivitet (utan vilken, influensers som Alex Jones kunde hamna påverka den genomsnittliga FAP-kurvan för en samling som enbart är utformad för att uppskatta ansiktsSkönhet).

LiveBeauty

För att åtgärda bristen på FAP-dataset erbjuder forskare från Kina det första storskaliga FAP-datasetet, som innehåller 100 000 ansiktsbilder, tillsammans med 200 000 mänskliga betygsättningar som uppskattar ansiktsSkönhet.

Exempel från det nya LiveBeauty-datasetet. Källa: https://arxiv.org/pdf/2501.02509

Exempel från det nya LiveBeauty-datasetet. Källa: https://arxiv.org/pdf/2501.02509

LiveBeauty-datasetet, som kallas LiveBeauty, innehåller 10 000 olika identiteter, alla inspelade från (ospecificerade) direktströmningsplattformar i mars 2024.

Författarna presenterar också FPEM, en ny multi-modal FAP-metod. FPEM integrerar holistisk ansiktsförkunskap och multi-modal estetisk semantik via en Personlig Attraktivitet Prior Modul (PAPM), en Multi-modal Attraktivitet Encoder Modul (MAEM) och en Cross-Modal Fusion Modul (CMFM).

Papperet hävdar att FPEM uppnår toppprestation på det nya LiveBeauty-datasetet och andra FAP-dataset. Författarna noterar att forskningen har potential för tillämpningar för att förbättra videoqualitet, innehållsrekommendation och ansiktsretuschering i direktströmning.

Författarna lovar också att göra datasetet tillgängligt “snart” – även om det måste medges att alla licensbegränsningar som är inneboende i källodomänen tycks troliga att överföras till de flesta tillämpliga projekt som kan använda arbetet.

Det nya papperet heter Facial Attractiveness Prediction in Live Streaming: A New Benchmark and Multi-modal Method, och kommer från tio forskare från Alibaba Group och Shanghai Jiao Tong University.

Metod och data

Från varje 10-timmars sändning från direktströmningsplattformarna, samlade forskarna in en bild per timme under de första tre timmarna. Sändningar med de högsta sidvisningarna valdes.

Den insamlade datan bearbetades sedan med flera förbearbetningsstadier. Det första är ansiktsregionsstorleksmätning, som använder 2018 års CPU-baserade FaceBoxes-detektionsmodell för att generera en begränsningsruta runt ansiktsdrag. Pipelinen säkerställer att den kortare sidan av begränsningsrutan överstiger 90 pixlar, vilket undviker små eller otydliga ansiktsområden.

Det andra steget är suddighetssökning, som appliceras på ansiktsområdet med hjälp av variansen av Laplacian-operatören i höjden (Y)-kanalen av ansiktsgrödan. Denna varians måste vara större än 10, vilket hjälper till att filtrera bort suddiga bilder.

Det tredje steget är ansiktsposeuppskattning, som använder 2021 års 3DDFA-V2-poseuppskattningsmodell:

Exempel från 3DDFA-V2-estimeringsmodellen. Källa: https://arxiv.org/pdf/2009.09960

Exempel från 3DDFA-V2-estimeringsmodellen. Källa: https://arxiv.org/pdf/2009.09960

Här säkerställer arbetsflödet att pitchvinkeln på den beskurna ansiktet inte är större än 20 grader, och yaw-vinkeln inte är större än 15 grader, vilket utesluter ansikten med extrema poser.

Det fjärde steget är ansiktsproportionsbedömning, som också använder segmenteringsförmågan hos 3DDFA-V2-modellen, vilket säkerställer att den beskurna ansiktsregionen är större än 60 % av bilden, vilket utesluter bilder där ansiktet inte är framträdande. dvs. litet i den övergripande bilden.

Slutligen är det femte steget dubblettkaraktarrensning, som använder en (outredd) state-of-the-art-ansiktsigenkänningsmodell, för fall där samma identitet förekommer i mer än en av de tre bilderna som samlades in för en 10-timmarsvideo.

Mänsklig utvärdering och annotering

Tjugo annotatorer rekryterades, bestående av sex män och 14 kvinnor, vilket speglar demografin för den liveplattform som användes*. Ansikten visades på 6,7-tumsskärmen på en iPhone 14 Pro Max, under konsekventa laboratorieförhållanden.

Utvärderingen delades upp i 200 sessioner, var och en med 50 bilder. Ämnen ombads att betygsätta ansiktsattraktiviteten hos exemplen på en skala 1-5, med en femminuters paus mellan varje session, och alla ämnen deltog i alla sessioner.

Därför utvärderades alla 10 000 bilder över tjugo mänskliga ämnen, vilket resulterade i 200 000 annoteringar.

Analys och förbearbetning

Först utfördes subjektpostskärmning med hjälp av outlierkvot och Spearman’s Rank Correlation Coefficient (SROCC). Ämnen vars betygsättningar hade en SROCC mindre än 0,75 eller en outlier-kvot större än 2 % ansågs som opålitliga och togs bort, med 20 ämnen som slutligen erhölls..

En Medel Opinion Score (MOS) beräknades sedan för varje ansiktsbild, genom att medela betygsättningarna från de giltiga ämnena. MOS fungerar som ground truth-mått för ansiktsattraktivitet för varje bild, och betyget beräknas genom att medela alla individuella betygsättningar från varje giltigt ämne.

Slutligen visade analysen av MOS-fördelningarna för alla prover, samt för kvinnliga och manliga prover, att de uppvisade en Gaussian-liknande form, vilket är konsekvent med verkliga fördelningar av ansiktsattraktivitet:

Exempel på LiveBeauty MOS-fördelningar.

Exempel på LiveBeauty MOS-fördelningar.

De flesta individer tenderar att ha genomsnittlig ansiktsattraktivitet, med färre individer i extremer av mycket låg eller mycket hög attraktivitet.

Ytterligare analys av snedhet och kurtos-värden visade att fördelningarna kännetecknades av tunna svansar och koncentrerades runt medelvärdet, och att hög attraktivitet var mer vanligt förekommande bland de kvinnliga proverna i de insamlade direktströmningsvideorna.

Arkitektur

En tvåstegstrategi för utbildning användes för Facial Prior Enhanced Multi-modal-modellen (FPEM) och Hybrid Fusion-fasen i LiveBeauty, uppdelad på fyra moduler: en Personlig Attraktivitet Prior Modul (PAPM), en Multi-modal Attraktivitet Encoder Modul (MAEM), en Cross-Modal Fusion Modul (CMFM) och en Beslutsfusionsmodul (DFM).

Konceptuell schema för LiveBeauty-utbildningspipeline.

Konceptuell schema för LiveBeauty-utbildningspipeline.

PAPM-modulen tar en bild som indata och extraherar multi-skalevisa visuella funktioner med hjälp av en Swin Transformer, och extraherar också ansiktsmedvetna funktioner med hjälp av en förtränad FaceNet-modell. Dessa funktioner kombineras sedan med hjälp av en cross-attention-block för att skapa en personlig “attraktivitetsfunktion”.

Även i den preliminära utbildningsfasen använder MAEM en bild och textbeskrivningar av attraktivitet, med hjälp av CLIP för att extrahera multi-modala estetiska semantiska funktioner.

De mallade textbeskrivningarna är i formen ‘en bild av en person med {a} attraktivitet’ (där {a} kan vara bad, poor, fair, good eller perfect). Processen uppskattar kosinlikheten mellan text- och visuella inbäddningar för att erhålla en attraktivitetsnivåsannolikhet.

I Hybrid Fusion-fasen raffinerar CMFM de textbaserade inbäddningarna med hjälp av den personliga attraktivitetsfunktionen som genereras av PAPM, vilket genererar personliga textbaserade inbäddningar. Den använder sedan en likhetsregressionsstrategi för att göra en förutsägelse.

Slutligen kombinerar DFM de enskilda förutsägelserna från PAPM, MAEM och CMFM för att producera en enda, slutgiltig attraktivitetsscore, med målet att uppnå en robust konsensus

Förlustfunktioner

För förlustmått tränas PAPM med hjälp av en L1-förlust, ett mått på den absoluta skillnaden mellan den förutsagda attraktivitetsscoren och den faktiska (ground truth)-attraktivitetsscoren.

MAEM-modulen använder en mer komplex förlustfunktion som kombinerar en poängförlust (LS) med en sammanslagen rangförlust (LR). Rangförlusten (LR) består av en trohetsförlust (LR1) och en tvåvägs rangförlust (LR2).

LR1 jämför den relativa attraktiviteten hos bildpar, medan LR2 säkerställer att den förutsagda sannolikhetsfördelningen av attraktivitetsnivåer har en enda topp och minskar i båda riktningarna. Denna kombinerade strategi syftar till att optimera både exakt betygsättning och korrekt rangordning av bilder baserat på attraktivitet.

CMFM och DFM tränas med hjälp av en enkel L1-förlust.

Tester

I tester ställdes LiveBeauty mot nio tidigare tillvägagångssätt: ComboNet; 2D-FAP; REX-INCEP; CNN-ER (som presenteras i REX-INCEP); MEBeauty; AVA-MLSP; TANet; Dele-Trans; och EAT.

Basmetoder som följer Image Aesthetic Assessment (IAA)-protokollet testades också. Dessa var ViT-B; ResNeXt-50; och Inception-V3.

Förutom LiveBeauty testades också andra dataset: SCUT-FBP5000 och MEBeauty. Nedan jämförs MOS-fördelningarna för dessa dataset:

MOS-fördelningar för benchmark-dataseten.

MOS-fördelningar för benchmark-dataseten.

Respektive gästdataset delades upp i 60 %-40 % och 80 %-20 % för utbildning och testning, separat, för att upprätthålla konsekvens med deras ursprungliga protokoll. LiveBeauty delades upp i 90 %-10 %.

För modellinitiering i MAEM användes VT-B/16 och GPT-2 som bild- och textencodare, respektive, initierade av inställningar från CLIP. För PAPM användes Swin-T som en tränbar bildencodare, i enlighet med SwinFace.

AdamW-optimeraren användes, och en inlärningshastighet schema ställdes in med linjär uppvärmning under ett kosinavtagningsschema. Inlärningshastigheterna skiljde sig åt mellan utbildningsfaserna, men var och en hade en batchstorlek på 32, för 50 epoker.

Resultat från tester

Resultat från tester

Resultat från tester på de tre FAP-dataseten visas ovan. Av dessa resultat säger papperet:

‘Vår föreslagna metod uppnår första platsen och överträffar den andra platsen med cirka 0,012, 0,081, 0,021 i termer av SROCC-värden på LiveBeauty, MEBeauty och SCUT-FBP5500, vilket visar överlägsenheten hos vår föreslagna metod.

‘[De] IAA-metoder är underlägsna FAP-metoderna, vilket visar att de generiska estetiska bedömningsmetoderna försummar de ansiktsdrag som är involverade i den subjektiva naturen hos ansiktsattraktivitet, vilket leder till dålig prestanda på FAP-uppgifter.

‘[Prestandan] för alla metoder sjunker betydligt på MEBeauty. Detta beror på att utbildningsexemplen är begränsade och ansiktena är etniskt diversifierade i MEBeauty, vilket indikerar att det finns en stor variation i ansiktsattraktivitet.

‘Alla dessa faktorer gör förutsägelsen av ansiktsattraktivitet i MEBeauty mer utmanande.’

Ethiska överväganden

Forskning om attraktivitet är ett potentiellt kontroversiellt företag, eftersom etablerandet av påstådda empiriska skönhetsstandarder tenderar att förstärka fördomar kring ålder, ras och många andra sektorer av datorseende-forskning som relaterar till människor.

Det kan hävdas att ett FAP-system är inneboende förutbestämt att förstärka och upprätthålla partiella och fördomsfulla perspektiv på attraktivitet. Dessa bedömningar kan uppstå från mänskliga annoteringar – ofta utförda på skalor som är för små för effektiv domängeneralisering – eller från att analysera uppmärksamhetsmönster i online-miljöer som direktströmningsplattformar, som är långt ifrån att vara meritokratiska.

 

* Papperet hänvisar till den oangivna källodomänen i både singular och plural.

Publicerad första gången onsdag, 8 januari 2025

Författare på maskinlärande, domänspecialist inom mänsklig bildsyntes. Före detta chef för forskningsinnehåll på Metaphysic.ai.