Tekoäly

Arvioiden kasvojen viehättävyyden ennustaminen suoratoistoihin

Published January 8, 2025

Updated April 26, 2026

Martin Anderson

Image by ChatGPT, with superimposed image from the paper https://arxiv.org/pdf/2501.02509

Toistaiseksi kasvojen viehättävyyden ennustaminen (FAP) on pääasiassa tutkittu psykologisen tutkimuksen, kauneus- ja kosmetiikkateollisuuden ja kosmeettisen kirurgian yhteydessä. Tämä on haastava tutkimusala, sillä kauneuden standardit ovat usein kansallisia eikä niitä voida soveltaa maailmanlaajuisesti.

Tämä tarkoittaa, että yksikin tehokas AI-pohjainen tietokanta ei ole mahdollinen, sillä keskiarvot, jotka saadaan näytteistämällä kasvoja ja arvostelua kaikista kulttuureista, olisivat hyvin vääristyneitä (jolloin väkirikkaimmat valtiot saavuttavat lisää etua), tai soveltamiskelpoisia mihinkään kulttuuriin (jossa useiden rotujen ja arvostelujen keskiarvo vastaisi todellista rotua).

Sen sijaan haasteena on kehittää konseptuaalisia menetelmiä ja työnkulkua, johon maakohtaisia tai kulttuurikohtaisia tietoja voidaan prosessoida, jotta voidaan kehittää tehokkaita aluekohtaisia FAP-malleja.

FAP:n käyttötapaukset kauneuden ja psykologisen tutkimuksen aloilla ovat melko marginaalisia, tai teollisuusspesifejä; siksi useimmat tähän asti kokoamista tietokannoista sisältävät vain rajoitetun määrän tietoja, tai eivät ole julkaistu lainkaan.

Helppokäyttöiset online-kauneusennustimet, joista suurin osa on suunnattu länsimaisille yleisöille, eivät välttämättä edusta FAP:n nykytilaa, jota johtavat itäaasialaiset tutkimukset (pääasiassa Kiina) ja vastaavat itäaasialaiset tietokannat.

Esimerkkejä tietokannasta vuoden 2020 tutkimuksesta ‘Aasialaisten naisten kasvojen kauneuden ennustaminen syvien neuroverkkorakenteiden avulla ja monikanavaisten ominaisuuksien yhdistelmällä’. Lähde: https://www.semanticscholar.org/paper/Asian-Female-Facial-Beauty-Prediction-Using-Deep-Zhai-Huang/59776a6fb0642de5338a3dd9bac112194906bf30

Laajemmat kaupalliset sovellukset kauneuden arviointiin sisältävät verkkodeittipalvelut ja generatiiviset tekoälyjärjestelmät, jotka on suunniteltu ‘korjaamaan’ todellisia ihmisten kuvia (sillä tällaiset sovellukset vaativat määrättyä kauneuden standardia tehokkuuden mittarina).

Piirtäminen

Viehättävät yksilöt ovat edelleen arvokkaita varoja mainonnassa ja vaikuttajien luomisessa, mikä tekee rahoituksellisista kannustimista näissä aloissa selkeän mahdollisuuden FAP-tietokantojen ja -kehysten kehittämiseen.

Esimerkiksi tekoälymalli, joka on koulutettu todellisen maailman datalla arvioimaan ja arvostelemaan kasvojen kauneutta, voisi potentiaalisesti tunnistaa tapahtumia tai yksilöitä, joilla on suuri potentiaali mainonnassa. Tämä kyky olisi erityisen relevantti suoratoistoyhteyksissä, joissa metriikat kuten ‘seuraajat’ ja ‘tykkäykset’ palvelevat vain implisiittisinä osoittimina yksilön (tai jopa kasvotyyppien) kyvylle kerätä yleisöä.

Tämä on pinnallinen mittari, ja ääni, esitys ja näkökulma vaikuttavat myös yleisön keräämiseen. Siksi FAP-tietokantojen kokoaminen vaatii ihmisten valvontaa sekä kykyä erottaa kasvojen viehättävyys “epäaidosta” viehättävyydestä (jotta esimerkiksi vaikuttajat, kuten Alex Jones, eivät vaikuttaisi FAP-kaavan keskiarvoon, joka on tarkoitettu ainoastaan kasvojen kauneuden arviointiin).

LiveBeauty

Vastatakseen FAP-tietokantojen puutteeseen Kiinan tutkijat tarjoavat ensimmäisen suuren mittakaavan FAP-tietokannan, joka sisältää 100 000 kasvokuvausta ja 200 000 ihmisten arviointia kasvojen kauneudesta.

Esimerkkejä uudesta LiveBeauty-tietokannasta. Lähde: https://arxiv.org/pdf/2501.02509

LiveBeauty-tietokanta sisältää 10 000 eri identiteettiä, jotka on kaikki tallennettu (määrittelemättömistä) suoratoistopalustoista maaliskuussa 2024.

Kirjoittajat esittävät myös FPEM:n, uuden monimodaalisen FAP-menetelmän. FPEM yhdistää holistisen kasvojen etuoikeuden ja monimodaalisen esteettisen semanttisen ominaisuudet Henkilökohtaisen viehättävyyden etuoikeusmodulin (PAPM), monimodaalisen viehättävyyden koodausrakenteen (MAEM) ja ristiriitaisen yhdistämismodulin (CMFM) kautta.

Tutkimus väittää, että FPEM saavuttaa huipputason suorituskyvyn uudella LiveBeauty-tietokannalla ja muilla FAP-tietokannoilla. Kirjoittajat huomauttavat, että tutkimuksella on potentiaalisia sovelluksia videon laadun parantamiseen, sisällön suositukseen ja kasvojen retušointiin suoratoistossa.

Kirjoittajat lupaavat myös julkaista tietokannan “pian” – vaikka on myönnettävä, että lähdealueen sisäiset lisenssiehdot vaikuttavat todennäköisesti useimpiin soveltuvissa projekteihin, jotka voivat hyödyntää työtä.

Uusi tutkimus on otsikoitu Kasvojen viehättävyyden ennustaminen suoratoistossa: Uusi vertailu ja monimodaalinen menetelmä, ja se tulee kymmeneltä tutkijalta Alibaba Groupista ja Shanghai Jiao Tong -yliopistosta.

Menetelmä ja data

Jokaisesta 10 tunnin lähetyksestä suoratoistopalustoilta tutkijat keräsivät yhden kuvan tunnilta ja valitsivat lähetykset, joilla oli eniten sivunäyttöjä.

Kerätty data käsitti useita esikäsittelyvaiheita. Ensimmäinen vaihe on kasvoalueen koko, jossa käytetään vuoden 2018 CPU-pohjaista FaceBoxes -tunnistusmallia luomaan rajoitettu kehys kasvojen piirteille. Putki varmistaa, että kehys lyhyempi sivu ylittää 90 pikseliä, välttäen pieniä tai epäselviä kasvoalueita.

Toinen vaihe on sumeen havaitseminen, jota sovelletaan kasvoalueelle käyttämällä Laplacian-opeattoria kasvoleikkauksen korkeuskanavassa (Y). Tämä varianssi on oltava suurempi kuin 10, mikä auttaa suodattamaan sumeat kuvat.

Kolmas vaihe on kasvoasennon arviointi, jossa käytetään vuoden 2021 3DDFA-V2 -asennon arviointimallia:

Esimerkkejä 3DDFA-V2-arviointimallista. Lähde: https://arxiv.org/pdf/2009.09960

Tässä työnkulussa varmistetaan, että leikattujen kasvojen nousu- ja kulma on enintään 20 astetta, mikä poistaa kasvot, joilla on äärimmäiset asennot.

Neljäs vaihe on kasvojen suhteen arviointi, joka käyttää myös 3DDFA-V2-mallin segmentointiominaisuuksia, varmistaen, että leikattujen kasvojen alueen suhde on yli 60 % kuvasta, poistaen kuvat, joissa kasvot eivät ole merkittäviä. ts. pieniä koko kuvassa.

Lopulta viides vaihe on duplikaattien poistaminen, jossa käytetään (tunnistamatonta) huipputason kasvontunnistusmallia tapauksiin, joissa sama identiteetti esiintyy useammin kuin yhdessä kolmesta kuvasta, jotka on kerätty 10 tunnin videosta.

Ihmisen arviointi ja annotointi

Kaksikymmentä annotoijaa palkattiin, joista kuusi oli miehiä ja 14 naista, jotka edustivat suoratoistopalvelun demografiaa*. Kasvot näytettiin 6,7 tuuman näytöllä iPhone 14 Pro Max -puhelimessa, yhdenmukaisissa laboratorio-olosuhteissa.

Arviointi jaettiin 200 istuntoon, joista jokaisessa käytettiin 50 kuvaa. Koehenkilöiltä pyydettiin arvioimaan kasvojen viehättävyyttä asteikolla 1-5, ja jokaisen istunnon välissä oli viiden minuutin tauko, ja kaikki koehenkilöt osallistuivat kaikkiin istuntoihin.

Siksi koko 10 000 kuvan arviointi tehtiin kahdenkymmenen ihmisen kesken, ja saatiin 200 000 annotaatiota.

Analyysi ja esikäsittely

Ensimmäinen tehtävä oli aihekohtainen seulonta, jossa käytettiin poikkeamaosuutta ja Spearmanin järjestyskorrelaatiokerrointa (SROCC). Aiheiden arvostelut, joiden SROCC oli alle 0,75 tai poikkeamaosuus yli 2 %, pidettiin epäluotettavina ja poistettiin, ja lopulta saatiin 20 aiheetta..

Keskimääräinen mielipidemittari (MOS) laskettiin sitten jokaiselle kasvokuvalle keskiarvoistamalla pisteytykset, jotka saatiin voimassa olevilta aiheilta. MOS toimii kasvojen viehättävyyden todellisena arvona kullekin kuvalle, ja pisteytys lasketaan keskiarvoistamalla kaikki yksittäiset pisteytykset kustakin voimassa olevasta aiheesta.

Lopulta MOS-jakautumien analyysi kaikista näytteistä sekä nais- ja miesnäytteistä osoitti, että ne olivat Gaussian-tyyppisiä, mikä on yhdenmukainen todellisten kasvojen viehättävyyden jakautumisen kanssa:

LiveBeauty MOS-jakautumisen esimerkkejä.

Useimmat yksilöt ovat keskivertaisen kasvojen viehättävyyden, ja vähemmän yksilöitä äärimmäisissä alhaisissa tai korkeissa viehättävyyden arvoissa.

Lisäksi vinous- ja kurtosisarvojen analyysi osoitti, että jakautumiset olivat ohuiden hännien ja keskittyneiden keskiarvon ympärillä, ja että korkea viehättävyyttä oli yleisempää naisten näytteissä kerätyissä suoratoistovideoissa.

Arkkitehtuuri

Kaksivaiheinen koulutusstrategia käytettiin Kasvojen etuoikeusparannetun monimodaalisen mallin (FPEM) ja Hybridifusion-vaiheen LiveBeautyssä, jaettuna neljään moduuliin: Henkilökohtaisen viehättävyyden etuoikeusmoduliin (PAPM), monimodaaliseen viehättävyyden koodausrakenteeseen (MAEM), ristiriitaisen yhdistämismoduliin (CMFM) ja Päätösyhdistämismoduliin (DFM).

LiveBeautyn koulutusputken konseptuaalinen schema.

PAPM-moduuli ottaa kuvan syötteenä ja poistaa moniaikaiset visuaaliset ominaisuudet Swin Transformerin avulla, ja poistaa myös kasvojen ominaisuudet esikoulutetun FaceNet -mallin avulla. Nämä ominaisuudet yhdistetään risti-huomion lohkon avulla luomaan henkilökohtainen “viehättävyyden” ominaisuus.

Myös esikoulutusvaiheessa MAEM käyttää kuvaa ja kauneuden tekstikuvauksia hyödyntäen CLIP:iä monimodaalisten esteettisten semanttisten ominaisuuksien poistamiseen.

Mallinnetut tekstikuvaukset ovat muodossa ‘kuva henkilöstä, jolla on {a} kauneus’ (jossa {a} voi olla huono, heikko, rehellinen, hyvä tai täydellinen). Prosessi arvioi kosinisen samankaltaisuuden teksti- ja visuaalisten upotusten välillä saadakseen viehättävyyden todennäköisyyden.

Hybridifusion-vaiheessa CMFM parantaa tekstiupotuksia käyttämällä PAPM:stä generoituja henkilökohtaisia viehättävyyden ominaisuuksia, luoden näin henkilökohtaiset tekstiupotukset. Sitten se käyttää samankaltaisuuden regressiostrategiaa tekemään ennusteen.

Lopulta DFM yhdistää yksittäiset ennusteet PAPM:stä, MAEM:stä ja CMFM:stä tuottaakseen yhden lopullisen viehättävyyden arvon, tavoitteena on saavuttaa vankka konsensus

Häviöfunktiot

Häviömittareina PAPM koulutetaan L1-häviöllä, joka on absoluuttinen ero ennustetun viehättävyyden arvon ja todellisen (todellisen) viehättävyyden arvon välillä.

MAEM-moduuli käyttää monimutkaisempaa häviöfunktiota, joka yhdistää pisteytys- (LS) ja yhdistetyn järjestys- (LR) häviön. Järjestys- (LR) -häviö koostuu uskollisuuden häviöstä (LR1) ja kaksisuuntaisesta järjestys-häviöstä (LR2).

LR1 vertaa kuvaparien suhteellista viehättävyyttä, kun taas LR2 varmistaa, että ennustettu todennäköisyysjakauma viehättävyyden tasoista on yksihuippuinen ja vähenee molemmissa suunnissa. Tämä yhdistetty lähestymistapa pyrkii optimoimaan sekä tarkan pisteytyksen että kuvien oikean järjestyksen viehättävyyden perusteella.

CMFM ja DFM koulutetaan yksinkertaisella L1-häviöllä.

Testit

Testeissä tutkijat asettivat LiveBeautyn yhdeksää aiempaa lähestymistapaa vastaan: ComboNet; 2D-FAP; REX-INCEP; CNN-ER (esitetty REX-INCEP:ssä); MEBeauty; AVA-MLSP; TANet; Dele-Trans; ja EAT.

Vertailumenetelmät, jotka noudattavat Kuvan esteettisen arvioinnin (IAA) protokollaa, testattiin myös. Nämä olivat ViT-B; ResNeXt-50; ja Inception-V3.

LiveBeautyn lisäksi testatut tietokannat olivat SCUT-FBP5000 ja MEBeauty. Alla on verrattu näiden tietokantojen MOS-jakautumia:

Vertailutietokantojen MOS-jakautumia.

Nämä vierailevat tietokannat jaettiin 60 %-40 % ja 80 %-20 % koulutukseen ja testaamiseen erikseen, jotta ne olisivat yhdenmukaisia alkuperäisten protokolliensa kanssa. LiveBeauty jaettiin 90 %-10 %:iin.

Mallin aloittamiseksi MAEM:issä käytettiin VT-B/16:ta ja GPT-2:ta kuvan ja tekstin koodaajina, jotka oli aloitettu CLIP:in asetuksista. PAPM:ssä Swin-T käytettiin koulutettavana kuvakoodaajana SwinFace:n mukaisesti.

Käytettiin AdamW -optimointia, ja oppien nopeuden aikataulu asetettiin lineaarisen lämmittämisen alussa kosinen aalto -skeemassa. Oppimisnopeudet erosivat koulutusvaiheittain, mutta jokaisella oli erän koko 32, 50 epookaa kohden.

Testitulokset

Testitulokset kolmella FAP-tietokannalla on esitetty yllä. Näistä tuloksista tutkimus sanoo:

‘Esittämämme menetelmä saavuttaa ensimmäisen sijan ja ylittää toisen sijan noin 0,012, 0,081, 0,021 SROCC-arvoissa LiveBeauty-, MEBeauty- ja SCUT-FBP5500-tietokannoissa, mikä osoittaa esittämämme menetelmän ylivoimaisuuden.

‘IAA-menetelmät ovat heikompia kuin FAP-menetelmät, mikä osoittaa, että yleiset esteettiset arviointimenetelmät jättävät huomiotta kasvojen piirteet, jotka ovat osa kasvojen viehättävyyden subjektiivista luonnetta, mikä johtaa heikkoon suorituskykyyn FAP-tehtävissä.

‘Kaikkien menetelmien suorituskyky laskee merkittävästi MEBeautyssä. Tämä johtuu siitä, että koulutusnäytteet ovat rajoitetut ja kasvot ovat etnisiä MEBeautyssä, mikä osoittaa, että kasvojen viehättävyydessä on suuri monimuotoisuus.

‘Kaikki nämä tekijät tekevät kasvojen viehättävyyden ennustamisen MEBeautyssä haasteellisemmaksi.’

Etiset huomioonotot

Kasvojen viehättävyyden tutkimus on potentiaalisesti jakautunut aihe, sillä asettamalla empiriset kauneuden standardit, tällaiset järjestelmät ovat taipuvaisia vahvistamaan ja ylläpitämään osittaisia ja vinoutuneita näkemyksiä viehättävyydestä. Nämä arviot voivat johtua joko ihmisten tekemistä annotaatioista – usein tehtyinä liian suppeilla asteikoilla, jotta voitaisiin saavuttaa tehokas toimialueen yleistettävyys – tai analysoimalla huomion kuviota verkossa, kuten suoratoistopalustoilla, jotka ovat kaukana olemasta ansaittuja.

* Tutkimus viittaa tuntemattomiin lähdealueisiin sekä yksikössä että monikossa.

Julkaistu ensimmäisen kerran keskiviikkona, 8. tammikuuta 2025

Martin Anderson

Kirjailija tekoälystä, alan erikoisosaaja ihmiskuvien synteesissä. Entinen tutkimussisällön johtaja Metaphysic.ai:lla.
Henkilökohtainen sivu: martinanderson.ai
Ota yhteyttä: [email protected]