Andersonin kulma
Tekoälyn kauneuden metsästys

Uusi tekoälypohjainen kauneuden arviointijärjestelmä arvioi, miten viehättäviä kasvot näyttävät, ja se kouluttaa nopeammin kuin tyypilliset syvät oppimismallit, mikä voi tehdä suurimittakaavan automaattisen kauneuspisteytysjärjestelmän käytännöllisemmäksi.
Kasvojen kauneuden ennustaminen (FBP) on suuri liike, ja melko vahva säie tutkimuskirjallisuudessa. Vaikka se rikkookin käytännössä jokaisen säännön, joka liittyy tekolyön ja koneoppimisen harjoitusten puolueettomuuden torjuntaan, ja vaikka se usein tukee naisten esineellistämistä ja reduktionismia algoritmisten havaintojen kannalta, se silti kiinnittää useiden monimiljardien dollarien arvoisten teollisuudenalojen huomion, joista suurin osa on suunnattu suoraan naisille, kuten kosmetiikka-, kosmeettinen kasvokirurgia-, livestreaming– ja muotiteollisuus muiden muassa:

Naiset arvioitiin asteikolla 1-5, tutkimuksesta ‘Aasialaisten naisten kasvojen kauneuden ennustaminen syvien neuroverkkorakenteiden avulla ja monikanavaisten ominaisuuksien yhdistelmän kautta’. Lähde
Näiden ilmeisten naisten keskeisten liiketoimintojen ulkopuolella mainonnassa ja monissa muissa aloissa, mukaan lukien viihde- ja julkaisualat, on merkittäviä panoksia ymmärtää, mitä sekä miehet että naiset pitävät ‘viehättävänä’, välttämättä kulttuurikohtaisella perusteella.
Se, että kauneuden yhdistetyt havainnot vaihtelevat alueittain, tarkoittaa, että ei voida saavuttaa minkäänlaista yleispätevää, maailmanlaajuista tietokantaa, ja että uudet tutkimukset on joko pysyttävä paikallisina tai keskityttävä ‘korkean tason’ menetelmiin, jotka voidaan soveltaa erilaisiin kulttuuridatamääriin.

Kasvojen kauneuden arviointijärjestelmän käyttöliittymä vuoden 2015 SCUT-FBP-projektissa. Lähde
Usein maantieteellinen sijainti ei ole ainoa rajoitus, sillä viehättävyyttä koskevat tietokannat voivat kamppailla tasapuolisen tehokkuuden saavuttamisessa sukupuolten välillä tai voivat olla kuratoituja tietyn soveltamisen kannalta – ja tämä voi rajoittaa kokoelman käyttöä muissa aloissa.
Esimerkiksi vuonna 2025 raportoin suhteellisen suuren mittakaavan (100 000+ identiteettiä) tietokannan kehittämisestä viehättävyyden arviointiin livestreamingissä, jonka lähelle leikattujen standardien olisi ehkä tarve merkittävää sopeuttamista laajempiin projekteihin, huolimatta valtavasta ponnistelusta aloitteen takana.
Kasvojen esitys
Kuten voidaan havaita yllä olevista linkeistä ja kuvista, aasialaiset tutkimuslaitokset eivät usein toimi samojen kulttuurirajoitusten alaisina kuin länsimaiset vastineensa, jotka olisivat vaikeasti painostettavissa julkaistessaan tieteellisen kuvan, joka arvioi viisi länsimaista naista viehättävyyden perusteella vähiten houkuttelevasta kauneimmasta, kuten yllä mainitussa tutkimuksessa nähdään.
Voidaan väittää, että siellä, missä näiden järjestelmien kaltaiset aasialaiset järjestelmät osoittautuvat tehokkaiksi julkisesti ilman pelkoa paikallista moitintaa, länsimaiset edut voivat käyttää tai sopeuttaa tällaista tutkimusta omiin yksityisiin toteutuksiin. Tehtävä ‘naisten arviointi’ siirretään silloin sijaintiin, jossa sitä voidaan jatkaa ilman arvostelua.
Riippumatta siitä, onko tämä yleistä vai ovatko vähemmän julkistetut länsimaiset vastaavat järjestelmät kehitetty avoimen yhteistyön ja julkisen tarkastelun ulkopuolella, on syytä olettaa, että kohde on maailmanlaajuinen kiinnostus, johtuen suuresta määrää ammattimaisia aloja, jotka voivat hyötyä tarkin arvioista viehättävyydestä.
Luonnonvalinta
Näyttäisi siltä, että valtavat verkkoon kerättävissä olevat kokoelmat, kuten Tik Tok, Instagram ja YouTube, osoittautuisivat erinomaisiksi kauneuden välittäjiksi, korreloimalla seuraajia, tykkäyksiä ja liikennettä viehättävyyteen, koska tämä on yleinen ja järkevä yhdistäminen (vaikka joillakin poikkeuksilla).
Samoin olemassa olevat kokoelmat – kuten ImageNet ja LAION – jotka esittävät näyttelijöitä ja malleja, jotka ovat ‘nousseet huipulle’ – sisältävät yleensä viehättäviä yksilöitä (vaikka usein liian monia tietokohderyhmiä, joissa on liian vähän ihmisiä), sallien näin laajemmat kulttuuriset mekanismit toimia viehättävyyden välittäjinä.
Kuitenkaan tämä ei ottaa huomioon muuttuvia makuja siinä, mitä ihmiset pitävät viehättävänä ajan myötä (puhumattakaan maantieteellisesti). Siksi jälleen kerran tarvitaan korkean tason ja tietojen suhteen riippumattomia järjestelmiä, eikä yksittäisiä ja epäilyttäviä kokoelmia tai kuratointeja, jotka eivät pysty heijastamaan muuttuvia makuja.
Yhdistetty iho
Viimeisin akateeminen osallistuja, joka ottaa nämä haasteet vastaan, tulee Kiinasta, jossa siirrosoppi ja Laaja Oppimisjärjestelmä (BLS) yhdistyvät ratkaisemaan pitkään jatkunutta vaihtoehtoa tarkin ja laskennallisen kustannuksen välillä.
Perinteiset neuroverkkorakenteet saavuttavat vahvat tulokset vain raskaan koulutuksen avulla, kun taas kevyemmät järjestelmät, kuten BLS, koulutetaan nopeasti, mutta kamppailevat yksityiskohtien havainnoinnissa. Uusi työ siltaa tämän aukon käyttämällä esikoulutettua visuaalista mallia kasvojen piirteiden poimimiseen, jotka välitetään sitten nopeaan BLS-pohjaiseen järjestelmään arviointia varten, sallien näin piirteiden uudelleenkäytön sen sijaan, että ne opitaan alusta alkaen, samalla pidetään koulutus tehokkaana:

LSAFBD-tietokannan näytekuvat, jotka esittävät naisten kasvoja ryhmiteltyinä ihmisarvioijien antamien kauneuspisteiden mukaan asteikolla 1-5. Lähde
Ensimmäinen kahden muunnelman (E-BLS, ks. alla) syöttää suoraan poimitetut piirteet kevytjärjestelmään, kun taas toinen, ER-BLS (ks. alla), lisää yksinkertaisen välimuodon, joka standardisoi ja viimeistelee nämä piirteet ennen arviointia, mikä auttaa parantamaan johdonmukaisuutta ilman prosessin hidastamista.
Tekijöiden suorittamat testit osoittavat, he väittävät, että heidän lähestymistapansa on parempi kuin kumpikaan menetelmä yksinään ja muihin kilpaileviin menetelmiin nähden.
Uusi tutkimusartikkeli on otsikoitu Kasvojen kauneuden ennustaminen yhdistämällä siirrosoppi ja laaja oppimisjärjestelmä, ja se tulee kuudesta tutkijasta Wuyi-yliopistosta, Jiangmenista.
Menetelmä
Mainittu Laaja Oppimisjärjestelmä on kevyt vaihtoehto syville neuroverkkorakenteille, joka ohittaa useiden kerrosten pinottamisen ja sen sijaan levittää oppimisen laajaan joukkoon yksinkertaisia yhteyksiä, sallien mallien koulutuksen nopeasti – mutta yleensä hinnalla, jossa yksityiskohtainen visuaalinen yksityiskohta puuttuu.
Ensimmäinen kahdesta muunnelmasta, E-BLS, yhdistää EfficientNet-pohjaisen siirrosopin BLS:ään, poimien yksityiskohtaisia visuaalisia piirteitä kasvoista ja syöttämällä ne BLS:ään, jossa lopullinen ennustaminen välttää tarpeen kouluttaa täydellinen syvä neuroverkkorakenne alusta alkaen:

E-BLS-mallin arkkitehtuuri.
EfficientNet, joka on esikoulutettu ImageNet-1k:ssa ja pääosin pidetty muuttumattomana, muuttaa jokaisen syötteen kuvaan tiiviin joukon ominaisuarvoja, jotka kuvaavat kasvoja jäsennellyssä muodossa, kun taas BLS ottaa nämä arvot ja prosessoi ne solmujen verkostossa, joka muuttaa ja yhdistää tiedon, ennen kuin tuottaa lopullisen viehättävyyden arvion.
Koska BLS ei riipu syvistä kerroksellisista rakenteista, E-BLS voidaan päivittää lisäämällä solmuja ilman koko järjestelmän uudelleenkoulutusta. Tämä pitää koulutuksen nopeana ja helpottaa mallin parantamista, kun uusia tietoja esitetään.
Toinen kahdesta muunnelmasta, ER-BLS, perustuu E-BLS:ään lisäämällä välimuodon EfficientNet-ominaisuuspoistimen ja BLS:n välille, tavoitteena parantaa poimittujen ominaisuuksien valmistelua ennen ennustamista:

ER-BLS-mallin arkkitehtuuri.
Sen sijaan, että suoraa EfficientNet-ominaisuuksia syötetään suoraan BLS:ään, ER-BLS syöttää ne ensin jalostuskerrokseen, joka standardisoi ja muotoilee tiedon, auttaen näin vähentämään melua ja tekemään ominaisuudet yhdenmukaisemmiksi eri kuvien välillä.
Jalostetut ominaisuudet syötetään sitten samaan BLS-rakenteeseen, jota käytetään E-BLS:ssä, jossa ominaisuussolmut ja parannussolmut muokkaavat ja yhdistävät tiedon tuottaakseen lopullisen viehättävyyden arvion.
Tiedot ja testit
Testatakseen lähestymistapaansa, tekijät hyödynsivät SCUT-FBP5500-tietokantaa, joka on Etelä-Kiinan yliopiston kasvojen kauneuden ennustamiskokoelma, joka sisältää 5 500 etukasvoa 350x350px resoluutiolla, eri rotuja, sukupuolia ja ikäryhmiä:

SCUT-FBP5500-tietokannan näytekuvat, jotka on arvioitu asteikolla 1-5 viehättävyyden mukaan.
Jokainen kuva arvioitiin kauneuspisteellä 60 vapaaehtoisen toimesta asteikolla 1-5, asteikolla, joka vaihteli erittäin epäviehättävästä (1) erittäin viehättävään (5):

Kuvien jakautuminen kauneuspisteiden mukaan.
Toinen käytetty tietokanta oli Large-Scale Aasialaisten Naisten Kauneustietokanta (LSAFBD), joka on tekijöiden itse kuratoima tietokanta.

LSAFBD-tietokannan näytekuvat, jotka on arvioitu asteikolla 1-5 viehättävyyden mukaan.
Kokoelma sisältää 80 000 merkintätöntä kuvaa 144x144px resoluutiolla, jossa on vaihtelua asennossa ja taustalla, sekä iässä. Nämä arvioitiin 75 vapaaehtoisen toimesta samojen kriteerien perusteella kuin edellinen tietokanta, tällä kertaa asteikolla 0-4:

LSAFBD-tietokannan jakautuminen.
Kummankin tietokannan jaettiin koulutus- ja testiosuuksiin 8/20-suhteessa, ja ristiinvalidointi käytettiin tulosten stabiloimiseksi suoritusten välillä. BLS-komponentti määriteltiin ominaisuusikkunoiden määrän, solmujen määrän ikkunassa ja parannussolmujen määrän kautta, ja Hyperopt käytettiin tehokkaiden yhdistelmien etsimiseen.
Perusviivana käytettiin standardia BLS-mallia, joka koulutettiin samassa ympäristössä, minkä jälkeen esiteltiin sarja siirrosoppi-malleja, mukaan lukien ResNet50, Inception-V3, DenseNet121, InceptionResNetV2, EfficientNetB7, MobileNetV2, NASNet ja Xception – kaikki aloitettiin ImageNet-1k-painoilla ja koulutettiin niiden viimeisten kerrosten avattuina.
Koulutus käytti oppiakokoa 0,001 (joka laski, kun edistys hidastui), ja erän koko 16, 50 epokin ajan, sääntelyä ja suoraa aktivaatiota (ReLU) sovellettiin ympäristössä.
Suorituskyky arvioitiin tarkin ja Pearsonin korrelaatio avulla, yhdessä koulutuksen kokonaissuoritusajan kanssa, ja tulokset keskiarvoitiin viiden suorituksen yli.
Tekijät ilmoittavat koulutusympäristöksi Intel-i7 3,6 GHz CPU:n ja 64 GB RAM:n ‘työpöytätietokoneella’:

Suorituskykyvertailu SCUT-FBP5500:lla, jossa E-BLS ja ER-BLS saavuttavat kilpailukykyisen tarkin syvien CNN-mallien, kuten ResNet50, EfficientNetB7, InceptionV3 ja Xception, kanssa, vaikka ne vaativat huomattavasti vähemmän koulutusaikaa.
Tulokset osoittivat, että E-BLS paransi tarkkuutta 65,85 prosentista 73,13 prosenttiin, kun taas ER-BLS saavutti 74,69 prosentin, ylittäen kaikki vertailtavat mallit. Koulutusaika säilyi huomattavasti alempana kuin syvien CNN-mallien, noin 1 300 sekuntia, verrattuna useisiin tuhansiin sekunteihin tai yli 25 000 sekuntiin.
LSAFBD-testeissä tulokset osoittivat, että E-BLS paransi tarkkuutta verrattuna perus-BLS:ään, kun taas ER-BLS saavutti korkeimman tarkin kaikista vertailtavista menetelmistä:

Suorituskyky LSAFBD:llä, jossa ER-BLS ja E-BLS toimittavat korkeamman tarkin kaikista vertailtavista perus- ja siirrosoppi-malleista, vaikka ne vaativat vain murto-osan niiden koulutusajasta.
Molemmat muunnelmat säilyivät huomattavasti alempina koulutusajat kuin syvät CNN-mallit, osoittaen tehokkaamman tasapainon suorituskyvyn ja laskennallisen kustannuksen välillä.
Johtopäätös
Tämä on jonkinlainen ‘throwback’-julkaisu, kuten voidaan nähdä sen käytöstä esimoderneista suosikeista, kuten CNN:stä, ja sen alhaisen tason koulutuslaitteiston käytöstä, jota olen koskaan nähnyt uudessa tutkimuksessa.
Silti se käsittelee yllättävän kestävää tavoitetta tietokoneen näön alalla; yhtä, joka koskettaa voimakkaasti inhimillistä kokemusta ja subjektiivista tulkintaa, ja joka vaatii skeeman, joka ylittää hetken esteettisiä trendejä, ja joka voi tarjota todella kestävän putken tehtävään.
Julkaistu ensimmäisen kerran torstaina, 19. maaliskuuta 2026












