Umetna inteligenca
Ocenjevanje napovedi privlačnosti obraza za prenose v živo

Doslej so napovedovanje privlačnosti obraza (FAP) preučevali predvsem v okviru psiholoških raziskav, v lepotni in kozmetični industriji ter v okviru kozmetične kirurgije. To je zahtevno študijsko področje, saj so standardi lepote ponavadi takšni nacionalni in ne svetovni.
To pomeni, da noben posamezen učinkovit nabor podatkov, ki temelji na umetni inteligenci, ni izvedljiv, ker bi bila povprečna povprečja, pridobljena z vzorčenjem obrazov/ocen iz vseh kultur, zelo pristranska (kjer bi bolj naseljeni narodi pridobili dodaten oprijem), sicer velja za nobene kulture (kjer bi povprečje več dirk/ocen pomenilo, da ni dejanske dirke).
Namesto tega je izziv razvoj konceptualne metodologije in poteke dela, v katere bi se lahko obdelali podatki, specifični za državo ali kulturo, da se omogoči razvoj učinkovitih modelov FAP po regijah.
Primeri uporabe FAP v lepotnih in psiholoških raziskavah so precej obrobni, sicer pa specifični za industrijo; zato večina naborov podatkov, ki so bili do danes obdelani, vsebuje le omejene podatke ali pa sploh niso bili objavljeni.
Preprosta dostopnost napovedovalcev spletne privlačnosti, ki so večinoma namenjeni zahodnemu občinstvu, ne predstavlja nujno najsodobnejšega v FAP, kjer se zdi, da trenutno prevladujejo vzhodnoazijske raziskave (predvsem Kitajska) in ustrezni vzhodnoazijski nabori podatkov.

Primeri nabora podatkov iz dokumenta iz leta 2020 »Napovedovanje lepote obraza azijskih žensk z uporabo globokih nevronskih mrež prek učenja prenosa in fuzije večkanalnih funkcij«. Source: https://www.semanticscholar.org/paper/Asian-Female-Facial-Beauty-Prediction-Using-Deep-Zhai-Huang/59776a6fb0642de5338a3dd9bac112194906bf30
Širše komercialne uporabe za ocenjevanje lepote vključujejo spletne aplikacije za zmenkein generativni sistemi umetne inteligence, zasnovani za 'popravite' prave slike avatarjev ljudi (ker so takšne aplikacije zahtevale kvantiziran standard lepote kot merilo učinkovitosti).
Risanje obrazov
Privlačni posamezniki so še naprej dragocena prednost pri oglaševanju in krepitvi vpliva, zaradi česar so finančne spodbude v teh sektorjih jasna priložnost za napredek najsodobnejših naborov podatkov in ogrodij FAP.
Na primer, model AI, usposobljen s podatki iz resničnega sveta za ocenjevanje in ocenjevanje lepote obraza, bi lahko potencialno prepoznal dogodke ali posameznike z velikim potencialom za oglaševalski učinek. Ta zmožnost bi bila še posebej ustrezna v kontekstu pretakanja videa v živo, kjer meritve, kot sta 'spremljevalci' in 'všečki', trenutno služijo le kot implicitno indikatorji sposobnosti posameznika (ali celo tipa obraza), da pritegne občinstvo.
To je seveda površna metrika, glas, predstavitev in stališče pa prav tako igrajo pomembno vlogo pri zbiranju občinstva. Zato urejanje naborov podatkov FAP zahteva človeški nadzor, pa tudi sposobnost razlikovanja obrazne od »navidezne« privlačnosti (brez česar bi vplivneži izven domene, kot je Alex Jones, lahko na koncu vplivali na povprečno krivuljo FAP za zbirko, zasnovano izključno oceniti lepoto obraza).
LiveBeauty
Da bi odpravili pomanjkanje naborov podatkov FAP, raziskovalci s Kitajske ponujajo prvi obsežen nabor podatkov FAP, ki vsebuje 100,000 slik obrazov, skupaj z 200,000 človeškimi opombami, ki ocenjujejo lepoto obraza.

Vzorci iz novega nabora podatkov LiveBeauty. Vir: https://arxiv.org/pdf/2501.02509
z naslovom LiveBeauty, nabor podatkov vsebuje 10,000 različnih identitet, vse zajete iz (nedoločenih) platform za pretakanje v živo marca 2024.
Avtorji predstavljajo tudi FPEM, novo multimodalno FAP metodo. FPEM združuje celostno predznanje obraza in večmodalno estetsko semantiko lastnosti prek Personalized Attractiveness Prior Module (PAPM), Multi-modal Attractiveness Encoder Module (MAEM) in Cross-Modal Fusion Module (CMFM).
Dokument trdi, da FPEM dosega najsodobnejšo zmogljivost na novem naboru podatkov LiveBeauty in drugih naborih podatkov FAP. Avtorji ugotavljajo, da ima raziskava potencialne aplikacije za izboljšanje kakovosti videoposnetkov, priporočanje vsebine in retuširanje obraza pri pretakanju v živo.
Avtorji tudi obljubljajo, da bodo nabor podatkov dali na voljo 'kmalu' – čeprav je treba priznati, da se vse omejitve licenciranja, ki so del izvorne domene, verjetno prenesejo na večino ustreznih projektov, ki bi lahko uporabili delo.
O nov papir je naslovljen Predvidevanje privlačnosti obraza pri prenosu v živo: nova merila in večmodalna metoda, prihaja pa od desetih raziskovalcev iz skupine Alibaba in šanghajske univerze Jiao Tong.
Metoda in podatki
Iz vsake 10-urne oddaje s platform za pretakanje v živo so raziskovalci prve tri ure izločili eno sliko na uro. Izbrane so bile oddaje z največ ogledi strani.
Zbrani podatki so bili nato predmet več faz predhodne obdelave. Prvi od teh je merjenje velikosti predela obraza, ki uporablja CPE 2018 FaceBoxes model zaznavanja za ustvarjanje omejevalnega okvirja okoli linij obraza. Cevovod zagotavlja, da krajša stranica omejevalnega polja presega 90 slikovnih pik, s čimer se izogne majhnim ali nejasnim območjem obraza.
Drugi korak je zaznavanje zamegljenosti, ki se nanese na območje obraza z uporabo variance Laplacev operator v kanalu višine (Y) obraznega izreza. Ta varianca mora biti večja od 10, kar pomaga filtrirati zamegljene slike.
Tretji korak je ocena položaja obraza, ki uporablja 2021 3DDFA-V2 model ocenjevanja poze:

Primeri iz modela ocenjevanja 3DDFA-V2. Vir: https://arxiv.org/pdf/2009.09960
Tukaj potek dela zagotavlja, da kot naklona obrezanega obraza ni večji od 20 stopinj, kot zasuka pa ne večji od 15 stopinj, kar izključuje obraze s skrajnimi položaji.
Četrti korak je ocena sorazmernosti obraza, ki prav tako uporablja zmožnosti segmentacije modela 3DDFA-V2 in zagotavlja, da je delež območja obrezanega obraza večji od 60 % slike, razen slik, kjer obraz ni izrazit. tj. majhna v celotni sliki.
Končno je peti korak odstranitev podvojenih znakov, ki uporablja (nepripisan) najsodobnejši model za prepoznavanje obrazov, za primere, ko se ista identiteta pojavi na več kot eni od treh slik, zbranih za 10-urni video.
Človeško vrednotenje in označevanje
Zaposlenih je bilo dvajset označevalcev, sestavljenih iz šestih moških in 14 žensk, ki odražajo demografijo uporabljene platforme v živo*. Obrazi so bili prikazani na 6.7-palčnem zaslonu iPhone 14 Pro Max v doslednih laboratorijskih pogojih.
Ocenjevanje je bilo razdeljeno na 200 sej, od katerih je vsaka uporabila 50 slik. Preiskovanci so bili naprošeni, da ocenijo obrazno privlačnost vzorcev z oceno 1-5, s petminutnim premorom med vsako sejo, vsi subjekti pa so sodelovali v vseh sejah.
Zato je bilo vseh 10,000 slik ovrednotenih na dvajsetih človeških subjektih, kar je prineslo 200,000 opomb.
Analiza in predhodna obdelava
Najprej je bilo izvedeno naknadno presejanje subjekta z uporabo razmerja izstopajočih vrednosti in Spearmanov rang korelacijski koeficient (SROCC). Subjekti, katerih ocene so imele SROCC manj kot 0.75 ali an zunaj razmerje večje od 2 % so bili ocenjeni kot nezanesljivi in so bili odstranjeni, pri čemer je bilo končno pridobljenih 20 subjektov.
Za vsako sliko obraza je bila nato izračunana povprečna ocena mnenja (MOS) s povprečenjem rezultatov, ki so jih pridobili veljavni subjekti. MOS služi kot zemeljska resnica oznako privlačnosti za vsako sliko, rezultat pa se izračuna s povprečenjem vseh posameznih rezultatov iz vsakega veljavnega predmeta.
Končno je analiza porazdelitev MOS za vse vzorce, pa tudi za ženske in moške vzorce, pokazala, da so pokazali Oblika v Gaussovem slogu, kar je skladno z dejanskimi porazdelitvami privlačnosti obraza:

Primeri distribucij LiveBeauty MOS.
Večina posameznikov ima običajno povprečno privlačnost obraza, manj posameznikov pa ima zelo nizko ali zelo visoko privlačnost.
Nadalje analiza poševnost in kurtoza vrednosti so pokazale, da so za porazdelitve značilni tanki repi in koncentrirane okoli povprečnega rezultata ter da visoka privlačnost je bila večja pri vzorcih žensk v zbranih pretočnih videoposnetkih v živo.
Arhitektura
Dvostopenjska strategija usposabljanja je bila uporabljena za Facial Prior Enhanced Multimodal model (FPEM) in Hybrid Fusion Phase v LiveBeauty, razdeljen na štiri module: Personalized Attractiveness Prior Module (PAPM), Multi-modal Attractiveness Encoder Module ( MAEM), navzkrižno modalni fuzijski modul (CMFM) in odločitveni fuzijski modul (DFM).

Konceptualna shema za izobraževalni program LiveBeauty.
Modul PAPM vzame sliko kot vhod in izvleče vizualne značilnosti v več merilih z uporabo a Swin Transformer, prav tako pa izlušči funkcije, ki se zavedajo obraza, s pomočjo predhodno usposobljenega FaceNet model. Te funkcije se nato združijo z uporabo a navzkrižna pozornost blok za ustvarjanje prilagojene funkcije 'privlačnosti'.
Tudi v fazi predhodnega usposabljanja MAEM uporablja slikovne in besedilne opise privlačnosti, ki izkoriščajo CLIP izluščiti večmodalne estetske pomenske značilnosti.
Predlogski besedilni opisi so v obliki 'fotografija osebe s {a} privlačnostjo' (kje {ima} je lahko slabo, slaba, sejem, dobro or popolna). Postopek ocenjuje kosinusna podobnost med besedilnimi in vizualnimi vdelavami, da bi dosegli verjetnost stopnje privlačnosti.
V fazi hibridne fuzije CMFM izpopolni besedilne vdelave z uporabo prilagojene funkcije privlačnosti, ki jo generira PAPM, in tako ustvari prilagojene besedilne vdelave. Nato uporabi a regresija podobnosti strategijo za napovedovanje.
Nazadnje DFM združuje posamezne napovedi iz PAPM, MAEM in CMFM, da ustvari en sam, končni rezultat privlačnosti, s ciljem doseči trdno soglasje
Funkcije izgube
za meritve izgube, je PAPM usposobljen z uporabo L1 izguba, merilo absolutne razlike med napovedanim rezultatom privlačnosti in dejanskim (osnovno resniškim) rezultatom privlačnosti.
Modul MAEM uporablja bolj zapleteno funkcijo izgube, ki združuje izgubo točkovanja (LS) z izgubo združene uvrstitve (LR). Izguba pri uvrstitvi (LR) obsega izgubo zvestobe (LR1) in a dvosmerna izguba na lestvici (LR2).
LR1 primerja relativno privlačnost parov slik, medtem ko LR2 zagotavlja, da ima predvidena verjetnostna porazdelitev stopenj privlačnosti en vrh in pada v obe smeri. Namen tega kombiniranega pristopa je optimizirati natančno točkovanje in pravilno razvrščanje slik na podlagi privlačnosti.
CMFM in DFM se usposabljata s preprosto izgubo L1.
Testi
V testih so raziskovalci primerjali LiveBeauty z devetimi prejšnjimi pristopi: ComboNet; 2D-FAP; REX-INCEP; CNN-ER (predstavljen v REX-INCEP); MEBeauty; AVA-MLSP; TANet; Dele-TransIn EAT.
Osnovne metode v skladu z an Estetska ocena slike Preizkušen je bil tudi protokol IAA. To so bili ViT-B; ResNeXt-50In Začetek-V3.
Poleg LiveBeauty so bili drugi testirani nabori podatkov SCUT-FBP5000 in MEBeauty. Spodaj so primerjane porazdelitve MOS teh nizov podatkov:

MOS porazdelitve primerjalnih nizov podatkov.
Oziroma so bili ti gostujoči nabori podatkov po delih 60%-40% in 80%-20% za usposabljanje in testiranje, ločeno, da se ohrani skladnost z njihovimi izvirnimi protokoli. LiveBeauty je bil razdeljen na podlagi 90%-10%.
Za inicializacijo modela v MAEM sta bila kot kodirnika slike in besedila uporabljena VT-B/16 in GPT-2, ki sta bila inicializirana z nastavitvami iz CLIP. Za PAPM je bil Swin-T uporabljen kot slikovni kodirnik, ki ga je mogoče učiti, v skladu z SwinFace.
O AdamW uporabljen je bil optimizator in a stopnja učenja scheduler nastavite z linearno ogrevanje pod a kosinusno žarjenje shema. Stopnje učenja so se med fazami usposabljanja razlikovale, vendar je imela vsaka velikost serije od 32, za 50 epohe.

Rezultati testov
Rezultati testov treh podatkovnih nizov FAP so prikazani zgoraj. Od teh rezultatov dokument navaja:
„Naša predlagana metoda dosega prvo mesto in presega drugo mesto za približno 0.012, 0.081, 0.021 v smislu vrednosti SROCC na LiveBeauty, MEBeauty oziroma SCUT-FBP5500, kar dokazuje superiornost naše predlagane metode.
„[Metode] IAA so slabše od metod FAP, kar kaže, da generične metode estetskega ocenjevanja spregledajo obrazne poteze, ki so vključene v subjektivno naravo privlačnosti obraza, kar vodi do slabe uspešnosti pri nalogah FAP.
„[Učinkovitost] vseh metod na MEBeauty znatno pade. To je zato, ker so vzorci za usposabljanje omejeni in so obrazi etnično raznoliki v MEBeauty, kar kaže, da obstaja velika raznolikost v privlačnosti obraza.
'Zaradi vseh teh dejavnikov je napovedovanje privlačnosti obraza v MEBeauty bolj zahtevno.'
Etični vidiki
Raziskovanje privlačnosti je potencialno razdiralno prizadevanje, saj bodo takšni sistemi pri vzpostavljanju domnevno empiričnih standardov lepote težili k krepitvi pristranskosti glede starosti, rase in mnogih drugih področij raziskav računalniškega vida, ki se nanašajo na ljudi.
Lahko bi trdili, da je sistem FAP sam po sebi predisponiran okrepiti in ohraniti delne in pristranske poglede na privlačnost. Te sodbe lahko izhajajo iz človeških opomb – pogosto izvedenih na lestvicah, ki so preveč omejene za učinkovito posploševanje domen – ali iz analize vzorcev pozornosti v spletnih okoljih, kot so pretočne platforme, ki verjetno še zdaleč niso meritokratske.
* Prispevek se nanaša na neimenovane izvorne domene v ednini in množini.
Prvič objavljeno v sredo, 8. januarja 2025