Umělá inteligence
Odhadování předpovědi atraktivity obličeje pro živé přenosy

Doposud byla předpověď přitažlivosti obličeje (Facial Attractiveness Prediction, FAP) primárně studována v kontextu psychologického výzkumu, v kosmetickém a kosmetickém průmyslu a v kontextu kosmetické chirurgie. Je to náročný studijní obor, protože standardy krásy bývají spíše národní než globální.
To znamená, že žádný jediný efektivní datový soubor založený na umělé inteligenci není životaschopný, protože průměrné průměry získané ze vzorkování obličejů/hodnocení ze všech kultur by byly velmi zkreslené (kde by lidnatější národy získaly další přitažlivost), jinak by se vztahovaly na vůbec žádná kultura (kde průměrný průměr více ras/hodnocení by se rovnal žádné skutečné rase).
Místo toho je výzvou se rozvíjet koncepční metodiky a pracovní postupy, do kterých by mohly být zpracovány údaje specifické pro zemi nebo kulturu, aby bylo možné vyvinout efektivní modely FAP pro jednotlivé regiony.
Případy použití FAP v kosmetickém a psychologickém výzkumu jsou zcela okrajové, jinak specifické pro odvětví; proto většina datových souborů, které byly doposud kurovány, obsahuje pouze omezené údaje nebo nebyly publikovány vůbec.
Snadná dostupnost online prediktorů atraktivity, většinou zaměřených na západní publikum, nemusí nutně představovat nejmodernější v FAP, kterému v současnosti dominuje východoasijský výzkum (především Čína) a odpovídající východoasijské datové soubory.

Příklady datových souborů z dokumentu z roku 2020 „Asian Female Facial Beauty Prediction using Deep Neuron Networks through Transfer Learning and Multi-Channel Feature Fusion“. Source: https://www.semanticscholar.org/paper/Asian-Female-Facial-Beauty-Prediction-Using-Deep-Zhai-Huang/59776a6fb0642de5338a3dd9bac112194906bf30
Mezi širší komerční využití pro odhad krásy patří online seznamovací aplikacea generativní systémy umělé inteligence navržené pro 'retuš' skutečné avatarské obrázky lidí (protože takové aplikace vyžadovaly kvantovaný standard krásy jako metriku účinnosti).
Kreslení obličejů
Atraktivní jednotlivci jsou i nadále cenným aktivem v reklamě a budování vlivu, díky čemuž jsou finanční pobídky v těchto odvětvích jasnou příležitostí pro rozvoj nejmodernějších souborů dat a rámců FAP.
Například model umělé inteligence vyškolený s reálnými daty k posouzení a hodnocení krásy obličeje by mohl potenciálně identifikovat události nebo jednotlivce s vysokým potenciálem dopadu reklamy. Tato možnost by byla zvláště relevantní v kontextu živého streamování videa, kde metriky jako „sledující“ a „lajky“ v současnosti slouží pouze jako implicitní indikátory schopnosti jednotlivce (nebo i typu obličeje) zaujmout publikum.
To je samozřejmě povrchní metrika a hlas, prezentace a hledisko také hrají významnou roli při shromažďování publika. Kurátorství datových souborů FAP proto vyžaduje lidský dohled a také schopnost rozlišit obličejovou atraktivitu od „okázalé“ (bez které by vlivní lidé mimo doménu, jako je Alex Jones, mohli nakonec ovlivnit průměrnou křivku FAP pro kolekci navrženou výhradně odhadnout krásu obličeje).
LiveBeauty
Aby se vyřešil nedostatek datových souborů FAP, vědci z Číny nabízejí první rozsáhlou datovou sadu FAP, která obsahuje 100,000 200,000 obrázků obličeje spolu s XNUMX XNUMX lidskými poznámkami odhadujícími krásu obličeje.

Ukázky z nové datové sady LiveBeauty. Zdroj: https://arxiv.org/pdf/2501.02509
Opravňovaný LiveBeauty, datová sada obsahuje 10,000 2024 různých identit, všechny zachycené z (nespecifikovaných) platforem pro živé vysílání v březnu XNUMX.
Autoři také představují FPEM, novou multimodální metodu FAP. FPEM integruje holistické předchozí znalosti obličeje a multimodální estetickou sémantiku funkce prostřednictvím modulu Personalized Attractiveness Prior Module (PAPM), modulu multimodálního kodéru přitažlivosti (MAEM) a modulu Cross-Modal Fusion Module (CMFM).
Článek tvrdí, že FPEM dosahuje špičkového výkonu na nové datové sadě LiveBeauty a dalších datových sadách FAP. Autoři poznamenávají, že výzkum má potenciální aplikace pro zlepšení kvality videa, doporučení obsahu a retušování obličeje v živém vysílání.
Autoři také slibují, že datovou sadu zpřístupní „brzy“ – i když je třeba připustit, že jakákoli licenční omezení vlastní zdrojové doméně se pravděpodobně přenesou na většinu použitelných projektů, které by mohly dílo využít.
Jedno nový papír je s názvem Predikce atraktivity obličeje v živém vysílání: Nový benchmark a multimodální metodaa pochází od deseti výzkumníků z Alibaba Group a Shanghai Jiao Tong University.
Metoda a data
Z každého 10hodinového vysílání z platforem pro živé vysílání výzkumníci vybírali jeden snímek za hodinu po dobu prvních tří hodin. Byla vybrána vysílání s nejvyšším počtem zobrazení stránek.
Shromážděná data byla následně podrobena několika fázím předběžného zpracování. První z nich je měření velikosti oblasti obličeje, který používá procesor 2018 FaceBoxy detekční model pro generování ohraničujícího rámečku kolem linií obličeje. Potrubí zajišťuje, že kratší strana ohraničovacího rámečku přesahuje 90 pixelů, čímž se vyhne malým nebo nejasným oblastem obličeje.
Druhým krokem je detekce rozostření, který se aplikuje na oblast obličeje pomocí rozptylu Laplaciánský operátor ve výškovém (Y) kanálu oříznutí obličeje. Tento rozptyl musí být větší než 10, což pomáhá odfiltrovat rozmazané obrázky.
Třetím krokem je odhad pozice obličeje, který používá 2021 3DDFA-V2 model odhadu pozice:

Příklady z modelu odhadu 3DDFA-V2. Zdroj: https://arxiv.org/pdf/2009.09960
Pracovní postup zde zajišťuje, že úhel sklonu oříznuté tváře není větší než 20 stupňů a úhel natočení není větší než 15 stupňů, což vylučuje tváře s extrémními pozicemi.
Čtvrtým krokem je posouzení proporcí obličeje, který také využívá možnosti segmentace modelu 3DDFA-V2, což zajišťuje, že podíl oříznuté oblasti obličeje je větší než 60 % obrazu, s výjimkou snímků, kde obličej není výrazný. tj. malý v celkovém obrazu.
Konečně je pátý krok odstranění duplicitních znaků, která využívá (nepřiřazený) nejmodernější model rozpoznávání obličeje pro případy, kdy se stejná identita objeví ve více než jednom ze tří snímků shromážděných pro 10hodinové video.
Lidské hodnocení a anotace
Bylo přijato dvacet anotátorů, skládajících se ze šesti mužů a 14 žen, což odráží demografii použité živé platformy*. Obličeje byly zobrazeny na 6.7palcové obrazovce iPhonu 14 Pro Max za konzistentních laboratorních podmínek.
Hodnocení bylo rozděleno do 200 relací, z nichž každá zahrnovala 50 snímků. Subjekty byly požádány, aby ohodnotily atraktivitu obličeje vzorků na skóre 1-5, s pětiminutovou přestávkou mezi každým sezením a všemi subjekty, které se účastnily všech sezení.
Proto byl celých 10,000 200,000 obrázků vyhodnoceno na dvaceti lidských subjektech a dosáhlo se XNUMX XNUMX anotací.
Analýza a předzpracování
Nejprve byl proveden postscreening subjektu s použitím odlehlého poměru a Spearmanův korelační koeficient hodnosti (SROCC). Subjekty, jejichž hodnocení mělo SROCC méně než 0.75 nebo an outlier poměr větší než 2 % byly považovány za nespolehlivé a byly odstraněny, přičemž nakonec bylo získáno 20 subjektů.
Pro každý snímek obličeje bylo poté vypočítáno průměrné skóre mínění (MOS) zprůměrováním skóre získaných platnými subjekty. MOS slouží jako pozemní pravda štítek atraktivity pro každý obrázek a skóre se vypočítá zprůměrováním všech jednotlivých skóre od každého platného subjektu.
Konečně analýza distribuce MOS pro všechny vzorky, stejně jako pro ženské a mužské vzorky, ukázala, že vykazovaly Tvar v Gaussově stylu, což je v souladu s distribucí atraktivity obličeje v reálném světě:

Příklady distribucí LiveBeauty MOS.
Většina jedinců má tendenci mít průměrnou atraktivitu obličeje, s menším počtem jedinců na extrémech velmi nízké nebo velmi vysoké atraktivity.
Dále analýza šikmost a špičatost hodnoty ukázaly, že distribuce byly charakterizovány tenkými ocasy a soustředěny kolem průměrného skóre, a to vysoká atraktivita byla více převládající mezi ženskými vzorky ve shromážděných živých streamovaných videích.
Architektura
Pro Facial Prior Enhanced Multi-modal model (FPEM) a Hybrid Fusion Phase v LiveBeauty byla použita dvoufázová tréninková strategie, rozdělená do čtyř modulů: Personalized Attractiveness Prior Module (PAPM), Multimodální modul kodéru přitažlivosti ( MAEM), modul cross-modální fúze (CMFM) a modul fúze rozhodování (DFM).

Koncepční schéma pro tréninkový kanál LiveBeauty.
Modul PAPM bere obrázek jako vstup a extrahuje víceúrovňové vizuální prvky pomocí a Swin Transformer, a také extrahuje obličejové rysy pomocí předem trénovaného FaceNet model. Tyto vlastnosti jsou pak kombinovány pomocí a křížová pozornost blok pro vytvoření personalizované funkce „atraktivity“.
Také ve fázi předběžného školení MAEM používá obrázkové a textové popisy atraktivity, pákového efektu CLIP extrahovat multimodální estetické sémantické rysy.
Šablony textových popisů jsou ve formě 'fotka člověka s {a} přitažlivostí' (kde {v} může být špatný, chudý, spravedlivý, dobrý or perfektní). Proces odhaduje kosinusová podobnost mezi textovým a vizuálním vložením, aby se dosáhlo pravděpodobnosti úrovně atraktivity.
Ve fázi hybridní fúze CMFM vylepšuje textová vložení pomocí funkce personalizované atraktivity generované PAPM, čímž generuje personalizovaná textová vložení. Poté používá a regrese podobnosti strategii k předpovědi.
Nakonec DFM kombinuje jednotlivé předpovědi z PAPM, MAEM a CMFM a vytváří jediné konečné skóre atraktivity s cílem dosáhnout solidního konsenzu.
Ztrátové funkce
Pro metriky ztrát, PAPM je trénován pomocí an ztráta L1, míra absolutního rozdílu mezi předpokládaným skóre atraktivity a skutečným (základní pravdou) skóre atraktivity.
Modul MAEM využívá komplexnější ztrátovou funkci, která kombinuje ztrátu bodování (LS) se sloučenou ztrátou v pořadí (LR). Ztráta pořadí (LR) zahrnuje ztrátu věrnosti (LR1) aa dvousměrná ztráta pořadí (LR2).
LR1 porovnává relativní atraktivitu obrazových párů, zatímco LR2 zajišťuje, že předpokládané rozdělení pravděpodobnosti úrovní atraktivity má jeden vrchol a klesá v obou směrech. Tento kombinovaný přístup si klade za cíl optimalizovat jak přesné bodování, tak správné řazení obrázků na základě atraktivity.
CMFM a DFM jsou trénovány pomocí jednoduché ztráty L1.
Zkoušky
V testech vědci postavili LiveBeauty proti devíti předchozím přístupům: ComboNet; 2D-FAP; REX-INCEP; CNN-ER (uvedený v REX-INCEP); MEKrása; AVA-MLSP; TANet; Dele-TransA EAT.
Základní metody odpovídající an Estetické hodnocení obrázku Testován byl také protokol (IAA). Tyto byly ViT-B; ResNeXt-50A Počátek-V3.
Kromě LiveBeauty byly testovány další datové sady SCUT-FBP5000 a MEBeauty. Níže jsou porovnány distribuce MOS těchto datových sad:

MOS distribuce referenčních datových sad.
Respektive tyto datové sady hostů byly rozdělit 60%-40% a 80%-20% pro školení a testování, samostatně, aby byla zachována konzistence s jejich původními protokoly. LiveBeauty byla rozdělena na 90%-10% základ.
Pro inicializaci modelu v MAEM byly jako kodéry obrazu a textu použity VT-B/16 a GPT-2 inicializované nastavením z CLIP. Pro PAPM byl jako trénovatelný kodér obrazu použit Swin-T v souladu s SwinFace.
Jedno AdamW byl použit optimalizátor a a rychlost učení plánovač sada s lineární zahřívání pod a kosinové žíhání systém. Míra učení se v různých fázích tréninku lišila, ale každá měla a objem várky z 32, za 50 epochy.

Výsledky z testů
Výsledky testů na třech souborech dat FAP jsou uvedeny výše. Z těchto výsledků práce uvádí:
„Naše navrhovaná metoda dosahuje prvního místa a překonává druhé místo o přibližně 0.012, 0.081, 0.021, pokud jde o hodnoty SROCC na LiveBeauty, MEBeauty a SCUT-FBP5500, což dokazuje nadřazenost námi navrhované metody.
„Metody IAA jsou horší než metody FAP, což ukazuje, že generické metody estetického hodnocení přehlížejí rysy obličeje, které se podílejí na subjektivní povaze přitažlivosti obličeje, což vede ke špatnému výkonu úkolů FAP.
„[Výkon] všech metod na MEBeauty výrazně klesá. Je to proto, že tréninkové vzorky jsou omezené a tváře jsou v MEBeauty etnicky různorodé, což naznačuje, že existuje velká rozmanitost v atraktivitě obličeje.
"Všechny tyto faktory činí předpověď atraktivity obličeje v MEBeauty náročnější."
Etické úvahy
Výzkum přitažlivosti je potenciálně rozdělujícím cílem, protože při zavádění údajně empirických standardů krásy budou mít takové systémy tendenci posilovat předsudky týkající se věku, rasy a mnoha dalších částí výzkumu počítačového vidění, pokud jde o lidi.
Dalo by se namítnout, že systém FAP je svou podstatou predisponovaný posílit a zachovat částečné a zaujaté pohledy na atraktivitu. Tyto úsudky mohou vycházet z anotací vedených lidmi – často prováděných na měřítkách příliš omezených pro efektivní zobecnění domén – nebo z analýzy vzorců pozornosti v online prostředích, jako jsou streamovací platformy, které pravděpodobně nejsou meritokratické.
* Článek odkazuje na nepojmenovanou zdrojovou doménu/domény v jednotném i množném čísle.
Poprvé zveřejněno ve středu 8. ledna 2025