Штучний інтелект

Оцінка привабливості обличчя для прямої трансляції

Published January 8, 2025

Updated April 26, 2026

Martin Anderson

Image by ChatGPT, with superimposed image from the paper https://arxiv.org/pdf/2501.02509

На даний момент дослідження прогнозування привабливості обличчя (FAP) проводилися переважно в контексті психологічних досліджень, у сфері краси та косметики, а також у контексті пластичної хірургії. Це складна галузь дослідження, оскільки стандарти краси tend to бути національними, а не глобальними.

Це означає, що жодна ефективна база даних, заснована на штучному інтелекті, не є життєздатною, оскільки середні значення, отримані шляхом вибірки облич/рейтингів з усіх культур, будуть дуже упередженими (де більш численні нації отримують додатковий імпульс), інакше застосовуються до жодної культури (де середнє значення кількох рас/рейтингів буде дорівнювати жодній фактичній расі).

Натомість завдання полягає в розробці концептуальних методологій і робочих процесів, до яких можна обробляти країно- чи культурно-специфічні дані, щоб забезпечити розробку ефективних моделей FAP для кожного регіону.

Використання випадків FAP у сфері краси та психологічних досліджень досить маргінальне, інакше галузеве; тому більшість наборів даних, підібраних на даний момент, містять лише обмежені дані або не були опубліковані зовсім.

Легка доступність онлайн-передбачувачів привабливості, переважно орієнтованих на західну аудиторію, не обов’язково представляють стан справ у FAP, який зараз, здається, домінує східноазійські дослідження (переважно Китай), і відповідні східноазійські набори даних.

Приклади набору даних з роботи 2020 року ‘Прогнозування краси азіатських жінок за допомогою глибоких нейронних мереж через передачу навчання і фузію چندканальних ознак’. Джерело: https://www.semanticscholar.org/paper/Asian-Female-Facial-Beauty-Prediction-Using-Deep-Zhai-Huang/59776a6fb0642de5338a3dd9bac112194906bf30

Ширші комерційні застосування оцінки краси включають онлайн-дати та системи генерації штучного інтелекту, призначені для ‘відкоригування’ реальних аватарних зображень людей (оскільки такі застосування вимагають кількісного стандарту краси як метрики ефективності).

Малювання облич

Привабливі особи продовжують бути цінним активом у сфері реклами та впливу, роблячи фінансові стимули в цих секторах ясною можливістю для просування стану справ у наборах даних і рамках FAP.

Наприклад, модель штучного інтелекту, навчена реальними даними для оцінки та рейтингу краси обличчя, потенційно могла б ідентифікувати події або осіб з високим потенціалом для рекламного впливу. Ця здатність була б особливо актуальною у контексті прямої відеотрансляції, де метрики, такі як ‘підписники’ і ‘лайки’, зараз служать лише неявними індикаторами здатності особи (або навіть типу обличчя) приваблювати аудиторію.

Це поверхневий показник, звичайно, і голос, презентація та точка зору також відіграють значну роль у зборі аудиторії. Тому створення наборів даних FAP вимагає людського нагляду, а також здатності розрізняти обличчя від ‘спеціальної’ привабливості (без чого впливові особи, такі як Алекс Джонс, могли б вплинути на середню криву FAP для колекції, створеної виключно для оцінки краси обличчя).

LiveBeauty

Щоб подолати нестачу наборів даних FAP, дослідники з Китаю пропонують перший великомасштабний набір даних FAP, який містить 100 000 зображень облич, разом з 200 000 людських анотацій, що оцінюють красу обличчя.

Зразки нового набору даних LiveBeauty. Джерело: https://arxiv.org/pdf/2501.02509

Названий LiveBeauty, набір даних містить 10 000 різних ідентичностей, всі з яких були захоплені з (не вказаних) платформ прямої трансляції у березні 2024 року.

Автори також представляють FPEM, новий багатомодальний метод FAP. FPEM інтегрує голістичні знання про обличчя та багатомодальні естетичні семантичні ознаки через Персоналізований модуль попереднього знання привабливості (PAPM), модуль багатомодальної кодування привабливості (MAEM) і модуль фузії різних модальностей (CMFM).

Стаття стверджує, що FPEM досягає стану справ у новому наборі даних LiveBeauty та інших наборах даних FAP. Автори відзначають, що дослідження має потенційні застосування для покращення якості відео, рекомендацій контенту та ретушування облич у прямій трансляції.

Автори також обіцяють зробити набір даних доступним ‘скоро’ – хоча слід зазначити, що будь-які ліцензійні обмеження, властиві джерельній області, здаються ймовірними для передачі до більшості проектів, які можуть використовувати цю роботу.

Нова робота називається Прогнозування привабливості обличчя у прямій трансляції: новий бенчмарк і багатомодальний метод і походить від десяти дослідників з групи Alibaba та Шанхайського університету Цзяо Тун.

Метод і дані

З кожної 10-годинної трансляції з платформ прямої трансляції дослідники зібрали одне зображення на годину за перші три години. Трансляції з найбільшою кількістю переглядів сторінок були відібрані.

Зібрані дані потім піддавалися кільком стадіям попередньої обробки. Першою з них є вимірювання розміру області обличчя, яке використовує модель виявлення FaceBoxes 2018 року для генерації обмежувального кадру навколо ліній обличчя. Потік забезпечує те, що коротша сторона обмежувального кадру перевищує 90 пікселів, уникając малих або нечітких областей обличчя.

Другим етапом є виявлення розмитості, яке застосовується до області обличчя за допомогою дисперсії оператора Лапласа у висотному (Y) каналі обличчя. Ця дисперсія повинна бути більшою за 10, що допомагає фільтрувати розмиті зображення.

Третій етап – оцінка пози обличчя, яка використовує модель оцінки пози 3DDFA-V2 2021 року:

Приклади моделі оцінки пози 3DDFA-V2. Джерело: https://arxiv.org/pdf/2009.09960

Тут робочий процес забезпечує те, що кут підйому обрізаного обличчя не перевищує 20 градусів, а кут повороту не перевищує 15 градусів, що виключає обличчя з крайніми позами.

Четвертий етап – оцінка пропорцій обличчя, яка також використовує можливості сегментації моделі 3DDFA-V2, забезпечуючи те, що пропорція обрізаної області обличчя більша за 60% зображення, виключає зображення, де обличчя не є видатним, тобто малим у загальному зображенні.

Нарешті, п’ятий етап – видалення дублікатів персонажів, яке використовує модель визнання облич (не вказану), для випадків, коли одна й та сама ідентичність з’являється в одному з трьох зображень, зібраних для 10-годинного відео.

Оцінка і анотація людини

Двадцять анотаторів були набрані, складаючи шість чоловіків і 14 жінок, що відображають демографію платформи прямої трансляції*. Обличчя відображалися на 6,7-дюймовому екрані iPhone 14 Pro Max у сталих лабораторних умовах.

Оцінка була розділена на 200 сесій, кожна з яких використовувала 50 зображень. Піддані були запитані про оцінку привабливості зразків за балом з 1 до 5, з п’ятихвилинною перервою між кожною сесією, і всі піддані брали участь у всіх сесіях.

Отже, усі 10 000 зображень були оцінені двадцятьма людьми, що призвело до 200 000 анотацій.

Аналіз і попередня обробка

Спочатку була проведена оцінка після екрану за допомогою коефіцієнта аутсайдера і коефіцієнта рангової кореляції Спірмена (SROCC). Піддані, чиї оцінки мали коефіцієнт Спірмена менше 0,75 або коефіцієнт аутсайдера понад 2%, вважалися ненадійними і були видалені, з 20 підданими, яких було отримано наприкінці..

Середній бал оцінки (MOS) був потім розрахований для кожного зображення обличчя, шляхом усереднення балів, отриманих дійсними підданими. MOS служить еталонним показником привабливості для кожного зображення, і бал розрахований шляхом усереднення всіх індивідуальних балів від кожного дійсного підданого.

Нарешті, аналіз розподілу MOS для всіх зразків, а також для жіночих і чоловічих зразків, показав, що вони мали гауссоподібну форму, що відповідає реальним розподілам привабливості обличчя:

Приклади розподілу MOS LiveBeauty.

Більшість осіб мають середню привабливість обличчя, з меншою кількістю осіб на крайніх межах низької або високої привабливості.

Крім того, аналіз асиметрії і крутості показав, що розподіли характеризувалися тонкими хвостами і були зосереджені навколо середнього балу, і що висока привабливість була більш поширена серед жіночих зразків у зібраних відео прямої трансляції.

Архітектура

Була використана двостадійна стратегія навчання для моделі FPEM і фази гібридної фузії в LiveBeauty, розділеної на чотири модулі: Персоналізований модуль попереднього знання привабливості (PAPM), модуль багатомодальної кодування привабливості (MAEM), модуль фузії різних модальностей (CMFM) і модуль рішення фузії (DFM).

Концептуальна схема тренувального потоку LiveBeauty.

Модуль PAPM приймає зображення як вхідні дані і витягує візуальні ознаки چندомасштабного виду за допомогою трансформатора Swin, і також витягує ознаки, залежні від обличчя, за допомогою попередньо навченої моделі FaceNet. Ці ознаки потім поєднуються за допомогою блоку взаємної уваги для створення персоналізованої ‘привабливої’ ознаки.

Також у попередній фазі навчання MAEM використовує зображення і текстові описи привабливості, використовуючи CLIP для витягування багатомодальних естетичних семантичних ознак.

Шаблонні текстові описи мають форму ‘фотографія особи з {a} привабливістю’ (де {a} може бути поганою, слабкою, середньою, доброю або ідеальною). Процес оцінює косинусну подібність між текстовими і візуальними вкладеннями для отримання ймовірності рівня привабливості.

У фазі гібридної фузії CMFM уточнює текстові вкладення за допомогою персоналізованої ознаки привабливості, створеної PAPM, тим самим генеруючи персоналізовані текстові вкладення. Потім він використовує стратегію регресії подібності для здійснення прогнозу.

Нарешті, DFM поєднує окремі прогнози від PAPM, MAEM і CMFM для отримання єдиного остаточного балу привабливості, з метою досягнення стійкої згоди.

Функції втрат

Для метрик втрат модуль PAPM навчається за допомогою втрат L1, міри абсолютної різниці між передбаченим балом привабливості і фактичним (еталонним) балом привабливості.

Модуль MAEM використовує більш складну функцію втрат, яка поєднує втрати оцінювання (LS) з об’єднаною втратою ранжування (LR). Втрати ранжування (LR) складаються з втрат вірності (LR1) і двонаправленої втрати ранжування (LR2).

Втрати ранжування (LR1) порівнюють відносну привабливість пар зображень, тоді як втрати ранжування (LR2) забезпечують, що передбачена ймовірнісна розподіл рівнів привабливості має один пік і зменшується в обидва боки. Цей поєднаний підхід спрямований на оптимізацію як точного оцінювання, так і правильного ранжування зображень за привабливістю.

CMFM і DFM навчаються за допомогою простої втрати L1.

Тести

У тестах дослідники протиставили LiveBeauty дев’яти попереднім підходам: ComboNet; 2D-FAP; REX-INCEP; CNN-ER (представлений у REX-INCEP); MEBeauty; AVA-MLSP; TANet; Dele-Trans; і EAT.

Базові методи, що відповідають протоколу оцінки естетики зображень (IAA), також були протестовані. Це були ViT-B; ResNeXt-50; і Inception-V3.

Поряд з LiveBeauty інші набори даних, що тестувалися, були SCUT-FBP5000 і MEBeauty. Нижче порівнюються розподіли MOS цих наборів даних:

Розподіли MOS бенчмаркових наборів даних.

Відповідно, ці гостьові набори даних були розділені на 60%-40% і 80%-20% для навчання і тестування, окремо, для підтримки їхніх оригінальних протоколів. LiveBeauty був розділений на 90%-10%.

Для ініціалізації моделі в MAEM були використані VT-B/16 і GPT-2 як кодувальники зображень і тексту відповідно, ініціалізовані налаштуваннями з CLIP. Для PAPM був використаний Swin-T як навчальний кодувальник зображень, у відповідності з SwinFace.

ОPTYMІЗATOR AdamW був використаний, і графік швидкості навчання планувальника був встановлений з лінійним розігрівом під схемою косинусного анеалів. Швидкості навчання відрізнялися під час фаз навчання, але кожна мала розмір партії 32, протягом 50 епох.

Результати тестів

Результати тестів на трьох наборах даних FAP показані вище. З цих результатів статті говорить:

‘Наш запропонований метод займає перше місце і перевершує друге місце приблизно на 0,012, 0,081, 0,021 за значеннями SROCC на LiveBeauty, MEBeauty і SCUT-FBP5500 відповідно, що демонструє перевагу нашого запропонованого методу.

‘Методи IAA є нижчими за методи FAP, що свідчить про те, що загальні методи оцінки естетики не враховують особливості обличчя, залучені до суб’єктивної природи привабливості обличчя, що призводить до поганої продуктивності на завданнях FAP.

‘Продуктивність усіх методів значно знижується на MEBeauty. Це відбувається через те, що навчальні зразки обмежені, а обличчя етнічно різноманітні в MEBeauty, що вказує на велику різноманітність привабливості обличчя.

‘Всі ці фактори роблять передбачення привабливості обличчя в MEBeauty ще більш складним.’

Етичні розгляди

Дослідження привабливості є потенційно роздільним заняттям, оскільки при встановленні певних емпіричних стандартів краси такі системи будуть схильні посилювати упередження щодо віку, раси та багатьох інших розділів дослідження комп’ютерного зору, пов’язаного з людьми.

Можна стверджувати, що система FAP є внутрішньо передбаченою для посилення і підтримки часткових і упереджених поглядів на привабливість. Ці судження можуть виникнути з людських анотацій – часто проводяться в масштабах, надто обмежених для ефективної загальної реалізації – або з аналізу моделей уваги в онлайн-середовищах, таких як платформи прямої трансляції, які, як можна вважати, далекі від меритократії.

* Стаття посилається на неназвані джерельні області як у однині, так і у множині.

Перша публікація – середа, 8 січня 2025 року

Martin Anderson

Писатель про машинне навчання, домен-спеціаліст у сфері синтезу зображень людини. Колишній керівник дослідницького контенту в Metaphysic.ai.
Особистий сайт: martinanderson.ai
Контакт: [email protected]