Искусственный интеллект

Оценка Привлекательности Лица для Онлайн-Трансляций

Published January 8, 2025

Updated April 26, 2026

Martin Anderson

Image by ChatGPT, with superimposed image from the paper https://arxiv.org/pdf/2501.02509

На сегодняшний день, прогнозирование привлекательности лица (FAP) в основном изучалось в контексте психологических исследований, в индустрии красоты и косметики, а также в контексте пластической хирургии. Это сложная область исследования, поскольку стандарты красоты имеют тенденцию быть национальными, а не глобальными.

Это означает, что нет единой эффективной базы данных на основе ИИ, поскольку средние значения, полученные путем выборки лиц/оценок из всех культур, будут очень предвзятыми (где более населенные страны получат дополнительную поддержку), либо применимы к культуре вообще (где среднее значение нескольких рас/оценок будет равным ни одной реальной расе).

Вместо этого задача состоит в том, чтобы разработать концептуальные методологии и рабочие процессы, в которые можно обработать данные, специфичные для страны или культуры, чтобы ermögнить разработку эффективных моделей FAP для каждого региона.

Случаи использования FAP в исследованиях красоты и психологии довольно маргинальны, либо специфичны для отрасли; поэтому большинство наборов данных, собранных на сегодняшний день, содержат только ограниченные данные или не были опубликованы вообще.

Легкая доступность онлайн-предсказателей привлекательности, в основном ориентированных на западную аудиторию, не обязательно представляют собой состояние дел в FAP, которое, кажется, в настоящее время доминируется восточно-азиатскими исследованиями (в основном Китаем) и соответствующими восточно-азиатскими наборами данных.

Примеры набора данных из статьи 2020 года ‘Asian Female Facial Beauty Prediction Using Deep Neural Networks via Transfer Learning and Multi-Channel Feature Fusion’. Source: https://www.semanticscholar.org/paper/Asian-Female-Facial-Beauty-Prediction-Using-Deep-Zhai-Huang/59776a6fb0642de5338a3dd9bac112194906bf30

Более широкие коммерческие применения оценки красоты включают онлайн-приложения для знакомств, и системы генеративного ИИ, предназначенные для ‘улучшения’ реальных аватаров людей (поскольку такие приложения требуют количественного стандарта красоты в качестве метрики эффективности).

Рисование Лица

Привлекательные люди продолжают быть ценным активом в рекламе и построении влияния, что делает финансовые стимулы в этих секторах ясной возможностью для продвижения состояния дел в области FAP и наборов данных.

Например, модель ИИ, обученная реальными данными для оценки и рейтинга красоты лица, потенциально может выявить события или людей с высоким потенциалом для рекламного воздействия. Эта возможность будет особенно актуальна в контексте живых видео-трансляций, где метрики, такие как ‘подписчики’ и ‘лайки’, в настоящее время служат только неявными индикаторами способности человека (или даже типа лица) привлекать аудиторию.

Это поверхностный метрика, конечно, и голос, презентация и точка зрения также играют значительную роль в сборе аудитории. Поэтому сбор наборов данных FAP требует человеческого надзора, а также способности различать лицевую и ‘спекулятивную’ привлекательность (без которой внеклассные влияния, такие как Алекс Джонс, могут повлиять на среднюю кривую FAP для коллекции, предназначенной исключительно для оценки красоты лица).

LiveBeauty

Чтобы решить проблему нехватки наборов данных FAP, исследователи из Китая предлагают первый крупномасштабный набор данных FAP, содержащий 100 000 изображений лиц, вместе с 200 000 человеческими аннотациями, оценивающими красоту лица.

Примеры из нового набора данных LiveBeauty. Source: https://arxiv.org/pdf/2501.02509

Называемый LiveBeauty, набор данных содержит 10 000 разных идентификаторов, все из которых были получены из (неуказанных) платформ живых трансляций в марте 2024 года.

Авторы также представляют FPEM, новый много-модальный метод FAP. FPEM интегрирует целостные знания о лице и много-модальные эстетические семантические особенности через Модуль персонализированного приоритета привлекательности (PAPM), Модуль много-модальной привлекательности (MAEM) и Модуль слияния мод (CMFM).

Статья утверждает, что FPEM достигает лучших результатов на новом наборе данных LiveBeauty и других наборах данных FAP. Авторы отмечают, что исследование имеет потенциальные применения для улучшения качества видео, рекомендаций контента и ретуширования лица в живых трансляциях.

Авторы также обещают сделать набор данных доступным ‘скоро’ – хотя, должно быть признано, что любые ограничения лицензирования, присущие области источника, кажется, вероятно, перейдут к большинству применимых проектов, которые могут использовать эту работу.

Новая статья называется Facial Attractiveness Prediction в живых трансляциях: новый эталон и много-модальный метод, и исходит от десяти исследователей из Alibaba Group и Шанхайского университета Цзяо Тун.

Метод и Данные

Из каждой 10-часовой трансляции с платформ живых трансляций исследователи собрали одно изображение в час за первые три часа. Трансляции с наибольшим количеством просмотров были выбраны.

Собранные данные затем подвергались нескольким стадиям предварительной обработки. Первой из них является измерение размера области лица, которое использует модель обнаружения FaceBoxes 2018 года для генерации ограничивающей рамки вокруг лицевых черт. Pipeline обеспечивает, чтобы более короткая сторона ограничивающей рамки превышала 90 пикселей, избегая небольших или нечетких областей лица.

Второй шаг – обнаружение размытия, которое применяется к области лица с помощью дисперсии оператора Лапласа в канале высоты (Y) лицевого кадра. Эта дисперсия должна быть больше 10, что помогает фильтровать размытые изображения.

Третий шаг – оценка позы лица, которая использует модель оценки позы 3DDFA-V2 2021 года:

Примеры из модели оценки позы 3DDFA-V2. Source: https://arxiv.org/pdf/2009.09960

Здесь рабочий процесс обеспечивает, чтобы угол наклона обрезанного лица не превышал 20 градусов, а угол рыскания не превышал 15 градусов, что исключает лица с экстремальными позами.

Четвертый шаг – оценка пропорций лица, которая также использует возможности сегментации модели 3DDFA-V2, обеспечивая, чтобы пропорция области лица была больше 60% изображения, исключая изображения, где лицо не является заметным. т.е. небольшое в общей картине.

Наконец, пятый шаг – удаление дубликатов персонажей, которое использует модель распознавания лиц (неатрибутированную) для случаев, когда одна и та же идентификация появляется более чем в одном из трех изображений, собранных для 10-часового видео.

Оценка и Аннотация Человека

Двадцать аннотаторов были набраны, состоящие из шести мужчин и 14 женщин, отражающих демографию используемой платформы живых трансляций*. Лица были отображены на 6,7-дюймовом экране iPhone 14 Pro Max в постоянных лабораторных условиях.

Оценка была разделена на 200 сессий, каждая из которых использовала 50 изображений. Темам было предложено оценить привлекательность образцов по шкале от 1 до 5, с пяти-минутным перерывом между каждой сессией, и все темы участвовали во всех сессиях.

Следовательно, все 10 000 изображений были оценены двадцатью человеческими субъектами, в результате чего получилось 200 000 аннотаций.

Анализ и Предварительная Обработка

Сначала была проведена пост-экранизация субъектов с помощью коэффициента аутсайдера и коэффициента ранговой корреляции Спирмена (SROCC). Субъекты, чьи рейтинги имели SROCC меньше 0,75 или коэффициент аутсайдера больше 2%, были признаны ненадежными и были удалены, в результате чего было получено 20 субъектов..

Затем был рассчитан средний балл (MOS) для каждого изображения лица, путем усреднения баллов, полученных действительными субъектами. MOS служит эталонным баллом привлекательности для каждого изображения, и балл рассчитывается путем усреднения всех индивидуальных баллов от каждого действительного субъекта.

Наконец, анализ распределений MOS для всех образцов, а также для женских и мужских образцов, показал, что они демонстрируют гауссовское распределение, что соответствует реальным распределениям привлекательности лица:

Примеры распределений MOS LiveBeauty.

Большинство людей склонны иметь среднюю привлекательность лица, с меньшим количеством людей на экстремальных уровнях очень низкой или очень высокой привлекательности.

Кроме того, анализ показателей асимметрии и эксцесса показал, что распределения были характеризованы тонкими хвостами и были сконцентрированы вокруг среднего балла, и что высокая привлекательность была более распространена среди женских образцов в собранных видео-трансляциях.

Архитектура

Была использована двух-этапная стратегия обучения для модели FPEM и фазы гибридного слияния в LiveBeauty, разделенная на четыре модуля: Модуль персонализированного приоритета привлекательности (PAPM), Модуль много-модальной привлекательности (MAEM), Модуль слияния мод (CMFM) и Модуль решающего слияния (DFM).

Концептуальная схема конвейера обучения LiveBeauty.

Модуль PAPM принимает изображение в качестве входных данных и извлекает много-масштабные визуальные особенности с помощью Swin Transformer, и также извлекает особенности, осведомленные о лице, с помощью предварительно обученной модели FaceNet. Эти особенности затем объединяются с помощью блока перекрестного внимания для создания персонализированной ‘привлекательности’ особенности.

Также на предварительной фазе обучения MAEM использует изображение и текстовые описания привлекательности, используя CLIP для извлечения много-модальных эстетических семантических особенностей.

Шаблонные текстовые описания имеют форму ‘фотография человека с {a} привлекательностью’ (где {a} может быть плохой, плохой, средней, хорошей или идеальной). Процесс оценивает косинусную подобие между текстовыми и визуальными вложениями, чтобы получить вероятность уровня привлекательности.

На фазе гибридного слияния CMFM уточняет текстовые вложения с помощью персонализированной особенности привлекательности, сгенерированной PAPM, тем самым генерируя персонализированные текстовые вложения. Затем он использует стратегию регрессии подобия для membuat прогноза.

Наконец, DFM объединяет индивидуальные прогнозы от PAPM, MAEM и CMFM, чтобы произвести единый, окончательный балл привлекательности, с целью достижения прочного консенсуса.

Функции Потерь

Для метрик потерь PAPM обучается с помощью функции потерь L1, которая является мерой абсолютной разницы между прогнозируемым баллом привлекательности и фактическим (эталонным) баллом привлекательности.

Модуль MAEM использует более сложную функцию потерь, которая объединяет функцию потерь балла (LS) с объединенной функцией потерь ранжирования (LR). Функция потерь ранжирования (LR) состоит из функции потерь верности (LR1) и двух-направленной функции потерь ранжирования (LR2).

Функция потерь верности (LR1) сравнивает относительную привлекательность пар изображений, в то время как функция потерь ранжирования (LR2) обеспечивает, чтобы прогнозируемое распределение вероятностей уровней привлекательности имело один пик и уменьшалось в обоих направлениях. Этот объединенный подход направлен на оптимизацию как точного балла, так и правильного ранжирования изображений на основе привлекательности.

Модули CMFM и DFM обучаются с помощью простой функции потерь L1.

Тесты

В тестах исследователи противопоставили LiveBeauty девяти предыдущим подходам: ComboNet; 2D-FAP; REX-INCEP; CNN-ER (представленный в REX-INCEP); MEBeauty; AVA-MLSP; TANet; Dele-Trans; и EAT.

Методы, соответствующие протоколу оценки эстетики изображений (IAA), также были протестированы. Это были ViT-B; ResNeXt-50; и Inception-V3.

Помимо LiveBeauty, другие протестированные наборы данных были SCUT-FBP5000 и MEBeauty. Ниже показаны результаты тестов на трех наборах данных FAP:

Распределения MOS наборов данных.

Уважительно, эти гостевые наборы данных были разделены на 60%-40% и 80%-20% для обучения и тестирования, отдельно, чтобы сохранить последовательность с их оригинальными протоколами. LiveBeauty был разделен на 90%-10% основе.

Для инициализации модели в MAEM использовались VT-B/16 и GPT-2 в качестве кодировщиков изображений и текста, соответственно, инициализированных настройками из CLIP. Для PAPM использовался Swin-T в качестве обучаемого кодировщика изображений, в соответствии с SwinFace.

Оптимизатор AdamW был использован, и планировщик скорости обучения был установлен с линейным разогревом под косинусной аннелировкой. Скорости обучения различались на разных фазах обучения, но каждая имела размер партии 32, в течение 50 эпох.

Результаты тестов

Результаты тестов на трех наборах данных FAP показаны выше. Из этих результатов статья гласит:

‘Наш предложенный метод занимает первое место и превосходит второе место примерно на 0,012, 0,081, 0,021 по значениям SROCC на LiveBeauty, MEBeauty и SCUT-FBP5500 соответственно, что демонстрирует превосходство нашего предложенного метода.

‘Методы IAA являются худшими, чем методы FAP, что показывает, что общие методы оценки эстетики игнорируют лицевые особенности, участвующие в субъективной природе привлекательности лица, что приводит к плохой производительности на задачах FAP.

‘Производительность всех методов значительно снижается на MEBeauty. Это связано с тем, что обучающие образцы ограничены, и лица разнообразны по этнической принадлежности в MEBeauty, что указывает на большое разнообразие привлекательности лица.

‘Все эти факторы делают прогнозирование привлекательности лица в MEBeauty более сложной задачей.’

Этические Рассмотрения

Исследование привлекательности является потенциально спорной задачей, поскольку при установлении якобы эмпирических стандартов красоты такие системы будут иметь тенденцию к укреплению предубеждений вокруг возраста, расы и многих других разделов компьютерного зрения, связанного с людьми.

Можно утверждать, что система FAP внутренне предрасположена к укреплению и распространению частичных и предвзятых взглядов на привлекательность. Эти суждения могут возникнуть из человеческих аннотаций – часто проводимых на масштабах, слишком ограниченных для эффективной обобщаемости области – или из анализа моделей внимания в онлайн-средах, таких как платформы живых трансляций, которые, как можно утверждать, далеки от того, чтобы быть меритократическими.

* Статья ссылается на неизвестную область/области источника как в единственном, так и во множественном числе.

Опубликовано впервые в среду, 8 января 2025 года