Искусственный интеллект
Система ИИ, которая может сделать изображения людей более ‘красивыми’

Исследователи из Китая разработали новую систему улучшения изображений на основе ИИ, способную сделать изображения человека более ‘красивыми’, на основе нового подхода к обучению с подкреплением.

Новый подход использует ‘сеть прогнозирования красоты лица’ для итерации через вариации изображения на основе ряда факторов, среди которых ‘освещение’ и положение глаз могут быть критическими факторами. Здесь исходные источники (слева каждой колонки)来自 системы EigenGAN, с новыми результатами справа от них. Источник: https://arxiv.org/pdf/2208.04517.pdf
Техника основана на инновациях, открытых для генератора EigenGAN, другого китайского проекта, из 2021 года, который сделал заметные шаги в выявлении и получении некоторого контроля над разнообразными семантическими атрибутами в латентном пространстве генеративных противостоящих сетей (GAN).

Генератор EigenGAN 2021 года смог индивидуализировать высокоуровневые концепции, такие как ‘цвет волос’, в латентном пространстве генеративной противостоящей сети. Новая работа основана на этом инновационном инструменте, чтобы доставить систему, которая может ‘украсить’ исходные изображения, но без изменения узнаваемой идентичности – проблема в предыдущих подходах. Источник: https://arxiv.org/pdf/2104.12476.pdf
Система использует ‘сеть оценки эстетики’ на основе SCUT-FBP5500 (SCUT), набора данных 2018 года для прогнозирования красоты лица, из Южного китайского университета технологий в Гуанчжоу.

Из статьи 2018 года ‘SCUT-FBP5500: Разнообразный набор данных для многопарадигмального прогнозирования красоты лица’, который предложил ‘сеть прогнозирования красоты лица’ (FBP), способную ранжировать лица по степени воспринимаемой привлекательности, но которая не могла фактически преобразовать или ‘улучшить’ лица. Источник: https://arxiv.org/pdf/1801.06345.pdf
В отличие от новой работы, проект 2018 года не может фактически выполнить преобразования, но содержит алгоритмические суждения о 5 500 лицах, предоставленные 60 смешанными маркерами (50/50 разделение). Эти были включены в новую систему в качестве эффективного дискриминатора, чтобы информировать преобразования, которые, вероятно, улучшат ‘привлекательность’ изображения.
Интересно, что новая статья называется Контролируемая атрибутами красивая генерация лица кавказской расы с помощью обучения с подкреплением, управляемого эстетикой. Причина, по которой все расы, кроме кавказской, исключены из системы (рассмотрите также, что исследователи сами китайцы), заключается в том, что источные данные для SCUT заметно смещены к азиатским источникам (4000 равномерно разделенных азиатских женщин/мужчин, 1500 равномерно разделенных кавказских женщин/мужчин), что делает ‘среднего человека’ в этом наборе данных коричневоволосым и кареглазым.
Поэтому, чтобы учесть вариацию окраски хотя бы внутри одной расы, было необходимо исключить азиатскую компоненту из исходных данных или же пойти на значительные расходы на реконструкцию данных, чтобы разработать метод, который может не оправдать себя. Кроме того, вариация культурных восприятий красоты неизбежно означает, что такие системы будут нуждаться в некоторой степени географической конфигурации в отношении того, что составляет ‘привлекательность’.
Важные атрибуты
Чтобы определить основные факторы, способствующие ‘привлекательному’ фотографии человека, исследователи также протестировали эффект различных изменений изображений в отношении того, насколько хорошо такие дополнения повысили алгоритмическое восприятие ‘красоты’. Они обнаружили, что хотя бы один из аспектов более важен для хорошей фотографии, чем для хорошей генетики:

Помимо освещения, аспекты, которые оказали наибольшее влияние на оценку красоты, были челкой (которая, в случае мужчин, может часто быть эквивалентна полной голове волос), позой тела и расположением глаз (где взаимодействие с точкой зрения камеры является фактором привлекательности).
(Что касается ‘цвета помады’, новая система, которая может работать эффективно на мужских и женских представлениях гендера, не индивидуализирует внешний вид гендера, а скорее полагается на новую систему дискриминатора в качестве ‘фильтра’ в этом отношении)
Метод
Функция вознаграждения в механизме обучения с подкреплением в новой системе управляется простой регрессией над данными SCUT, которая выводит прогнозы красоты лица.
Система обучения итеративно проходит через входные изображения (внизу слева на схеме ниже). Первоначально предварительно обученная модель ResNet18 (обученная на ImageNet) извлекает особенности из пяти идентичных (‘y’) изображений. Далее, потенциальное преобразующее действие выводится из скрытого состояния полностью связанного слоя (GRUCell, на изображении ниже), и преобразования применяются, что приводит к пяти измененным изображениям, которые подают в сеть оценки эстетики, чьи рейтинги, в стиле Дарвина, будут определять, какие вариации будут разработаны и какие отбрасываются.
Сеть оценки эстетики использует модуль эффективного канального внимания (ECA), в то время как адаптация предварительно обученной инстанции EfficientNet-B4 задача извлечения 1 792 особенностей из каждого изображения.
После нормализации через функцию активации ReLU, 4-мерный вектор получается обратно из модуля ECA, который затем уплощается до одномерного вектора после активации и адаптивного среднего пулинга. Наконец, результаты подают в сеть регрессии, которая извлекает оценку эстетики.

Качественное сравнение вывода системы. В нижней строке мы видим сумму всех индивидуализированных аспектов, которые были выявлены методом EigenGAN и последующим улучшением. Средние оценки FID для изображений находятся слева от строк изображений (больше лучше).
Тесты и пользовательское исследование
Пять вариантов предложенного метода были оценены алгоритмически (см. изображение выше), с использованием оценок расстояния Фреше (FID, спорные в некоторых кварталах) для 1000 изображений, прошедших через систему.
Исследователи отмечают, что улучшение освещения достигло лучшего балла привлекательности для субъектов на фотографиях, чем несколько других более ‘очевидных’ возможных изменений (т.е. к фактическому виду человека на изображении).
Чтобы некоторой степени тестирование системы таким образом ограничено эксцентричностями данных SCUT, которые не имеют многих ‘ярких улыбок’, и авторы утверждают, что это может чрезмерно переоценить более типичный ‘загадочный’ вид в данных, по сравнению с вероятными предпочтениями потенциальных конечных пользователей (предположительно, в данном случае, западного рынка).
Однако, поскольку вся система основана на средних мнениях всего 60 человек (в статье EigenGAN), и поскольку качество, которое изучается, далеко не эмпирическое, можно утверждать, что процедура более звучна, чем набор данных.
Хотя это кратко рассматривается в статье, изображения из EigenGAN и пять вариантов системы также были показаны в ограниченном пользовательском исследовании (восемь участников), которые были попрослены выбрать ‘лучшее изображение’ (слово ‘привлекательное’ было избегнуто).

Выше, GUI, представленный небольшой исследовательской группе; ниже, результаты.
Результаты показывают, что вывод новой системы достиг наивысшей скорости выбора среди участников (‘MAES’ на изображении выше).
Бесцельное преследование красоты
Полезность такой системы трудно установить, несмотря на то, что кажется заметным локусом усилий в Китае к этим целям. Ни один из них не изложен в новой публикации.
Предыдущая статья EigenGAN предполагает*, что система распознавания красоты может быть использована в системах рекомендации синтеза макияжа, эстетической хирургии, улучшении лица, или контент-ориентированном извлечении изображений.
Предположительно, такой подход также может быть использован на сайтах знакомств, пользователями, чтобы ‘улучшить’ свои собственные профильные фотографии в гарантированный ‘удачный снимок’, как альтернатива использованию устаревших фотографий или фотографий других людей.
Аналогично, сайты знакомств сами могут ‘оценить’ своих клиентов, чтобы создать рейтинги и даже ограниченные уровни доступа, хотя это, вероятно, будет работать только через аутентификацию живого захвата, а не через отправленные фотографии (которые также могут быть ‘улучшены’ клиентами, если этот подход станет популярным).
В рекламе алгоритмический метод оценки красоты (технология, предсказанная покойным научно-фантастическим автором Майклом Крайтоном в его кинопроизведении 1982 года Looker) может быть использован для выбора неулучшенного творческого вывода, наиболее вероятного для вовлечения целевой аудитории, в то время как возможность фактически максимизировать эстетическое воздействие изображений лиц, без фактического переписывания их в стиле deepfake, может повысить уже эффективные изображения, предназначенные для привлечения общественного внимания.
Новая работа поддерживается Национальным природным научным фондом Китая, проектом Открытого фонда Государственного ключевого лаборатории управления и контроля сложных систем, и проектом философских и социальных научных исследований Министерства образования Китая, среди других поддерживающих организаций.
* Многие рекомендации статьи EigenGAN указывают на коммерчески доступную книгу 2016 года под названием ‘Компьютерные модели для анализа красоты лица’, а не на академические ресурсы.
Опубликовано впервые 11 августа 2022 года.













