Взгляд Anderson

Преследование красоты ИИ

Опубликовано 19 марта 2026

Обновлено 16 мая 2026

Martin Anderson

AI-generated image featuring a woman whose face is being analyzed by a Terminator-style HUD. GPT-1.5.

Новая система оценки красоты, основанная на ИИ, оценивает, насколько лица выглядят привлекательно, при этом обучаясь быстрее, чем типичные модели глубокого обучения, что потенциально делает более практичной крупномасштабную автоматизированную оценку красоты.

Прогнозирование красоты лица (FBP) – это большое дело, и довольно сильная нить в исследовательской литературе. Хотя это нарушает практически все принципы борьбы с предвзятостью в ИИ и методах машинного обучения, и хотя это в многих отношениях поддерживает объективацию и редукционизм в алгоритмических восприятиях женщин, оно тем не менее привлекает интерес нескольких многомиллиардных долларов отраслей, большинство из которых направлены непосредственно на женщин, такие как косметика, косметическая хирургия лица, ливестриминг и мода, среди прочих:

Женщины, оцененные от 1 до 5, из статьи ‘Прогнозирование красоты лица азиатских женщин с помощью глубоких нейронных сетей через перенос обучения и многоканальное слияние признаков’. Источник

За пределами этих очевидных женских бизнес-энклавов, реклама и множество других отраслей, включая развлечение и издательство, имеют заметные ставки в понимании того, что и мужчины, и женщины находят ‘привлекательным’, обязательно на культурной основе.

Факт того, что агрегированные восприятия красоты варьируются по регионам, означает, что не может быть получено никаких определенных глобально-применимых наборов данных, и что новые исследования должны либо оставаться провинциальными, либо сосредоточиться на ‘высокоуровневых’ методах, которые могут быть применены к разнообразным культурным данным.

Интерфейс для системы оценки красоты лица для проекта SCUT-FBP 2015 года. Источник

Часто географическое местоположение не является единственным ограничением, поскольку наборы данных, ориентированные на привлекательность, могут испытывать трудности в обеспечении равной эффективности для обоих полов или могут быть отобраны с учетом конкретного применения – и это может ограничить использование коллекции в других областях.

Например, в 2025 году я сообщил о разработке относительно крупномасштабного (100 000+ идентификаторов) набора данных для оценки привлекательности в ливестриминге, чьи близко обрезанные стандарты могут потребовать заметной адаптации для более широких проектов, несмотря на огромные усилия, стоящие за этой инициативой.

Внешность лица

Как может быть очевидно из ссылок и изображений выше, азиатские исследовательские организации часто не действуют в рамках одних и тех же культурных ограничений, что и их западные коллеги, которые были бы вынуждены опубликовать научную иллюстрацию, оценивающую пять западных женщин от наименее до наиболее привлекательных, как мы видим в вышеупомянутом исследовании.

Можно утверждать, что где азиатские системы этого типа доказали свою эффективность в обществе, без страха местной цензуры, западные интересы могут использовать или адаптировать такие исследования в частные, закрытые реализации. Задача ‘оценки женщин’ в этом сценарии передается в местоположение, где ее можно преследовать без критики.

Независимо от того, является ли это обычным или менее публичными западными эквивалентными системами, которые склонны разрабатываться вдали от открытого сотрудничества и от общественного внимания, разумно предположить, что целевая цель представляет собой глобальный интерес из-за большого числа профессиональных секторов, которые могут или могли бы извлечь выгоду из точных оценок привлекательности.

Выживание сильнейших

Может показаться, что огромные веб-скрапируемые корпуса, такие как Tik Tok, Instagram и YouTube, будут отличными арбитрами красоты, коррелируя подписчиков, лайки и трафик с привлекательностью, поскольку это общая и разумная ассоциация (хотя с некоторыми исключениями).

Аналогично, существующие коллекции – такие как ImageNet и LAION – представляющие актеров и моделей, которые ‘взлетели на вершину’ – обычно представляют привлекательных людей (хотя часто с слишком большим количеством данных о слишком少ных людях), позволяя более широким культурным механизмам действовать как прокси для привлекательности.

Однако это не учитывает сдвигающиеся вкусы в том, что люди находят привлекательным с течением времени (не говоря уже о географии). Поэтому снова необходимы высокоуровневые и данные-агностические системы, а не индивидуальные и спекулятивные коллекции или кураторские, которые не смогут отразить меняющиеся вкусы.

Комбинированная кожа

Последний академический вклад в решение этих проблем исходит из Китая, где перенос обучения и Широкая система обучения (BLS) объединяются для решения давнего противоречия между точностью и вычислительной стоимостью.

Традиционные нейронные сети обычно достигают сильных результатов только с тяжелой тренировкой, в то время как более легкие системы, такие как BLS, обучаются быстро, но испытывают трудности в захвате достаточного количества деталей. Новая работа мостит этот разрыв, используя предварительно обученную визуальную модель для извлечения черт лица, которые затем передаются в быструю систему BLS для оценки, позволяя использовать функции вместо того, чтобы учиться с нуля, сохраняя при этом эффективную тренировку:

Примеры изображений из набора данных LSAFBD, показывающие женские лица, сгруппированные по человеческим оценкам красоты от 1 до 5, где рейтинги были получены из нескольких аннотаторов и использованы в качестве контролируемых меток для обучения и оценки моделей прогнозирования красоты лица через вариации в позе, освещении и внешности.. Источник - https://arxiv.org/pdf/2603.16930

Примеры изображений из набора данных LSAFBD, показывающие женские лица, сгруппированные по человеческим оценкам красоты от 1 до 5. Рейтинги были получены из нескольких аннотаторов и использованы в качестве контролируемых меток для обучения и оценки моделей прогнозирования красоты лица через вариации в позе, освещении и внешности. Источник

Первая из двух вариантов, представленных в работе (E-BLS, см. ниже), передает извлеченные функции непосредственно в легкую систему, в то время как второй, ER-BLS (также см. ниже), добавляет простой промежуточный этап, который стандартизирует и совершенствует эти функции перед оценкой, помогая улучшить последовательность без замедления процесса.

Тесты, проведенные авторами, доказывают, по их утверждениям, что их подход лучше, чем любой из методов по отдельности, и чем другие конкурирующие методы.

Новая статья озаглавлена Прогнозирование красоты лица с помощью переноса обучения и широкой системы обучения, и исходит от шести исследователей из Университета Вуюй, Цзяньмэня.

Метод

Упомянутая выше Широкая система обучения – это легкая альтернатива глубоким нейронным сетям, которая пропускает укладку нескольких слоев и вместо этого распределяет обучение по широкому набору более простых связей, позволяя моделям обучаться быстро – но обычно за счет пропуска более тонких визуальных деталей.

Первый из двух вариантов, E-BLS, объединяет EfficientNet-основанное переносное обучение с BLS, извлекая подробные визуальные функции из лица, и затем передавая их в BLS, предполагая окончательный прогноз, который избегает необходимости обучать полную глубокую нейронную сеть с нуля:

Схема архитектуры модели E-BLS.

EfficientNet, предварительно обученный на ImageNet-1k, и в основном сохраненный неизменным, преобразует каждое входное изображение в компактный набор значений функций, которые описывают лицо в структурированном виде, в то время как BLS принимает эти значения и обрабатывает их через сеть простых, случайно связанных узлов, которые преобразуют и объединяют информацию, прежде чем произвести окончательный балл привлекательности.

Поскольку BLS не полагается на глубокослойные структуры, E-BLS может быть обновлен путем добавления больше узлов вместо повторной тренировки всей системы. Это сохраняет быструю тренировку и упрощает улучшение модели при введении новых данных.

Второй из двух вариантов, ER-BLS, строится на E-BLS, вставляя дополнительный этап обработки между извлекателем функций EfficientNet и BLS, с целью улучшения того, как извлеченные функции подготовлены перед оценкой:

Архитектура модели ER-BLS.

Вместо того, чтобы передавать сырые функции EfficientNet непосредственно в BLS, ER-BLS сначала передает их через слой усовершенствования, который стандартизирует и перестраивает данные, помогая уменьшить шум и сделать функции более последовательными в разных изображениях. Этот этап предназначен для улучшения того, как система обобщает, особенно когда лица варьируются в освещении, позе или других визуальных условиях, которые могут ввести нестабильность в прогнозы.

Усовершенствованные функции затем передаются в ту же структуру BLS, используемую в E-BLS, где функциональные узлы и узлы улучшения преобразуют и объединяют информацию для получения окончательного балла привлекательности.

Данные и тесты

Для проверки своего подхода авторы использовали набор данных SCUT-FBP5500, коллекцию прогнозирования красоты лица из Южного университета Китая, содержащую 5500 фронтальных изображений лиц размером 350×350 пикселей, представляющих разные расы, полы и возрасты:

Примеры изображений из набора данных SCUT-FBP5500, оцененные от наименее (1) до наиболее (5) привлекательных.

Каждое изображение было оценено баллом красоты 60 добровольцами, по шкале от 1 до 5, варьирующейся от чрезвычайно непривлекательного (1) до чрезвычайно привлекательного (5):

Разделение пропорций изображений по баллам красоты.

Другой использованный набор данных был Большой азиатский набор данных красоты женщин (LSAFBD), коллекция, отобранная самими авторами.

Примеры изображений из набора данных LSAFBD, оцененные от наименее (1) до наиболее (5) привлекательных.

Коллекция состоит из 80 000 неотмеченных изображений размером 144×144 пикселей, с вариациями в позе и фоне, а также возрастом. Эти изображения были оценены 75 добровольцами по тем же критериям, что и предыдущий набор данных, но на шкале от 0 до 4:

Разделение для набора данных LSAFBD.

Каждый набор данных был разделен на обучающие и тестовые сегменты в соотношении 8/20, и использовалась кросс-валидация, чтобы стабилизировать результаты в разных запусках. Компонент BLS был сконфигурирован через количество окон функций; количество узлов на окно; и количество узлов улучшения, с использованием Hyperopt для поиска эффективных комбинаций.

Для создания базовой линии был обучен стандартный модель BLS в идентичных условиях, после чего были введены ряд моделей переносного обучения, включая ResNet50, Inception-V3, DenseNet121, InceptionResNetV2, EfficientNetB7, MobileNetV2, NASNet и Xception – все инициализированы с весами ImageNet-1k и обучены с их последними слоями разблокированными.

Обучение использовало скорость обучения 0,001 (уменьшенную при остановке прогресса), и размер партии 16, в течение 50 эпох, с регуляризацией и выпрямленной линейной активацией (ReLU), примененной на протяжении всего процесса.

Производительность оценивалась с помощью точности и корреляции Пирсона, наряду с общим временем обучения, с результатами, усреднёнными по пяти запускам.

Авторы сообщают, что настройка обучения была выполнена на компьютере с процессором Intel-i7 3,6 ГГц и 64 ГБ ОЗУ:

Сравнение производительности на SCUT-FBP5500, где E-BLS и ER-BLS достигают конкурентоспособной точности против глубоких моделей CNN, включая ResNet50, EfficientNetB7, InceptionV3 и Xception, при этом требуя значительно меньше времени обучения – подчеркивая выигрыш в эффективности от объединения переносного обучения с широкой системой обучения.

Результаты показали, что E-BLS улучшил точность с 65,85% до 73,13%, в то время как ER-BLS достиг 74,69%, превысив все сравниваемые модели. Время обучения оставалось значительно ниже, чем у глубоких CNN, примерно 1300 секунд, по сравнению с несколькими тысячами до более 25 000 секунд.

Для тестов на LSAFBD результаты показали, что E-BLS улучшил точность по сравнению с простым BLS, в то время как ER-BLS достиг наивысшей точности среди всех сравниваемых методов:

Производительность на LSAFBD, где ER-BLS и E-BLS обеспечивают более высокую точность, чем все базовые и модели переносного обучения, при этом требуя только доли их времени обучения, указывая на постоянное преимущество в эффективности без ущерба для прогностического качества.

Оба варианта сохранили значительно более низкое время обучения, чем глубокие модели CNN, указывая на более эффективный баланс между производительностью и вычислительной стоимостью.

Вывод

Это своего рода ‘ретро’-публикация, как свидетельствует ее использование до бума любимцев, таких как CNN, и использование самого низкоуровневого оборудования для обучения, которое я встретил в новой статье за многие годы.

Тем не менее, это занимается удивительно устойчивой целью в компьютерном зрении; одной, которая сильно затрагивает человеческий опыт и субъективную интерпретацию, и которая требует схемы, которая превосходит эстетические тенденции момента, и может обеспечить действительно устойчивую трубу для этой задачи.

Опубликовано впервые в четверг, 19 марта 2026 года