Взгляд Anderson
AI в поисках красоты

Новая система оценки красоты, основанная на ИИ, оценивает, насколько привлекательны лица, а ее обучение происходит быстрее, чем у типичных моделей глубокого обучения, что потенциально делает более практичной автоматизированную оценку красоты в крупном масштабе.
Прогнозирование красоты лица (FBP) – это большое дело, и довольно сильная нить в научной литературе. Хотя это нарушает практически все принципы борьбы с предвзятостью в ИИ и методах машинного обучения, и хотя это в многих отношениях поддерживает объективацию и редукционизм в алгоритмических представлениях о женщинах, оно тем не менее привлекает интерес нескольких многомиллиардных отраслей, большинство из которых направлены непосредственно на женщин, такие как косметика, косметическая хирургия лица, ливестриминг и мода, среди прочих:

Женщины, оцененные от 1 до 5, из статьи ‘Прогнозирование красоты лица азиатских женщин с помощью глубоких нейронных сетей через передачу обучения и слияние многоканальных признаков’. Источник
За пределами этих очевидных женских бизнес-энклавов реклама и множество других отраслей, включая развлечение и издательство, имеют заметные ставки в понимании того, что и мужчины, и женщины находят ‘привлекательным’, необходимым на культурной основе.
Факт того, что агрегированные восприятия красоты варьируются в разных регионах, означает, что не может быть получена окончательная глобально-применимая база данных, и что новые исследования должны либо оставаться провинциальными, либо сосредоточиться на ‘высокоуровневых’ методах, которые могут быть применены к разнообразным культурным данным.

Интерфейс системы оценки красоты лица для проекта SCUT-FBP 2015 года. Источник
Часто географическое местоположение не является единственным ограничением, поскольку наборы данных, ориентированные на привлекательность, могут испытывать трудности в обеспечении равной эффективности для обоих полов или могут быть отобраны с учетом конкретного применения – и это может ограничить использование коллекции в других областях.
Например, в 2025 году я сообщил о разработке относительно крупномасштабной (100 000+ идентификаторов) базы данных для оценки привлекательности в ливестриминге, чьи стандарты тесной обрезки могут потребовать заметной адаптации для более широких проектов, несмотря на огромные усилия, стоящие за этой инициативой.
Лицо
Как может быть очевидно из ссылок и изображений выше, азиатские исследовательские организации часто не действуют в рамках одних и тех же культурных ограничений, что и их западные аналоги, которые с трудом осмеливаются опубликовать научную иллюстрацию, оценивающую пять западных женщин от наименее до наиболее привлекательных, как мы видим в вышеиллюстрированном исследовании.
Можно утверждать, что где азиатские системы этого типа доказали свою эффективность в обществе, без страха местной цензуры, западные интересы могут использовать или адаптировать такие исследования в проприетарные, частные реализации. Задача ‘оценки женщин’ в этом сценарии передана в место, где она может быть преследована без критики.
Независимо от того, является ли это общим или менее публичными западными эквивалентными системами, которые склонны разрабатываться вне открытого сотрудничества и публичного контроля, можно предположить, что целевая цель представляет глобальный интерес из-за большого количества профессиональных секторов, которые могут или могли бы извлечь выгоду из точных оценок привлекательности.
Выживание сильнейших
Может показаться, что огромные веб-корпусы, такие как Tik Tok, Instagram и YouTube, будут доказать отличными арбитрами красоты, коррелируя последователей, лайки и трафик с привлекательностью, поскольку это общая и разумная ассоциация (хотя с некоторыми исключениями).
Аналогично, существующие коллекции – такие как ImageNet и LAION – представляющие актеров и моделей, которые ‘взлетели на вершину’ – обычно представляют привлекательных людей (хотя часто с слишком большим количеством точек данных слишком немногих людей), позволяя более широким культурным механизмам действовать как прокси для привлекательности.
Однако это не учитывает сдвигающиеся вкусы в том, что люди находят привлекательным со временем (не говоря уже о географии). Следовательно, снова, высокоуровневые и независимые от данных системы необходимы, а не индивидуальные и сомнительные коллекции или кураторские коллекции, которые не смогут отразить меняющиеся вкусы.
Комбинированная кожа
Последний академический вклад, решающий эти проблемы, исходит из Китая, где передача обучения и Широкая система обучения (BLS) объединяются для решения давнего компромисса между точностью и вычислительной стоимостью.
Традиционные нейронные сети обычно достигают сильных результатов только с тяжелой тренировкой, в то время как более легкие системы, такие как BLS, обучаются быстро, но испытывают трудности в захвате достаточно деталей. Новая работа мостит этот разрыв, используя предварительно обученную визуальную модель для извлечения лицевых признаков, которые затем передаются в быструю систему BLS для оценки, позволяя признакам быть переиспользованными вместо изучения с нуля, сохраняя эффективность обучения:

Примеры изображений из набора данных LSAFBD, показывающие женские лица, сгруппированные по человеческим оценкам красоты от 1 до 5. Источник
Первая из двух вариаций, представленных в работе (E-BLS, см. ниже), подает извлеченные признаки непосредственно в легкую систему, в то время как вторая, ER-BLS (см. ниже), добавляет простой промежуточный шаг, который стандартизирует и совершенствует эти признаки перед оценкой, помогая улучшить последовательность без замедления процесса.
Тесты, проведенные авторами, доказывают, утверждают они, что их подход превосходит любой из методов по отдельности и другие конкурирующие методы.
Новая статья озаглавлена Прогнозирование красоты лица с помощью передачи обучения и широкой системы обучения и исходит из шести исследователей Университета Вуюй, Цзянмэня.
Метод
Упомянутая Широкая система обучения – это легкая альтернатива глубоким нейронным сетям, которая пропускает стекирование нескольких слоев и вместо этого распространяет обучение по широкому набору более простых соединений, позволяя моделям обучаться быстро – но обычно за счет пропуска более тонких визуальных деталей.
Первая из двух вариантов, E-BLS, объединяет EfficientNet-основанное передачу обучения с BLS, извлекая подробные визуальные признаки из лица и затем передавая их в BLS, что в конечном итоге приводит к окончательному прогнозу, избегая необходимости обучать полную глубокую нейронную сеть с нуля:

Схема архитектуры модели E-BLS.
EfficientNet, предварительно обученный на ImageNet-1k, и в основном оставшийся неизменным, преобразует каждое входное изображение в компактный набор значений признаков, которые описывают лицо в структурированном виде, в то время как BLS берет эти значения и обрабатывает их через сеть простых, случайно соединенных узлов, которые преобразуют и объединяют информацию, прежде чем произвести окончательный балл привлекательности.
Поскольку BLS не полагается на глубокослойные структуры, E-BLS может быть обновлен путем добавления больше узлов вместо повторной тренировки всей системы, что сохраняет быструю тренировку и делает ее проще улучшить модель при введении новых данных.
Вторая из двух вариантов, ER-BLS, строится на E-BLS, вставляя дополнительную ступень обработки между извлекателем признаков EfficientNet и BLS, с целью улучшения того, как эти извлеченные признаки подготовлены перед использованием для прогнозирования:

Архитектура модели ER-BLS.
Вместо того, чтобы передавать сырые признаки EfficientNet непосредственно в BLS, ER-BLS сначала передает их через слой уточнения, который стандартизирует и перестраивает данные, помогая уменьшить шум и сделать признаки более последовательными в разных изображениях. Этот шаг предназначен для улучшения того, как хорошо система обобщает, особенно когда лица варьируются в освещении, позе или других визуальных условиях, которые могут в противном случае ввести нестабильность в прогнозы.
Уточненные признаки затем передаются в ту же структуру BLS, используемую в E-BLS, где узлы признаков и узлы усиления преобразуют и объединяют информацию для производства окончательного балла привлекательности.
Данные и тесты
Чтобы протестировать свой подход, авторы использовали набор данных SCUT-FBP5500, коллекцию прогнозирования красоты лица из Южно-Китайского университета, содержащую 5 500 фронтальных изображений лиц размером 350x350px, представляющих разнообразные расы, пол и возраст:

Примеры изображений из набора данных SCUT-FBP5500, оцененные от наименее (1) до наиболее (5) привлекательных.
Каждое изображение было оценено баллом красоты 60 волонтерами по шкале от 1 до 5, варьирующейся от чрезвычайно непривлекательного (1) до чрезвычайно привлекательного (5):

Разделение пропорций изображений по баллу красоты.
Другой базой данных, использованной в работе, был Большой азиатский набор данных красоты женщин (LSAFBD), коллекция, отобранная авторами themselves.

Примеры изображений из набора данных LSAFBD, оцененные от наименее (1) до наиболее (5) привлекательных.
Коллекция состоит из 80 000 неотмеченных изображений размером 144x144px, с вариациями в позе и фоне, а также возрасте. Эти изображения были оценены 75 волонтерами по тем же критериям, что и предыдущий набор данных, на этот раз по шкале от 0 до 4:

Разделение для набора данных LSAFBD.
Каждый набор данных был разделен на обучающие и тестовые сегменты в соотношении 8/20, и кросс-валидация использовалась для стабилизации результатов в разных запусках. Компонент BLS был настроен через количество окон признаков; количество узлов на окно; и количество узлов усиления, с использованием Hyperopt для поиска эффективных комбинаций.
Чтобы установить базовую линию, стандартная модель BLS была обучена при идентичных условиях, после чего была введена серия моделей передачи обучения, включая ResNet50, Inception-V3, DenseNet121, InceptionResNetV2, EfficientNetB7, MobileNetV2, NASNet и Xception – все инициализированы весами ImageNet-1k и обучены с их последними слоями размораженными.
Обучение использовало скорость обучения 0,001 (уменьшенную, когда прогресс застопорился), и размер партии 16, в течение 50 эпох, с регуляризацией и выпрямленной линейной активацией (ReLU) на протяжении всего процесса.
Производительность оценивалась с помощью точности и корреляции Пирсона, а также общего времени обучения, с результатами, усредненными за пять запусков.
Авторы сообщают, что настройка обучения представляет собой Intel-i7 3,6 ГГц CPU и 64 ГБ ОЗУ на ‘desktop компьютере’:

Сравнение производительности на SCUT-FBP5500, где E-BLS и ER-BLS достигают конкурентоспособной точности по сравнению с глубокими моделями CNN, включая ResNet50, EfficientNetB7, InceptionV3 и Xception, при этом требуя значительно меньше времени обучения – подчеркивая эффективность объединения передачи обучения с Широкой системой обучения.
Результаты показали, что E-BLS улучшил точность с 65,85% до 73,13%, в то время как ER-BLS достиг 74,69%, превысив все сравниваемые модели. Время обучения оставалось заметно ниже, чем у глубоких CNN, примерно 1 300 секунд, по сравнению с несколькими тысячами до более 25 000 секунд.
Для тестов на LSAFBD результаты показали, что E-BLS улучшил точность по сравнению с простой BLS, в то время как ER-BLS достиг наивысшей точности среди всех сравниваемых методов:

Производительность на LSAFBD, где ER-BLS и E-BLS обеспечивают более высокую точность, чем все базовые и модели передачи обучения, при этом требуя только долю их времени обучения, указывая на постоянное преимущество в эффективности без ущерба прогностическому качеству.
Оба варианта поддерживали значительно более низкое время обучения, чем глубокие модели CNN, указывая на более эффективный баланс между производительностью и вычислительной стоимостью.
Заключение
Это несколько ‘ретро’-публикация, как свидетельствует ее использование до бума любимцев, таких как CNN, и низкоуровневого оборудования для обучения, которое я встретил в новой статье за многие годы.
Тем не менее, она касается удивительно устойчивой цели в компьютерном зрении; одной, которая касается человеческого опыта и субъективной интерпретации, и которая требует схемы, которая превосходит эстетические тенденции момента, и может обеспечить действительно устойчивую трубу для этой задачи.
Опубликовано впервые в четверг, 19 марта 2026 года












