Погляд Anderson
AI’s Pursuit of Beauty

Нова система оцінки краси, керована штучним інтелектом, оцінює, наскільки привабливі обличчя виглядають, а також тренується швидше, ніж типові моделі глибокого навчання, потенційно роблячи великомасштабну автоматизовану оцінку краси більш практичною.
Прогнозування краси обличчя (FBP) – це великий бізнес, і досить сильна нить у дослідницькій літературі. Хоча це порушує майже кожен принцип боротьби з упередженнями в штучному інтелекті та практиках машинного навчання, і хоча це в багатьох аспектах підтримує об’єктивацію та редукціонізм в алгоритмічних сприйняттях жінок, воно все ж таки приваблює інтерес декількох багатミльярдних доларових галузей, більшість з яких спрямовані безпосередньо на жінок, таких як косметика, косметична хірургія обличчя, лівестрімінг та мода, серед інших:

Жінки, оцінені від 1 до 5, з роботи ‘Прогнозування краси азіатських жінок за допомогою глибоких нейронних мереж через передавання знань та мульти-канальне об’єднання ознак’. Джерело
Поза цими очевидними жіноцентричними бізнес-енклавами, реклама та інші галузі, включаючи розваги та видавництво, мають значні ставки в розумінні того, що обидва чоловіки та жінки вважають ‘привабливим’, необхідним на культурній основі.
Факт того, що агреговані сприйняття краси варіюються по регіонах, означає, що не можна отримати жодної остаточної глобально-застосовної бази даних, і що нові дослідження повинні або залишатися парохіяльними, або зосереджуватися на ‘високорівневих’ методах, які можуть бути застосовані до різних культурних даних.

Інтерфейс системи оцінки краси обличчя для проекту SCUT-FBP 2015 року. Джерело
Часто географічна локалізація не єдина обмеження, оскільки набори даних, орієнтовані на привабливість, можуть мати труднощі з забезпеченням рівної ефективності для різних статей, або можуть бути підібрані з певною метою застосування – і це може обмежити використання колекції в інших областях.
Наприклад, у 2025 році я повідомив про розробку відносно великомасштабної (100 000+ ідентифікаторів) бази даних для оцінки привабливості в лівестрімінгу, чия стандартизація може потребувати суттєвої адаптації для більш широких проєктів, незважаючи на величезні зусилля, вкладені в цю ініціативу.
Фасова Рендерінг
Як можна бачити з посилань і зображень вище, азіатські дослідницькі організації часто не діють під тими ж культурними обмеженнями, що й їхні західні колеги, які будуть важко змогли опублікувати наукову ілюстрацію, що оцінює п’ять західних жінок від менш привабливих до більш привабливих, як ми бачимо в вищезазначеному дослідженні.
Можна сказати, що де азіатські системи цього типу доведені ефективними на публіці, без страху місцевої критики, західні інтереси можуть використовувати або адаптувати такі дослідження в приватні, закриті реалізації. Завдання ‘оцінювання жінок’ в цьому сценарії передається в місце, де його можна проводити без критики.
Хоча це може бути поширеним, чи менше публіковані західні еквівалентні системи схильні розроблятися поза відкритою співпрацею та публічним наглядом, можна припустити, що цільовий результат має глобальний інтерес через велику кількість професійних секторів, які можуть або могли б виграти від точних оцінок привабливості.
Виживання Найсильнішого
Можна вважати, що величезні веб-корпуси, такі як Tik Tok, Instagram та YouTube, доведуться чудовими арбітрами краси, корелюючи підписників, лайки та трафік з привабливістю, оскільки це звичайна та розумна асоціація (хоча з деякими винятками).
Аналогічно, існуючі колекції – такі як ImageNet та LAION – що містять акторів та моделей, які ‘взлетіли на вершину’ – зазвичай містять привабливих людей (хоча часто з занадто великою кількістю даних про занадто мало людей), дозволяючи ширшим культурним механізмам діяти як проксі для привабливості.
Однак це не враховує змінювані смаки в тому, що люди вважають привабливим з плином часу (не кажучи вже про географічні обмеження). Тому знову ж таки потрібні високорівневі та дані-агностичні системи, а не індивідуальні та спекулятивні колекції чи кураторські колекції, які не зможуть відобразити зміни смаків.
Комбінаційна Шкірка
Останній академічний внесок у вирішення цих проблем надходить з Китаю, де передавання знань та Широка система навчання (BLS) поєднуються для подолання довготривалої компромісної угоди між точністю та обчислювальною вартістю.
Традиційні нейронні мережі зазвичай досягають сильних результатів лише з важкою тренуванням, тоді як легші системи, такі як BLS, тренуються швидко, але мають труднощі з захопленням достатньої кількості деталей. Нова робота мостить цю прогалину, використовуючи попередньо треновану візуальну модель для витягування ознак обличчя, які потім передаються в швидку систему BLS для оцінювання, дозволяючи ознакам бути повторно використаними замість того, щоб бути вивченими з нуля, при цьому підтримуючи ефективне тренування:

Зразкові зображення з набору даних LSAFBD, що показують жіночі обличчя, згруповані за людьми-оцінювачами за ознаками краси від 1 до 5. Оцінки були отримані від декількох анотаторів, та використані як наглядові мітки для тренування та оцінювання моделей прогнозування краси обличчя через варіації в позі, освітленні та зовнішності. Джерело
Перша з двох варіантів, введених у роботі (E-BLS, див. нижче), передає витягнуті ознаки безпосередньо в легку систему, тоді як друга, ER-BLS (також див. нижче), додає простий проміжний етап, який стандартизує та рафінує ці ознаки перед оцінкою, допомагаючи покращити узгодженість без сповільнення процесу.
Тести, проведені авторами, доводять, вони стверджують, що їхній підхід є кращим, ніж будь-який окремий метод, і кращим, ніж інші конкуруючі методи.
Нова робота називається Прогнозування краси обличчя, об’єднуючи передавання знань та широке навчання, і надходить від шести дослідників з Університету Вуї, Цзяньмень.
Метод
Відповідний Широка система навчання є легкою альтернативою глибоким нейронним мережам, яка пропускає стекування декількох шарів та натомість розподіляє навчання по широкому набору простіших з’єднань, дозволяючи моделям тренуватися швидко – але зазвичай за рахунок пропуску тонких візуальних деталей.
Перший з двох варіантів, E-BLS, поєднує EfficientNet-основане передавання знань з BLS, витягуючи детальні візуальні ознаки з обличчя, а потім передаючи їх в BLS, що включає остаточну передбачення, яка уникляє потреби в тренуванні повної глибокої нейронної мережі з нуля:

Схема архітектури моделі E-BLS.
EfficientNet, попередньо тренований на ImageNet-1k, і в основному незмінний, перетворює кожне вхідне зображення в компактний набір значень ознак, що описують обличчя структурованим чином, тоді як BLS бере ці значення та обробляє їх через мережу простих, випадково з’єднаних вузлів, які перетворюють та поєднують інформацію, перш ніж виробляти остаточний бал привабливості.
Оскільки BLS не покладається на глибоко шаруваті структури, E-BLS можна оновлювати, додаючи більше вузлів замість повторної тренування всієї системи. Це підтримує швидке тренування та полегшує покращення моделі при введенні нових даних.
Другий з двох варіантів, ER-BLS, будується на основі E-BLS, вставляючи додатковий обробний етап між витягувачем ознак EfficientNet та BLS, з метою покращення того, як витягнуті ознаки підготувані до використання:

Архітектура моделі ER-BLS.
Замість того, щоб передавати сирі ознаки EfficientNet безпосередньо в BLS, ER-BLS спочатку передається через рафінуючий шар, який стандартизує та переформатує дані, допомагаючи зменшити шум та зробити ознаки більш узгодженими по різних зображеннях. Цей етап призначений для покращення узгодженості системи, особливо коли обличчя варіюються в освітленні, позі чи інших візуальних умовах, які можуть інакше введати нестабільність у передбаченнях.
Рафіновані ознаки потім подаються в ту ж структуру BLS, використану в E-BLS, де вузли ознак та вузли покращення перетворюють та поєднують інформацію для виробництва остаточного балу привабливості.
Дані та Тести
Для тестування свого підходу автори використали набір даних SCUT-FBP5500, колекцію прогнозування краси обличчя з Південнокитайського університету, що містить 5 500 фронтальних зображень обличчя розміром 350×350 пікселів, з різними расами, статями та віками:

Зразкові зображення з набору даних SCUT-FBP5500, оцінені від менш привабливих (1) до більш привабливих (5).
Кожне зображення було оцінено балом краси 60 волонтерами, за шкалою від 1 до 5, від екстремально непривабливого (1) до екстремально привабливого (5):

Поділ пропорцій зображень за балом краси.
Інша використана база даних була База даних великомасштабної азіатської жіночої краси (LSAFBD), колекція, куратором якої були самі автори.

Зразкові зображення з набору даних LSAFBD, оцінені від менш привабливих (1) до більш привабливих (5).
Колекція складається з 80 000 неозначених зображень розміром 144×144 пікселів, з варіаціями в позі та фоні, а також віком. Ці були оцінені 75 волонтерами за ті ж критерії, що й попередня база даних, цього разу за шкалою від 0 до 4:

Поділ для набору даних LSAFBD.
Кожна база даних була розділена на тренувальні та тестові сегменти у співвідношенні 8/20, а перехрестна валідация використовувалася для стабілізації результатів по проходах. Компонент BLS був сконфігурований за допомогою кількості вікієн ознак; кількості вузлів на вікно; та кількості вузлів покращення, з Hyperopt, використаним для пошуку ефективних комбінацій.
Для встановлення базової лінії стандартна модель BLS була тренована в тих же умовах, після чого серія моделей передавання знань була введена, включаючи ResNet50, Inception-V3, DenseNet121, InceptionResNetV2, EfficientNetB7, MobileNetV2, NASNet та Xception – всі ініціалізовані вагами ImageNet-1k, і треновані з їхніми останніми шарами розмороженими.
Тренування використовувало швидкість навчання 0,001 (знижено, коли прогрес зупинився), і розмір пакету 16, по 50 епох, з регуляризацією та прямою лінійною активацією (ReLU) застосованою протягом усього процесу.
Виступ була оцінена за допомогою точності та кореляції Пірсона, поряд з загальним часом тренування, з результатами, усередненими по п’ятьох проходах.
Автори повідомляють про налаштування тренування як процесор Intel-i7 3,6 ГГц та 64 ГБ ОЗП на ‘столійному комп’ютері’:

Порівняння продуктивності на SCUT-FBP5500, де E-BLS та ER-BLS досягають конкурентоспроможної точності проти глибоких моделей CNN, включаючи ResNet50, EfficientNetB7, InceptionV3 та Xception, при цьому вимагаючи суттєво менше часу тренування – підкреслюючи ефективні вигоди від поєднання передавання знань з Широкою системою навчання.
Результати показали, що E-BLS покращив точність з 65,85% до 73,13%, тоді як ER-BLS досяг 74,69%, перевершивши всі порівнювані моделі. Час тренування залишався суттєво нижчим, ніж у глибоких моделей CNN, близько 1 300 секунд, проти декількох тисяч до понад 25 000 секунд.
Для тестів на LSAFBD результати показали, що E-BLS покращив точність над звичайним BLS, тоді як ER-BLS досяг найвищої точності серед усіх порівнюваних методів:

Продуктивність на LSAFBD, де ER-BLS та E-BLS доставляють вищу точність, ніж усі базові та моделі передавання знань, при цьому вимагаючи лише частину їхнього часу тренування, вказуючи на постійну перевагу в ефективності без жертвування передбачувальною якістю.
Обидва варіанти підтримували суттєво нижчий час тренування, ніж глибокі моделі CNN, вказуючи на більш ефективний баланс між продуктивністю та обчислювальною вартістю.
Висновок
Це є певним видом ‘назад у минуле’ публікації, як свідчить її використання до-буму фаворитів, таких як CNN, та низькорівневого тренувального обладнання, яке я зустрів у новій роботі за багато років.
Однак це торкається несподівано стійкої мети в комп’ютерному баченні; однієї, яка сильно торкається людського досвіду та суб’єктивної інтерпретації, і яка вимагає схеми, що трансцендує естетичні тенденції моменту, і може забезпечити справді стійкий конвеєр для завдання.
Перша публікація четверга, 19 березня 2026 року












