Connect with us

Система штучного інтелекту, яка може зробити зображення людей більш “красивими”

Штучний інтелект

Система штучного інтелекту, яка може зробити зображення людей більш “красивими”

mm
Background image: DALL-E 2 'Award-winning 8K photo of the most beautiful Caucasian catwalk model in the world' - https://labs.openai.com/s/kRXusxOR5GcYyb6pqZjNH2AA

Дослідники з Китаю розробили нову систему підвищення якості зображень на основі штучного інтелекту, яка здатна зробити зображення людини більш “красивими”, засновану на новому підході до навчання з підкріпленням.

Новий підхід використовує 'передбачення краси обличчя' для ітерації через варіації зображення на основі ряду факторів, серед яких 'освітлення' та положення очей можуть бути критичними факторами. Тут оригінальні джерела (зліва кожного стовпчика) походять з системи EigenGAN, а нові результати - справа від них. Джерело: https://arxiv.org/pdf/2208.04517.pdf

Новий підхід використовує ‘передбачення краси обличчя’ для ітерації через варіації зображення на основі ряду факторів, серед яких ‘освітлення’ та положення очей можуть бути критичними факторами. Тут оригінальні джерела (зліва кожного стовпчика) походять з системи EigenGAN, а нові результати – справа від них. Джерело: https://arxiv.org/pdf/2208.04517.pdf

Техніка спирається на інновації, відкриті для генератора EigenGAN, іншого китайського проекту, з 2021 року, який зробив помітні кроки у визначенні та здобутті деякого контролю над різноманітними семантичними атрибутами у латентному просторі генеративних суперницьких мереж (GAN).

Генератор EigenGAN 2021 року міг виділити високорівневі концепції, такі як 'колір волосся', у латентному просторі генеративної суперницької мережі. Нова робота будується на цьому інноваційному інструменті, щоб надати систему, яка може 'покращити' вихідні зображення, але без зміни впізнаваної ідентичності - проблема попередніх підходів.

Генератор EigenGAN 2021 року міг виділити високорівневі концепції, такі як ‘колір волосся’, у латентному просторі генеративної суперницької мережі. Нова робота будується на цьому інноваційному інструменті, щоб надати систему, яка може ‘покращити’ вихідні зображення, але без зміни впізнаваної ідентичності – проблема попередніх підходів. Джерело: https://arxiv.org/pdf/2104.12476.pdf

Система використовує ‘мережу оцінки естетики’ на основі SCUT-FBP5500 (SCUT), набору даних для передбачення краси обличчя 2018 року з Південнокитайського університету технологій у Гуанчжоу.

З паперу 2018 року 'SCUT-FBP5500: різноманітний набір даних для багатопарадигмального передбачення краси обличчя', який запропонував 'мережу передбачення краси обличчя' (FBP), здатну ранжувати обличчя за ступенем сприйманої привабливості, але яка не могла фактично перетворити чи 'підвищити' обличчя.

З паперу 2018 року ‘SCUT-FBP5500: різноманітний набір даних для багатопарадигмального передбачення краси обличчя’, який запропонував ‘мережу передбачення краси обличчя’ (FBP), здатну ранжувати обличчя за ступенем сприйманої привабливості, але яка не могла фактично перетворити чи ‘підвищити’ обличчя. Джерело: https://arxiv.org/pdf/1801.06345.pdf

На відміну від нової роботи, проект 2018 року не може фактично виконувати перетворення, але містить алгоритмічні судження про 5 500 осіб, надані 60 змішаними оцінювачами (50/50 розподіл). Ці дані були включені до нової системи як ефективний дискримінатор, щоб інформувати перетворення, які, ймовірно, покращать ‘привабливість’ зображення.

Цікаво, що нова стаття називається Контрольовані атрибути красивого обличчя кавказоїдної раси за допомогою навчання з підкріпленням, керованим естетикою. Причина, по якій всі раси, крім кавказоїдної, виключені з системи (врахуйте також, що дослідники самі є китайцями), полягає в тому, що джерельні дані для SCUT суттєво нахилені до азійських джерел (4000 рівномірно розподілених азійських жінок/чоловіків, 1500 рівномірно розподілених кавказоїдних жінок/чоловіків), роблячи ‘середню людину’ у цьому наборі даних брюнеткою з карими очима.

Отже, щоб забезпечити колірну варіацію хоча б в межах однієї раси, було необхідно виключити азійську складову з оригінальних даних або піти на суттєві витрати на відновлення даних для розробки методу, який міг би не вдатися. Крім того, варіація культурних сприйняття краси неминуче означає, що такі системи потребуватимуть певного ступеня географічної конфігуровності щодо того, що становить ‘привабливість’.

Пertinent Атрибути

Для визначення основних внесків до ‘привабливого’ зображення людини дослідники також тестували вплив різних змін зображень на те, як добре такі доповнення підвищують алгоритмічне сприйняття ‘краси’. Вони виявили, що хоча б один з аспектів є більш центральним для хорошої фотографії, ніж для хорошої генетики:

Крім освітлення, аспекти, які мали найбільший вплив на оцінку краси, були чубами (які, у випадку чоловіків, можуть часто бути еквівалентними наявності повної голови волосся), позою тіла та положенням очей (де залучення до точки зору камери є стимулом для привабливості).

(Відносно ‘коліру помади’, нова система, яка може ефективно працювати як на чоловічих, так і на жіночих презентаціях гендеру, не виділяє гендерний вигляд, а скористується новою системою дискримінатора як ‘фільтром’ у цьому відношенні)

Метод

Функція винагороди у механізмі навчання з підкріпленням у новій системі спирається на просту регресію над даними SCUT, яка виводить передбачення краси обличчя.

Тренувальна система ітерує над вхідними зображеннями (унизу ліворуч на схемі нижче). Спочатку попередньо натренований ResNet18 модель (натренована на ImageNet) витягує особливості з п’яти ідентичних (‘y’) зображень. Далі, потенційний трансформаційний дії виводиться з прихованих станів повністю зв’язаного шару (GRUCell, на зображенні нижче), і перетворення застосовуються, що призводить до п’яти змінених зображень, які подаються до мережі оцінки естетики, чиї рейтинги, у стилі Дарвіна, визначать, які варіації будуть розвинені, а які відкинуті.

Широке ілюстрація робочого процесу для нової системи.

Ілюстрація робочого процесу для нової системи.

Мережа оцінки естетики використовує модуль Efficient Channel Attention (ECA), тоді як адаптація попередньо натренованого екземпляра EfficientNet-B4 доручена витягувати 1 792 особливості з кожного зображення.

Після нормалізації через функцію активації ReLU отримується 4-мірний вектор назад з модуля ECA, який потім розплющується до однорівневого вектора після активації та адаптивного середнього пулу. Нарешті, результати подаються до регресійної мережі, яка повертає оцінку естетики.

Ясна порівняння виводу системи. У нижньому рядку ми бачимо агрегований підсумок усіх виділених аспектів, які були ідентифіковані методом EigenGAN і згодом покращені. Середні оцінки FID для зображень знаходяться ліворуч від рядків зображень (вище краще).

Ясна порівняння виводу системи. У нижньому рядку ми бачимо агрегований підсумок усіх виділених аспектів, які були ідентифіковані методом EigenGAN і згодом покращені. Середні оцінки FID для зображень знаходяться ліворуч від рядків зображень (вище краще).

Тести та дослідження користувачів

П’ять варіантів запропонованого методу були оцінені алгоритмічно (див. зображення вище), з оцінками Fréchet inception distance (FID, спірні в деяких кварталах) для загальної кількості 1000 зображень, які були пройдені через систему.

Дослідники зазначають, що покращення освітлення досягло кращої оцінки привабливості для осіб на фотографіях, ніж кілька інших можливих змін (тобто до фактичного вигляду людини на зображенні).

Для певної міри тестування системи таким чином обмежене ексцентриками даних SCUT, які не мають багатьох ‘яскравих посмішок’, і автори стверджують, що це могло б надмірно перевищити більш типовий ‘загадковий’ вигляд у даних порівняно з ймовірними перевагами потенційних кінцевих користувачів (мабуть, у цьому випадку, західного ринку).

Однак, оскільки вся система спирається на середні оцінки лише 60 осіб (у папері EigenGAN), і оскільки якість, яку вивчають, далеко не емпірична, можна стверджувати, що процедура більш звучна, ніж набір даних.

Хоча це розглядається дуже коротко в статті, зображення з EigenGAN і п’ять варіантів системи також були показані в обмеженому дослідженні користувачів (восьми учасників), яким було запропоновано вибрати ‘найкраще зображення’ (слово ‘привабливий’ було уникнуто).

Вище, інтерфейс, представлений малій групі дослідження; нижче, результати.

Вище, інтерфейс, представлений малій групі дослідження; нижче, результати.

Результати показують, що вивід нової системи досяг найвищої частоти вибору серед учасників (‘MAES’ на зображенні вище).

(Безметна?) Переслідування краси

Корисність такої системи важко встановити, попри те, що здається помітним локусом зусиль у Китаї до цих цілей. Жодне з них не викладено в новій публікації.

Попередня стаття EigenGAN пропонує*, що система розпізнавання краси могла б бути використана у системах рекомендацій синтезу макіяжу обличчя, естетичних операціях, підвищенні краси обличчя, або пошукових системах, заснованих на вмісті зображень.

Мабуть, такий підхід також міг би бути використаний на сайтах знайомств, користувачами, щоб ‘підвищити’ свої власні фотографії профілю у гарантований ‘щасливий знімок’, як альтернативу використанню застарілих фотографій або фотографій інших людей.

Аналогічно, сайти знайомств самі могли б ‘оцінювати’ своїх клієнтів, щоб створити рейтинги та навіть відокремлені рівні доступу, хоча це, мабуть, працюватиме лише через аутентифікацію лайвності, а не через надані фотографії (які також могли б бути ‘підвищені’ клієнтами, якщо підхід стане популярним).

У рекламі алгоритмічний метод оцінки краси (технологія, передбачена покійним автором наукової фантастики Майклом Крайтоном у його кінострічці 1982 року Looker) міг би бути використаний для вибору неушляхованих творчих робіт, найбільш ймовірних для залучення цільової аудиторії, тоді як здатність фактично максимізувати естетичний вплив зображень обличчя, без фактичного переписування їх у стилі deepfake, могла б підвищити вже ефективні зображення, призначені для залучення публічного інтересу.

Нова робота підтримується Національним природознавчим науковим фондом Китаю, відкритим фондом проекту Державної лабораторії управління складними системами та контролем, та проєктом філософських та соціальних досліджень Міністерства освіти Китаю, серед інших спонсорів.

 

* Багато рекомендацій статті EigenGAN вказують на комерційно доступну книгу 2016 року під назвою ‘Комп’ютерні моделі аналізу краси обличчя’, а не академічні ресурси.

Перша публікація 11 серпня 2022 року.

Писатель про машинне навчання, домен-спеціаліст у сфері синтезу зображень людини. Колишній керівник дослідницького контенту в Metaphysic.ai.
Особистий сайт: martinanderson.ai
Контакт: [email protected]