заглушки Система ШІ, яка може зробити зображення людей більш «красивими» - Unite.AI
Зв'язатися з нами

Штучний Інтелект

Система AI, яка може зробити зображення людей більш «красивими»

mm
оновлений on
Фонове зображення: DALL-E 2 «Відзначене нагородою 8K фото найкрасивішої кавказької моделі з подіуму в світі» - https://labs.openai.com/s/kRXusxOR5GcYyb6pqZjNH2AA
Фонове зображення: DALL-E 2 «Відзначене нагородою 8K фото найкрасивішої кавказької моделі з подіуму в світі» - https://labs.openai.com/s/kRXusxOR5GcYyb6pqZjNH2AA

Дослідники з Китаю розробили нову систему покращення зображення на основі штучного інтелекту, яка здатна робити зображення людини більш «красивими» на основі нового підходу до навчання з підкріпленням.

Новий підхід використовує «мережу прогнозування краси обличчя» для перегляду варіацій зображення на основі ряду факторів, серед яких «освітлення» та пози очей можуть бути критичними. Тут оригінальні джерела (зліва від кожного стовпця) походять із системи EigenGAN, а нові результати – праворуч від них. Джерело: https://arxiv.org/pdf/2208.04517.pdf

Новий підхід використовує «мережу прогнозування краси обличчя» для перегляду варіацій зображення на основі ряду факторів, серед яких «освітлення» та пози очей можуть бути критичними. Тут оригінальні джерела (зліва від кожного стовпця) походять із системи EigenGAN, а нові результати – праворуч від них. Джерело: https://arxiv.org/pdf/2208.04517.pdf

Техніка спирається на інновації, відкриті для Генератор EigenGAN, ще один китайський проект 2021 року, який досяг значних успіхів у визначенні та отриманні певного контролю над різними семантичні атрибути у прихованому просторі генеративних змагальних мереж (GAN).

Генератор EigenGAN 2021 року зміг індивідуалізувати поняття високого рівня, такі як «колір волосся», у прихованому просторі генеративної змагальної мережі. Нова робота базується на цьому інноваційному інструменті для створення системи, яка може «прикрашати» вихідні зображення, але не змінюючи впізнавану ідентичність – проблема попередніх підходів. Джерело: https://arxiv.org/pdf/2104.12476.pdf

Генератор EigenGAN 2021 року зміг індивідуалізувати поняття високого рівня, такі як «колір волосся», у прихованому просторі генеративної змагальної мережі. Нова робота базується на цьому інноваційному інструменті для створення системи, яка може «прикрашати» вихідні зображення, але не змінюючи впізнавану ідентичність – проблема попередніх підходів. Джерело: https://arxiv.org/pdf/2104.12476.pdf

Система використовує «мережу оцінки естетики», отриману з SCUT-FBP5500 (SCUT), еталонний набір даних за 2018 рік для прогнозування краси обличчя, від Південно-Китайського технологічного університету в Гуанчжоу.

Зі статті 2018 року «SCUT-FBP5500: Різноманітний контрольний набір даних для багатопарадигмального прогнозування краси обличчя», у якому запропоновано мережу «Прогнозування краси обличчя» (FBP), здатну класифікувати обличчя за сприйманою привабливістю, але яка насправді не може трансформувати або "оновити" обличчя. Джерело: https://arxiv.org/pdf/1801.06345.pdf

Зі статті 2018 року «SCUT-FBP5500: Різноманітний контрольний набір даних для багатопарадигмального прогнозування краси обличчя», у якому запропоновано мережу «Прогнозування краси обличчя» (FBP), здатну класифікувати обличчя за сприйманою привабливістю, але яка насправді не може трансформувати або "оновити" обличчя.  Джерело: https://arxiv.org/pdf/1801.06345.pdf

На відміну від нової роботи, проект 2018 року фактично не може виконувати трансформації, але містить алгоритмічні оціночні судження для 5,500 облич, надані 60 особами, які ставлять етикетки різної статі (розподіл 50/50). Вони були включені в нову систему як ефективні дискримінатор, щоб інформувати про трансформації, які, ймовірно, підвищать «привабливість» зображення.

Цікаво, що новий папір має титул Створення красивих кавказьких облич, які можна контролювати за атрибутами, за допомогою естетично керованого підсилювального навчання. Причина того, що всі раси, окрім європеоїдної, виключені з системи (враховуйте також те, що самі дослідники є китайцями), полягає в тому, що вихідні дані для SCUT спотворюються, зокрема, з азіатськими джерелами (4000 рівномірно розподілених азіатських жінок/чоловіків, 1500 рівномірно розподілених кавказьких жінок). /чоловіки), що робить «середню людину» в цьому наборі даних каштановою та кароокою.

Тому, щоб врахувати варіації забарвлення принаймні в межах однієї раси, необхідно було виключити азіатський компонент із початкових даних або ж витратити значні витрати на відновлення даних для розробки методу, який міг би не вдатися. Крім того, відмінності в культурних уявленнях про красу неминуче означає, що такі системи потребуватимуть певного ступеня географічної конфігурації щодо того, що становить «привабливість».

Відповідні атрибути

Щоб визначити основні фактори, що сприяють створенню «привабливої» фотографії людини, дослідники також перевірили вплив різних змін на зображення, з точки зору того, наскільки добре такі доповнення підвищують алгоритмічне сприйняття «краси». Вони виявили, що принаймні один із аспектів є більш важливим для хорошої фотографії, ніж хороша генетика:

Окрім освітлення, найбільший вплив на оцінку краси мали чубчик (що у випадку чоловіків часто еквівалентно повній шевелюрі), поза тіла та розташування очей (де взаємодія з точка зору камери є доповненням до привабливості).

(Щодо «кольору губної помади», нова система, яка може ефективно працювати як на чоловічому, так і на жіночому представленні статі, не індивідуалізує гендерну зовнішність, а скоріше покладається на нову систему дискримінатора як «фільтр» у цьому відношенні)

Метод

Функція винагороди в механізмі навчання з підкріпленням у новій системі базується на прямій регресії даних SCUT, яка виводить прогнози щодо краси обличчя.

Навчальна система повторює зображення вхідних даних (внизу ліворуч на схемі нижче). Спочатку попередньо підготовлений ResNet18 модель (навчалася на IMAGEnet) виділяє ознаки з п’яти ідентичних ('y') зображень. Далі потенційна трансформаційна дія виводиться з прихованого стану a повністю з’єднаний шар (GRUCell, на зображенні нижче), а також застосовані перетворення, що призводять до п’яти змінених зображень, які вводяться в мережу естетичних оцінок, рейтинги яких у стилі Дарвіна визначатимуть, які варіації будуть розроблені, а які відкинуті.

Широка ілюстрація робочого процесу для нової системи.

Ілюстрація робочого процесу для нової системи.

Мережа естетичних оцінок використовує ефективний канал уваги (ACE) модуль, тоді як адаптація попередньо навченого екземпляра EfficientNet-B4 має завдання витягти 1,792 характеристики з кожного зображення.

Після нормалізації через a Функція активації ReLU, 4-вимірний вектор отримується назад від модуля ECA, який потім зводиться до одновимірного вектора після активації та адаптивне середнє об'єднання. Нарешті, результати вводяться в мережа регресії, який отримує естетичну оцінку.

Якісне порівняння виходу з системи. У нижньому рядку ми бачимо загальну суму всіх окремих аспектів, які були ідентифіковані методом EigenGAN і згодом вдосконалені. Усереднені показники FID для зображень розташовані ліворуч від рядків зображень (чим вище, тим краще).

Якісне порівняння виходу з системи. У нижньому рядку ми бачимо загальну суму всіх окремих аспектів, які були ідентифіковані методом EigenGAN і згодом вдосконалені. Усереднені показники FID для зображень розташовані ліворуч від рядків зображень (чим вище, тим краще).

Тести та дослідження користувача

П’ять варіантів запропонованого методу були оцінені алгоритмічно (див. зображення вище), з початковою дистанцією Фреше (FID, викликає суперечки в деяких колах) бали, призначені загалом 1000 зображенням, надісланим через систему.

Дослідники відзначають, що покращення освітлення досягло кращої оцінки привабливості для об’єктів на фотографіях, ніж кілька інших більш «очевидних» можливих змін (тобто фактичної зовнішності зображеної людини).

До певної міри тестування системи таким чином обмежене ексцентричністю даних SCUT, які не мають багато «яскравих посмішок», і автори стверджують, що це може надмірно перевищити більш типовий «загадковий» вигляд у даних у порівнянні з ймовірними перевагами потенційних цільових кінцевих користувачів (імовірно, у цьому випадку, західний ринок).

Однак, оскільки вся система базується на середній середній думці лише 60 осіб (у документі EigenGAN), а якість, що вивчається, далека від емпіричного, можна стверджувати, що процедура є більш надійною, ніж набір даних.

Хоча в статті це розглядається дуже коротко, зображення з EigenGAN і п’ять власних варіантів системи також були показані в обмеженому дослідженні користувачів (вісім учасників), яких попросили вибрати «найкраще зображення» (слово «привабливе» було уникати).

Вище GUI представлений невеликій дослідницькій групі; нижче результати.

Вище GUI представлений невеликій дослідницькій групі; нижче результати.

Результати показують, що результати нової системи досягли найвищого відбору серед учасників («MAES» на зображенні вище).

(Безцільна?) гонитва за красою

Важко встановити корисність такої системи, незважаючи на те, що здається a Помітний локуси of зусилля in Китай до цих цілей. У новій публікації нічого не викладено.

Попередня стаття EigenGAN припускає*, що систему розпізнавання краси можна використовувати в догляді за обличчям системи рекомендацій щодо синтезу макіяжу, естетична хірургія, прикрашання обличчя, або пошук зображень на основі вмісту.

Імовірно, такий підхід також може бути використаний на сайтах знайомств кінцевими користувачами, щоб «поліпшити» власні фотографії профілю на гарантований «вдалий кадр» як альтернативу використанню застарілих фотографій або фотографій інших людей.

Подібним чином самі сайти знайомств також можуть «оцінювати» своїх клієнтів для створення рейтингів і навіть рівні обмеженого доступу, хоча це, імовірно, працюватиме лише через захоплення автентифікації живості, а не надіслані фотографії (які також можуть бути «покращені» клієнтами, якщо цей підхід стане популярним).

У рекламі — алгоритмічний метод оцінки краси (технологія, яку передбачив покійний письменник-фантаст Майкл Крайтон у своїй кінематографічній прогулянці 1982 року Красуня) можна використовувати для вибору нерозширеного творчого результату, який, швидше за все, зацікавить цільову аудиторію, тоді як здатність фактично максимізувати естетичний вплив зображень обличчя, фактично не перезаписуючи їх у стилі глибоких фейків, може підвищити вже ефективні заплановані зображення викликати суспільний інтерес.

Нова робота підтримується Національним природничим науковим фондом Китаю, проектом відкритого фонду Державної ключової лабораторії управління складними системами та контролем, а також проектом філософських і соціальних досліджень міністерства освіти Китаю, серед інших прихильників.

 

* Багато рекомендацій у статті EigenGAN вказують на комерційно доступну книгу 2016 року під назвою «Комп’ютерні моделі для аналізу краси обличчя», а не на академічні ресурси.

Вперше опубліковано 11 серпня 2022 р.