заглушки Непередбачені переваги відображення латентного простору GAN - Unite.AI
Зв'язатися з нами

Штучний Інтелект

Непередбачені переваги відображення латентного простору GAN

mm
оновлений on

Намагаючись підвищити якість і точність зображень, створених штучним інтелектом, група дослідників з Китаю та Австралії випадково виявила метод інтерактивного контролю прихованого простору Генеральна змагальна мережа (GAN) – таємнича обчислювальна матриця, що лежить в основі нової хвилі методів синтезу зображень, які мають здійснити революцію в кіно, іграх, соціальних медіа та багатьох інших секторах розваг і досліджень.

Їх відкриття, побічний продукт центральної мети проекту, дозволяє користувачеві довільно та інтерактивно досліджувати прихований простір GAN за допомогою миші, ніби гортаючи відео або гортаючи книгу.

Уривок із супровідного відео дослідників (див. вбудовування в кінці статті). Зауважте, що користувач маніпулює перетвореннями за допомогою курсора «захоплення» (верхній лівий кут). Джерело: https://www.youtube.com/watch?v=k7sG4XY5rIc

Уривок із супровідного відео дослідників (додаткові приклади можна знайти в кінці статті). Зауважте, що користувач маніпулює перетвореннями за допомогою курсору «захоплення» (угорі ліворуч). Джерело: https://www.youtube.com/watch?v=k7sG4XY5rIc

Цей метод використовує «теплові карти», щоб вказати, які області зображення слід покращити, оскільки GAN проходить один і той самий набір даних тисячі (або сотні тисяч) разів. Теплові карти призначені для покращення якості зображення, повідомляючи GAN, де вона йде не так, щоб наступна спроба була кращою; але, випадково, це також надає «карту» всього прихованого простору, яку можна переглядати, переміщаючи мишу.

Просторова візуальна увага підкреслюється за допомогою GradCAM, яка вказує на області, які потребують уваги, накладаючи яскраві кольори. Ці зразки генеруються в проекті дослідників із стандартною реалізацією StyleGan2. Джерело: https://arxiv.org/pdf/2112.00718.pdf

Просторова візуальна увага підкреслюється за допомогою GradCAM, яка вказує на області, які потребують уваги, накладаючи яскраві кольори. Джерело: https://arxiv.org/pdf/2112.00718.pdf

Команда папір це називається Покращення рівноваги GAN шляхом підвищення просторової обізнаності, і походить від дослідників з Китайського університету Гонконгу та Австралійського національного університету. Окрім паперу, відео та інші матеріали можна знайти на сторінці проекту.

Робота ще тільки зароджується й наразі обмежена зображеннями з низькою роздільною здатністю (256 × 256), але є доказом концепції, яка обіцяє відкрити «чорну скриньку» прихованого простору, і з’являється в той час, коли численні дослідницькі проекти завалювалися. у ті двері в гонитві за більшим контролем над синтезом зображення.

Хоча такі зображення привабливі (і ви можете побачити їх більше, у кращій роздільній здатності, у відео, вбудованому в кінці цієї статті), що, мабуть, важливіше те, що проект знайшов спосіб створити покращену якість зображення, і потенційно щоб зробити це швидше, повідомивши GAN конкретно, де піде не так під час навчання.

Але як Змагальний вказує на те, що GAN — це не єдина сутність, а натомість нерівний конфлікт між владою та працею. Щоб зрозуміти, яких удосконалень у цьому відношенні зробили дослідники, давайте подивимося, як цю війну характеризували досі.

Жахливе становище Генератора

Якщо вас коли-небудь переслідувала думка, що якийсь чудовий новий предмет одягу, який ви купили, був виготовлений на потогінному цеху в експлуатованій країні, або що бос або клієнт постійно казав вам «Зроби це ще раз!» ніколи не розповідаючи вам, що було не так у вашій останній спробі, пожалійте трохи жалості до Generator частиною Generative Adversarial Network.

Generator — це робоча конячка, яка протягом останніх п’яти чи близько того років радувала вас, допомагаючи GAN створювати фотореалістичні люди, яких не існує, висококласні старі відеоігри до роздільної здатності 4k, і перевернути кадри столітньої давності у повнокольоровий вихід HD зі швидкістю 60 кадрів/с, серед інших дивовижних новинок ШІ.

Від створення фотореалістичних облич нереальних людей до відновлення стародавніх кадрів і пожвавлення архівних відеоігор, GAN був зайнятий протягом останніх кількох років.

Від створення фотореалістичних облич нереальних людей до відновлення стародавніх кадрів і пожвавлення архівних відеоігор, GAN був зайнятий протягом останніх кількох років.

Генератор знову і знову переглядає всі навчальні дані (наприклад, зображення облич, щоб створити GAN, який може створювати фотографії випадкових, неіснуючих людей), одне фото за раз, протягом днів або навіть тижнів, поки він не зможе створювати зображення, які будуть такими ж переконливими, як справжні фотографії, які він досліджував.

Отже, як Генератор дізнається, що він досягає прогресу, щоразу, коли він намагається створити зображення, яке є кращим за попередню спробу?

У Генератора є бос із пекла.

Безжальна непрозорість дискримінатора

Робота в Дискримінатор це повідомити Генератору, що він недостатньо добре створив зображення, яке відповідає оригінальним даним, і Зробіть це знову. Дискримінатор не повідомляє Генератору що помилився з останньою спробою Генератора; він просто дивиться на нього приватно, порівнює згенероване зображення з вихідними зображеннями (знову ж таки, приватно) і призначає зображенню оцінку.

Оцінка є ніколи досить добре. Дискримінатор не зупиняється 'Зробити це знову' поки науковці-дослідники не вимкнуть його (коли вони вирішать, що додаткове навчання більше не покращить результат).

Таким чином, за відсутності будь-якої конструктивної критики та озброєний лише оцінкою, метрика якої є загадкою, Генератор має випадковим чином вгадати, які частини чи аспекти зображення спричинили вищу оцінку, ніж раніше. Це призведе до багатьох подальших незадовільних шляхів, перш ніж щось зміниться достатньо позитивно, щоб отримати вищий бал.

Дискримінатор як наставник і наставник

Інновація, яку забезпечує нове дослідження, по суті полягає в тому, що Дискримінатор тепер вказує Генератору які частини зображення були незадовільними, щоб Генератор міг зосередитися на цих областях у своїй наступній ітерації, а не викидати розділи, які отримали вищу оцінку. Характер відносин змінився з бойових на співпрацю.

Щоб виправити розбіжність у розумінні між Дискримінатором і Генератором, дослідники використовували GradCAM як механізм, здатний сформулювати ідеї Дискримінатора у візуальну допомогу зворотного зв’язку для наступної спроби Генератора.

Новий «рівноважний» метод навчання називається EqGAN. Для максимальної відтворюваності дослідники включили існуючі техніки та методи в налаштування за замовчуванням, включаючи використання StyleGan2 архітектура.

Архітектура EqGAN. Просторове кодування генератора узгоджується з просторовою обізнаністю дискримінатора з випадковими зразками просторових теплових карт (див. попереднє зображення), закодованими назад у генератор через рівень просторового кодування (SEL). GradCAM — це механізм, за допомогою якого карти уваги дискримінатора стають доступними для генератора.

Архітектура EqGAN. Просторове кодування генератора узгоджується з просторовою обізнаністю дискримінатора з випадковими зразками просторових теплових карт (див. попереднє зображення), закодованими назад у генератор через рівень просторового кодування (SEL). GradCAM — це механізм, за допомогою якого карти уваги дискримінатора стають доступними для генератора.

GradCAM створює теплові карти (див. зображення вище), які відображають критику Discriminator щодо останньої ітерації, і робить їх доступними для Generator.

Після навчання моделі відображення залишається як артефакт цього спільного процесу, але також може використовуватися для дослідження остаточного прихованого коду в інтерактивний спосіб, продемонстрований у відео проекту дослідників (див. нижче).

EqGAN

У проекті використано низку популярних наборів даних, зокрема набори даних LSUN Cat і Churches, а також FFHQ набір даних. У відео нижче також представлені приклади маніпуляцій з обличчям і котами за допомогою EqGAN.

Розмір усіх зображень було змінено до 256×256 перед навчанням EqGAN офіційній реалізації StyleGAN2. Модель тренувалась із розміром пакету 64 на 8 графічних процесорах, доки дискримінатор не отримав більше 25 мільйонів зображень.

Тестування результатів системи на відібраних зразках за допомогою початкової відстані Фреше (FID), автори встановили метрику під назвою «Індикатор нерівноважності» (DI) — ступінь, до якого Дискримінатор зберігає свою перевагу в знаннях над Генератором, з метою скорочення цього розриву.

У трьох навчених наборах даних нова метрика показала корисне падіння після кодування просторової обізнаності в генераторі з покращеною рівновагою, продемонстрованою як FID, так і DI.

Дослідники роблять висновок:

«Ми сподіваємося, що ця робота може надихнути більше робіт на перегляд рівноваги GAN і розробити більше нових методів для покращення якості синтезу зображення шляхом маневрування рівноваги GAN. Ми також проведемо більше теоретичних досліджень з цього питання в майбутній роботі».

І продовжуйте:

«Якісні результати показують, що наш метод успішно [змушує Генератор] зосередитися на конкретних регіонах. Експерименти з різними наборами даних підтверджують, що наш метод пом’якшує дисбаланс у навчанні GAN і суттєво покращує загальну якість синтезу зображення. Отримана модель із просторовою обізнаністю також дає змогу інтерактивно маніпулювати вихідним зображенням».

Подивіться відео нижче, щоб дізнатися більше про проект та інші приклади динамічного та інтерактивного дослідження прихованого простору в GAN.

Покращення рівноваги GAN шляхом підвищення просторової обізнаності

 

 

11:12 ранку, 4 грудня 2021 р. – виправлено URL-адресу для GradCAM і впорядковано навколишнє посилання.