Штучний інтелект

Небажана вигода від мапування.latent простору GAN

Published December 3, 2021

Updated April 28, 2026

Martin Anderson

Під час спроби покращення якості та вірогідності зображень, згенерованих штучним інтелектом, група дослідників з Китаю та Австралії випадково відкрила метод інтерактивного контролю latent простору Генеративної суперницької мережі (GAN) – загадкової розрахункової матриці, що лежить в основі нових методів синтезу зображень, які мають революціонізувати кіно, ігри, соціальні медіа та інші галузі розваг та досліджень.

Їхнє відкриття, побічний продукт основної мети проекту, дозволяє користувачеві довільно та інтерактивно досліджувати latent простір GAN мишею, як би прокручуючи відео або листаючи книгу.

Виписка з супровідного відео дослідників (див. вкладення в кінці статті). Відзначте, що користувач маніпулює трансформаціями за допомогою курсора 'grab' (верхній лівий). Джерело: https://www.youtube.com/watch?v=k7sG4XY5rIc

Виписка з супровідного відео дослідників (див. вкладення в кінці статті для багатьох інших прикладів). Відзначте, що користувач маніпулює трансформаціями за допомогою курсора ‘grab’ (верхній лівий). Джерело: https://www.youtube.com/watch?v=k7sG4XY5rIc

Метод використовує ‘теплові карти’ для вказівки тих областей зображення, які потрібно покращити під час виконання GAN тисячі (або сотень тисяч) разів. Теплові карти призначені для покращення якості зображення, вказуючи GAN, де він помиляється, щоб його наступна спроба була кращою; але, випадково, це також забезпечує ‘мапу’ всього latent простору, яку можна просувати мишею.

Просторова увага, виділена за допомогою GradCAM, яка вказує області, що потребують уваги, накладаючи яскраві кольори. Ці зразки згенеровані в проекті дослідників з використанням стандартної реалізації StyleGan2. Джерело: https://arxiv.org/pdf/2112.00718.pdf

Просторова увага, виділена за допомогою GradCAM, яка вказує області, що потребують уваги, накладаючи яскраві кольори. Джерело: https://arxiv.org/pdf/2112.00718.pdf

Стаття називається Покращення рівноваги GAN за рахунок підвищення просторової уваги, і походить від дослідників Китайського університету Гонконгу та Австралійського національного університету. Окрім статті, відео та інших матеріалів можна знайти на сторінці проекту.

Робота знаходиться на початковому етапі і зараз обмежена низькоякісними зображеннями (256×256), але це доказ концепції, який обіцяє розбити ‘чорну скриньку’ latent простору і з’являється в той час, коли кілька дослідницьких проектів намагаються здобути більший контроль над синтезом зображень.

Хоча такі зображення привабливі (і ви можете побачити більше з них у вищій роздільній здатності у відео, вкладеному в кінці цієї статті), те, що, можливо, ще важливіше, полягає в тому, що проект знайшов спосіб покращити якість зображення і потенційно зробити це швидше, вказуючи GAN конкретно, де він помиляється під час навчання.

Але, як Суперницька вказує, GAN не є єдиним цілісним об’єктом, а радше нерівною боротьбою між владою та трудом. Щоб зрозуміти, які покращення зробили дослідники в цьому відношенні, давайте розглянемо, як ця війна характеризувалася до цього часу.

Жалюгідний стан Генератора

Якщо ви коли-небудь турбувалися про те, що якийсь новий предмет одягу, який ви купили, був виготовлений у потогонному цеху в експлуатовані країні, або мали боса чи клієнта, який постійно казав вам ‘Зробіть це знову!’ без жодної вказівки на те, що було не так з вашою останньою спробою, пожаліться Генератору, частини Генеративної суперницької мережі.

Генератор – це тягловий транспорт, який протягом останніх п’яти років радував вас, допомагаючи GAN створювати фотореалістичні люди, яких не існує, підвищувати якість старих відеоігор до роздільної здатності 4k, і перетворювати сторічну відеозапис у повнокольоровий HD-відео з частотою 60 кадрів за секунду, серед інших чудових новинок штучного інтелекту.

Від створення фотореалістичних облич людей, яких не існує, до відновлення старих відеозаписів і оживлення архівних відеоігор, GAN був зайнятий протягом останніх кількох років.

Генератор проходить через всі навчальні дані знову і знову (наприклад, зображення облич, щоб створити GAN, який може створювати фотографії випадкових, неіснуючих людей), одне зображення за раз, протягом днів чи навіть тижнів, поки він не зможе створити зображення, які є так само переконливими, як і справжні фотографії, які він вивчав.

Як Генератор знає, що він робить якийсь прогрес кожен раз, коли він намагається створити зображення, яке буде кращим за його попередню спробу?

У Генератора є босс з пекла.

Безжалісна непрозорість Дискримінатора

Робота Дискримінатора полягає в тому, щоб сказати Генератору, що він не зробив достатньо добре в створенні зображення, яке є автентичним щодо оригінальних даних, і сказати йому Зробіть це знову. Дискримінатор не каже Генератору що було не так з його останньою спробою; він просто приватно розглядає його, порівнює згенероване зображення з джерельними зображеннями (знову приватно) і присвоює зображенню оцінку.

Оцінка ніколи не достатньо добра. Дискримінатор не зупиниться повторювати Зробіть це знову, поки дослідники не вимкнуть його (коли вони вирішать, що подальше навчання не покращить результати).

У цьому спосіб, позбавлений будь-якої конструктивної критики, і озброєний лише оцінкою, чия метрика є загадкою, Генератор повинен випадково здогадуватися, які частини або аспекти зображення спричинили вищу оцінку, ніж раніше. Це приведе його до багатьох подальших незадовільних шляхів, перш ніж він щось позитивно змінить, щоб отримати вищу оцінку.

Дискримінатор як наставник і вчитель

Інновація, запропонована новими дослідженнями, полягає в тому, що Дискримінатор тепер вказує Генератору які частини зображення були незадовільними, щоб Генератор міг зосередитися на цих областях у своєму наступному ітерації, і не викинути частини, які були оцінені вище. Природа відносин змінилася з суперницької на співробітницьку.

Щоб виправити диспропорцію знань між Дискримінатором і Генератором, дослідники використали GradCAM як механізм, здатний сформулювати висновки Дискримінатора у візуальний допоміжний засіб для наступної спроби Генератора.

Новий метод навчання, званий EqGAN, включає існуючі техніки та методи за стандартними налаштуваннями, включаючи використання архітектури StyleGan2.

Архітектура EqGAN. Просторова кодування Генератора вирівняно з просторовою увагою Дискримінатора, з випадковими зразками просторових теплових карт (див. попереднє зображення) закодованими назад у Генератор через просторове кодування шару (SEL). GradCAM – це механізм, за допомогою якого карти уваги Дискримінатора стають доступними Генератору.

GradCAM створює теплові карти (див. вище зображення), які відображають критику Дискримінатора щодо останньої ітерації, і робить це доступним Генератору.

Як тільки модель навчена, мапа залишається артефактом цього співробітницького процесу, але також може бути використана для дослідження кінцевого.latent коду інтерактивним способом, продемонстрованим у відео дослідників (див. нижче).

EqGAN

Проект використовував кілька популярних наборів даних, включаючи набори даних LSUN Cat і Churches, а також набір даних FFHQ. Відео нижче також містить приклади маніпуляції з обличчями та котами за допомогою EqGAN.

Усі зображення були змінені в розмірі до 256×256 перед навчанням EqGAN на офіційній реалізації StyleGAN2. Модель була навчена з розміром партії 64 на 8 GPU до тих пір, поки Дискримінатор не бачив понад 25 мільйонів зображень.

Тестування результатів системи на вибраних зразках за допомогою метрики Frechet Inception Distance (FID), автори встановили метрику, звану Індикатором дисбалансу (DI) – ступінь, у якій Дискримінатор зберігає свою перевагу у знаннях над Генератором, з метою звуження цього розриву.

На трьох навчених наборах даних нова метрика показала корисний спад після кодування просторової уваги у Генератор, з покращеною рівновагою, продемонстрованою як FID, так і DI.

Дослідники висновують:

‘Ми сподіваємося, що ця робота зможе надихнути інші дослідження щодо перегляду рівноваги GAN і розробки нових методів покращення якості синтезу зображень за допомогою маневрування рівновагою GAN. Ми також проведемо подальші теоретичні дослідження цієї проблеми в майбутній роботі.’

І продовжують:

‘Якісні результати показують, що наш метод успішно змусив Генератор зосередитися на конкретних регіонах. Експерименти на різних наборах даних підтверджують, що наш метод пом’якшує дисбаланс у навчанні GAN і суттєво покращує загальну якість синтезу зображень. Результатна модель із просторовою увагою також дозволяє інтерактивно маніпулювати вихідним зображенням.’

Подивіться відео нижче для отримання більшої інформації про проект і подальших прикладів динамічного та інтерактивного дослідження latent простору в GAN.

11:12 ранку 4 грудня 2021 р. – Виправлено URL для GradCAM і впорядковано навколишній посилання.

Martin Anderson

Писатель про машинне навчання, домен-спеціаліст у сфері синтезу зображень людини. Колишній керівник дослідницького контенту в Metaphysic.ai.
Особистий сайт: martinanderson.ai
Контакт: [email protected]