Штучний Інтелект

Високоточне семантичне редагування зображень за допомогою EditGAN

опублікований

2 років тому

Вересень 4, 2023

Кунал Кейрівал

Людина тримає в руках глобус, стоячи в полях.

Генеративні змагальні мережі або GAN насолоджувалися новими програмами в галузі редагування зображень. За останні кілька місяців EditGAN набирає популярності в індустрії AI/ML, оскільки це новий метод для високоточного та високоякісного редагування семантичних зображень.

Ми детально розповімо про модель EditGAN і повідомимо вам, чому вона може стати віхою в галузі редагування семантичних зображень.

Тож почнемо. Але перш ніж ми дізнаємося, що таке EditGAN, нам важливо зрозуміти, у чому полягає важливість EditGAN і чому це значний крок вперед.

Чому EditGAN?

Незважаючи на те, що традиційні архітектури GAN допомогли індустрії редагування зображень на основі штучного інтелекту значно просунутися вперед, існують серйозні проблеми зі створенням архітектури GAN з нуля.

Під час фази навчання архітектура GAN потребує великої кількості позначених даних із анотаціями семантичної сегментації.
Вони здатні забезпечити контроль лише високого рівня.
І часто вони просто інтерполюють зображення вперед і назад.

Можна помітити, що хоча традиційні архітектури GAN виконують роботу, вони неефективні для широкомасштабного розгортання. Недостатня ефективність традиційної архітектури GAN є причиною того, що NVIDIA представила EditGAN у 2022 році.

EditGAN запропоновано як ефективний метод для високої точності та високоякісної семантики редагування зображень з можливістю дозволяти своїм користувачам редагувати зображення, змінюючи їхні високодеталізовані маски сегментації зображення. Однією з причин, чому EditGAN є масштабованим методом для завдань редагування зображень, є його архітектура.

Модель EditGAN побудована на основі GAN, яка спільно моделює зображення та їх семантичну сегментацію, і вимагає лише кількох позначених або анотованих навчальних даних. Розробники EditGAN спробували вбудувати зображення в латентний простір GAN, щоб ефективно модифікувати зображення, виконавши умовну оптимізацію латентного коду відповідно до редагування сегментації. Крім того, щоб амортизувати оптимізацію, модель намагається знайти «вектори редагування» в латентному просторі, який реалізує редагування.

Архітектура середовища EditGAN дозволяє моделі вивчати довільну кількість векторів редагування, які потім можна реалізувати або застосувати безпосередньо на інших зображеннях з високою швидкістю та ефективністю. Крім того, експериментальні результати показують, що EditGAN може редагувати зображення з ніколи небаченим раніше рівнем деталізації, зберігаючи при цьому максимальну якість зображення.

Підсумовуючи, чому нам потрібен EditGAN, це перша в історії структура редагування зображень на основі GAN, яка пропонує

Дуже точний монтаж.
Може працювати з кількома даними з мітками.
Може бути ефективно розгорнуто в сценаріях реального часу.
Дозволяє композицію для кількох редагувань одночасно.
Працює на створених GAN, реальних вбудованих і навіть поза доменними зображеннями.

Високоточне семантичне редагування зображень за допомогою EditGAN

StyleGAN2, сучасна структура GAN для синтезу зображень, є основним компонентом генерації зображень EditGAN. Фреймворк StyleGAN2 відображає приховані коди, отримані з пулу багатовимірного нормального розподілу, і відображає його в реалістичних зображеннях.

StyleGAN2 — це глибока генеративна модель, яку навчили синтезувати зображення найвищої якості разом із отриманням семантичного розуміння змодельованих зображень.

Навчання сегментації та висновки

Модель EditGAN вбудовує зображення в латентний простір GAN за допомогою оптимізації та кодера для виконання сегментації нового зображення та навчання гілки сегментації. Фреймворк EditGAN продовжує базуватися на попередніх роботах і навчає кодер вбудовувати зображення в прихований простір. Основна мета тут полягає в тому, щоб навчити кодер, що складається зі стандартних попіксельних конструкційних втрат L2 і LPIPS, використовуючи зразки з GAN і навчальні дані реального життя. Крім того, модель також упорядковує кодер, явно використовуючи приховані коди під час роботи із зразками GAN.

Як наслідок, модель вбудовує анотовані зображення з набору даних, позначеного семантичною сегментацією, у латентний простір і використовує перехресну втрату ентропії для навчання гілки сегментації генератора.

Використання редагування сегментації для пошуку семантики в прихованому просторі

Основною метою EditGAN є використання спільного розподілу семантичних сегментів і зображень для високоточне редагування зображень. Скажімо, у нас є образ x який потрібно відредагувати, тому модель вбудовує зображення в прихований простір EditGAN або використовує зразки зображень із самої моделі. Потім генерується гілка сегментації y або відповідну сегментацію в першу чергу тому, що RGB-зображення та сегментації мають однакові приховані коди w. Потім розробники можуть використовувати будь-які інструменти маркування або цифрового малювання, щоб змінювати сегментацію та редагувати їх відповідно до своїх вимог вручну.

Різні способи редагування під час висновку

Вектори редагування латентного простору, отримані за допомогою оптимізації, можна описати як семантично значущі, і часто роз’єднуються різними атрибутами. Таким чином, щоб відредагувати нове зображення, модель може безпосередньо вставити зображення в прихований простір і безпосередньо виконати ті самі операції редагування, які модель навчила раніше, не виконуючи оптимізацію заново з нуля. Можна з упевненістю сказати, що вектори редагування, які вивчає модель, амортизують оптимізацію, яка була важливою для початкового редагування зображення.

Варто зазначити, що розробники ще не вдосконалили розплутування, і редаговані вектори часто не дають найкращих результатів, коли використовуються для інших зображень. Однак проблему можна подолати, видаливши артефакти редагування з інших частин зображення, виконавши кілька додаткових кроків оптимізації під час тестування.

Виходячи з наших поточних знань, фреймворк EditGAN можна використовувати для редагування зображень у трьох різних режимах.

Редагування в реальному часі за допомогою редагування векторів

Для зображень, які локалізовані та розплутані, модель редагує зображення, застосовуючи раніше вивчені вектори редагування з різними масштабами, і маніпулює зображеннями з інтерактивною швидкістю.

Використання самокерованого вдосконалення для векторного редагування

Для редагування локалізованих зображень, які не повністю роз’єднані з іншими частинами зображення, модель ініціалізує редагування зображення за допомогою попередньо вивчених векторів редагування та видаляє артефакти редагування, виконуючи кілька додаткових кроків оптимізації під час тестування.

Редагування на основі оптимізації

Для виконання великомасштабних і специфічних для зображень редагувань модель виконує оптимізацію з самого початку, оскільки вектори редагування не можна використовувати для виконання такого роду переносів на інші зображення.

Реалізація

Фреймворк EditGAN оцінюється на зображеннях у чотирьох різних категоріях: автомобілі, птахи, коти та обличчя. Сегментаційна гілка моделі навчається за допомогою пар зображення-маска з 16, 30, 30, 16 як позначених навчальних даних для автомобілів, птахів, котів і облич відповідно. Коли зображення потрібно редагувати виключно за допомогою оптимізації або коли модель намагається вивчити вектори редагування, модель виконує 100 кроків оптимізації за допомогою оптимізатора Адама.

Для набору даних Cat, Car та Faces модель використовує реальні зображення з тестового набору DatasetGAN, які не використовувалися для навчання GAN-платформи для виконання функцій редагування. Ці зображення відразу вбудовуються в прихований простір EditGAN за допомогою оптимізації та кодування. Для категорії «Птахи» редагування показано на зображеннях, згенерованих GAN.

Результати

Якісні результати

Результати в домені

Зображення вище демонструє продуктивність фреймворку EditGAN, коли він застосовує раніше вивчені вектори редагування до нових зображень і вдосконалює зображення за допомогою 30 кроків оптимізації. Ці операції редагування, які виконує платформа EditGAN, роз’єднані для всіх класів і зберігають загальну якість зображень. Порівнюючи результати EditGAN та інших фреймворків, можна помітити, що фреймворк EditGAN перевершує інші методи у виконанні високоточних і складних редагувань, зберігаючи при цьому ідентичність об’єкта та якість зображення.

Що вражає, так це те, що фреймворк EditGAN може виконувати редагування надзвичайно високої точності, як-от розширення зіниць або редагування спиць коліс у шинах автомобіля. Крім того, EditGAN також можна використовувати для редагування семантичних частин об’єктів, які мають лише кілька пікселів, або його також можна використовувати для виконання масштабних модифікацій зображення. Варто зазначити, що кілька операцій редагування в інфраструктурі EditGAN здатні генерувати оброблені зображення на відміну від зображень, які з’являються в навчальних даних GAN.

Результати поза доменом

Щоб оцінити продуктивність EditGAN поза межами домену, фреймворк протестовано на наборі даних MetFaces. Модель EditGAN використовує реальні обличчя в домені для створення векторів редагування. Потім модель вбудовує портрети MetFaces, які не належать домену, за допомогою 100-етапного процесу оптимізації та застосовує редаговані вектори за допомогою 30-етапного процесу самоконтрольованого вдосконалення. Результати можна побачити на наступному зображенні.

Кількісні результати

Щоб кількісно виміряти можливості редагування зображень EditGAN, модель використовує еталонний тест редагування посмішок, який вперше представив MaskGAN. Обличчя з нейтральним виразом замінюються усміхненими обличчями, а продуктивність вимірюється за трьома параметрами.

Семантична коректність

Модель використовує попередньо навчений класифікатор атрибутів посмішки, щоб визначити, чи мають обличчя на зображеннях посмішку після редагування.

Якість зображення на рівні розповсюдження

Початкова відстань ядра або KID і початкова відстань Фреша або FID розраховується між тестовим набором даних CelebA та 400 відредагованими тестовими зображеннями.

Збереження ідентичності

Здатність моделі зберігати ідентичність суб’єктів під час редагування зображення вимірюється за допомогою попередньо навченої мережі вилучення функцій ArcFace.

У наведеній вище таблиці порівнюється продуктивність фреймворку EditGAN з іншими базовими моделями в еталонному тесті редагування посмішок. Метод, використаний фреймворком EditGAN для досягнення таких високих результатів, порівнюється за трьома різними базовими рівнями:

МаскГАН

MaskGAN приймає зображення без посмішки разом із їхніми масками сегментації та цільовою маскою сегментації посмішки як вхідні дані. Варто зазначити, що порівняно з EditGAN структура MaskGAN вимагає великої кількості анотованих даних.

Локальне редагування

EditGAN також порівнює свою ефективність із локальним редагуванням, методом, який використовується для кластеризації функцій GAN для впровадження локального редагування, і він залежить від еталонних зображень.

InterFaceGAN

Подібно до EditGAN, InterFaceGAN також намагається знайти вектори редагування в прихованому просторі моделі. Однак, на відміну від EditGAN, модель InterFaceGAN використовує велику кількість анотованих даних, класифікаторів допоміжних атрибутів і не має високої точності редагування.

Стиль GAN2Дистиляція

Цей метод створює альтернативний підхід, який не обов’язково потребує вбудовування реальних зображень, а замість цього він використовує векторну модель редагування для створення навчального набору даних.

Недоліки

Оскільки EditGAN базується на структурі GAN, він має ті ж обмеження, що й будь-яка інша модель GAN: він може працювати лише з зображеннями, які можна моделювати за допомогою GAN. Обмеження EditGAN щодо роботи із змодельованими зображеннями GAN є основною причиною, чому важко застосувати EditGAN у різних сценаріях. Проте варто зазначити, що високоточні редагування EditGAN можна легко перенести на інші зображення за допомогою редагування векторів.

Висновок

Однією з головних причин, чому GAN не є галузевим стандартом у сфері редагування зображень, є його обмежена практичність. Фреймворки GAN зазвичай вимагають великої кількості анотованих навчальних даних, і вони не часто забезпечують високу ефективність і точність.

EditGAN спрямований на вирішення проблем, пов’язаних зі звичайними фреймворками GAN, і намагається стати ефективним методом високоякісного та високоточного семантичного редагування зображень. Отримані на даний момент результати свідчать про те, що EditGAN справді пропонує те, що заявляє, і він уже працює краще, ніж деякі з поточних галузевих стандартів і моделей.

Вгору Далі

Llama 2: глибоке занурення в Challenger ChatGPT з відкритим кодом

Не пропустіть

Впровадження різноманітності нейронів: стрибок у ефективності та продуктивності ШІ

Кунал Кейрівал

«За фахом інженер, душею — письменник». Кунал є технічним письменником, який глибоко любить і розуміє штучний інтелект і машинне навчання, відданий справі спрощення складних концепцій у цих сферах за допомогою своєї цікавої та інформативної документації.