Штучний інтелект

Створення_CUSTOM Генеративної Суперницької Мережі З Нарисами

Published August 6, 2021

Updated April 28, 2026

Martin Anderson

Дослідники з Університету Карнегі-Меллона та Массачусетського технологічного інституту розробили нову методологію, яка дозволяє користувачеві створювати_CUSTOM генеративні суперницькі мережі (GAN) системи створення зображень просто шляхом малювання вказівних нарисів.

Система такого типу могла б дозволити кінцевому користувачеві створювати системи генерації зображень, здатні генерувати дуже конкретні зображення, такі як конкретні тварини, типи будівель – і навіть окремих людей. Наразі більшість систем генерації GAN створюють широкі та досить випадкові результати, з обмеженими можливостями вказівки конкретних характеристик, таких як порода тварини, типи волосся у людей, стилі архітектури або фактичні обличчя.

Підхід, описаний у роботі _Sketch Your Own GAN, використовує новий інтерфейс малювання як ефективну функцію “пошуку” для пошуку функцій і класів у іншому переповненому базі даних зображень, який може містити тисячі типів об’єктів, включаючи багато підтипів, які не мають значення для намірів користувача. GAN потім тренується на цьому фільтрованому підмножині зображень.

Малюючи конкретний тип об’єкта, з яким користувач хоче калібрувати GAN, генеративні можливості каркасу стають спеціалізованими для цього класу. Наприклад, якщо користувач хоче створити каркас, який генерує конкретний тип кішки (а не просто будь-яку стару кішку, як можна отримати з This Cat Does Not Exist), їхні вхідні нариси служать фільтром для виключення некоректних класів кішок.

Source: https://peterwang512.github.io/GANSketching/

Дослідження ведуться Шенг Ю-Вангом з Університету Карнегі-Меллона, разом з колегою Джун-Яном Чжу та Девідом Бау з Лабораторії комп’ютерних наук та штучного інтелекту Массачусетського технологічного інституту.

Сам метод називається “GAN-малювання”, і використовує вхідні нариси для прямого зміни ваги “шаблонної” моделі GAN для конкретної цілі визначеного домену або піддомену через перехресну доменну суперницьку втрату.

Були досліджені різні методи регуляризації, щоб забезпечити, що вивід моделі є різноманітним, при збереженні високої якості зображення. Дослідники створили зразкові додатки, які здатні інтерполювати латентний простір та проводити процедури редагування зображень.

Це [$class] Не Існує

Системи генерації зображень на основі GAN стали модою, якщо не мемом, за останні кілька років, з поширенням проектів, здатних генерувати зображення неіснуючих речей, включаючи людей, квартири, закуски, ноги, коней, політиків та комах, серед багатьох інших.

Системи генерації зображень на основі GAN створюються шляхом компіляції або кураторства великих баз даних, які містять зображення з цільового домену, таких як обличчя або коні; тренування моделей, які узагальнюють ряд функцій по всім зображенням у базі даних; та реалізації генераторних модулів, які можуть виводити випадкові приклади на основі вивчених функцій.

Вивід з нарисів у DeepFacePencil, який дозволяє користувачам створювати фотореалістичні обличчя з нарисів. Багато подібних проектів малювання-у-зображення існують. Source: https://arxiv.org/pdf/2008.13343.pdf

Високовимірні функції належать до першої групи, яка конкретизується під час процесу тренування, і еквівалентна широким мазкам фарби художника на полотні. Ці високовимірні характеристики згодом корелюють з більш деталяними функціями (тобто блиском ока та різкими вусами кішки, а не просто загальною білою плямою, яка представляє голову).

Я Знаю, Що Ви Маєте На Умі…

Відображаючи відносини між цими ранніми семінальними формами та остаточними деталями, які отримуються значно пізніше в процесі тренування, можна вивести відносини між “неясними” та “конкретними” зображеннями, що дозволяє користувачам створювати складні та фотореалістичні зображення з грубих мазків.

Нещодавно NVIDIA випустила десктоп-версію своєї довгострокової дослідницької роботи GauGAN щодо генерації ландшафтів на основі GAN, яка легко демонструє цей принцип:

Приблизні мазки перекладаються у багатий пейзаж через NVIDIA’s GauGAN, і тепер додаток NVIDIA Canvas. Source: https://rossdawson.com/futurist/implications-of-ai/future-of-ai-image-synthesis/

Аналогічно, кілька систем, таких як DeepFacePencil, використовували той же принцип для створення генераторів фотореалістичних зображень, індукованих нарисами, для різних доменів.

Архітектура DeepFacePencil.

Упрощення Малювання-У-Зображення

Новий підхід GAN-малювання спрямований на усунення величезного тягаря збору та кураторства даних, який зазвичай涉ляється при розробці систем генерації зображень на основі GAN, шляхом використання вхідних даних користувача для визначення того, яку підмножину зображень слід скласти у тренувальні дані.

Система була розроблена так, щоб вимагати лише невелику кількість вхідних нарисів для калібрування каркасу. Система фактично перевертає функціональність PhotoSketch, спільної дослідницької ініціативи 2019 року дослідників з Університету Карнегі-Меллона, Adobe, Uber ATG та Argo AI, яка включена у нову роботу. PhotoSketch був розроблений для створення художніх нарисів з зображень, і вже містить ефективне відображення відносин між неясними та конкретними зображеннями.

Для генерації частини процесу новий метод змінює лише ваги StyleGAN2. Оскільки використовувані дані зображень являють собою лише підмножину всього доступного даних, зміна лише відображення мережі дає бажані результати.

Метод був оцінений на ряді популярних піддоменів, включаючи кінський спорт, церкви та кішок.

Дослідники використали базу даних LSUN Університету Принстона 2016 року як основний матеріал, з якого можна вивести цільові піддомени. Для створення системи малювання, яка є стійкою до ексцентричних реальних вхідних даних користувача, система тренується на зображеннях з бази даних QuickDraw, розробленої Microsoft між 2021-2016 роками.

Хоча система налаштовується, вона не призначена для роботи в режимі реального часу, принаймні у тому, що стосується тренування та калібрування. Наразі GAN-малювання вимагає 30 000 ітерацій тренування. Система також вимагає доступу до оригінальних тренувальних даних для оригінальної моделі.

У випадках, коли набір даних є відкритим джерелом, і має ліцензію, яка дозволяє локальне копіювання, це можна забезпечити шляхом включення джерельних даних у локально встановлений пакет, хоча це займе значний об’єм дискового простору; або шляхом доступу чи обробки даних віддалено, через хмарний підхід, який вводить мережеві накладні витрати та (у разі обробки, яка фактично відбувається у хмарі) можливо витрати на обчислення.

Трансформації з налаштованих моделей FFHQ, тренованих на лише 4 людських нарисах.

Латентний Простір та Редагування Зображень

Дослідники розробили два додатки на основі основної роботи: редагування латентного простору та редагування зображень. Редагування латентного простору пропонує інтерпретовані користувальницькі контролі, які забезпечуються під час тренування, і дозволяють широкий ступінь варіації, залишаючись вірними цільовому домену, і приємно послідовними по всім варіаціям.

Плавне інтерполяційне редагування латентного простору з налаштованими моделями GAN-малювання.

Компонент редагування латентного простору був заповнений проектом GANSpace 2020 року, спільною ініціативою Аалтоського університету, Adobe та NVIDIA.

Одне зображення також можна подати на налаштовану модель, забезпечуючи природне редагування зображень. У цьому додатку одне зображення проектується на налаштовану GAN, забезпечуючи не тільки прямого редагування, але також зберігаючи вищий рівень редагування латентного простору, якщо це також було використано.

Тут реальне зображення було використано як вхід до GAN (модель кішки), яке редагує вхід, щоб відповідати наданим нарисам. Це дозволяє редагування зображень через малювання.

Martin Anderson

Писатель про машинне навчання, домен-спеціаліст у сфері синтезу зображень людини. Колишній керівник дослідницького контенту в Metaphysic.ai.
Особистий сайт: martinanderson.ai
Контакт: [email protected]