Искусственный интеллект
Редактирование пространства GAN с помощью ‘Blobs’

Новые исследования Университета Калифорнии в Беркли и Adobe предлагают способ直接 редактировать гиперреалистичный контент, который может быть создан с помощью сети генеративных противостояний (GAN), но который обычно не может быть контролируем, анимирован или свободно манипулирован способами, знакомыми пользователям Photoshop и практикам CGI.
Названный BlobGAN, метод включает создание сетки ‘blobs’ – математических конструкций, которые напрямую отображаются на контент внутри пространства GAN.
Перемещая blobs, можно переместить ‘объекты’ в представлении сцены, интуитивным образом, который ближе к методам CGI и CAD, чем многие из текущих попыток отобразить и контролировать пространство GAN:

Манипуляция сценой с помощью BlobGAN: когда пользователь перемещает ‘blobs’, расположение скрытых объектов и стилей в GAN соответствующим образом изменяется. Для более подробных примеров см. видео, сопровождающее эту статью, или https://www.youtube.com/watch?v=KpUv82VsU5k
Поскольку blobs соответствуют ‘объектам’ в сцене, отображенной в пространстве GAN, все объекты изначально разделены, что делает возможным изменять их индивидуально:

Объекты можно изменять в размере, уменьшать, клонировать и удалять, среди других операций.
Как и любой объект в программном обеспечении для редактирования фотографий (или даже текста), blob можно дублировать и затем манипулировать:

Blobs можно дублировать в интерфейсе, и их соответствующие скрытые представления также будут ‘скопированы и вставлены’. Источник: https://dave.ml/blobgan/#results
BlobGAN также может парсить новые, выбранные пользователем изображения в свое пространство GAN:

С помощью BlobGAN не нужно включать изображения, которые вы хотите манипулировать,直接 в обучающие данные и затем искать их скрытые коды, но можно вводить выбранные изображения по желанию и манипулировать ими. Источник: https://dave.ml/blobgan/#results
Более подробные результаты можно увидеть здесь, и в сопровождающем видео на YouTube (встроенном в конце этой статьи). Также существует интерактивный демонстрационный материал Colab demo*, и репозиторий GitHub repo**.
Такой инструментарий и объем могут показаться наивными в пост-Photoshop эпохе, и параметрические программные пакеты, такие как Cinema4D и Blender, позволяли пользователям создавать и настраивать 3D-мировые пространства на протяжении десятилетий; но это представляет собой перспективный подход к освоению эксцентричностей и арканной природы пространства GAN, используя прокси-сущности, которые отображаются на скрытые коды.
Авторы утверждают:
‘На сложном много категорийном наборе данных внутренних сцен BlobGAN превосходит Style-GAN2 по качеству изображения, измеренному по FID.’
Статья называется BlobGAN: Пространственно-разделенные представления сцен, и написана двумя исследователями из Университета Калифорнии в Беркли, вместе с тремя из Adobe Research.
Посредник
BlobGAN представляет новый парадигму синтеза изображений GAN. Предыдущие подходы к решению дискретных сущностей в пространстве GAN, как указано в новой статье, были либо ‘сверху вниз’, либо ‘снизу вверх’.
Метод ‘сверху вниз’ в GAN или классификаторе изображений рассматривает изображения сцен как классы, такие как ‘спальня’, ‘церковь’, ‘лицо’ и т. д. Этот тип пары текста/изображения питает новое поколение фреймворков синтеза изображений, таких как недавний DALL-E 2 от OpenAI.
Подходы ‘снизу вверх’, вместо этого, отображают каждый пиксель в изображении в класс, метку или категорию. Такие подходы используют различные методы, хотя семантическая сегментация является популярной текущей исследовательской ветвью.
Авторы комментируют:
‘Оба пути кажутся неудовлетворительными, поскольку ни один из них не может обеспечить простые способы рассуждения о частях сцены как сущностях. Части сцены либо запечатаны в один запутанный скрытый вектор (сверху вниз), либо необходимо группировать вместе из отдельных пиксельных меток (снизу вверх).’
Вместо этого BlobGAN предлагает несупервизированное среднее представление, или прокси-рамку для генеративных моделей.

Сетевая архитектура отображает локальные (и контролируемые) ‘blob’ сущности на скрытые коды. Цветные круги в центре составляют ‘blob карту’. Источник: https://arxiv.org/pdf/2205.02837.pdf
Гауссовские (т. е. основанные на шуме) blobs упорядочены по глубине и представляют собой бутылку в архитектуре, которая присваивает отображение каждой сущности, решая самую большую проблему манипуляции контентом GAN: разделение (также проблема для архитектур, основанных на автоэнкодерах). Результатирующая ‘blob карта’ используется для манипуляции декодером BlobGAN.
Авторы отмечают с некоторым удивлением, что система учится разлагать сцены на макеты и сущности через стандартный дискриминатор, который не использует явные метки.
Архитектура и данные
Сущности в blob карте преобразуются в изображения через модифицированную сеть StyleGAN2, в подходе, который черпает вдохновение из предыдущих исследований NVIDIA.

Модифицированный StyleGAN 2 от NVIDIA Research. Некоторые принципы этой работы были приняты или адаптированы для BlobGAN. Источник: https://arxiv.org/pdf/1912.04958.pdf
StyleGAN 2 изменен в BlobGAN для приема входных данных из blob карты вместо одного глобального вектора, как это обычно бывает.

Серия манипуляций, возможных с помощью BlobGAN, включая ‘автозаполнение’ пустой спальни и изменение размера и перемещение элементов в комнате. В строке ниже мы видим инструментарий, доступный пользователю, который позволяет это – blob карту.
Аналогично, вместо того, чтобы создавать огромное и сложное здание (пространство GAN) целиком и затем исследовать его бесконечные пути, BlobGAN отправляет в составные блоки в начале и всегда знает, где они находятся. Это разделение контента и местоположения является основным нововведением работы.
https://www.youtube.com/watch?v=KpUv82VsU5k
* Не функционален на момент написания
** Код еще не опубликован на момент написания
Опубликовано впервые 8 мая 2022 года.












