заглушки Редактирование скрытого пространства GAN с помощью «клякс» - Unite.AI
Свяжитесь с нами:

Artificial Intelligence

Редактирование скрытого пространства GAN с помощью «клякс»

mm
обновленный on

Новое исследование Калифорнийского университета в Беркли и Adobe предлагает способ прямого редактирования гиперреального контента, который может быть создан с помощью генеративно-состязательной сети (GAN), но который обычно нельзя контролировать, анимировать или свободно манипулировать способом, давно знакомым с Photoshop. пользователей и специалистов по компьютерной графике.

Титулованный БлобГАН, этот метод включает в себя создание сетки «клякс» — математических конструкций, которые напрямую сопоставляются с контентом в скрытом пространстве GAN.

Перемещая капли, вы можете перемещать «объекты» в представлении сцены интуитивно понятным способом, который ближе к методам CGI и CAD, чем многие из текущих попыток отобразить и контролировать скрытое пространство GAN:

Манипулирование сценой с помощью BlobGAN: когда пользователь перемещает «капли», расположение скрытых объектов и стилей в GAN соответствующим образом изменяется. Дополнительные примеры см. в сопроводительном видео к статье, встроенном в конце этой статьи, или на странице https://www.youtube.com/watch?v=KpUv82VsU5k.

Манипулирование сценой с помощью BlobGAN: когда пользователь перемещает «капли», расположение скрытых объектов и стилей в GAN соответствующим образом изменяется. Дополнительные примеры см. в сопровождающем документ видео, встроенном в конце этой статьи, или на странице https://www.youtube.com/watch?v=KpUv82VsU5k.

Поскольку капли соответствуют «объектам» в сцене, отображенной в GAN. скрытое пространство, все объекты распутаны априорный, что позволяет изменять их по отдельности:

Объекты можно изменять в размере, уменьшать, клонировать и удалять, среди прочих операций.

Объекты можно изменять в размере, уменьшать, клонировать и удалять, среди прочих операций.

Как и любой объект в программном обеспечении для редактирования фотографий (или даже редактирования текста), блоб можно дублировать и впоследствии манипулировать им:

Блобы можно дублировать в интерфейсе, и их соответствующие скрытые представления также будут «скопированы и вставлены». Источник: https://dave.ml/blobgan/#results

Блобы можно дублировать в интерфейсе, и их соответствующие скрытые представления также будут «скопированы и вставлены». Источник: https://dave.ml/blobgan/#results

BlobGAN также может анализировать новые, выбранные пользователем изображения в скрытом пространстве:

С BlobGAN вам не нужно включать изображения, которыми вы хотите манипулировать, непосредственно в обучающие данные, а затем выискивать их скрытые коды, но вы можете вводить выбранные изображения по желанию и манипулировать ими. Фотографии, которые здесь редактируются, являются пост-фактум пользовательским вводом. Источник: https://dave.ml/blobgan/#results

С BlobGAN вам не нужно включать изображения, которыми вы хотите манипулировать, непосредственно в обучающие данные, а затем выискивать их скрытые коды, но вы можете вводить выбранные изображения по желанию и манипулировать ими. Фотографии, которые здесь редактируются, являются пост-фактум пользовательским вводом. Источник: https://dave.ml/blobgan/#results

можно увидеть больше результатов здесь, а в сопроводительном YouTube видео (вставлено в конце этой статьи). Также есть интерактивный Colab демонстрация* и GitHub РЕПО**.

Такой инструментарий и область применения могут показаться наивными в пост-фотошоповскую эпоху, и программные пакеты для параметрического моделирования, такие как Cinema4D и Blender, десятилетиями позволяли пользователям создавать и настраивать трехмерные миры; но он представляет собой многообещающий подход к укрощению эксцентричности и загадочной природы скрытого пространства в генеративно-состязательной сети за счет использования прокси-сущностей, которые отображаются на скрытые коды.

Авторы утверждают:

«В сложном наборе данных с несколькими категориями внутренних сцен BlobGAN превосходит Style-GAN2 по качеству изображения, измеренному FID».

Ассоциация бумаги называется BlobGAN: пространственно распутанные представления сцен, и написан двумя исследователями из Калифорнийского университета в Беркли вместе с тремя из Adobe Research.

Средний человек

BlobGAN привносит новую парадигму в синтез изображений GAN. В новой статье указывается, что предыдущие подходы к обращению к дискретным объектам в скрытом пространстве были либо «сверху вниз», либо «снизу вверх».

Нисходящий метод в GAN или классификаторе изображений рассматривает изображения сцен как классы, такие как «спальня», «церковь», «лицо» и т. д. Этот тип сопряжения текста и изображения обеспечивает новое поколение мультимодальных структур синтеза изображений. , такие как недавний DALL-E 2 от OpenAI.

Подходы «снизу вверх» вместо этого сопоставляют каждый пиксель изображения с классом, меткой или категорией. В таких подходах используются различные методы, хотя семантическая сегментация является популярная текущая исследовательская ветвь.

Авторы комментируют:

«Оба пути кажутся неудовлетворительными, потому что ни один из них не может обеспечить простых способов рассуждения о частях сцены как о сущностях. Части сцены либо запекаются в единый запутанный скрытый вектор (сверху вниз), либо должны быть сгруппированы вместе из отдельных меток пикселей (снизу вверх)».

Скорее, BlobGAN предлагает неконтролируемое представительство среднего звенаили прокси-фреймворк для генеративных моделей.

Сеть компоновки сопоставляет локальные (и контролируемые) объекты «блобов» со скрытыми кодами. Цветные круги в центре представляют собой «карту пятен». Источник: https://arxiv.org/pdf/2205.02837.pdf

Сеть компоновки сопоставляет локальные (и контролируемые) объекты «блобов» со скрытыми кодами. Цветные круги в центре представляют собой «карту пятен». Источник: https://arxiv.org/pdf/2205.02837.pdf

Гауссовы (то есть основанные на шуме) блобы упорядочены по глубине и представляют собой узкое место в архитектуре, которая присваивает сопоставление каждому объекту, устраняя самое большое препятствие для манипулирования содержимым GAN: распутывание (также проблема для архитектур на основе автоэнкодера). Полученная «карта больших двоичных объектов» используется для управления декодером BlobGAN.

Авторы с некоторым удивлением отмечают, что система учится разлагать сцены на макеты и сущности через готовый дискриминатор, не использующий явных меток.

Архитектура и данные

Объекты на карте BLOB-объектов преобразуются в изображения с помощью пересмотренного метода, основанного на StyleGAN2. сеть, в подходе, вдохновленном предыдущими исследованиями NVIDIA.

Пересмотренный производный StyleGAN 2 от NVIDIA Research. Некоторые из принципов этой работы были приняты или адаптированы для BlobGAN. Источник: https://arxiv.org/pdf/1912.04958.pdf

Пересмотренный производный StyleGAN 2 от NVIDIA Research. Некоторые из принципов этой работы были приняты или адаптированы для BlobGAN. Источник: https://arxiv.org/pdf/1912.04958.pdf

StyleGAN 2 изменен в BlobGAN, чтобы принимать входные данные из карты больших двоичных объектов вместо одного глобального вектора, как это обычно бывает.

Серия манипуляций стала возможной с помощью BlobGAN, включая «автозавершение» сцены в спальне, а также изменение размера и перемещение элементов в комнате. В строке ниже мы видим доступный пользователю инструмент, который позволяет это сделать — карту BLOB-объектов.

Серия манипуляций стала возможной с помощью BlobGAN, включая «автозаполнение» сцены пустой спальни, а также изменение размера и перемещение элементов в комнате. В строке ниже мы видим доступный пользователю инструмент, который позволяет это сделать — карту BLOB-объектов.

По аналогии, вместо того, чтобы сразу создать огромное и сложное здание (скрытое пространство), а затем исследовать его бесконечные закоулки, BlobGAN отправляет блоки компонентов в начале и всегда знает, где они находятся. Это распутывание содержания и местоположения является главным нововведением работы.

BlobGAN: пространственно распутанные представления сцен

 

* Не работает на момент написания
** Код еще не опубликован на момент написания

 

Впервые опубликовано 8 мая 2022 г.