Artificial Intelligence
Редактирование скрытого пространства GAN с помощью «клякс»
Новое исследование Калифорнийского университета в Беркли и Adobe предлагает способ прямого редактирования гиперреального контента, который может быть создан с помощью генеративно-состязательной сети (GAN), но который обычно нельзя контролировать, анимировать или свободно манипулировать способом, давно знакомым с Photoshop. пользователей и специалистов по компьютерной графике.
Титулованный БлобГАН, этот метод включает в себя создание сетки «клякс» — математических конструкций, которые напрямую сопоставляются с контентом в скрытом пространстве GAN.
Перемещая капли, вы можете перемещать «объекты» в представлении сцены интуитивно понятным способом, который ближе к методам CGI и CAD, чем многие из текущих попыток отобразить и контролировать скрытое пространство GAN:
Поскольку капли соответствуют «объектам» в сцене, отображенной в GAN. скрытое пространство, все объекты распутаны априорный, что позволяет изменять их по отдельности:
Как и любой объект в программном обеспечении для редактирования фотографий (или даже редактирования текста), блоб можно дублировать и впоследствии манипулировать им:
BlobGAN также может анализировать новые, выбранные пользователем изображения в скрытом пространстве:
можно увидеть больше результатов здесь, а в сопроводительном YouTube видео (вставлено в конце этой статьи). Также есть интерактивный Colab демонстрация* и GitHub РЕПО**.
Такой инструментарий и область применения могут показаться наивными в пост-фотошоповскую эпоху, и программные пакеты для параметрического моделирования, такие как Cinema4D и Blender, десятилетиями позволяли пользователям создавать и настраивать трехмерные миры; но он представляет собой многообещающий подход к укрощению эксцентричности и загадочной природы скрытого пространства в генеративно-состязательной сети за счет использования прокси-сущностей, которые отображаются на скрытые коды.
Авторы утверждают:
«В сложном наборе данных с несколькими категориями внутренних сцен BlobGAN превосходит Style-GAN2 по качеству изображения, измеренному FID».
Ассоциация бумаги называется BlobGAN: пространственно распутанные представления сцен, и написан двумя исследователями из Калифорнийского университета в Беркли вместе с тремя из Adobe Research.
Средний человек
BlobGAN привносит новую парадигму в синтез изображений GAN. В новой статье указывается, что предыдущие подходы к обращению к дискретным объектам в скрытом пространстве были либо «сверху вниз», либо «снизу вверх».
Нисходящий метод в GAN или классификаторе изображений рассматривает изображения сцен как классы, такие как «спальня», «церковь», «лицо» и т. д. Этот тип сопряжения текста и изображения обеспечивает новое поколение мультимодальных структур синтеза изображений. , такие как недавний DALL-E 2 от OpenAI.
Подходы «снизу вверх» вместо этого сопоставляют каждый пиксель изображения с классом, меткой или категорией. В таких подходах используются различные методы, хотя семантическая сегментация является популярная текущая исследовательская ветвь.
Авторы комментируют:
«Оба пути кажутся неудовлетворительными, потому что ни один из них не может обеспечить простых способов рассуждения о частях сцены как о сущностях. Части сцены либо запекаются в единый запутанный скрытый вектор (сверху вниз), либо должны быть сгруппированы вместе из отдельных меток пикселей (снизу вверх)».
Скорее, BlobGAN предлагает неконтролируемое представительство среднего звенаили прокси-фреймворк для генеративных моделей.
Гауссовы (то есть основанные на шуме) блобы упорядочены по глубине и представляют собой узкое место в архитектуре, которая присваивает сопоставление каждому объекту, устраняя самое большое препятствие для манипулирования содержимым GAN: распутывание (также проблема для архитектур на основе автоэнкодера). Полученная «карта больших двоичных объектов» используется для управления декодером BlobGAN.
Авторы с некоторым удивлением отмечают, что система учится разлагать сцены на макеты и сущности через готовый дискриминатор, не использующий явных меток.
Архитектура и данные
Объекты на карте BLOB-объектов преобразуются в изображения с помощью пересмотренного метода, основанного на StyleGAN2. сеть, в подходе, вдохновленном предыдущими исследованиями NVIDIA.
StyleGAN 2 изменен в BlobGAN, чтобы принимать входные данные из карты больших двоичных объектов вместо одного глобального вектора, как это обычно бывает.
По аналогии, вместо того, чтобы сразу создать огромное и сложное здание (скрытое пространство), а затем исследовать его бесконечные закоулки, BlobGAN отправляет блоки компонентов в начале и всегда знает, где они находятся. Это распутывание содержания и местоположения является главным нововведением работы.
* Не работает на момент написания
** Код еще не опубликован на момент написания
Впервые опубликовано 8 мая 2022 г.