Взгляд Anderson
Создание пользовательской генеративной сети противостояния с помощью эскизов

Исследователи из Университета Карнеги-Меллона и Массачусетского технологического института разработали новую методологию, которая позволяет пользователю создавать пользовательские системы генерации изображений на основе генеративных сетей противостояния (GAN) просто путем рисования указательных эскизов.
Система такого типа может позволить конечному пользователю создавать системы генерации изображений, способные генерировать очень конкретные изображения, такие как определенные животные, типы зданий – и даже отдельные люди. В настоящее время большинство систем генерации GAN производят широкий и довольно случайный вывод, с ограниченной возможностью указать конкретные характеристики, такие как порода животных, типы волос у людей, стили архитектуры или фактические лица.
Подход, изложенный в статье Sketch Your Own GAN, использует новый интерфейс рисования в качестве эффективной функции “поиска” для поиска функций и классов в иначе переполненных базах данных изображений, которые могут содержать тысячи типов объектов, включая многие подтипы, которые не имеют отношения к намерению пользователя. GAN затем обучается на этом отфильтрованном подмножестве изображений.
Рисуя конкретный тип объекта, с которым пользователь хочет калибровать GAN, генеративные возможности框ки становятся специализированными для этого класса. Например, если пользователь хочет создать框ку, которая генерирует определенный тип кошки (а не просто любую кошку, как можно получить с помощью This Cat Does Not Exist), его входные эскизы служат фильтром для исключения нерелевантных классов кошек.

Источник: https://peterwang512.github.io/GANSketching/
Исследование ведется Шэном Ю-Ваном из Университета Карнеги-Меллона, вместе с коллегой Джун-Яном Чжу и Дэвидом Бау из Лаборатории компьютерных наук и искусственного интеллекта Массачусетского технологического института.
Сам метод называется “GAN-рисование”, и использует входные эскизы для прямого изменения весов “шаблонной” модели GAN для конкретной цели идентифицированного домена или поддомена через потерю противостояния между доменами.
Различные методы регуляризации были изучены для обеспечения того, чтобы вывод модели был разнообразным, сохраняя при этом высокое качество изображения. Исследователи создали образцы приложений, которые могут интерполировать пространство潜在ных переменных и проводить процедуры редактирования изображений.
Это [$class] не существует
Системы генерации изображений на основе GAN стали модой, если не мемом, за последние несколько лет, с пролиферацией проектов, способных генерировать изображения несуществующих вещей, включая людей, квартиры, закуски, ноги, лошадей, политиков и насекомых, среди многих других.
Системы синтеза изображений на основе GAN создаются путем компиляции или курирования обширных наборов данных, содержащих изображения из целевого домена, таких как лица или лошади; обучения моделей, которые обобщают диапазон функций на изображениях в базе данных; и реализации генераторных модулей, которые могут выводить случайные примеры на основе изученных функций.

Вывод из эскизов в DeepFacePencil, который позволяет пользователям создавать фотореалистичные лица из эскизов. Многие подобные проекты по рисованию-изображению существуют. Источник: https://arxiv.org/pdf/2008.13343.pdf
Высокоуровневые функции являются среди первых, которые конкретизируются во время процесса обучения, и эквивалентны первым широким мазкам цвета на холсте. Эти высокоуровневые характеристики в конечном итоге коррелируют с более подробными функциями (т.е. блеском глаза и острыми усами кошки, а не просто бежевым пятном, представляющим голову).
Я знаю, что вы имеете в виду…
Отображая связь между этими ранними семинальными формами и в конечном итоге подробными интерпретациями, которые получаются гораздо позже в процессе обучения, можно сделать вывод о связях между “неясными” и “конкретными” изображениями, позволяя пользователям создавать сложные и фотореалистичные изображения из грубых мазков.
Недавно NVIDIA выпустила десктопную версию своей долгосрочной исследовательской работы GauGAN по генерации ландшафтов на основе GAN, которая легко демонстрирует этот принцип:

Приблизительные мазки переводятся в богатые пейзажные изображения через GauGAN NVIDIA, и теперь приложение NVIDIA Canvas. Источник: https://rossdawson.com/futurist/implications-of-ai/future-of-ai-image-synthesis/
Аналогично, несколько систем, таких как DeepFacePencil, использовали тот же принцип для создания генераторов изображений, индуцированных эскизами, для различных доменов.
Упрощение рисования-изображения
Новая статья подхода GAN-рисования направлена на удаление формидабельного бремени сбора и курирования данных, которое обычно участвует в разработке систем генерации изображений GAN, путем использования ввода пользователя для определения того, какое подмножество изображений должно составлять обучающие данные.
Система была разработана для того, чтобы требовать только небольшое количество входных эскизов для калибровки рамки. Система эффективно обращает функциональность PhotoSketch, совместного исследовательского проекта 2019 года исследователей из Университета Карнеги-Меллона, Adobe, Uber ATG и Argo AI, который включен в новую работу. PhotoSketch был разработан для создания художественных эскизов из изображений и уже содержит эффективную отображение отношений между неясными и конкретными изображениями.
Для генерации части процесса новый метод изменяет только веса StyleGAN2. Поскольку используемые изображения являются только подмножеством всех доступных данных, изменение только сети отображения дает желаемые результаты.
Метод был оценен на нескольких популярных поддоменах, включая конный спорт, церкви и кошек.
Набор данных LSUN 2016 года Принстонского университета был использован в качестве основного материала, из которого можно получить целевые поддомены. Для создания системы отображения эскизов, устойчивой к эксцентричностям реального ввода пользователя, система была обучена на изображениях из набора данных QuickDraw, разработанного Microsoft между 2021-2016 годами.
Хотя отображение эскизов между PhotoSketch и QuickDraw довольно разные, исследователи обнаружили, что их рамка хорошо справляется с ними на относительно простых позах, хотя более сложные позы (например, кошки, лежащие) оказываются более сложными, а очень абстрактный ввод пользователя (т.е. слишком грубые рисунки) также ухудшает качество результатов.

Пространство潜在ных переменных и редактирование изображений
Исследователи разработали два приложения на основе основной работы: редактирование пространства潜атных переменных и редактирование изображений. Редактирование пространства潜атных переменных предлагает интерпретируемые элементы управления, которые облегчаются во время обучения, и позволяют широкий диапазон изменений, сохраняя при этом верность целевому домену и приятно последовательны на протяжении изменений.

Гладкая интерполяция пространства潜атных переменных с помощью пользовательских моделей GAN-рисования.
Компонент редактирования пространства潜атных переменных был обеспечен проектом GANSpace 2020 года, совместным проектом Университета Аалто, Adobe и NVIDIA.
Одно изображение также можно подать на вход в пользовательскую модель, облегчая редактирование изображений. В этом приложении одно изображение проектируется на пользовательскую GAN, не только ermögляя прямое редактирование, но и сохраняя более высокоуровневое редактирование пространства潜атных переменных, если оно также было использовано.

Здесь реальное изображение было использовано в качестве входных данных для GAN (модель кошки), которое редактирует входные данные для соответствия представленным эскизам. Это позволяет редактировать изображения через рисование.
Хотя конфигурируема, система не предназначена для работы в реальном времени, по крайней мере в плане обучения и калибровки. В настоящее время GAN-рисование требует 30 000 итераций обучения. Система также требует доступа к исходным данным для исходной модели.
В случаях, когда набор данных является открытым, и имеет лицензию, которая позволяет локальную копию, это может быть обеспечено путем включения исходных данных в локально установленный пакет, хотя это займет значительное место на диске; или путем доступа или обработки данных удаленно через облачный подход, который вводит сетевые накладные расходы и (в случае, когда обработка фактически происходит в облаке) возможно вычислительные затраты.















