Connect with us

Создание пользовательской генеративной сети противников с помощью эскизов

Искусственный интеллект

Создание пользовательской генеративной сети противников с помощью эскизов

mm

Исследователи из Университета Карнеги-Меллона и Массачусетского технологического института разработали новую методологию, которая позволяет пользователю создавать пользовательские системы генерации изображений с помощью генеративных сетей противников (GAN) просто путем рисования указательных эскизов.

Система такого типа могла бы позволить конечному пользователю создавать системы генерации изображений, способные генерировать очень конкретные изображения, такие как определенные животные, типы зданий – и даже отдельных людей. В настоящее время большинство систем генерации GAN производят широкий и достаточно случайный вывод, с ограниченной возможностью указать конкретные характеристики, такие как порода животных, типы волос у людей, стили архитектуры или фактические лица.

Подход, изложенный в статье Sketch Your Own GAN, использует новый интерфейс рисования в качестве эффективной функции “поиска” для поиска функций и классов в иначе переполненных базах данных изображений, которые могут содержать тысячи типов объектов, включая многие подтипы, которые не имеют отношения к намерению пользователя. GAN затем обучается на этом фильтрованном подмножестве изображений.

Рисуя конкретный тип объекта, с которым пользователь хочет калибровать GAN, генеративные возможности框ки становятся специализированными для этого класса. Например, если пользователь хочет создать框ку, которая генерирует определенный тип кошки (а не просто любую старую кошку, как можно получить с помощью This Cat Does Not Exist), их входные эскизы служат фильтром для исключения нерелевантных классов кошек.

 

Source: https://peterwang512.github.io/GANSketching/

Source: https://peterwang512.github.io/GANSketching/

Исследование возглавляет Шэн Ю-Ван из Университета Карнеги-Меллона, вместе с коллегой Джун-Ян Чжу и Дэвидом Бау из Лаборатории компьютерных наук и искусственного интеллекта Массачусетского технологического института.

Метод сам по себе называется ‘GAN рисованием’, и использует входные эскизы для прямого изменения весов ‘шаблонной’ модели GAN для конкретной цели определенного домена или поддомена через потерю противников между доменами.

Были изучены различные методы регуляризации для обеспечения того, чтобы вывод модели был разнообразным, сохраняя при этом высокое качество изображения. Исследователи создали образцы приложений, которые могут интерполировать латентное пространство и проводить процедуры редактирования изображений.

Это [$class] не существует

Системы генерации изображений на основе GAN стали модой, если не мемом, за последние несколько лет, с распространением проектов, способных генерировать изображения несуществующих вещей, включая людей, квартиры, закуски, ноги, лошадей, политиков и насекомых, среди многих других.

Системы генерации изображений на основе GAN создаются путем компиляции или курирования обширных наборов данных, содержащих изображения из целевого домена, таких как лица или лошади; обучения моделей, которые обобщают ряд функций на изображениях в базе данных; и реализации генераторных модулей, которые могут выводить случайные примеры на основе изученных функций.

Вывод от эскизов в DeepFacePencil, который позволяет пользователям создавать фотореалистичные лица из эскизов. Многие подобные проекты существуют.

Вывод от эскизов в DeepFacePencil, который позволяет пользователям создавать фотореалистичные лица из эскизов. Многие подобные проекты существуют. Source: https://arxiv.org/pdf/2008.13343.pdf

Высокоуровневые функции являются среди первых, которые конкретизируются во время процесса обучения, и эквивалентны первым широким мазкам цвета на холсте. Эти высокоуровневые характеристики в конечном итоге коррелируют с более подробными функциями (т.е. блеск глаза и острые усы кошки, вместо просто общего бежевого пятна, представляющего голову).

Я знаю, что вы имеете в виду…

Отображая связь между этими ранними семинальными формами и в конечном итоге подробными интерпретациями, которые получаются гораздо позже в процессе обучения, возможно сделать вывод о связях между ‘неясными’ и ‘конкретными’ изображениями, что позволяет пользователям создавать сложные и фотореалистичные изображения из грубых мазков.

Недавно NVIDIA выпустила десктопную версию своего долгосрочного исследования GauGAN по генерации ландшафтов на основе GAN, которая легко демонстрирует этот принцип:

Приблизительные мазки переводятся в богатые пейзажные изображения через NVIDIA's GauGAN, и теперь приложение NVIDIA Canvas. Source: https://rossdawson.com/futurist/implications-of-ai/future-of-ai-image-synthesis/

Приблизительные мазки переводятся в богатые пейзажные изображения через NVIDIA’s GauGAN, и теперь приложение NVIDIA Canvas. Source: https://rossdawson.com/futurist/implications-of-ai/future-of-ai-image-synthesis/

Аналогично, несколько систем, таких как DeepFacePencil, использовали тот же принцип для создания генераторов изображений, индуцированных эскизами, для различных доменов.

Архитектура DeepFacePencil.

Архитектура DeepFacePencil.

Упрощение эскиза-изображения

Новый подход GAN Sketching стремится удалить внушительную нагрузку сбора и курирования данных, которая обычно участвует в разработке кадров генерации изображений GAN, используя ввод пользователя для определения того, какое подмножество изображений должно составлять обучающие данные.

Система была разработана для требований только небольшого количества входных эскизов для калибровки кадра. Система эффективно обращает функциональность PhotoSketch, совместного исследовательского проекта 2019 года исследователей из Университета Карнеги-Меллона, Adobe, Uber ATG и Argo AI, который включен в новую работу. PhotoSketch был разработан для создания художественных эскизов из изображений и уже содержит эффективное отображение отношений между созданием изображений неясного и конкретного.

Для генерации части процесса новый метод изменяет только веса StyleGAN2. Поскольку используемые изображения данных являются только подмножеством общих доступных данных, изменение только отображающей сети получает желаемые результаты.

Метод был оценен на ряде популярных поддоменов, включая конный спорт, церкви и кошек.

Набор данных LSUN 2016 года Принстонского университета был использован в качестве основного материала, из которого можно получить целевые поддомены. Для создания системы отображения эскизов, устойчивой к эксцентричностям реального ввода пользователя, система обучается на изображениях из набора данных QuickDraw, разработанного Microsoft между 2021-2016 годами.

Хотя отображение эскизов между PhotoSketch и QuickDraw довольно различны, исследователи обнаружили, что их кадр хорошо преодолевает их на относительно простых позах, хотя более сложные позы (например, кошки, лежащие) оказываются более сложными, а очень абстрактный ввод пользователя (т.е. слишком грубые рисунки) также ухудшает качество результатов.

Латентное пространство и редактирование изображений

Исследователи разработали два приложения на основе основной работы: редактирование латентного пространства и редактирование изображений. Редактирование латентного пространства предлагает интерпретируемые элементы управления, которые облегчаются во время обучения, и позволяют широкий диапазон изменений, сохраняя при этом верность целевому домену и приятно последовательные изменения.

Гладкая интерполяция латентного пространства с помощью пользовательских моделей GAN Sketching.

Гладкая интерполяция латентного пространства с помощью пользовательских моделей GAN Sketching.

Компонент редактирования латентного пространства был обеспечен проектом GANSpace 2020 года, совместным проектом Университета Аалто, Adobe и NVIDIA.

Одно изображение также может быть подано в пользовательскую модель, облегчая редактирование изображений. В этом приложении одно изображение проектируется на пользовательскую GAN, не только позволяя прямое редактирование, но и сохраняя более высокоуровневое редактирование латентного пространства, если это также было использовано.

Здесь реальное изображение было использовано в качестве ввода в GAN (модель кошки), которое редактирует ввод для соответствия представленным эскизам. Это позволяет редактировать изображения через эскизы.

Здесь реальное изображение было использовано в качестве ввода в GAN (модель кошки), которое редактирует ввод для соответствия представленным эскизам. Это позволяет редактировать изображения через эскизы.

Хотя конфигурируемый, система не предназначена для работы в реальном времени, по крайней мере, в плане обучения и калибровки. В настоящее время GAN Sketching требует 30 000 итераций обучения. Система также требует доступа к исходным обучающим данным для исходной модели.

В случаях, когда набор данных является открытым и имеет лицензию, которая позволяет локальную копию, это может быть обеспечено путем включения исходных данных в локально установленный пакет, хотя это займет значительное место на диске; или путем доступа или обработки данных удаленно, через облачный подход, который вводит сетевые накладные расходы и (в случае обработки, фактически происходящей в облаке) возможно вычислительные затраты.

Трансформации из пользовательских моделей FFHQ, обученных на только 4 человеко-генерируемых эскизах.

Трансформации из пользовательских моделей FFHQ, обученных на только 4 человеко-генерируемых эскизах.

Писатель о машинном обучении, специалист в области синтеза человеческих изображений. Бывший руководитель исследовательского контента в Metaphysic.ai.