Artificial Intelligence
Создание пользовательской генеративно-состязательной сети с помощью эскизов
Исследователи из Карнеги-Меллона и Массачусетского технологического института разработали новую методологию, позволяющую пользователю создавать собственные Генеративная Состязательная Сеть (GAN) системы создания изображений, просто рисуя ориентировочные каракули.
Система такого типа может позволить конечному пользователю создавать системы генерации изображений, способные генерировать очень специфические изображения, например, определенных животных, типы зданий и даже отдельных людей. В настоящее время большинство систем генерации GAN производят широкий и довольно случайный вывод с ограниченными возможностями для указания конкретных характеристик, таких как порода животных, типы волос у людей, стили архитектуры или фактические черты лица.
Подход, изложенный в бумаги Нарисуйте свой собственный GAN, использует новый интерфейс создания эскизов в качестве эффективной функции «поиска» для поиска функций и классов в перегруженных базах данных изображений, которые могут содержать тысячи типов объектов, включая множество подтипов, которые не имеют отношения к намерениям пользователя. Затем GAN обучается на этом отфильтрованном подмножестве изображений.
Набросав конкретный тип объекта, с которым пользователь хочет откалибровать GAN, генеративные возможности платформы становятся специализированными для этого класса. Например, если пользователь хочет создать фреймворк, который генерирует определенный тип кота (а не просто любого старого кота, как можно получить с помощью Этого кота не существует), их входные наброски служат фильтром для исключения ненужных классов кошек.
Исследование возглавляет Шэн Ю-Ван из Университета Карнеги-Меллона вместе с коллегой Джун-Ян Чжу и Дэвидом Бау из Лаборатории компьютерных наук и искусственного интеллекта Массачусетского технологического института.
Сам метод называется «набросок GAN» и использует входные эскизы для непосредственного изменения весов «шаблона» модели GAN, чтобы конкретно нацеливаться на идентифицированный домен или субдомен через междоменная враждебная потеря.
Были изучены различные методы регуляризации, чтобы обеспечить разнообразие выходных данных модели при сохранении высокого качества изображения. Исследователи создали образцы приложений, способных интерполировать скрытое пространство и выполнять процедуры редактирования изображений.
Этот [$class] не существует
Системы генерации изображений на основе GAN стали причудой, если не мемом, за последние несколько лет. распространение проектов, способных генерировать изображения несуществующих вещей, включая людей, арендуемые квартиры, закуски, ноги, лошадей, политиков и насекомых, среди многих других.
Системы синтеза изображений на основе GAN создаются путем компиляции или обработки обширных наборов данных, содержащих изображения из целевого домена, такие как лица или лошади; обучающие модели, которые обобщают ряд характеристик изображений в базе данных; и внедрение модулей генератора, которые могут выводить случайные примеры на основе изученных функций.
Многомерные черты одними из первых конкретизируются в процессе обучения и эквивалентны первым широким образцам цвета на холсте художника. Эти многомерные характеристики в конечном итоге будут коррелировать с гораздо более детальными чертами (например, блеском глаз и острыми кошачьими усами, а не обычным бежевым пятном, представляющим голову).
Я знаю, что Вы имеете ввиду…
Сопоставляя взаимосвязь между этими более ранними исходными формами и предельно подробными интерпретациями, которые получаются гораздо позже в процессе обучения, можно сделать вывод о взаимосвязи между «расплывчатыми» и «конкретными» изображениями, что позволяет пользователям создавать сложные и фотореалистичные образы из грубых мазков. .
Недавно NVIDIA выпустила настольная версия своего долгосрочного исследования GauGAN в области создания ландшафта на основе GAN, которое легко демонстрирует этот принцип:
Точно так же несколько систем, таких как ГлубокийЛицоКарандаш использовали тот же принцип для создания генераторов фотореалистичных изображений на основе эскизов для различных областей.
Упрощение преобразования эскиза в изображение
Подход GAN Sketching в новой статье направлен на то, чтобы снять огромное бремя сбора и обработки данных, которое обычно связано с разработкой фреймворков изображений GAN, путем использования пользовательского ввода для определения того, какой поднабор изображений должен составлять обучающие данные.
Система была разработана таким образом, чтобы для калибровки каркаса требовалось лишь небольшое количество входных эскизов. Система эффективно реверсирует функциональность ФотоЭскиз, совместная исследовательская инициатива 2019 года исследователей из Carnegie Mellon, Adobe, Uber ATG и Argo AI, которая включена в новую работу. PhotoSketch был разработан для создания художественных эскизов из изображений и уже содержит эффективное отображение нечетких> конкретных отношений создания изображения.
Для части процесса генерации новый метод изменяет только веса СтильGAN2. Поскольку используемые данные изображения являются лишь подмножеством всех доступных данных, простая модификация картографической сети дает желаемые результаты.
Метод был оценен в ряде популярных субдоменов, включая конный спорт, церкви и кошек.
Принстонский университет, 2016 г. набор данных LSUN был использован в качестве основного материала, из которого были получены целевые поддомены. Чтобы создать систему отображения эскизов, устойчивую к эксцентриситетам реальных эскизов, введенных пользователем, система обучается на изображениях из Набор данных QuickDraw разработан Microsoft в период с 2021 по 2016 год.
Хотя сопоставление эскизов между PhotoSketch и QuickDraw сильно различается, исследователи обнаружили, что их фреймворк довольно легко справляется с относительно простыми позами, хотя более сложные позы (например, лежащие кошки) представляют большую проблему, хотя и очень абстрактны. пользовательский ввод (т.е. слишком грубые рисунки) также снижают качество результатов.
Скрытое пространство и естественное редактирование изображений
Исследователи разработали два приложения на основе основной работы: редактирование скрытого пространства и редактирование изображений. Редактирование скрытого пространства предлагает интерпретируемые пользовательские элементы управления, которые облегчаются во время обучения и допускают широкий спектр вариаций, сохраняя при этом верность целевой области и приятную согласованность между вариациями.
Компонент редактирования скрытого пространства был основан на версии 2020. Проект GANSpace, совместная инициатива Университета Аалто, Adobe и NVIDIA.
Одно изображение также может быть загружено в настраиваемую модель, что облегчает естественное редактирование изображения. В этом приложении единственное изображение прогнозируемых к пользовательской GAN, не только обеспечивая прямое редактирование, но и сохраняя редактирование скрытого пространства более высокого уровня, если это также использовалось.
Несмотря на возможность настройки, система не предназначена для работы в режиме реального времени, по крайней мере, с точки зрения обучения и калибровки. В настоящее время GAN Sketching требует 30,000 XNUMX обучающих итераций. Системе также требуется доступ к исходным обучающим данным для исходной модели.
В случаях, когда набор данных является открытым исходным кодом и имеет лицензию, разрешающую локальное копирование, это можно сделать, включив исходные данные в локально установленный пакет, хотя это займет значительное место на диске; или путем удаленного доступа к данным или их обработки с использованием облачного подхода, который вводит сетевые накладные расходы и (в случае обработки, фактически выполняемой в облаке), возможно, затраты на расчеты.