Artificial Intelligence

Создание пользовательской генеративно-состязательной сети с помощью эскизов

обновленный on 9 декабря 2022

Исследователи из Карнеги-Меллона и Массачусетского технологического института разработали новую методологию, позволяющую пользователю создавать собственные Генеративная Состязательная Сеть (GAN) системы создания изображений, просто рисуя ориентировочные каракули.

Система такого типа может позволить конечному пользователю создавать системы генерации изображений, способные генерировать очень специфические изображения, например, определенных животных, типы зданий и даже отдельных людей. В настоящее время большинство систем генерации GAN производят широкий и довольно случайный вывод с ограниченными возможностями для указания конкретных характеристик, таких как порода животных, типы волос у людей, стили архитектуры или фактические черты лица.

Подход, изложенный в бумаги Нарисуйте свой собственный GAN, использует новый интерфейс создания эскизов в качестве эффективной функции «поиска» для поиска функций и классов в перегруженных базах данных изображений, которые могут содержать тысячи типов объектов, включая множество подтипов, которые не имеют отношения к намерениям пользователя. Затем GAN обучается на этом отфильтрованном подмножестве изображений.

Набросав конкретный тип объекта, с которым пользователь хочет откалибровать GAN, генеративные возможности платформы становятся специализированными для этого класса. Например, если пользователь хочет создать фреймворк, который генерирует определенный тип кота (а не просто любого старого кота, как можно получить с помощью Этого кота не существует), их входные наброски служат фильтром для исключения ненужных классов кошек.

Источник: https://peterwang512.github.io/GANSketching/

Исследование возглавляет Шэн Ю-Ван из Университета Карнеги-Меллона вместе с коллегой Джун-Ян Чжу и Дэвидом Бау из Лаборатории компьютерных наук и искусственного интеллекта Массачусетского технологического института.

Сам метод называется «набросок GAN» и использует входные эскизы для непосредственного изменения весов «шаблона» модели GAN, чтобы конкретно нацеливаться на идентифицированный домен или субдомен через междоменная враждебная потеря.

Были изучены различные методы регуляризации, чтобы обеспечить разнообразие выходных данных модели при сохранении высокого качества изображения. Исследователи создали образцы приложений, способных интерполировать скрытое пространство и выполнять процедуры редактирования изображений.

Этот [$class] не существует

Системы генерации изображений на основе GAN стали причудой, если не мемом, за последние несколько лет. распространение проектов, способных генерировать изображения несуществующих вещей, включая людей, арендуемые квартиры, закуски, ноги, лошадей, политиков и насекомых, среди многих других.

Системы синтеза изображений на основе GAN создаются путем компиляции или обработки обширных наборов данных, содержащих изображения из целевого домена, такие как лица или лошади; обучающие модели, которые обобщают ряд характеристик изображений в базе данных; и внедрение модулей генератора, которые могут выводить случайные примеры на основе изученных функций.

Вывод из эскизов в DeepFacePencil, который позволяет пользователям создавать фотореалистичные лица из эскизов. Существует множество подобных проектов преобразования эскиза в изображение. Источник: https://arxiv.org/pdf/2008.13343.pdf

Многомерные черты одними из первых конкретизируются в процессе обучения и эквивалентны первым широким образцам цвета на холсте художника. Эти многомерные характеристики в конечном итоге будут коррелировать с гораздо более детальными чертами (например, блеском глаз и острыми кошачьими усами, а не обычным бежевым пятном, представляющим голову).

Я знаю, что Вы имеете ввиду…

Сопоставляя взаимосвязь между этими более ранними исходными формами и предельно подробными интерпретациями, которые получаются гораздо позже в процессе обучения, можно сделать вывод о взаимосвязи между «расплывчатыми» и «конкретными» изображениями, что позволяет пользователям создавать сложные и фотореалистичные образы из грубых мазков. .

Недавно NVIDIA выпустила настольная версия своего долгосрочного исследования GauGAN в области создания ландшафта на основе GAN, которое легко демонстрирует этот принцип:

Приблизительные мазки превращаются в богатые живописные образы с помощью GauGAN от NVIDIA, а теперь и приложения NVIDIA Canvas. Источник: https://rossdawson.com/futurist/implications-of-ai/future-of-ai-image-synchronous/

Точно так же несколько систем, таких как ГлубокийЛицоКарандаш использовали тот же принцип для создания генераторов фотореалистичных изображений на основе эскизов для различных областей.

Архитектура DeepFacePencil.

Упрощение преобразования эскиза в изображение

Подход GAN Sketching в новой статье направлен на то, чтобы снять огромное бремя сбора и обработки данных, которое обычно связано с разработкой фреймворков изображений GAN, путем использования пользовательского ввода для определения того, какой поднабор изображений должен составлять обучающие данные.

Система была разработана таким образом, чтобы для калибровки каркаса требовалось лишь небольшое количество входных эскизов. Система эффективно реверсирует функциональность ФотоЭскиз, совместная исследовательская инициатива 2019 года исследователей из Carnegie Mellon, Adobe, Uber ATG и Argo AI, которая включена в новую работу. PhotoSketch был разработан для создания художественных эскизов из изображений и уже содержит эффективное отображение нечетких> конкретных отношений создания изображения.

Для части процесса генерации новый метод изменяет только веса СтильGAN2. Поскольку используемые данные изображения являются лишь подмножеством всех доступных данных, простая модификация картографической сети дает желаемые результаты.

Метод был оценен в ряде популярных субдоменов, включая конный спорт, церкви и кошек.

Принстонский университет, 2016 г. набор данных LSUN был использован в качестве основного материала, из которого были получены целевые поддомены. Чтобы создать систему отображения эскизов, устойчивую к эксцентриситетам реальных эскизов, введенных пользователем, система обучается на изображениях из Набор данных QuickDraw разработан Microsoft в период с 2021 по 2016 год.

Хотя сопоставление эскизов между PhotoSketch и QuickDraw сильно различается, исследователи обнаружили, что их фреймворк довольно легко справляется с относительно простыми позами, хотя более сложные позы (например, лежащие кошки) представляют большую проблему, хотя и очень абстрактны. пользовательский ввод (т.е. слишком грубые рисунки) также снижают качество результатов.

Скрытое пространство и естественное редактирование изображений

Исследователи разработали два приложения на основе основной работы: редактирование скрытого пространства и редактирование изображений. Редактирование скрытого пространства предлагает интерпретируемые пользовательские элементы управления, которые облегчаются во время обучения и допускают широкий спектр вариаций, сохраняя при этом верность целевой области и приятную согласованность между вариациями.

Плавная интерполяция скрытого пространства с помощью пользовательских моделей GAN Sketching.

Компонент редактирования скрытого пространства был основан на версии 2020. Проект GANSpace, совместная инициатива Университета Аалто, Adobe и NVIDIA.

Одно изображение также может быть загружено в настраиваемую модель, что облегчает естественное редактирование изображения. В этом приложении единственное изображение прогнозируемых к пользовательской GAN, не только обеспечивая прямое редактирование, но и сохраняя редактирование скрытого пространства более высокого уровня, если это также использовалось.

Здесь реальное изображение было использовано в качестве входных данных для GAN (модель кошки), которая редактирует входные данные, чтобы они соответствовали представленным эскизам. Это позволяет редактировать изображения с помощью эскизов.

Несмотря на возможность настройки, система не предназначена для работы в режиме реального времени, по крайней мере, с точки зрения обучения и калибровки. В настоящее время GAN Sketching требует 30,000 XNUMX обучающих итераций. Системе также требуется доступ к исходным обучающим данным для исходной модели.

В случаях, когда набор данных является открытым исходным кодом и имеет лицензию, разрешающую локальное копирование, это можно сделать, включив исходные данные в локально установленный пакет, хотя это займет значительное место на диске; или путем удаленного доступа к данным или их обработки с использованием облачного подхода, который вводит сетевые накладные расходы и (в случае обработки, фактически выполняемой в облаке), возможно, затраты на расчеты.

Трансформации из настраиваемых моделей FFHQ обучались только на 4 скетчах, созданных человеком.

Преобразования из индивидуальных ФФШК модели, на которых обучались только для эскизов, созданных человеком.

LumenVox запускает механизм автоматического распознавания речи нового поколения

Не пропустите

Intel расширяет программу AI for Workforce

Мартин Андерсон

Автор статей о машинном обучении, искусственном интеллекте и больших данных.
Личный сайт: Мартинандерсон.ай
Контактное лицо: [электронная почта защищена]
Твиттер: @manders_ai