заглушки Изменение типов человеческого тела с помощью ИИ - Unite.AI
Свяжитесь с нами:

Artificial Intelligence

Изменение типов человеческого тела с помощью ИИ

mm
обновленный on

Новое исследовательское сотрудничество из Китая предлагает новый метод изменения формы человеческого тела на изображениях с использованием скоординированной сети двойного нейронного кодировщика, управляемой параметрической моделью, которая позволяет конечному пользователю модулировать вес, рост и пропорции тела. в интерактивном графическом интерфейсе.

Параметризованная модуляция формы тела с помощью ползунков, изменяющих три доступные функции. Источник: https://arxiv.org/pdf/2203.10496.pdf

Параметризованная модуляция формы тела с помощью ползунков, изменяющих три доступные функции. Источник: https://arxiv.org/pdf/2203.10496.pdf

Работа предлагает несколько улучшений по сравнению с недавний аналогичный проект от Alibaba, в том смысле, что он может убедительно изменять рост и пропорции тела, а также вес, и имеет специальную нейронную сеть для «закрашивания» (несуществующего) фона, который можно выявить с помощью «более стройных» изображений тела. Это также заметно улучшает более ранний параметрический метод для изменения формы тела, устраняя необходимость обширного вмешательства человека во время формулировки трансформации.

Титулованный НейронРешейпер, новая архитектура подгоняет параметрический трехмерный человеческий шаблон к исходному изображению, а затем использует искажения в шаблоне, чтобы адаптировать исходное изображение к новым параметрам.

Система может выполнять трансформацию тела как одетых, так и полуодетых (например, в пляжной одежде) фигур.

Преобразования такого типа в настоящее время представляют большой интерес для модный ИИ исследовательский сектор, который выпустил ряд платформ на основе StyleGAN/CycleGAN и общих нейронных сетей для виртуальные примерки которые могут адаптировать доступные предметы одежды к форме тела и типу изображения, представленного пользователем, или иным образом помочь с визуальным соответствием.

Ассоциация бумаги называется Изменение формы человеческого тела по одному изображению с помощью глубоких нейронных сетей, и исходит от исследователей из Чжэцзянского университета в Ханчжоу и Школы креативных медиа в Городском университете Гонконга.

СМПЛ Фитинг

NeuralReshaper использует линейную модель Skinned Multi-Person Linear Model (SMPL). развитый Институтом интеллектуальных систем Макса Планка и известным VFX-домом Industrial Light and Magic в 2015 году.

SMPL Parametric people из коллаборации Planck/ILM 2015 года. Источник: https://files.is.tue.mpg.de/black/papers/SMPL2015.pdf

SMPL Parametric people из коллаборации Planck/ILM 2015 года. Источник: https://files.is.tue.mpg.de/black/papers/SMPL2015.pdf

На первом этапе процесса модель SMPL генерируется из исходного изображения, для которого требуется выполнить преобразования тела. Адаптация модели SMPL к изображению следует за методология метода Human Mesh Recovery (HMR), предложенного университетами Германии и США в 2018 году.

На этом этапе рассчитываются три параметра деформации (вес, рост, пропорции тела) вместе с учетом параметров камеры, таких как фокусное расстояние. Двухмерные характерные точки и сгенерированное выравнивание силуэта обеспечивают покрытие деформации в виде двухмерного силуэта, что является дополнительной мерой оптимизации, которая повышает точность границ и позволяет прорисовывать аутентичный фон дальше по конвейеру.

Этапы подгонки СМПЛ: слева исходное изображение; второй слева — результат оптимизации, полученный с помощью метода, описанного в исследовании 2016 года, проведенном Институтом интеллектуальных систем им. Макса Планка; третий слева — результат прямого вывода из предварительно обученной модели сквозного восстановления формы и позы человека; второй справа — результаты, полученные после оптимизации ключевых точек 2D; и наконец, справа, завершенная подгонка после оптимизации силуэта (см. выше).

Этапы подгонки СМПЛ: слева исходное изображение; во-вторых, результат оптимизации, полученный с помощью метода, описанного в 2016 г. исследованиям во главе с Институтом интеллектуальных систем Макса Планка; в-третьих, результат прямого вывода из предварительно обученной модели для Сквозное восстановление формы и позы человека; в-четвертых, результаты, полученные после оптимизации ключевых точек 2D; и, наконец, в-пятых, завершенная подгонка после оптимизации силуэта (см. выше).

Затем трехмерная деформация проецируется в пространство изображения архитектуры, чтобы обеспечить плотное поле деформации, которое будет определять деформацию. Этот процесс занимает около 3 секунд на изображение.

Архитектура NeuralReshaper

NeuralReshaper запускает две нейронные сети в тандеме: кодировщик переднего плана, который генерирует трансформированную форму тела, и кодировщик фона, который фокусируется на заполнении «раскрытых» областей фона (например, в случае похудения тела — см. изображение ниже).

Структура в стиле U-net объединяет выходные данные функций двух кодировщиков перед передачей результата в унифицированный кодировщик, который в конечном итоге создает новое изображение из двух входных данных. В архитектуре реализован новый механизм, управляемый деформацией, обеспечивающий интеграцию.

Обучение и эксперименты

NeuralReshaper реализован в PyTorch на одном графическом процессоре NVIDIA 1080ti с 11 ГБ видеопамяти. Сеть обучалась в течение 100 эпох под оптимизатором Адама, при этом генератор был настроен на целевую потерю 0.0001, а дискриминатор — на целевую потерю 0.0004. Обучение проводилось на пакете размером 8 для проприетарного набора наружных данных (взято из Кокос, МПИИ, и LSP) и 2 для обучения на DeepFashion набор данных.

Слева исходные изображения, справа репропорциональный результат NeuralReshaper.

Слева исходные изображения, справа репропорциональный результат NeuralReshaper.

Ниже приведены несколько примеров исключительно из набора данных DeepFashion, обученных для NeuralReshaper, причем исходные изображения всегда слева.

Три управляемых атрибута разделены и могут применяться по отдельности.

Преобразования полученного набора наружных данных более сложны, поскольку часто требуют заполнения сложных фонов и четкого и убедительного очерчивания преобразованных типов телосложения:

Параметрическая необходимость

Как отмечается в документе, преобразования одного и того же изображения этого типа представляют собой некорректную проблему в синтезе изображений. Многие преобразующие структуры GAN и кодировщики могут использовать парные изображения (например, различные проекты, предназначенные для эскиз>фото и фото>эскиз преобразования).

Однако в данном случае для этого потребуются пары изображений с изображением одних и тех же людей в различных физических конфигурациях, например изображения «до и после» в рекламе диеты или пластической хирургии — данные, которые трудно получить или сгенерировать.

С другой стороны, преобразующие сети GAN могут обучаться на гораздо более разнообразных данных и выполнять преобразования, ища скрытое направление между источником (скрытый код исходного изображения) и желаемым классом (в данном случае «толстый», «худой», «высокий» и т. д.). Однако этот подход в настоящее время слишком ограничен для тонкой настройки изменения формы тела.

Поля нейронного излучения (НеРФ) подходы гораздо дальше продвинулись в моделировании всего тела, чем большинство систем на основе GAN, но остаются специфичными для сцены и ресурсоемкими, с очень ограниченными возможностями редактирования типов тела таким гранулированным способом, который NeuralReshaper и предыдущие проекты пытаются решить ( если не считать масштабирование всего тела вниз относительно своего окружения).

Скрытым пространством GAN трудно управлять; Сами по себе VAE еще не решают сложности воспроизведения всего тела; и способность NeRF последовательно и реалистично реконструировать человеческие тела все еще находится в зачаточном состоянии. Таким образом, включение «традиционных» методологий CGI, таких как SMPL, похоже, будет продолжаться в исследовательском секторе синтеза изображений человека в качестве метода сбора и объединения функций, классов и скрытых кодов, параметры и возможность использования которых еще не полностью изучены в этих новых технологиях. технологии.

 

Впервые опубликовано 31 марта 2022 г.