Свяжитесь с нами:

Изменение типов человеческого тела с помощью ИИ

Искусственный интеллект

Изменение типов человеческого тела с помощью ИИ

mm

Новое исследовательское сотрудничество из Китая предлагает новый метод изменения формы человеческого тела на изображениях с использованием скоординированной сети двойного нейронного кодировщика, управляемой параметрической моделью, которая позволяет конечному пользователю модулировать вес, рост и пропорции тела. в интерактивном графическом интерфейсе.

Параметризованная модуляция формы тела с помощью ползунков, изменяющих три доступные функции. Источник: https://arxiv.org/pdf/2203.10496.pdf

Параметризованная модуляция формы тела с помощью ползунков, изменяющих три доступные функции. Источник: https://arxiv.org/pdf/2203.10496.pdf

Работа предлагает несколько улучшений по сравнению с недавний аналогичный проект от Alibaba, поскольку он может убедительно изменять рост, пропорции тела и вес, а также имеет специальную нейронную сеть для «дорисовки» (несуществующего) фона, который может быть обнаружен на изображениях «более стройного» тела. Он также значительно улучшает более ранний параметрический метод для изменения формы тела, устраняя необходимость обширного вмешательства человека во время формулировки трансформации.

Титулованный НейронРешейпер, новая архитектура подгоняет параметрический трехмерный человеческий шаблон к исходному изображению, а затем использует искажения в шаблоне, чтобы адаптировать исходное изображение к новым параметрам.

Система может выполнять трансформацию тела как одетых, так и полуодетых (например, в пляжной одежде) фигур.

Преобразования такого типа в настоящее время представляют большой интерес для модный ИИ исследовательский сектор, который выпустил ряд платформ на основе StyleGAN/CycleGAN и общих нейронных сетей для виртуальные примерки которые могут адаптировать доступные предметы одежды к форме тела и типу изображения, представленного пользователем, или иным образом помочь с визуальным соответствием.

The статье называется Изменение формы человеческого тела по одному изображению с помощью глубоких нейронных сетей, и исходит от исследователей из Чжэцзянского университета в Ханчжоу и Школы креативных медиа в Городском университете Гонконга.

СМПЛ Фитинг

NeuralReshaper использует линейную модель Skinned Multi-Person Linear Model (SMPL). развитый Институтом интеллектуальных систем Макса Планка и известным VFX-домом Industrial Light and Magic в 2015 году.

SMPL Parametric people из коллаборации Planck/ILM 2015 года. Источник: https://files.is.tue.mpg.de/black/papers/SMPL2015.pdf

SMPL Parametric people из коллаборации Planck/ILM 2015 года. Источник: https://files.is.tue.mpg.de/black/papers/SMPL2015.pdf

На первом этапе процесса модель SMPL генерируется из исходного изображения, для которого требуется выполнить преобразования тела. Адаптация модели SMPL к изображению следует за методология метода Human Mesh Recovery (HMR), предложенного университетами Германии и США в 2018 году.

На этом этапе рассчитываются три параметра деформации (вес, рост, пропорции тела) вместе с учетом параметров камеры, таких как фокусное расстояние. Двухмерные характерные точки и сгенерированное выравнивание силуэта обеспечивают покрытие деформации в виде двухмерного силуэта, что является дополнительной мерой оптимизации, которая повышает точность границ и позволяет прорисовывать аутентичный фон дальше по конвейеру.

Этапы подгонки СМПЛ: слева исходное изображение; второй слева — результат оптимизации, полученный с помощью метода, описанного в исследовании 2016 года, проведенном Институтом интеллектуальных систем им. Макса Планка; третий слева — результат прямого вывода из предварительно обученной модели сквозного восстановления формы и позы человека; второй справа — результаты, полученные после оптимизации ключевых точек 2D; и наконец, справа, завершенная подгонка после оптимизации силуэта (см. выше).

Этапы подгонки СМПЛ: слева исходное изображение; во-вторых, результат оптимизации, полученный с помощью метода, описанного в 2016 г. исследованиями во главе с Институтом интеллектуальных систем Макса Планка; в-третьих, результат прямого вывода из предварительно обученной модели для Сквозное восстановление формы и позы человека; в-четвертых, результаты, полученные после оптимизации ключевых точек 2D; и, наконец, в-пятых, завершенная подгонка после оптимизации силуэта (см. выше).

Затем трёхмерная деформация проецируется в пространство изображения архитектурного объекта, создавая плотное поле деформации, которое и определяет деформацию. Этот процесс занимает около 3 секунд на изображение.

Архитектура NeuralReshaper

NeuralReshaper запускает две нейронные сети одновременно: кодер переднего плана, который генерирует преобразованную форму тела, и кодер фона, который фокусируется на заполнении «деокклюдированных» фоновых областей (например, в случае уменьшения фигуры — см. изображение ниже).

Фреймворк в стиле U-net интегрирует выходные данные двух кодировщиков, прежде чем передать результат унифицированному кодировщику, который в конечном итоге формирует новое изображение из двух входных данных. Архитектура включает в себя новый механизм, управляемый варпом, для обеспечения интеграции.

Обучение и эксперименты

NeuralReshaper реализован в PyTorch на одном графическом процессоре NVIDIA 1080ti с 11 ГБ видеопамяти. Сеть обучалась в течение 100 эпох под оптимизатором Адама, при этом генератор был настроен на целевую потерю 0.0001, а дискриминатор — на целевую потерю 0.0004. Обучение проводилось на пакете размером 8 для проприетарного набора наружных данных (взято из Кокос, МПИИ, и LSP) и 2 для обучения на DeepFashion набор данных.

Слева исходные изображения, справа репропорциональный результат NeuralReshaper.

Слева исходные изображения, справа репропорциональный результат NeuralReshaper.

Ниже приведены несколько примеров исключительно из набора данных DeepFashion, обученных для NeuralReshaper, причем исходные изображения всегда слева.

Три управляемых атрибута разделены и могут применяться по отдельности.

Преобразования полученного набора наружных данных более сложны, поскольку часто требуют заполнения сложных фонов и четкого и убедительного очерчивания преобразованных типов телосложения:

Параметрическая необходимость

Как отмечается в документе, преобразования одного и того же изображения этого типа представляют собой некорректную проблему в синтезе изображений. Многие преобразующие структуры GAN и кодировщики могут использовать парные изображения (например, различные проекты, предназначенные для эскиз>фото и фото>эскиз преобразования).

Однако в рассматриваемом случае для этого потребуются пары изображений, на которых изображены одни и те же люди в разных физических конфигурациях, например, изображения «до и после» в рекламе диет или пластической хирургии — данные, которые трудно получить или создать.

С другой стороны, преобразующие сети GAN могут обучаться на гораздо более разнообразных данных и выполнять преобразования, ища скрытое направление между исходным (скрытым кодом исходного изображения) и желаемым классом (в данном случае «толстый», «худой», «высокий» и т. д.). Однако в настоящее время этот подход слишком ограничен для целей точной перерисовки тела.

Поля нейронного излучения (НеРФ) подходы гораздо дальше продвинулись в моделировании всего тела, чем большинство систем на основе GAN, но остаются специфичными для сцены и ресурсоемкими, с очень ограниченными возможностями редактирования типов тела таким гранулированным способом, который NeuralReshaper и предыдущие проекты пытаются решить ( если не считать масштабирование всего тела вниз относительно своего окружения).

Скрытым пространством GAN сложно управлять; одни только виртуальные аппроксимации (VAE) пока не справляются со сложностями воспроизведения всего тела; а способность NeRF последовательно и реалистично реконструировать человеческие тела всё ещё находится на начальном этапе развития. Поэтому внедрение «традиционных» методологий CGI, таких как SMPL, по всей видимости, продолжится в секторе исследований синтеза изображений человека в качестве метода сбора и консолидации признаков, классов и скрытых кодов, параметры и возможности использования которых в этих новых технологиях пока не до конца изучены.

 

Впервые опубликовано 31 марта 2022 г.

Автор статей о машинном обучении, специалист по синтезу человеческих изображений. Бывший руководитель исследовательского контента в Metaphysic.ai.
Личный сайт: Мартинандерсон.ай
Контактное лицо: [электронная почта защищена]
Твиттер: @manders_ai