Искусственный интеллект

Перестановка типов человеческого тела с помощью ИИ

Published March 31, 2022

Updated April 5, 2026

Martin Anderson

Новое исследовательское сотрудничество из Китая предлагает новый метод перестановки человеческого тела на изображениях, используя координированную двойную нейронную сеть, управляемую параметрической моделью, которая позволяет конечному пользователю модулировать вес, рост и пропорции тела в интерактивном графическом интерфейсе.

Параметризованная модуляция формы тела, с ползунками, изменяющими три доступные функции. Source: https://arxiv.org/pdf/2203.10496.pdf

Эта работа предлагает несколько улучшений по сравнению с недавним подобным проектом от Alibaba, поскольку она может убедительно изменять рост и пропорции тела, а также вес, и имеет выделенную нейронную сеть для “закраски” (не существующего) фона, который может быть раскрыт “худыми” изображениями тела. Она также улучшает ранний параметрический метод для перестановки тела, удаляя необходимость обширного человеческого вмешательства во время формулирования преобразования.

Названная NeuralReshaper, новая архитектура подгоняет параметрическую 3D-модель человека к исходному изображению, а затем использует искажения в модели для адаптации исходного изображения к новым параметрам.

Система способна обрабатывать преобразования тела на одетых, а также полуодетых (т.е. в пляжной одежде) фигурах.

Преобразования этого типа в настоящее время представляют интенсивный интерес для исследований моды ИИ, который произвел ряд платформ на основе StyleGAN/CycleGAN и общих нейронных сетей для виртуальных примерок, которые могут адаптировать доступные предметы одежды к форме и типу тела изображения, загруженного пользователем, или иным образом помочь с визуальной конформностью.

Статья названа Перестановка человеческого тела на одном изображении с помощью глубоких нейронных сетей и исходит от исследователей из Университета Чжэцзяна в Ханчжоу и Школы креативных медиа в Городском университете Гонконга.

SMPL Fitting

NeuralReshaper использует Skinned Multi-Person Linear Model (SMPL) разработанную Институтом интеллектуальных систем Макса Планка и известной VFX-компанией Industrial Light and Magic в 2015 году.

Параметрические люди SMPL из сотрудничества Planck/ILM 2015 года. Source: https://files.is.tue.mpg.de/black/papers/SMPL2015.pdf

На первом этапе процесса генерируется модель SMPL из исходного изображения, к которому желательно сделать преобразования тела. Адаптация модели SMPL к изображению следует методологии метода Human Mesh Recovery (HMR), предложенного университетами Германии и США в 2018 году.

Три параметра для деформации (вес, рост, пропорции тела) рассчитываются на этом этапе, вместе с учетом параметров камеры, таких как фокусное расстояние. 2D-ключевые точки и сгенерированная контурная выравнивание обеспечивают ограничение для деформации в виде 2D-контура, дополнительная мера оптимизации, которая увеличивает точность границы и позволяет для аутентичного закраски фона дальше по трубопроводу.

Этапы подгонки SMPL: слева, исходное изображение; второе слева, результат оптимизации, полученный из метода, описанного в исследовании 2016 года под руководством Института интеллектуальных систем Макса Планка; третье слева, прямой результат вывода из предварительно обученной модели для End-to-end Recovery of Human Shape and Pose; второе справа, результаты, полученные после оптимизации 2D-ключевых точек; и, наконец, справа, завершенная подгонка после оптимизации контура (см. выше).

Этапы подгонки SMPL: слева, исходное изображение; второе, результат оптимизации, полученный из метода, описанного в исследовании 2016 года под руководством Института интеллектуальных систем Макса Планка; третье, прямой результат вывода из предварительно обученной модели для End-to-end Recovery of Human Shape and Pose; четвертое, результаты, полученные после оптимизации 2D-ключевых точек; и, наконец, пятое, завершенная подгонка после оптимизации контура (см. выше).

3D-деформация затем проецируется в пространство изображения архитектуры, чтобы облегчить плотное поле деформации, которое определит деформацию. Этот процесс занимает около 30 секунд на изображение.

Архитектура NeuralReshaper

NeuralReshaper запускает две нейронные сети в тандеме: кодировщик переднего плана, который генерирует преобразованную форму тела, и кодировщик фона, который фокусируется на заполнении “деокклюзивных” областей фона (в случае, например, похудения тела – см. изображение ниже).

Фреймворк в стиле U-net интегрирует вывод из функций двух кодировщиков перед передачей результата унифицированному кодировщику, который в конечном итоге производит новое изображение из двух входных данных. Архитектура имеет новую механизму, управляемую деформацией, для обеспечения интеграции.

Обучение и эксперименты

NeuralReshaper реализован в PyTorch на одном GPU NVIDIA 1080ti с 11 ГБ видеопамяти. Сеть была обучена в течение 100 эпох с оптимизатором Adam, с генератором, установленным на целевую потерю 0,0001, и дискриминатором, установленным на целевую потерю 0,0004. Обучение проводилось на размере партии 8 для проприетарного набора данных на открытом воздухе (составленного из COCO, MPII и LSP) и 2 для обучения на наборе данных DeepFashion.

Слева, исходные изображения, справа, пропорциональный вывод NeuralReshaper.

Ниже приведены некоторые примеры исключительно из набора данных DeepFashion, обученные для NeuralReshaper, с исходными изображениями всегда слева.

Три управляемых атрибута разъединены и могут быть применены отдельно.

Преобразования на полученном наборе данных на открытом воздухе более сложны, поскольку они часто требуют заполнения сложных фонов и четкого и убедительного определения преобразованных типов тела:

Параметрическая необходимость

Как отмечается в статье, одинаковые преобразования изображений этого типа представляют собой плохо поставленную задачу в синтезе изображений. Многие преобразовательные ГАН и фреймворки кодировщиков могут использовать парные изображения (например, различные проекты, предназначенные для эффекта скетч>фото и фото>скетч преобразований).

Однако в случае, когда это потребует парных изображений с одинаковыми людьми в разных физических конфигурациях, таких как “до и после” изображения в рекламе диет или пластической хирургии – данные, которые трудно получить или сгенерировать.

Альтернативно, преобразовательные ГАН-сети могут обучаться на более разнообразных данных и осуществлять преобразования, находя латентное направление между исходным (оригинальным изображением латентного кода) и желаемым классом (в данном случае “толстый”, “тонкий”, “высокий” и т. д.). Однако этот подход в настоящее время слишком ограничен для целей тонкой перестановки тела.

Подходы Neural Radiance Fields (NeRF) намного более продвинуты в полноэкранной симуляции, чем большинство систем, основанных на ГАН, но остаются специфичными для сцены и требуют больших ресурсов, с в настоящее время очень ограниченной способностью редактировать типы тела в мелком виде, в котором NeuralReshaper и предыдущие проекты пытаются решить (кроме масштабирования всего тела относительно его окружения).

Пространство ГАН латентно трудно управлять; VAE сами по себе еще не решают сложности полноэкранной репродукции; и способность NeRF последовательно и реалистично переделывать человеческое тело еще находится в зачаточном состоянии. Следовательно, включение “традиционных” методов CGI, таких как SMPL, кажется продолжающимся в секторе исследований синтеза изображений человека, как метод консолидации функций, классов и латентных кодов, параметров и эксплуатации которых еще не полностью поняты в этих появляющихся технологиях.

Опубликовано впервые 31 марта 2022 года.

Martin Anderson

Писатель о машинном обучении, специалист в области синтеза человеческих изображений. Бывший руководитель исследовательского контента в Metaphysic.ai.

Unite.AI

Перестановка типов человеческого тела с помощью ИИ

SMPL Fitting

Архитектура NeuralReshaper

Обучение и эксперименты

Параметрическая необходимость

You may like