Artificial Intelligence
Изменение типов человеческого тела с помощью ИИ
Новое исследовательское сотрудничество из Китая предлагает новый метод изменения формы человеческого тела на изображениях с использованием скоординированной сети двойного нейронного кодировщика, управляемой параметрической моделью, которая позволяет конечному пользователю модулировать вес, рост и пропорции тела. в интерактивном графическом интерфейсе.
Работа предлагает несколько улучшений по сравнению с недавний аналогичный проект от Alibaba, в том смысле, что он может убедительно изменять рост и пропорции тела, а также вес, и имеет специальную нейронную сеть для «закрашивания» (несуществующего) фона, который можно выявить с помощью «более стройных» изображений тела. Это также заметно улучшает более ранний параметрический метод для изменения формы тела, устраняя необходимость обширного вмешательства человека во время формулировки трансформации.
Титулованный НейронРешейпер, новая архитектура подгоняет параметрический трехмерный человеческий шаблон к исходному изображению, а затем использует искажения в шаблоне, чтобы адаптировать исходное изображение к новым параметрам.
Система может выполнять трансформацию тела как одетых, так и полуодетых (например, в пляжной одежде) фигур.
Преобразования такого типа в настоящее время представляют большой интерес для модный ИИ исследовательский сектор, который выпустил ряд платформ на основе StyleGAN/CycleGAN и общих нейронных сетей для виртуальные примерки которые могут адаптировать доступные предметы одежды к форме тела и типу изображения, представленного пользователем, или иным образом помочь с визуальным соответствием.
Ассоциация бумаги называется Изменение формы человеческого тела по одному изображению с помощью глубоких нейронных сетей, и исходит от исследователей из Чжэцзянского университета в Ханчжоу и Школы креативных медиа в Городском университете Гонконга.
СМПЛ Фитинг
NeuralReshaper использует линейную модель Skinned Multi-Person Linear Model (SMPL). развитый Институтом интеллектуальных систем Макса Планка и известным VFX-домом Industrial Light and Magic в 2015 году.
На первом этапе процесса модель SMPL генерируется из исходного изображения, для которого требуется выполнить преобразования тела. Адаптация модели SMPL к изображению следует за методология метода Human Mesh Recovery (HMR), предложенного университетами Германии и США в 2018 году.
На этом этапе рассчитываются три параметра деформации (вес, рост, пропорции тела) вместе с учетом параметров камеры, таких как фокусное расстояние. Двухмерные характерные точки и сгенерированное выравнивание силуэта обеспечивают покрытие деформации в виде двухмерного силуэта, что является дополнительной мерой оптимизации, которая повышает точность границ и позволяет прорисовывать аутентичный фон дальше по конвейеру.
Затем трехмерная деформация проецируется в пространство изображения архитектуры, чтобы обеспечить плотное поле деформации, которое будет определять деформацию. Этот процесс занимает около 3 секунд на изображение.
Архитектура NeuralReshaper
NeuralReshaper запускает две нейронные сети в тандеме: кодировщик переднего плана, который генерирует трансформированную форму тела, и кодировщик фона, который фокусируется на заполнении «раскрытых» областей фона (например, в случае похудения тела — см. изображение ниже).
Структура в стиле U-net объединяет выходные данные функций двух кодировщиков перед передачей результата в унифицированный кодировщик, который в конечном итоге создает новое изображение из двух входных данных. В архитектуре реализован новый механизм, управляемый деформацией, обеспечивающий интеграцию.
Обучение и эксперименты
NeuralReshaper реализован в PyTorch на одном графическом процессоре NVIDIA 1080ti с 11 ГБ видеопамяти. Сеть обучалась в течение 100 эпох под оптимизатором Адама, при этом генератор был настроен на целевую потерю 0.0001, а дискриминатор — на целевую потерю 0.0004. Обучение проводилось на пакете размером 8 для проприетарного набора наружных данных (взято из Кокос, МПИИ, и LSP) и 2 для обучения на DeepFashion набор данных.
Ниже приведены несколько примеров исключительно из набора данных DeepFashion, обученных для NeuralReshaper, причем исходные изображения всегда слева.
Три управляемых атрибута разделены и могут применяться по отдельности.
Преобразования полученного набора наружных данных более сложны, поскольку часто требуют заполнения сложных фонов и четкого и убедительного очерчивания преобразованных типов телосложения:
Параметрическая необходимость
Как отмечается в документе, преобразования одного и того же изображения этого типа представляют собой некорректную проблему в синтезе изображений. Многие преобразующие структуры GAN и кодировщики могут использовать парные изображения (например, различные проекты, предназначенные для эскиз>фото и фото>эскиз преобразования).
Однако в данном случае для этого потребуются пары изображений с изображением одних и тех же людей в различных физических конфигурациях, например изображения «до и после» в рекламе диеты или пластической хирургии — данные, которые трудно получить или сгенерировать.
С другой стороны, преобразующие сети GAN могут обучаться на гораздо более разнообразных данных и выполнять преобразования, ища скрытое направление между источником (скрытый код исходного изображения) и желаемым классом (в данном случае «толстый», «худой», «высокий» и т. д.). Однако этот подход в настоящее время слишком ограничен для тонкой настройки изменения формы тела.
Поля нейронного излучения (НеРФ) подходы гораздо дальше продвинулись в моделировании всего тела, чем большинство систем на основе GAN, но остаются специфичными для сцены и ресурсоемкими, с очень ограниченными возможностями редактирования типов тела таким гранулированным способом, который NeuralReshaper и предыдущие проекты пытаются решить ( если не считать масштабирование всего тела вниз относительно своего окружения).
Скрытым пространством GAN трудно управлять; Сами по себе VAE еще не решают сложности воспроизведения всего тела; и способность NeRF последовательно и реалистично реконструировать человеческие тела все еще находится в зачаточном состоянии. Таким образом, включение «традиционных» методологий CGI, таких как SMPL, похоже, будет продолжаться в исследовательском секторе синтеза изображений человека в качестве метода сбора и объединения функций, классов и скрытых кодов, параметры и возможность использования которых еще не полностью изучены в этих новых технологиях. технологии.
Впервые опубликовано 31 марта 2022 г.