Искусственный интеллект
Создание полных телесных дипфейков путем объединения нескольких NeRF

Сектор исследований синтеза изображений густо усеян новыми предложениями систем, способных создавать полные видео и изображения молодых людей – в основном молодых женщин – в различных типах одежды. Большинство сгенерированных изображений являются статичными; иногда представления даже движутся, хотя обычно не очень хорошо.
Темп этой конкретной исследовательской ветви медленный по сравнению с текущим ошеломляющим уровнем прогресса в связанных областях, таких как латентные диффузионные модели; однако исследовательские группы, большинство из которых находится в Азии, продолжают упорно работать над этой проблемой.

Одно из десятков, если не сотен предложенных или полу запущенных ‘виртуальных примерочных’ систем за последние 10-15 лет, где тела оцениваются через машинное обучение и адаптируются к предложенным предметам одежды. Source: https://www.youtube.com/watch?v=2ZXrgGyhbak
Цель состоит в том, чтобы создать новые системы, которые позволили бы осуществлять ‘виртуальные примерки’ для модной и одежной индустрии – системы, которые могут адаптироваться как к клиенту, так и к конкретному продукту, который в настоящее время доступен или скоро будет выпущен, без неуклюжести реального времени наложения одежды, или необходимости просить клиентов отправить немного непристойные фотографии для ML-основанных конвейеров рендеринга.
Ни одна из популярных архитектур синтеза не кажется легко адаптируемой к этой задаче: латентное пространство генеративных противостоящих сетей (GAN) не подходит для производства убедительного временного движения (или даже для редактирования в целом); хотя способны генерировать реалистичное человеческое движение, нейронные радиационные поля (NeRF) обычно естественно устойчивы к тому типу редактирования, который необходим для ‘замены’ людей или одежды по желанию; автоэнкодеры потребуют обременительного обучения для человека/одежды; и латентные диффузионные модели, как и GAN, не имеют родных временных механизмов для генерации видео.
EVA3D
Тем не менее, статьи и предложения продолжают появляться. Последнее из них представляет необычный интерес в иначе незаметной и исключительно бизнес-ориентированной линии исследований.
EVA3D, из Наньянского технологического университета в Сингапуре, является первым указанием на подход, который был долгое время ожидаем – использование множественных сетей нейронных радиационных полей, каждая из которых посвящена отдельной части тела, и которые затем составляются в собранную и целостную визуализацию.

Мобильная молодая женщина, составленная из нескольких сетей NeRF, для EVA3D. Source: https://hongfz16.github.io/projects/EVA3D.html
Результаты, в плане движения, являются…нормальными. Хотя визуализации EVA3D не выходят из долины неудобства, они могут хотя бы увидеть съезд с того места, где они стоят.

То, что делает EVA3D выдающимся, заключается в том, что исследователи, стоящие за ним, почти уникально в секторе синтеза полных телесных изображений, осознали, что одна сеть (GAN, NeRF или иная) не сможет справиться с редактируемой и гибкой генерацией полных телесных изображений в течение нескольких лет – частично из-за темпа исследований, и частично из-за ограничений аппаратного и логистического характера.
Следовательно, команда Наньяна разделила задачу на 16 сетей и несколько технологий – подход, уже принятый для нейронного рендеринга городских сред в Block-NeRF и CityNeRF, и который, вероятно, станет все более интересным и потенциально плодотворным средством для достижения полных телесных дипфейков в течение следующих пяти лет, в ожидании новых концептуальных или аппаратных разработок.
Не все проблемы, присутствующие при создании этого типа ‘виртуальной примерки’, являются техническими или логистическими, и статья очерчивает некоторые проблемы с данными, особенно в отношении обучения без учителя:
‘[Модные] наборы данных в основном имеют очень ограниченные человеческие позы (большинство из них подобны стоящим позам), и высоко несбалансированные углы обзора (большинство из них передние виды). Это несбалансированное распределение 2D-данных может препятствовать обучению без учителя 3D-GAN, что приводит к трудностям в синтезе нового вида/позы. Следовательно, необходима правильная стратегия обучения, чтобы смягчить эту проблему.’
Поток работы EVA3D разделяет человеческое тело на 16 отдельных частей, каждая из которых генерируется через свою собственную сеть NeRF. Очевидно, что это создает достаточно ‘размораживаемых’ секций, чтобы можно было оживить фигуру через захват движения или другие типы движения.
Помимо этого преимущества, это также позволяет системе назначать максимальные ресурсы частям тела, которые ‘продают’ общее впечатление.
Например, человеческие ноги имеют очень ограниченный диапазон артикуляции, в то время как аутентичность лица и головы, помимо качества всего тела движения в целом, вероятно, будет фокальным токеном аутентичности для рендеринга.

Качественное сравнение между EVA3D и предыдущими методами. Авторы утверждают, что достигли лучших результатов в этом отношении.
Подход радикально отличается от NeRF-центрического проекта, с которым он концептуально связан – A-NeRF 2021 года, из Университета Британской Колумбии и Reality Labs Research, который стремился добавить внутренний управляющий скелет к в противном случае конвенциональному ‘одному куску’ представлению NeRF, что делает его более трудным для распределения ресурсов обработки по разным частям тела на основе необходимости.

Предыдущие движения – A-NeRF оснащает ‘запечатанную’ NeRF таким же типом гибкого и артикулированного центрального каркаса, который индустрия VFX так долго использовала для анимации CGI-персонажей. Source: https://lemonatsu.github.io/anerf/
В общем с большинством подобных человеко-ориентированных проектов, которые стремятся использовать латентное пространство различных популярных подходов, EVA3D использует Skinned Multi-Person Linear Model (SMPL), ‘традиционный’ CGI-основанный метод для добавления инструментальности к общей абстракции текущих методов синтеза. Ранее в этом году другая статья, на этот раз из Университета Чжэцзяна в Ханчжоу и Школы творческих медиа в Городском университете Гонконга, использовала такие методы для выполнения нейронной перестановки тела.
Метод
Модель SMPL, используемая в процессе, настроена на человеческий ‘приор’ – человека, который, по сути, добровольно создает дипфейк с помощью EVA3D, и его веса кожи договариваются о различиях между каноническим пространством (т.е. ‘в покое’, или ‘нейтральной’ позой модели SMPL) и тем, как окончательный вид рендерится.
Как видно на иллюстрации выше, границы SMPL используются в качестве определений границ для 16 сетей, которые в конечном итоге составят тело. Алгоритм обратного Linear Blend Skinning (LBS) модели SMPL затем используется для передачи видимых выборочных лучей в каноническое (пассивное) пространство. Затем 16 подсетей запрашиваются на основе этих конфигураций и в конечном итоге конформируются в окончательный рендер.
Целый композит NeRF затем используется для построения 3D-рамки GAN для человека.

Рендеринги второй стадии рамки GAN в конечном итоге будут обучены на настоящих 2D-изображениях коллекций людей/моды.
Каждая подсеть, представляющая часть человеческого тела, состоит из сложенных многослойных перцептронов (MLP) с SIREN (Синусоидальное представление сетей) активацией. Хотя SIREN решает множество проблем в подобном рабочем процессе, и в подобных проектах, он склонен к переобучению, а не обобщению, и исследователи предлагают, что альтернативные библиотеки могут быть использованы в будущем (см. конец статьи).
Данные, обучение и тесты
EVA3D сталкивается с необычными проблемами с данными из-за ограничений и шаблонного стиля поз, доступных в модных наборах данных, которые, как правило, лишены альтернативных или новых видов и повторяются, возможно, намеренно, чтобы сосредоточить внимание на одежде, а не на человеке, который ее носит.
Из-за этого несбалансированного распределения поз EVA3D использует человеческие приоры (см. выше) на основе геометрии модели SMPL, и затем предсказывает поле Signed Distance Field (SDF) смещения этой позы, а не прямую цель позы.
Для поддержки экспериментов исследователи использовали четыре набора данных: DeepFashion; SHHQ; UBCFashion; и AIST Dance Video Database (AIST Dance DB).
Последние два содержат более разнообразные позы, чем первые два, но представляют одних и тех же людей повторно, что сводит на нет это разнообразие; в ngắnке, данные более чем сложные, учитывая задачу.

Примеры из SSHQ. Source: https://arxiv.org/pdf/2204.11823.pdf
Базовые линии, использованные для сравнения, были ENARF-GAN, первый проект, который рендерил визуальные эффекты NeRF из 2D-изображений; Stanford и NVIDIA’s EG3D; и StyleSDF, сотрудничество между Университетом Вашингтона, Adobe Research и Стэнфордским университетом – все методы, требующие сверхразрешающих библиотек для масштабирования от родного до высокого разрешения.
Метрики, принятые для сравнения, были спорной Fréchet-расстояние инцепшена (FID) и ядерное расстояние инцепшена (KID), вместе с процентом правильных ключевых точек ([email protected]).
В количественных оценках EVA3D лидировал во всех метриках в четырех наборах данных:

Количественные результаты.
Исследователи отмечают, что EVA3D достигает наименьшей скорости ошибки для рендеринга геометрии, критического фактора в проекте этого типа. Они также наблюдают, что их система может контролировать сгенерированную позу и достигать более высоких баллов [email protected], в отличие от EG3D, единственного конкурирующего метода, который набрал более высокий балл в одной категории.
EVA3D работает родно на стандартном разрешении 512x512px, хотя его можно легко и эффективно масштабировать до разрешения HD, добавив слои масштабирования, как это сделала Google с ее предложением 1024-разрешения текст-в-видео Imagen Video.
Метод не без ограничений. Статья отмечает, что активация SIREN может вызвать круговые артефакты, которые можно исправить в будущих версиях, используя альтернативное базовое представление, такое как EG3D, в сочетании с 2D-декодером. Кроме того, сложно точно подогнать SMPL к источникам модных данных.
Наконец, система не может легко вместить более крупные и более жидкие предметы одежды, такие как большие платья; предметы одежды этого типа демонстрируют тот же тип жидкой динамики, который делает создание нейронно-рендеренного волоса таким вызовом. Предположительно, подходящее решение может помочь решить обе проблемы.
https://www.youtube.com/watch?v=JNV0FJ0aDWM
Опубликовано впервые 12 октября 2022 года.















