заглушки Создание дипфейков всего тела путем объединения нескольких NeRF - Unite.AI
Свяжитесь с нами:

Artificial Intelligence

Создание дипфейков всего тела путем объединения нескольких NeRF

mm
обновленный on

Сектор исследований синтеза изображений густо завален новыми предложениями по системам, способным создавать видео в полный рост и изображения молодых людей, в основном молодых женщин, в различных типах одежды. В основном сгенерированные изображения статичны; иногда изображения даже двигаются, хотя обычно не очень хорошо.

Темпы этого конкретного направления исследований являются ледяными по сравнению с нынешним головокружительным уровнем прогресса в смежных областях, таких как модели скрытой диффузии; тем не менее исследовательские группы, большинство из которых находятся в Азии, продолжают неустанно работать над этой проблемой.

Одна из десятков, если не сотен предложенных или полузапущенных систем «виртуальной примерки» за последние 10–15 лет, где тела оцениваются с помощью распознавания объектов на основе машинного обучения и адаптируются к предлагаемым предметам одежды. Источник: https://www.youtube.com/watch?v=0ZXrgGyhbak

Одна из десятков, если не сотен предложенных или полузапущенных систем «виртуальной примерки» за последние 10-15 лет, где тела оцениваются посредством распознавания объектов на основе машинного обучения и адаптируются к предлагаемым предметам одежды. Источник: https://www.youtube.com/watch?v=2ZXrgGyhbak

Цель состоит в том, чтобы создать новые системы, обеспечивающие «виртуальную примерку» для рынка моды и одежды — системы, которые могут адаптироваться как к покупателю, так и к конкретному продукту, который в настоящее время доступен или скоро будет выпущен, без неуклюжести реальных. -время наложение of одежда, или необходимость просить клиентов отправить немного фотографий NSFW для конвейеров рендеринга на основе ML.

Ни одна из популярных архитектур синтеза не кажется легко адаптируемой к этой задаче: скрытое пространство генеративно-состязательных сетей (GAN) плохо подходит для создания убедительного временного движения (или даже для редактирования в общем); хотя способный создания реалистичных движений человека, Поля нейронного излучения (NeRF) обычно естественным образом стойкий к такому редактированию, которое было бы необходимо для «замены» людей или одежды по желанию; автокодировщики потребуют обременительного обучения для конкретного человека/одежды; а модели скрытой диффузии, такие как GAN, не имеют собственных временных механизмов для генерации видео.

Ева3D

Тем не менее, документы и предложения продолжаются. Последнее представляет необычайный интерес в ничем не примечательном и исключительно бизнес-ориентированном направлении исследований.

Ева3D, из Наньянского технологического университета в Сингапуре, является первым свидетельством давно назревшего подхода – использования с разными Сети Neural Radiance Field, каждая из которых посвящена отдельной части тела, а затем составляются в собранную и связную визуализацию.

Мобильная молодая женщина, составленная из нескольких сетей NeRF, для EVA3D. Источник: https://hongfz16.github.io/projects/EVA3D.html

Мобильная молодая женщина, составленная из нескольких сетей NeRF, для EVA3D. Источник: https://hongfz16.github.io/projects/EVA3D.html

Результаты с точки зрения движения… в порядке. Хотя визуализация EVA3D не из сверхъестественной долины, они, по крайней мере, могут видеть съезд с того места, где они стоят.

Что делает EVA3D выдающимся, так это то, что исследователи, стоящие за ним, почти уникальные в секторе синтеза изображений всего тела, осознали, что одна сеть (GAN, NeRF или другая) не сможет обрабатывать редактируемые и гибкие изображения человека. поколения тела в течение нескольких лет - отчасти из-за темпов исследований, а отчасти из-за аппаратных и других логистических ограничений.

Поэтому команда Наньян разделила задачу на 16 сетей и несколько технологий — подход, уже принятый для нейрорендеринга городской среды в Блок-НерФ и СитиНерФ, и который, вероятно, станет все более интересной и потенциально плодотворной промежуточной мерой на пути к созданию дипфейков в полный рост в ближайшие пять лет, в ожидании новых концептуальных или аппаратных разработок.

Не все проблемы, возникающие при создании такого рода «виртуальной примерки», являются техническими или логистическими, и в документе описываются некоторые проблемы с данными, особенно в отношении обучения без учителя:

«Наборы данных [Fashion] в основном имеют очень ограниченные человеческие позы (большинство из них похожи на позы стоя) и сильно несбалансированные углы обзора (большинство из них — вид спереди). Это несбалансированное распределение 2D-данных может помешать неконтролируемому обучению 3D-GAN, что приведет к трудностям в синтезе нового вида/позы. Поэтому для решения этой проблемы необходима правильная стратегия обучения».

Рабочий процесс EVA3D разделяет человеческое тело на 16 отдельных частей, каждая из которых создается с помощью собственной сети NeRF. Очевидно, что это создает достаточно «размороженных» участков, чтобы иметь возможность гальванизировать фигуру с помощью захвата движения или других типов данных движения. Однако, помимо этого преимущества, это также позволяет системе назначать максимальные ресурсы частям тела, которые «продают» общее впечатление.

Например, человеческие ступни имеют очень ограниченный диапазон артикуляции, в то время как подлинность лица и головы, помимо качества движения всего тела в целом, вероятно, будет ключевым признаком подлинности для рендеринга.

Качественное сравнение между EVA3D и предыдущими методами. Авторы заявляют о результатах SOTA в этом отношении.

Качественное сравнение между EVA3D и предыдущими методами. Авторы заявляют о результатах SOTA в этом отношении.

Подход радикально отличается от NeRF-ориентированного проекта, с которым он концептуально связан – 2021 г. А-НерФ, из Университета Британской Колумбии и Reality Labs Research, которые стремились добавить внутренний контролирующий скелет к традиционно «цельному» представлению NeRF, что усложнило распределение ресурсов обработки для разных частей тела на основе потребностей. .

Предыдущие движения - A-NeRF оснащает «испеченный» NeRF такой же гибкой и шарнирной центральной оснасткой, которую индустрия VFX так долго использовала для анимации персонажей CGI. Источник: https://lemonatsu.github.io/anerf/

Предыдущие движения - A-NeRF оснащает «испеченный» NeRF такой же гибкой и шарнирной центральной оснасткой, которую индустрия визуальных эффектов уже давно использует для анимации персонажей компьютерной графики. Источник: https://lemonatsu.github.io/anerf/

Как и в большинстве подобных ориентированных на человека проектов, которые стремятся использовать скрытое пространство различных популярных подходов, EVA3D использует линейную модель с несколькими людьми со скинами (Skinned Multi-Person Linear Model).СМПЛ), «традиционный» метод на основе CGI для добавления инструментов к общей абстракции текущих методов синтеза. Ранее в этом году другая газета, на этот раз из Чжэцзянского университета в Ханчжоу и Школы креативных медиа при Городском университете Гонконга, использовала такие методы для выполнения изменение формы нервного тела.

Качественные результаты EVA3D на DeepFashion.

Качественные результаты EVA3D на DeepFashion.

Способ доставки

Модель SMPL, используемая в процессе, настроена на человеческое «предыдущее» — человека, который, по сути, добровольно подвергается глубокой подделке с помощью EVA3D, а его скиннинговые веса согласовывают различия между каноническим пространством (т. е. «в покое» или « нейтральная поза модели SMPL) и способ визуализации окончательного вида.

Концептуальный рабочий процесс для EVA3D. Источник: https://arxiv.org/pdf/2210.04888.pdf

Концептуальный рабочий процесс для EVA3D. Источник: https://arxiv.org/pdf/2210.04888.pdf

Как видно на иллюстрации выше, ограничивающие рамки SMPL используются в качестве граничных определений для 16 сетей, которые в конечном итоге составят тело. Обратный Линейное смешение скинов (LBS) алгоритм SMPL затем используется для передачи видимых выборочных лучей в каноническое (пассивное) пространство. Затем на основе этих конфигураций запрашиваются 16 подсетей, и в конечном итоге они преобразуются в окончательный рендеринг.

Затем весь композит NeRF используется для построения трехмерной структуры GAN человека.

Визуализация второго этапа структуры GAN в конечном итоге будет обучена сопоставлению с подлинными коллекциями 2D-изображений людей/моды.

Визуализация второго этапа структуры GAN в конечном итоге будет обучена сопоставлению с подлинными коллекциями 2D-изображений людей/моды.

Каждая подсеть, представляющая часть человеческого тела, состоит из сложенных многослойных персептронов (MLP) с СИРЕНА (синусоидальные репрезентативные сети) активация. Хотя SIREN решает множество проблем в подобном рабочем процессе и в подобных проектах, он имеет тенденцию к переоснащению, а не к обобщению, и исследователи предполагают, что в будущем можно использовать альтернативные библиотеки (см. конец статьи).

Данные, обучение и тесты

EVA3D сталкивается с необычными проблемами данных из-за ограничений и шаблонного стиля поз, которые доступны в наборах данных, основанных на моде, в которых, как правило, отсутствуют альтернативные или новые виды, и, возможно, намеренно повторяются, чтобы сосредоточить внимание на одежда, а не человек, который ее носит.

Из-за этого несбалансированного распределения поз EVA3D использует человеческие априорные значения (см. выше) на основе геометрии шаблона SMPL, а затем предсказывает поле расстояния со знаком (SDF) смещение этой позы, а не просто целевая поза.

Для вспомогательных экспериментов исследователи использовали четыре набора данных: DeepFashion; ШХК; UBCFashion; и База данных танцевальных видео AIST (АИСТ Танцевальная БД).

Последние два содержат более разнообразные позы, чем первые два, но повторно представляют одних и тех же людей, что сводит на нет это полезное разнообразие; Короче говоря, данные более чем сложные, учитывая задачу.

Примеры из SSHQ. Источник: https://arxiv.org/pdf/2204.11823.pdf

Примеры из SSHQ. Источник: https://arxiv.org/pdf/2204.11823.pdf

Используемые исходные данные были ЭНАРФ-ГАН, первый проект по рендерингу изображений NeRF из наборов данных 2D-изображений; Стэнфорд и NVIDIA ЭГ3Dи СтильSDF, совместная работа Вашингтонского университета, Adobe Research и Стэнфордского университета — все методы требуют библиотек сверхвысокого разрешения для перехода от исходного к высокому разрешению.

Принятые показатели были спорный Начальное расстояние Фреше (FID) и начальное расстояние ядра (ДИТЯ), а также процент правильных ключевых точек ([электронная почта защищена]).

В количественных оценках EVA3D лидирует по всем показателям в четырех наборах данных:

Количественные результаты.

Количественные результаты.

Исследователи отмечают, что EVA3D обеспечивает самую низкую частоту ошибок при рендеринге геометрии, что является критическим фактором в проекте такого типа. Они также отмечают, что их система может контролировать сгенерированную позу и достигать более высоких результатов. [электронная почта защищена] оценки, в отличие от EG3D, единственного конкурирующего метода, который получил более высокие баллы в одной категории.

EVA3D изначально работает со стандартным к настоящему времени разрешением 512x512 пикселей, хотя его можно легко и эффективно масштабировать до разрешения HD, накладывая слои более высокого разрешения, как недавно сделал Google со своим предложением преобразования текста в видео с разрешением 1024. Изображение Видео.

Метод не безграничен. В документе отмечается, что активация SIREN может вызывать круговые артефакты, которые могут быть устранены в будущих версиях путем использования альтернативного базового представления, такого как EG3D, в сочетании с 2D-декодером. Кроме того, сложно точно подогнать SMPL к источникам данных о моде.

Наконец, система не может легко вместить более крупные и более изменчивые предметы одежды, такие как большие платья; предметы одежды этого типа демонстрируют ту же динамику жидкости, что и создание нейровизуальных волос. такой вызов. Предположительно, подходящее решение может помочь решить обе проблемы.

Демонстрационное видео для EVA3D: Композиционное 3D-поколение человека из коллекций 2D-изображений

 

Впервые опубликовано 12 октября 2022 г.