Штучний Інтелект
Створення повного тіла Deepfakes шляхом поєднання кількох NeRF

Сектор досліджень синтезу зображень рясніє новими пропозиціями щодо систем, здатних створювати відео та фотографії всього тіла молодих людей – переважно молодих жінок – у різному одязі. Переважно створені зображення статичні; іноді репрезентації навіть рухаються, хоча зазвичай не дуже добре.
Швидкість цього конкретного напряму досліджень є льодовиковою порівняно з нинішнім запаморочливим рівнем прогресу в суміжних галузях, таких як моделі прихованої дифузії; однак дослідницькі групи, більшість з яких розташовані в Азії, продовжують невпинно відмовлятися від цієї проблеми.

Одна з десятків, якщо не сотень запропонованих або напівзапущених систем «віртуальної примірки» за останні 10-15 років, де тіла оцінюються за допомогою розпізнавання об’єктів на основі машинного навчання та адаптуються до запропонованих предметів одягу. Джерело: https://www.youtube.com/watch?v=2ZXrgGyhbak
Мета полягає в тому, щоб створити нові системи для «віртуальних примірок» для ринку моди та одягу – системи, які можуть адаптуватися як до клієнта, так і до конкретного продукту, який зараз доступний або збирається випустити, без незграбності реального - час накладання of одяг, або необхідність просити клієнтів надішліть трохи NSFW фотографії для конвеєрів візуалізації на основі ML.
Жодна з популярних архітектур синтезу не здається легко адаптованою до цього завдання: латентний простір Generative Adversarial Networks (GANs) погано підходить для створення переконливого тимчасового руху (або навіть для редагування в загальному); хоча добре здібний створення реалістичного людського руху, Нейронні поля випромінювання (NeRF) зазвичай є природними стійкий до типу редагування, яке було б необхідним, щоб «замінити» людей або одяг за бажанням; автокодувальники вимагатимуть обтяжливого навчання для людини/одягу; а моделі латентної дифузії, такі як GAN, не мають власних часових механізмів для створення відео.
EVA3D
Тим не менш, документи та пропозиції продовжуються. Останнє представляє надзвичайний інтерес в інакше невиразному та виключно бізнес-орієнтованому напрямку досліджень.
EVA3D, із Сінгапурського технологічного університету Наньян, є першим свідченням підходу, який давно розроблявся – використання множинний Мережі поля нейронного випромінювання, кожна з яких присвячена окремій частині тіла, і які потім об’єднуються в цілісну візуалізацію.

Мобільна молода жінка, складена з кількох мереж NeRF для EVA3D. Джерело: https://hongfz16.github.io/projects/EVA3D.html
Результати, з точки зору руху, є… добре. Хоча візуалізація EVA3D не виходить із таємничої долини, вони принаймні можуть побачити з’їзд з місця, де вони стоять.
Що робить EVA3D видатним, так це те, що дослідники, які стоять за ним, майже унікальні в секторі синтезу зображень всього тіла, зрозуміли, що одна мережа (GAN, NeRF чи інша) не зможе обробляти редаговані та гнучкі повні зображення людини. протягом кількох років – частково через швидкість досліджень, частково через апаратне забезпечення та інші матеріально-технічні обмеження.
Тому команда Nanyang розділила завдання між 16 мережами та кількома технологіями – підхід, який уже прийнято для нейронної візуалізації міського середовища в Блок-NeRF та СітіНеРФ, і який, здається, стане дедалі цікавішим і потенційно плідним проміжним заходом для створення дипфейків на все тіло протягом наступних п’яти років, в очікуванні нових концептуальних чи апаратних розробок.
Не всі труднощі, пов’язані зі створенням такої «віртуальної примірки», є технічними чи матеріально-технічними, і в документі описано деякі проблеми з даними, зокрема щодо неконтрольованого навчання:
«Набори даних [Fashion] здебільшого мають дуже обмежені пози людей (більшість подібних стоячих поз) і дуже незбалансовані кути огляду (більшість – вигляд спереду). Цей незбалансований розподіл 2D-даних може перешкоджати неконтрольованому навчанню 3D GAN, що призводить до труднощів у новому синтезі погляду/пози. Тому для вирішення проблеми потрібна відповідна стратегія навчання».
Робочий процес EVA3D сегментує тіло людини на 16 окремих частин, кожна з яких генерується через власну мережу NeRF. Очевидно, це створює достатню кількість «розморожених» секцій, щоб мати можливість активізувати фігуру за допомогою захоплення руху або інших типів даних руху. Однак, окрім цієї переваги, це також дозволяє системі призначати максимальні ресурси для частин тіла, які «продають» загальне враження.
Наприклад, людські ноги мають дуже обмежений діапазон артикуляції, тоді як автентичність обличчя та голови, окрім якості всього руху тіла загалом, ймовірно, буде основним знаком автентичності для візуалізації.

Якісне порівняння між EVA3D і попередніми методами. Автори стверджують результати SOTA в цьому відношенні.
Підхід радикально відрізняється від проекту NeRF, з яким він концептуально пов’язаний – 2021 р. А-НеРФ, з Університету Британської Колумбії та Reality Labs Research, який прагнув додати внутрішній керуючий скелет до традиційно «цілісного» представлення NeRF, ускладнюючи розподіл ресурсів обробки між різними частинами тіла на основі потреби. .

Попередні рухи – A-NeRF оснащує «запечений» NeRF таким самим пластичним і шарнірним центральним оснащенням, яке індустрія VFX давно використовує для анімації персонажів CGI. Джерело: https://lemonatsu.github.io/anerf/
Подібно до більшості подібних проектів, орієнтованих на людину, які прагнуть використати прихований простір різноманітних популярних підходів, EVA3D використовує лінійну модель кількох осіб зі шкірою (Skinned Multi-Person Linear Model)SMPL), «традиційний» метод на основі CGI для додавання інструментальності до загальної абстракції поточних методів синтезу. Раніше цього року інша стаття, цього разу з Чжецзянського університету в Ханчжоу та Школи креативних медіа Міського університету Гонконгу, використовувала такі методи для виконання перебудова нейронного тіла.
Метод
Модель SMPL, яка використовується в цьому процесі, налаштована на «попередню» людину – людину, яка, по суті, добровільно піддається дипфейку за допомогою EVA3D, а її ваги скінів узгоджують відмінності між канонічним простором (тобто «в стані спокою» або нейтральна' поза моделі SMPL) і спосіб візуалізації остаточного вигляду.
Як видно на малюнку вище, обмежувальні прямокутники SMPL використовуються як визначення меж для 16 мереж, які згодом складуть тіло. Зворотний Лінійне змішування шкіри (LBS) алгоритм SMPL потім використовується для передачі видимих вибіркових променів у канонічний (пасивна поза) простір. Потім запитуються 16 підмереж на основі цих конфігурацій і в кінцевому підсумку узгоджуються з остаточним рендером.
Весь композит NeRF потім використовується для побудови 3D-структури GAN людини.

Візуалізації другої стадії фреймворку GAN зрештою будуть навчені на справжніх 2D колекціях зображень людей/моди.
Кожна підмережа, що представляє частину людського тіла, складається з багатошарових персептронів (MLP) СИРЕНА (Мережі синусоїдального представлення) активація. Хоча SIREN вирішує багато проблем у подібному робочому процесі та в подібних проектах, він має тенденцію до надмірного, а не до узагальнення, і дослідники припускають, що в майбутньому можна буде використовувати альтернативні бібліотеки (див. кінець статті).
Дані, навчання та тести
EVA3D стикається з незвичайними проблемами з даними через обмеження та шаблонний стиль поз, які доступні в модних наборах даних, які, як правило, не мають альтернативних чи нових поглядів і, можливо, навмисно повторюються, щоб зосередити увагу на одяг, а не людину, яка його носить.
Через цей незбалансований розподіл пози EVA3D використовує людські пріоритети (див. вище) на основі геометрії шаблону SMPL, а потім прогнозує поле відстані зі знаком (SDF) зсув цієї пози, а не проста цільова поза.
Для допоміжних експериментів дослідники використали чотири набори даних: DeepFashion; SHHQ; UBCFashion; і База даних танцювального відео AIST (АІСТ Dance DB).
Останні дві містять більш різноманітні пози, ніж перші дві, але представляють тих самих осіб, що повторюється, що скасовує цю інакше корисну різноманітність; Коротше кажучи, дані є більш ніж складними, враховуючи завдання.

Приклади з SSHQ. Джерело: https://arxiv.org/pdf/2204.11823.pdf
Використані базові лінії були ЕНАРФ-ГАН, перший проект для відтворення візуальних зображень NeRF із наборів даних 2D-зображень; Стенфорд і NVIDIA EG3DІ СтильSDF, результат співпраці між Університетом Вашингтона, Adobe Research і Стенфордським університетом – усі методи вимагають бібліотек із надвисокою роздільною здатністю для масштабування від рідної до високої роздільної здатності.
Прийняті метрики були спірний Відстань початку Фреше (FID) і відстань початку ядра (KID), разом із відсотком правильних ключових точок ([захищено електронною поштою]).
У кількісних оцінках EVA3D лідирував за всіма показниками в чотирьох наборах даних:

Кількісні результати.
Дослідники відзначають, що EVA3D досягає найнижчої частоти помилок для візуалізації геометрії, що є критичним фактором у проекті такого типу. Вони також помітили, що їхня система може контролювати згенеровану позу та досягати більшого [захищено електронною поштою] бали, на відміну від EG3D, єдиного конкурентного методу, який отримав вищі бали в одній категорії.
EVA3D працює з початковою стандартною роздільною здатністю 512x512 пікселів, хоча її можна легко й ефективно збільшити до роздільної здатності HD шляхом нагромадження високоякісних шарів, як Google нещодавно зробив із пропозицією перетворення тексту у відео з роздільною здатністю 1024. Imagen Відео.
Метод не безмежний. У документі зазначається, що активація SIREN може викликати кругові артефакти, які можна буде виправити в майбутніх версіях за допомогою альтернативного базового представлення, такого як EG3D, у поєднанні з 2D-декодером. Крім того, важко точно підібрати SMPL до модних джерел даних.
Нарешті, система не може легко вмістити більші та плавні предмети одягу, такі як великі сукні; одяг цього типу демонструє таку ж динаміку рідини, яка робить волосся, що відтворюються нейронно такий виклик. Імовірно, відповідне рішення могло б допомогти вирішити обидві проблеми.
Вперше опубліковано 12 жовтня 2022 р.