Зв'язатися з нами

Зміна типу людського тіла за допомогою ШІ

Штучний Інтелект

Зміна типу людського тіла за допомогою ШІ

mm
оновлений on

Нова дослідницька колаборація з Китаю пропонує новий метод зміни форми людського тіла на зображеннях за допомогою скоординованої подвійної мережі нейронних кодувальників, що керується параметричною моделлю, що дозволяє кінцевому користувачеві модулювати вагу, зріст і пропорції тіла в інтерактивному графічному інтерфейсі.

Параметризована модуляція форми тіла за допомогою повзунків, які змінюють три доступні функції. Джерело: https://arxiv.org/pdf/2203.10496.pdf

Параметризована модуляція форми тіла за допомогою повзунків, які змінюють три доступні функції. Джерело: https://arxiv.org/pdf/2203.10496.pdf

Робота пропонує кілька покращень порівняно з a останній подібний проект від Alibaba, оскільки він може переконливо змінювати зріст і пропорції тіла, а також вагу, і має спеціальну нейронну мережу для «зафарбовування» (неіснуючого) фону, який можна виявити на «стрункіших» зображеннях тіла. Це також значно покращує попередній параметричний метод для зміни форми тіла шляхом усунення потреби в значному втручанні людини під час формулювання трансформації.

Титулований NeuralReshaper, нова архітектура адаптує параметричний 3D-шаблон людини до вихідного зображення, а потім використовує спотворення в шаблоні, щоб адаптувати вихідне зображення до нових параметрів.

Система здатна обробляти трансформації тіла як одягнених, так і напіводягнених (тобто пляжного одягу) фігур.

Перетворення такого типу в даний час викликають інтенсивний інтерес для ШІ моди науково-дослідний сектор, який створив низку платформ на основі StyleGAN/CycleGAN і загальних нейронних мереж для віртуальні спроби який може адаптувати доступні предмети одягу до форми тіла та типу зображення, надісланого користувачем, або іншим чином допомогти візуально відповідати.

Команда папір має титул Реформування людського тіла на одному зображенні за допомогою глибоких нейронних мереж, і походить від дослідників з Чжецзянського університету в Ханчжоу та Школи креативних медіа Міського університету Гонконгу.

Фітинг SMPL

NeuralReshaper використовує лінійну модель для кількох осіб (SMPL) розвиненою Інститутом інтелектуальних систем Макса Планка та відомим будинком VFX Industrial Light and Magic у 2015 році.

SMPL Parametric люди від співпраці Planck/ILM 2015 року. Джерело: https://files.is.tue.mpg.de/black/papers/SMPL2015.pdf

SMPL Parametric люди від співпраці Planck/ILM 2015 року. Джерело: https://files.is.tue.mpg.de/black/papers/SMPL2015.pdf

На першому етапі процесу SMPL-модель генерується з вихідного зображення, до якого потрібно виконати трансформації тіла. Адаптація моделі SMPL до зображення відбувається далі методологія методу Human Mesh Recovery (HMR), запропонованого університетами Німеччини та США у 2018 році.

На цьому етапі обчислюються три параметри деформації (вага, зріст, пропорції тіла), а також враховуються такі параметри камери, як фокусна відстань. Двовимірні ключові точки та згенероване вирівнювання силуету забезпечують огородження для деформації у формі двовимірного силуету, додаткового заходу оптимізації, який підвищує точність меж і дозволяє автентичному малюванню фону далі по конвеєру.

Етапи підгонки SMPL: зліва вихідне зображення; другий зліва — результат оптимізації, отриманий за допомогою методу, описаного в дослідженні 2016 року під керівництвом Інституту інтелектуальних систем Макса Планка; третій зліва, прямий результат висновку з попередньо навченої моделі для наскрізного відновлення форми та пози людини; другий справа – результати, отримані після оптимізації двовимірних ключових точок; і, нарешті, правильно, завершена посадка після оптимізації силуету (див. вище).

Етапи підгонки SMPL: зліва вихідне зображення; по-друге, результат оптимізації, отриманий за методом, викладеним у 2016 році дослідження під керівництвом Інституту інтелектуальних систем Макса Планка; по-третє, прямий результат висновку з попередньо навченої моделі для Наскрізне відновлення форми та пози людини; по-четверте, результати, отримані після оптимізації 2D ключових точок; і, нарешті, по-п’яте, завершена посадка після оптимізації силуету (див. вище).

Потім тривимірна деформація проектується в простір зображення архітектури, щоб створити щільне поле деформації, яке визначатиме деформацію. Цей процес займає приблизно 3 секунд для кожного зображення.

Архітектура NeuralReshaper

NeuralReshaper запускає дві нейронні мережі в тандемі: кодер переднього плану, який генерує трансформовану форму тіла, і кодер фону, який зосереджується на заповненні «деокклюзованих» фонових областей (у випадку, наприклад, зменшення тіла – див. зображення нижче).

Фреймворк у стилі U-net об’єднує вихідні дані двох функцій кодувальників перед передачею результату в уніфікований кодувальник, який зрештою створює нове зображення з двох входів. Архітектура має новий механізм, керований деформацією, що забезпечує інтеграцію.

Навчання та експерименти

NeuralReshaper реалізовано в PyTorch на одному графічному процесорі NVIDIA 1080ti з 11 ГБ VRAM. Мережа була навчена протягом 100 епох під оптимізатором Адама, з генератором, встановленим на цільові втрати 0.0001, а дискримінатор на цільові втрати 0.0004. Навчання проводилося в пакеті розміром 8 для власного набору даних на відкритому повітрі (отримано з Коко, MPII, і ЛСП), і 2 для навчання на ст DeepFashion набір даних.

Ліворуч оригінальні зображення, праворуч репропорційні результати NeuralReshaper.

Ліворуч оригінальні зображення, праворуч репропорційні результати NeuralReshaper.

Нижче наведено кілька прикладів виключно з набору даних DeepFashion, навченого для NeuralReshaper, з оригінальними зображеннями завжди зліва.

Три керовані атрибути роз’єднані та можуть застосовуватися окремо.

Трансформації отриманого набору даних на відкритому повітрі є більш складними, оскільки вони часто вимагають заповнення складного фону та чіткого й переконливого окреслення трансформованих типів тіла:

Параметрична необхідність

Як зазначається в документі, перетворення одного і того ж зображення такого типу є невірно поставленою проблемою в синтезі зображень. Багато трансформаційних структур GAN і кодувальника можуть використовувати парні зображення (наприклад, різноманітні проекти, призначені для ефекту ескіз>фото та фото> ескіз перетворення).

Однак у даному випадку для цього знадобляться пари зображень, на яких зображені однакові люди в різних фізичних конфігураціях, наприклад, зображення «до і після» в рекламі дієт чи пластичних операцій – дані, які важко отримати або створити.

З іншого боку, трансформаційні мережі GAN можуть навчатися на набагато більш різноманітних даних і здійснювати перетворення шляхом пошуку латентний напрямок між джерелом (оригінальний прихований код зображення) і бажаним класом (у цьому випадку «товстий», «худий», «високий» тощо). Однак цей підхід наразі є занадто обмеженим для цілей точної зміни форми тіла.

Нейронні поля випромінювання (NeRF) підходи значно просунуті у моделюванні всього тіла, ніж більшість систем на основі GAN, але залишаються залежними від сцени та ресурсоємними, з наразі дуже обмеженими можливостями редагування типів тіла в гранульований спосіб, який NeuralReshaper і попередні проекти намагаються вирішити ( не вистачає зменшення всього тіла відносно середовища).

Латентним простором GAN важко керувати; VAE самі по собі ще не вирішують складнощів відтворення всього тіла; і здатність NeRF послідовно і реалістично реконструювати людські тіла все ще тільки зароджується. Таким чином, включення «традиційних» методологій CGI, таких як SMPL, схоже, продовжуватиметься в дослідницькому секторі синтезу людських зображень, як методу для збирання та консолідації функцій, класів і прихованих кодів, параметри та можливості використання яких ще не повністю зрозумілі в цих нових технології.

 

Вперше опубліковано 31 березня 2022 р.