výhonek Přetváření typů lidského těla pomocí AI - Unite.AI
Spojte se s námi

Umělá inteligence

Přetváření typů lidského těla pomocí AI

mm
aktualizováno on

Nová výzkumná spolupráce z Číny nabízí novou metodu přetváření lidského těla na obrázcích pomocí koordinované sítě dvojčat neuronového kodéru, vedené parametrickým modelem, který umožňuje koncovému uživateli modulovat hmotnost, výšku a tělesné proporce. v interaktivním GUI.

Parametrizovaná modulace tvaru těla s posuvníky měnícími tři dostupné funkce. Zdroj: https://arxiv.org/pdf/2203.10496.pdf

Parametrizovaná modulace tvaru těla s posuvníky měnícími tři dostupné funkce. Zdroj: https://arxiv.org/pdf/2203.10496.pdf

Práce nabízí několik vylepšení oproti a nedávný podobný projekt od Alibaba, v tom, že dokáže přesvědčivě změnit výšku a tělesné proporce i váhu, a má vyhrazenou neuronovou síť pro „vymalování“ (neexistujícího) pozadí, které lze odhalit „štíhlejšími“ obrázky těla. To se také výrazně zlepšuje dřívější parametrická metoda pro přetváření těla odstraněním potřeby rozsáhlého lidského zásahu během formulace transformace.

Titulovaný NeuralReshaper, nová architektura přizpůsobuje parametrickou 3D lidskou šablonu zdrojovému obrazu a poté využívá deformace v šabloně k přizpůsobení původního obrazu novým parametrům.

Systém je schopen zvládnout proměny těla na oblečených i polooděných (tj. plážových) postavách.

Transformace tohoto typu jsou v současné době velmi zajímavé módní AI výzkumný sektor, který vytvořil řadu platforem založených na StyleGAN/CycleGAN a obecných neuronových sítí pro virtuální vyzkoušení které mohou dostupné části oblečení přizpůsobit tvaru těla a typu uživatelem zaslaného obrázku nebo jinak pomoci s vizuální konformitou.

Projekt papír je s názvem Přetváření lidského těla pomocí jednoho snímku pomocí hlubokých neuronových sítía pochází od výzkumníků z Zhejiang University v Hangzhou a School of Creative Media na City University of Hong Kong.

Kování SMPL

NeuralReshaper využívá Skinned Multi-Person Linear Model (SMPL) rozvinutý od Institutu Maxe Plancka pro inteligentní systémy a renomovaného VFX house Industrial Light and Magic v roce 2015.

SMPL Parametričtí lidé ze spolupráce Planck/ILM v roce 2015. Zdroj: https://files.is.tue.mpg.de/black/papers/SMPL2015.pdf

SMPL Parametričtí lidé ze spolupráce Planck/ILM v roce 2015. Zdroj: https://files.is.tue.mpg.de/black/papers/SMPL2015.pdf

V první fázi procesu je ze zdrojového obrázku generován SMPL model, na kterém je žádoucí provést transformace těla. Přizpůsobení modelu SMPL k obrazu následuje metodologie metody Human Mesh Recovery (HMR) navržené univerzitami v Německu a USA v roce 2018.

V této fázi jsou vypočteny tři parametry pro deformaci (hmotnost, výška, tělesné proporce) spolu s uvážením parametrů kamery, jako je ohnisková vzdálenost. 2D klíčové body a generované zarovnání siluety poskytují prostor pro deformaci ve formě 2D siluety, což je další optimalizační opatření, které zvyšuje přesnost hranic a umožňuje autentické malování pozadí dále v potrubí.

Fáze pro montáž SMPL: vlevo, zdrojový obrázek; druhý zleva, výsledek optimalizace získaný metodou nastíněnou ve výzkumu z roku 2016 vedeného Institutem Maxe Plancka pro inteligentní systémy; třetí zleva, přímá inference z předem trénovaného modelu pro úplné obnovení lidského tvaru a pozice; druhý zprava, výsledky získané po optimalizaci 2D klíčových bodů; a konečně, správně, dokončené přizpůsobení po optimalizaci siluety (viz výše).

Fáze pro montáž SMPL: vlevo, zdrojový obrázek; za druhé, výsledek optimalizace získaný metodou uvedenou v roce 2016 výzkum vedená Institutem Maxe Plancka pro inteligentní systémy; za třetí, přímý výsledek z předem trénovaného modelu pro End-to-end obnova lidského tvaru a pozice; za čtvrté, výsledky získané po optimalizaci 2D klíčových bodů; a konečně za páté, dokončené přizpůsobení po optimalizaci siluety (viz výše).

3D deformace je poté promítnuta do obrazového prostoru architektury, aby se usnadnilo husté deformační pole, které bude definovat deformaci. Tento proces trvá přibližně 30 sekund na obrázek.

Architektura NeuralReshaper

NeuralReshaper provozuje dvě neuronové sítě v tandemu: kodér popředí, který generuje transformovaný tvar těla, a kodér pozadí, který se zaměřuje na vyplnění „deokludovaných“ oblastí pozadí (například v případě zeštíhlení těla – viz obrázek níže).

Rámec ve stylu U-net integruje výstup z funkcí dvou kodérů před předáním výsledku do jednotného kodéru, který nakonec ze dvou vstupů vytvoří nový obraz. Architektura se vyznačuje novým mechanismem naváděným warpem, který umožňuje integraci.

Školení a experimenty

NeuralReshaper je implementován v PyTorch na jediném GPU NVIDIA 1080ti s 11gb VRAM. Síť byla trénována na 100 epoch pod optimalizátorem Adam, přičemž generátor byl nastaven na cílovou ztrátu 0.0001 a diskriminátor na cílovou ztrátu 0.0004. Školení probíhalo na dávce 8 pro proprietární venkovní datovou sadu (čerpáno z Kokos, MPII, a LSP) a 2 pro školení na DeepFashion datový soubor.

Vlevo původní obrázky, vpravo upravený výstup NeuralReshaper.

Vlevo původní obrázky, vpravo upravený výstup NeuralReshaper.

Níže jsou uvedeny některé příklady výhradně z datové sady DeepFashion, jak byla trénována pro NeuralReshaper, s původními obrázky vždy vlevo.

Tři ovladatelné atributy jsou rozpletené a lze je použít samostatně.

Transformace na odvozeném venkovním souboru dat jsou náročnější, protože často vyžadují vyplnění komplexních pozadí a jasné a přesvědčivé vymezení transformovaných typů těla:

Parametrická nutnost

Jak uvádí článek, transformace stejného obrazu tohoto typu představují špatně položený problém v syntéze obrazu. Mnoho transformativních GAN a kodérových rámců může využívat spárované obrazy (jako jsou různé projekty navržené k efektu skica>fotka a foto>náčrt transformace).

V daném případě by to však vyžadovalo dvojice obrázků se stejnými lidmi v různých fyzických konfiguracích, jako jsou obrázky „před a po“ v reklamách na dietu nebo plastickou chirurgii – údaje, které je obtížné získat nebo vytvořit.

Alternativně mohou transformativní sítě GAN trénovat na mnohem rozmanitějších datech a provádět transformace vyhledáváním latentní směr mezi zdrojem (původní latentní kód obrázku) a požadovanou třídou (v tomto případě „tlustý“, „tenký“, „vysoký“ atd.). Tento přístup je však v současné době příliš omezený pro účely vyladěného přetváření těla.

Pole neuronového záření (NeRF) přístupy jsou mnohem dále pokročilejší v celotělové simulaci, kterou většina systémů založených na GAN, ale zůstávají specifické pro scénu a náročné na zdroje, přičemž v současnosti mají velmi omezenou schopnost upravovat typy těla granulárním způsobem, který se snaží řešit NeuralReshaper a předchozí projekty ( krátký zmenšení celého těla vzhledem ke svému prostředí).

Latentní prostor GAN je těžké řídit; Samotné VAE zatím neřeší složitost celotělové reprodukce; a schopnost NeRF důsledně a realisticky přetvářet lidská těla se stále rodí. Proto se zdá, že začleňování „tradičních“ CGI metodologií, jako je SMPL, bude pokračovat v sektoru výzkumu syntézy lidských obrazů jako metoda pro zachycení a konsolidaci prvků, tříd a skrytých kódů, jejichž parametry a využitelnost ještě nejsou plně pochopeny v těchto vznikajících technologií.

 

Poprvé publikováno 31. března 2022.