Connect with us

Umělá inteligence

Nový systém pro časově konzistentní stabilní difuzní video postavy

mm
A capture from the project page of MIMO (https://menyifang.github.io/projects/MIMO/index.html), depicting a motion-driven wolf creature.

Nová iniciativa ze skupiny Alibaba nabízí jednu z nejlepších metod, které jsem viděl, pro generování plnofigurových lidských avatarů založených na modelu Stable Diffusion.

Nazvaný MIMO (MIMicking with Object Interactions), systém používá řadu populárních technologií a modulů, včetně CGI-based lidských modelů a AnimateDiff, aby umožnil časově konzistentní nahrazování postav ve videích – nebo jinak řídit postavu s uživatelem definovaným skeletálním pozicí.

Zde vidíme postavy interpolované z jediného zdrojového obrázku a řízené předdefinovaným pohybem:

[Klikněte na video níže pro přehrávání]

Z jediného zdrojového obrázku jsou tři rozmanité postavy řízeny 3D pozicí (vzdálená levá strana) pomocí systému MIMO. Viz projektová stránka a doprovodné video na YouTube (vložené na konci tohoto článku) pro více příkladů a vyšší rozlišení. Zdroj: https://menyifang.github.io/projects/MIMO/index.html

Generované postavy, které lze také získat z rámců ve videích a v různých dalších způsobech, lze integrovat do reálných záběrů.

MIMO nabízí nový systém, který generuje tři samostatné kódování, každé pro postavu, scénu a překrytí (tj. matování, když nějaký objekt nebo osoba projde před postavou, která je zobrazena). Tato kódování jsou integrována v době inference.

[Klikněte na video níže pro přehrávání]

MIMO může nahradit původní postavy fotorealistickými nebo stylizovanými postavami, které následují pohyb z cílového videa. Viz projektová stránka a doprovodné video na YouTube (vložené na konci tohoto článku) pro více příkladů a vyšší rozlišení.

Systém je trénován na modelu Stable Diffusion V1.5, pomocí vlastního datasetu vytvořeného výzkumníky, a skládá se stejně z reálných a simulovaných videí.

Velkým problémem difuzního videa je časová stabilita, kde obsah videa buď bliká nebo “vyvíjí” se způsoby, které nejsou požadovány pro konzistentní reprezentaci postav.

MIMO místo toho účinně používá jediný obrázek jako mapu pro konzistentní vedení, který lze orchestrovat a omezit mezilehlým SMPL CGI modelem.

Protože zdrojový odkaz je konzistentní, a základní model, nad kterým je systém trénován, byl vylepšen dostatečnými reprezentativními pohybovými příklady, schopnosti systému pro časově konzistentní výstup jsou výrazně nad obecným standardem pro difuzní avatary.

[Klikněte na video níže pro přehrávání]

Další příklady postav řízených pozicí MIMO. Viz projektová stránka a doprovodné video na YouTube (vložené na konci tohoto článku) pro více příkladů a vyšší rozlišení.

Stává se stále častějším, že se používají jediné obrázky jako zdroj pro efektivní neuronové reprezentace, buď samostatně, nebo multimodálním způsobem, kombinované s textovými podněty. Například populární LivePortrait systém pro převod obličeje může také generovat velmi věrohodné deepfaked tváře z jediného obrázku obličeje.

Výzkumníci se domnívají, že principy použité v systému MIMO lze rozšířit do dalších a nových typů generativních systémů a rámců.

Nová práce je nazvaná MIMO: Controllable Character Video Synthesis with Spatial Decomposed Modeling, a pochází od čtyř výzkumníků z Alibaba Group’s Institute for Intelligent Computing. Práce má video-laden projektovou stránku a doprovodné video na YouTube, které je také vložené na konci tohoto článku.

Metoda

MIMO dosahuje automatického a nesupervizovaného oddělení výše uvedených tří prostorových složek, v architektuře od konce ke konci (tj. všechny sub-procesy jsou integrovány do systému, a uživatel potřebuje pouze poskytnout vstupní materiál).

Konceptuální schéma pro MIMO. Zdroj: https://arxiv.org/pdf/2409.16160

Konceptuální schéma pro MIMO. Zdroj: https://arxiv.org/pdf/2409.16160

Objekty ve zdrojových videích jsou přeloženy z 2D do 3D, inicializací pomocí monokulárního odhadovače hloubky Depth Anything. Lidská složka v každém rámci je extrahována metodami adaptovanými z projektu Tune-A-Video.

Tyto funkce jsou pak přeloženy do video-založených objemových фасет pomocí architektury Segment Anything 2 od Facebook Research.

Scénická vrstva je získána odstraněním objektů detekovaných v ostatních dvou vrstvách, což účinně poskytuje rotoskopový styl masky automaticky.

Pro pohyb je sada extrahovaných latentních kódů pro lidskou složku kotvena k výchozímu lidskému CGI-based SMPL modelu, jehož pohyby poskytují kontext pro renderovanou lidskou obsah.

2D funkční mapa pro lidskou složku je získána diferencovatelným rasterizérem odvozeným z 2020 iniciativy od NVIDIA. Kombinací získaných 3D dat ze SMPL s 2D daty získanými metodou NVIDIA, latentní kódy reprezentující “neuronového člověka” mají pevnou korespondenci se svým eventuálním kontextem.

V tomto okamžiku je nutné stanovit referenci obecně potřebnou v architekturách, které používají SMPL – kanonickou pozici. To je široce podobné Da Vinciho ‘Vitruvianovi muži’, v tom, že reprezentuje nulovou-pozici šablonu, která může přijmout obsah a poté být deformována, přinášející (účinně) texturovaný obsah s ní.

Tyto deformace, nebo “odchylky od normy”, reprezentují lidský pohyb, zatímco SMPL model zachovává latentní kódy, které tvoří lidskou identitu, která byla extrahována, a tak reprezentuje výslednou avatar correctamente vzhledem k pozici a textury.

Příklad kanonické pozice v SMPL figuríně. Zdroj: https://www.researchgate.net/figure/Layout-of-23-joints-in-the-SMPL-models_fig2_351179264

Příklad kanonické pozice v SMPL figuríně. Zdroj: https://www.researchgate.net/figure/Layout-of-23-joints-in-the-SMPL-models_fig2_351179264

Ohledně problému entanglementu (míry, do které trénovaná data mohou být inflexibilní, když je táhnete za hranice jejich tréninkových konfinů a asociací), autoři uvádějí*:

‘Pro plné oddělení vzhledu od pozicovaných rámců videa je ideálním řešením naučit se dynamickou lidskou reprezentaci z monokulárního videa a transformovat ji z pozicovaného prostoru do kanonického prostoru.

‘S ohledem na efektivitu používáme zjednodušeného metodu, který přímo transformuje pozicovanou lidskou obraz do kanonického výsledku ve standardní A-pozici pomocí předtrénovaného lidského repozicovacího modelu. Syntetizovaná kanonická vzhledová obraz je krmena do ID kódérů, aby získala identifikační [kód].

‘Tento jednoduchý design umožňuje plné oddělení identity a pohybových atributů. Následuje [Animate Anyone], ID kódéry zahrnují CLIP obrazový kódér a referenční síťovou architekturu pro vložení globální a místní funkce, [resp.].’

Pro scénickou a překryvnou složku je použita sdílená a pevná Variational Autoencoder (VAE – v tomto případě odvozená z 2013 publikace) pro vložení scénické a překryvné složky do latentního prostoru. Nesrovnalosti jsou zpracovány inpainting metodou z 2023 projektu ProPainter.

Jakmile jsou tyto složky sestaveny a retušovány tímto způsobem, poskytne pozadí a jakékoli překrývající se objekty ve videu matrici pro pohyblivou lidskou avatar.

Tyto dekomponované atributy jsou pak krmeny do U-Net architektury založené na architektuře Stable Diffusion V1.5. Úplný scénický kód je konkatenuován s nativním latentním šumem hostitelského systému. Lidská složka je integrována prostřednictvím self-attention a cross-attention vrstev, resp.

Poté je denoizovaný výsledek výstupem prostřednictvím VAE dekodéru.

Data a testy

Pro trénink vytvořili výzkumníci lidský video dataset nazvaný HUD-7K, který se skládal z 5 000 reálných charakterových videí a 2 000 syntetických animací vytvořených systémem En3D. Reálná videa nevyžadovala žádné anotace, kvůli ne-semantické povaze procedur extrakce postav v architektuře MIMO. Syntetická data byla plně anotována.

Model byl trénován na osmi NVIDIA A100 GPU (i když práce nespecifikuje, zda se jednalo o modely s 40GB nebo 80GB VRAM), po dobu 50 iterací, pomocí 24 video rámců a velikosti dávky čtyř, až do konvergence.

Modul pohybu pro systém byl trénován na váhu AnimateDiff. Během tréninkového procesu byly váhy VAE kódéru/dekodéru a CLIP obrazového kódéru zmrazeny (na rozdíl od plného fine-tuning, který bude mít mnohem širší účinek na základní model).

Ačkoli MIMO nebyl testován proti analogickým systémům, výzkumníci testovali jej na obtížných out-of-distribution pohybových sekvencích z AMASS a Mixamo. Tyto pohyby zahrnovaly lezení, hraní a tanec.

Také testovali systém na lidských videích v divočině. V obou případech práce uvádí “vysokou odolnost” pro tyto neviditelné 3D pohyby z různých úhlů.

Ačkoli práce nabízí několik statických obrazových výsledků demonstrujících účinnost systému, skutečný výkon MIMO je nejlépe hodnocen s rozsáhlými video výsledky poskytnutými na projektové stránce a v videu na YouTube vloženém níže (z kterého byla videa na začátku tohoto článku odvozena).

Autoři uzavírají:

‘Experimentální výsledky [demonstrují], že naše metoda umožňuje nejen flexibilní charakter, pohyb a scénickou kontrolu, ale také pokročilou škálovatelnost na libovolné postavy, obecnost na nové 3D pohyby a aplikovatelnost na interaktivní scény.

‘Také [věřím], že naše řešení, které zohledňuje inherentní 3D povahu a automaticky kóduje 2D video do hierarchických prostorových složek, mohlo by inspirovat budoucí výzkumy pro 3D-aware video syntézu.

‘Kromě toho je náš rámec nejen vhodný pro generování charakterových videí, ale může být také potenciálně adaptován na další kontrolovatelné video syntetické úkoly.’

Závěr

Je osvěžující vidět avatar systém založený na Stable Diffusion, který vypadá schopný takové časové stability – nejméně proto, že Gaussian Avatary zdají se, že získávají výšinu v tomto konkrétním výzkumném sektoru.

Stylizované avatary reprezentované v výsledcích jsou efektivní, a zatímco úroveň fotorealističnosti, kterou MIMO může produkovat, není目前 rovna tomu, co je Gaussian Splatting schopný, rozmanité výhody vytváření časově konzistentních lidských postav v semanticky založeném Latent Diffusion Network (LDM) jsou značné.

 

* Moje konverze autorů inline citací na hypertextové odkazy a kde je nutné, externí vysvětlovací hypertextové odkazy.

Poprvé zveřejněno ve středu, září 25, 2024

Spisovatel o strojovém učení, doménový specialista na syntézu lidského obrazu. Bývalý vedoucí výzkumného obsahu ve společnosti Metaphysic.ai.
Osobní stránky: martinanderson.ai