Connect with us

Andersonův úhel

Významný pokrok v oblasti videa s umělou inteligencí ovládanou člověkem

mm
Examples from the DreamActor project page.

Poznámka: Stránka projektu této práce obsahuje 33 automaticky přehrávaných videí s vysokým rozlišením o celkové velikosti půl gigabytu, které destabilizovaly můj systém při načítání. Z tohoto důvodu nebude přímý odkaz na něj. Čtenáři si mohou najít URL v abstraktu nebo PDF článku, pokud si to zvolí.

Jedním z hlavních cílů současného výzkumu syntézy videa je generování kompletního videa ovládaného umělou inteligencí z jediného obrazu. Tento týden byla představena nová práce od Bytedance Intelligent Creation, která může být nejkomplexnějším systémem tohoto druhu dosud, schopným produkovat plné a polotělové animace, které kombinují expresivní detaily obličeje s přesnými velkými pohyby, zatímco také dosahuje zlepšené konzistence identity – oblast, ve které i vedoucí komerční systémy často selhávají.

V následujícím příkladu vidíme výkon ovládaný hercem (nahoře vlevo) a odvozený z jediného obrazu (nahoře vpravo), který poskytuje pozoruhodně flexibilní a obratný rendering, bez obvyklých problémů kolem vytváření velkých pohybů nebo “hádaní” o zakrytých oblastech (tj. částech oděvu a úhlů obličeje, které musí být odhadnuty nebo vynalezeny, protože nejsou viditelné na jediném zdrojovém fotu):

AUDIO CONTENT. Kliknutím se přehraje. Výkon je vytvořen ze dvou zdrojů, včetně synchronizace rtů, která je obvykle vyhrazena pro specializované pomocné systémy. Jedná se o zmenšenou verzi z původního webu (viz poznámka na začátku článku – platí pro všechna další vložená videa zde).

Ačkoli můžeme vidět některé zbytkové výzvy týkající se persistence identity, jakmile každý klip postupuje, jedná se o první systém, který jsem viděl, a který obecně (i když ne vždy) udržuje ID po delší dobu bez použití LoRAs:

AUDIO CONTENT. Kliknutím se přehraje. Další příklady z projektu DreamActor.

Nový systém, nazvaný DreamActor, používá tříčástový hybridní kontrolní systém, který věnuje pozornost expresivnímu výrazu obličeje, rotaci hlavy a designu kostry, čímž umožňuje AI-řízené výkony, kde ani obličej, ani tělo neutrpí na úkor druhého – schopnost, která je vzácná, možná neznámá mezi podobnými systémy.

Níže vidíme jednu z těchto součástí, rotaci hlavy, v akci. Barevný míč v rohu každého náhledu směrem doprava označuje druh virtuální hlavy, který definuje orientaci hlavy nezávisle na pohybu obličeje a výrazu, který je zde poháněn výkonem herce (dolní levá část).

Kliknutím se přehraje. Multibarevný míč zobrazený zde reprezentuje osu rotace hlavy avataru, zatímco výraz je poháněn samostatným modulem a informován výkonem herce (zobrazeným zde dolní levou částí).

Jedna z nejzajímavějších funkcí projektu, která není ani řádně zahrnuta do testů článku, je jeho schopnost odvodit pohyb rtů přímo z audio – schopnost, která funguje neobvykle dobře, i bez poháněcího videa herce.

Výzkumníci se postavili proti nejlepším stávajícím systémům v tomto úsilí, včetně velmi chvalného Runway Act-One a LivePortrait, a uvádějí, že DreamActor byl schopen dosáhnout lepších kvantitativních výsledků.

Protože výzkumníci mohou nastavit svá vlastní kritéria, kvantitativní výsledky nejsou nutně empirickým standardem; ale doprovodné kvalitativní testy zdají se podporovat závěry autorů.

Bohužel tento systém není určen pro veřejnou distribuci, a jedinou hodnotou, kterou může komunita potenciálně získat z této práce, je v případném reprodukování metodologií popsaných v článku (jako tomu bylo u stejně uzavřeného Google Dreambooth v roce 2022).

Článek uvádí*:

‘Animace lidského obrazu má možné sociální rizika, jako je zneužití k vytváření falešných videí. Navrhovaná technologie by mohla být použita k vytváření falešných videí lidí, ale existující detekční nástroje [Demamba, Dormant] mohou tyto falešné videí rozpoznat.

‘Pro snížení těchto rizik jsou nezbytná jasná etická pravidla a odpovědné pokyny pro použití. Budeme přísně omezovat přístup k našim základním modelům a kódům, aby se předešlo zneužití.’

Přirozeně, etické úvahy tohoto druhu jsou výhodné z komerčního hlediska, protože poskytují důvod pro přístup API pouze k modelu, který lze poté zpeněžit. ByteDance již jednou v roce 2025 učinil totéž, když zpřístupnil velmi chvalný OmniHuman za placené kredity na webu Dreamina. Proto, protože DreamActor je možná ještě silnější produkt, zdá se, že toto je pravděpodobný výsledek. Zbývá se ukázat, do jaké míry jeho principy, pokud jsou popsány v článku, mohou pomoci otevřené komunitě.

Nový článek je nazvaný DreamActor-M1: Holistická, expresivní a robustní animace lidského obrazu s hybridním řízením, a pochází od šesti výzkumníků Bytedance.

Metoda

Systém DreamActor navržený v článku má za cíl generovat animaci člověka z referenčního obrazu a poháněcího videa, pomocí Diffusion Transformer (DiT) frameworku přizpůsobeného pro latentní prostor (zdá se, že jde o some flavor of Stable Diffusion, i když článek cituje pouze 2022 landmark release publication).

Místo toho, aby se spoléhal na externí moduly pro zpracování referenčních podmínek, autoři spojují vzhled a pohybové funkce přímo uvnitř DiT architektury, umožňující interakci přes prostor a čas prostřednictvím pozornosti:

Schéma pro nový systém: DreamActor kóduje pózu, pohyby obličeje a vzhled do samostatných latentních proměnných, kombinuje je s noisovanými video latentními proměnnými produkovanými 3D VAE. Tyto signály jsou slučeny uvnitř Diffusion Transformeru pomocí self- a cross-pozornosti, s sdílenými váhami napříč větvemi. Model je supervidován srovnáním denoisovaných výstupů s čistými video latentními proměnnými. Zdroj: https://arxiv.org/pdf/2504.01724

Schéma pro nový systém: DreamActor kóduje pózu, pohyby obličeje a vzhled do samostatných latentních proměnných, kombinuje je s noisovanými video latentními proměnnými produkovanými 3D VAE. Tyto signály jsou slučeny uvnitř Diffusion Transformeru pomocí self- a cross-pozornosti, s sdílenými váhami napříč větvemi. Model je supervidován srovnáním denoisovaných výstupů s čistými video latentními proměnnými. Zdroj: https://arxiv.org/pdf/2504.01724

Pro tento účel model používá předem trénovaný 3D variational autoencoder pro kódování vstupního videa a referenčního obrazu. Tyto latentní proměnné jsou patchified, spojovány a vkládány do DiT, který je zpracovává společně.

Tato architektura se odchyluje od běžné praxe připojování sekundární sítě pro injekci referencí, což byl přístup pro vlivné Animate Anyone a Animate Anyone 2 projekty.

Místo toho DreamActor integruje fúzi do hlavního modelu, zjednodušuje design a zlepšuje tok informací mezi vzhledem a pohybovými signály. Model je poté trénován pomocí flow matching místo standardního difuzního cíle (Flow matching trénuje difuzní modely přímo předpovídáním rychlostních polí mezi daty a šumem, přeskočením score estimation).

Hybridní pohybové řízení

Metoda Hybridního pohybového řízení, která informuje neuronové renderování, kombinuje tokeny pózy odvozené z 3D tělesných kostry a sféry hlavy; implicitní reprezentace obličeje extrahované předem trénovaným kodérem obličeje; a tokeny referenčního vzhledu vzorkované zdrojového obrazu.

Tyto prvky jsou integrovány uvnitř Diffusion Transformeru pomocí různých mechanismů pozornosti, umožňujících systému koordinovat globální pohyb, expresivní pohyby obličeje a vizuální identitu během generování procesu.

Pro první z nich, místo toho, aby se spoléhal na orientační body obličeje, DreamActor používá implicitní reprezentace obličeje pro řízení generování výrazu, což zřejmě umožňuje jemnější kontrolu nad dynamikou obličeje, zatímco rozděluje identitu a rotaci hlavy od výrazu.

K vytvoření těchto reprezentací pipeline nejdříve detekuje a ořízne oblast obličeje v každém snímku poháněcího videa, změní jeho velikost na 224×224. Oříznuté obličeje jsou zpracovány předem trénovaným kodérem pohybu obličeje, který je poté kondicionován MLP vrstvou.

PD-FGC, použitý v DreamActor, generuje mluvící hlavu z referenčního obrazu s oddělenou kontrolou synchronizace rtů (z audio), rotace hlavy, pohybu očí a výrazu (z samostatných videí), umožňující přesnou, nezávislou manipulaci s každým. Zdroj: https://arxiv.org/pdf/2211.14506

PD-FGC, použitý v DreamActor, generuje mluvící hlavu z referenčního obrazu s oddělenou kontrolou synchronizace rtů (z audio), rotace hlavy, pohybu očí a výrazu (z samostatných videí), umožňující přesnou, nezávislou manipulaci s každým. Zdroj: https://arxiv.org/pdf/2211.14506

Výsledkem je sekvence tokenů pohybu obličeje, které jsou injektovány do Diffusion Transformeru prostřednictvím cross-pozornostní vrstvy.

Stejné framework také podporuje audio-řízenou variantu, kde je samostatný kódér trénován pro mapování vstupu řeči přímo na tokeny pohybu obličeje. To umožňuje generovat synchronizované animace obličeje – včetně pohybů rtů – bez poháněcího videa.

AUDIO CONTENT. Kliknutím se přehraje. Synchronizace rtů odvozená čistě z audio, bez poháněcího videa herce. Jediným vstupem je statický fotoobraz viditelný v pravém horním rohu.

Druhá, aby byla rotace hlavy řízena nezávisle na pohybech obličeje, systém zavedl reprezentaci 3D sféry hlavy (viz video vložené dříve v tomto článku), která rozděluje dynamiku obličeje od globálního pohybu hlavy, zlepšuje přesnost a flexibilitu během animace.

Sféry hlavy jsou generovány extrahováním 3D parametrů obličeje – jako je rotace a kamerová póza – z poháněcího videa pomocí FaceVerse sledovací metody.

Schéma pro projekt FaceVerse. Zdroj: https://www.liuyebin.com/faceverse/faceverse.html

Schéma pro projekt FaceVerse. Zdroj: https://www.liuyebin.com/faceverse/faceverse.html

Tyto parametry jsou použity pro vykreslení barevné sféry projekované na 2D obrazovku, prostorově zarovnané s poháněcí hlavou. Velikost sféry odpovídá referenční hlavě, a její barva odráží orientaci hlavy. Tato abstrakce snižuje složitost učení 3D pohybu hlavy, pomáhá zachovat stylizované nebo přehnané tvary hlavy v postavách odvozených z animace.

Vizualizace sféry ovlivňující orientaci hlavy.

Vizualizace sféry ovlivňující orientaci hlavy.

Nakonec, aby byla řízena plná tělesná animace, systém používá 3D tělesné kostry s adaptivní normalizací délky kostí. Parametry těla a ruky jsou odhadnuty pomocí 4DHumans a rukou zaměřené HaMeR, oba fungující na SMPL-X tělesném modelu.

SMPL-X aplikuje parametrickou síť na celé lidské tělo v obraze, zarovnává s odhadnutou pózou a výrazem, aby umožnila manipulaci s pózou pomocí síťové volumetrické nápovědy. Zdroj: https://arxiv.org/pdf/1904.05866

SMPL-X aplikuje parametrickou síť na celé lidské tělo v obraze, zarovnává s odhadnutou pózou a výrazem, aby umožnila manipulaci s pózou pomocí síťové volumetrické nápovědy. Zdroj: https://arxiv.org/pdf/1904.05866

Z těchto výstupů jsou vybrány klíčové klouby, projekty do 2D a spojeny do lineárních map skeletu. Na rozdíl od metod, jako je Champ, které vykreslují plné tělesné sítě, tento přístup se vyhýbá ukládání předem definovaných tvarových priorit, a spoléhaje se pouze na strukturu skeletu, model je tak povzbuzen k odhadu tvaru těla a vzhledu přímo z referenčních obrazů, snižuje tak předpojatost vůči fixovaným typům těl a zlepšuje generalizaci napříč různými pózami a tělesnými typy.

Během trénování jsou 3D tělesné kostry spojeny se sférami hlavy a procházejí pose kodérem, který produkuje funkce, které jsou poté kombinovány s noisovanými video latentními proměnnými pro produkci šumových tokenů používaných Diffusion Transformerem.

V době inferencingu systém zohledňuje rozdíly ve skeletu mezi subjekty normalizací délky kostí. SeedEdit předem trénovaný model editace obrazu transformuje jak referenční, tak poháněcí obrazy do standardní kanonické konfigurace. RTMPose je poté použit pro extrakci proporcí skeletu, které se používají pro úpravu poháněcího skeletu, aby odpovídal anatomii referenčního subjektu.

Přehled pipeline inferencingu. Pseudo-referenční obrázky mohou být generovány pro obohacení vzhledových signálů, zatímco hybridní kontrolní signály – implicitní pohyby obličeje a explicitní póza ze sfér hlavy a tělesných kostry – jsou extrahovány z poháněcího videa. Tyto signály jsou poté vloženy do DiT modelu pro produkci animovaného výstupu, s pohyby obličeje oddělenými od pohybu těla, umožňující použití audio jako poháněcího signálu.

Přehled pipeline inferencingu. Pseudo-referenční obrázky mohou být generovány pro obohacení vzhledových signálů, zatímco hybridní kontrolní signály – implicitní pohyby obličeje a explicitní póza ze sfér hlavy a tělesných kostry – jsou extrahovány z poháněcího videa. Tyto signály jsou poté vloženy do DiT modelu pro produkci animovaného výstupu, s pohyby obličeje oddělenými od pohybu těla, umožňující použití audio jako poháněcího signálu.

Vzhledové řízení

Pro zlepšení věrnosti vzhledu, zejména v zakrytých nebo zřídka viditelných oblastech, systém doplňuje primární referenční obraz o pseudo-referenční obrázky vzorkované z vstupního videa.

Kliknutím se přehraje. Systém předpovídá potřebu přesně a konzistentně vykreslit zakryté oblasti. To je o tolik blízko, kolik jsem viděl, v projektu tohoto druhu, k CGI-stylu bitmap-texturovému přístupu.

Tyto dodatečné snímky jsou vybrány pro rozmanitost póz pomocí RTMPose a filtrovány pomocí CLIP-založené podobnosti, aby zůstaly konzistentní s identitou subjektu.

Všechny referenční snímky (primární a pseudo) jsou zakódovány stejným vizuálním kodérem a slučeny prostřednictvím mechanismu self-pozornosti, umožňující modelu přístup k doplňkovým vzhledovým signálům. Tento nastavení zlepšuje pokrytí detailů, jako jsou profily nebo textury končetin. Pseudo-referenční snímky jsou vždy používány během trénování a opcionalně během inferencingu.

Trénování

DreamActor byl trénován ve třech fázích, aby postupně zavedl složitost a zlepšil stabilitu.

V první fázi byly použity pouze 3D tělesné kostry a 3D sféry hlavy jako kontrolní signály, vylučující reprezentace obličeje. To umožnilo základnímu modelu videa, inicializovanému z MMDiT, adaptovat se na animaci člověka bez přetížení jemnými kontrolami.

Ve druhé fázi byly přidány implicitní reprezentace obličeje, ale všechny ostatní parametry zmraženy. Pouze kódér pohybu obličeje a vrstvy pozornosti obličeje byly trénovány v tomto okamžiku, umožňující modelu naučit se expresivní detaily izolovaně.

V konečné fázi byly všechny parametry odmraženy pro společnou optimalizaci napříč vzhledem, pózou a dynamikou obličeje.

Data a testy

Pro fázi testování je model inicializován z předem trénovaného image-to-video DiT checkpointu a trénován ve třech fázích: 20 000 kroků pro každou z prvních dvou fází a 30 000 kroků pro třetí.

Pro zlepšení generalizace napříč různými délkami a rozlišeními, video klipy byly náhodně vybrány s délkami mezi 25 a 121 snímky. Tyto byly poté přepočteny na 960x640px, zatímco zachovaly poměr stran.

Trénování bylo provedeno na osmi (China-focused) NVIDIA H20 GPU, každá s 96GB VRAM, pomocí AdamW optimalizátoru s (snadno akceptovatelnou) learning rate 5e−6.

V době inferencingu každý video segment obsahoval 73 snímků. Pro udržení konzistence napříč segmenty byl konečný latentní z jednoho segmentu znovu použit jako počáteční latentní pro další, což kontextualizuje úkol jako sekvenční image-to-video generaci.

Classifier-free guidance byla aplikována se váhou 2,5 pro obě referenční obrazy a pohybové kontrolní signály.

Autoři sestavili trénovací dataset (žádné zdroje nejsou uvedeny v článku) složený z 500 hodin videa z různých domén, obsahujících instance (mezi jinými) tance, sportu, filmu a veřejných projevů. Dataset byl navržen pro zachycení širokého spektra lidského pohybu a výrazu, s rovnoměrným rozložením mezi plné a polotělové záběry.

Pro zlepšení kvality syntézy obličeje byl Nersemble začleněn do procesu přípravy dat.

Příklady z datasetu Nersemble, použitých pro augmentaci dat pro DreamActor. Zdroj: https://www.youtube.com/watch?v=a-OAWqBzldU

Příklady z datasetu Nersemble, použitých pro augmentaci dat pro DreamActor. Zdroj: https://www.youtube.com/watch?v=a-OAWqBzldU

Pro evaluaci výzkumníci použili svůj dataset také jako benchmark pro hodnocení generalizace napříč různými scénáři.

Výkon modelu byl měřen pomocí standardních metrik z předchozích prací: Fréchet Inception Distance (FID); Structural Similarity Index (SSIM); Learned Perceptual Image Patch Similarity (LPIPS); a Peak Signal-to-Noise Ratio (PSNR) pro kvalitu na úrovni snímků. Fréchet Video Distance (FVD) byla použita pro hodnocení temporální koherence a celkové video věrnosti.

Autoři provedli experimenty na úkolech animace těla a portrétu, všechny využívaly jediný (cílový) referenční obraz.

Pro animaci těla byl DreamActor-M1 porovnán s Animate Anyone; Champ; MimicMotion, a DisPose.

Kvantitativní srovnání s rivalními rámci.

Kvantitativní srovnání s rivalními rámci.

Ačkoli PDF poskytuje statický obraz jako vizuální srovnání, jedno z videí z webu projektu může více jasně ukázat rozdíly:

AUDIO CONTENT. Kliknutím se přehraje. Vizuální srovnání napříč výzvými rámci. Poháněcí video je vidět v levém horním rohu, a závěr autorů, že DreamActor produkuje nejlepší výsledky, se zdá rozumný.

Pro testy portrétové animace byl model hodnocen proti LivePortrait; X-Portrait; SkyReels-A1; a Act-One.

Kvantitativní srovnání pro portrétovou animaci.

Kvantitativní srovnání pro portrétovou animaci.

Autoři uvádějí, že jejich metoda vítězí v kvantitativních testech, a tvrdí, že je také kvalitativně lepší.

AUDIO CONTENT. Kliknutím se přehraje. Příklady srovnání portrétové animace.

Sporně třetí a konečné z klipů zobrazených ve videu výše vykazuje méně přesvědčivou synchronizaci rtů ve srovnání s několika rivalními rámci, i když obecná kvalita je pozoruhodně vysoká.

Závěr

Předpokládaje potřebu textur, které jsou implikovány, ale nejsou skutečně přítomny v jediném cílovém obraze, který pohání tyto rekreace, Bytedance řeší jednu z největších výzev, kterým čelí generace videa založená na difuzi – konzistentní, trvalé textury. Další logický krok po dokonalém tomto přístupu by byl vytvořit referenční atlas z počáteční generované klipy, který by mohl být aplikován na následující, různé generace, aby se zachovala podoba bez LoRAs.

Ačkoli takový přístup by byl stále externí referencí, není to nic jiného než texturování v tradičních CGI technikách, a kvalita realismu a věrohodnosti je mnohem vyšší, než mohou tyto starší metody získat.

Řekl bych, že nejpozoruhodnější aspekt DreamActor je kombinovaný tříčástový systém řízení, který mostí tradiční propast mezi zaměřením na obličej a zaměřením na tělo v lidské syntéze způsobem, který je geniální.

Nyní zbývá vidět, zda některé z těchto základních principů mohou být využity v dostupnějších nabídkách; jak stojí, DreamActor se zdá být odsouzen k tomu, aby se stal dalším syntézou-jako-službou nabídkou, vážně omezenou omezeními na použití a nemožností experimentovat rozsáhle s komerční architekturou.

 

* Moje substituce hypertextových odkazů pro autory; inline citace

Jako bylo zmíněno dříve, není jasné, jaký konkrétní flavor Stable Difusion byl použit v tomto projektu.

Poprvé publikováno v pátek, 4. dubna 2025

Spisovatel o strojovém učení, doménový specialista na syntézu lidského obrazu. Bývalý vedoucí výzkumného obsahu ve společnosti Metaphysic.ai.
Osobní stránky: martinanderson.ai