Andersons hoek

Een Opmerkelijke Vooruitgang in door de Mens Gestuurde AI-Video

Published April 4, 2025

Updated April 26, 2026

Martin Anderson

Examples from the DreamActor project page.

Opmerking: De projectpagina voor dit werk bevat 33 automatisch afgespeelde high-res-video’s met een totale grootte van een halve gigabyte, die mijn systeem op laadtijd hebben destabiliseerd. Om deze reden zal ik er niet rechtstreeks naar linken. Lezers kunnen de URL vinden in de abstract of het PDF van het artikel als ze dat willen.

Een van de belangrijkste doelstellingen in het huidige onderzoek naar video-synthese is het genereren van een complete AI-gestuurde video-prestatie vanuit één afbeelding. Deze week is er een nieuw artikel gepubliceerd door Bytedance Intelligent Creation, dat mogelijk het meest uitgebreide systeem van deze soort tot nu toe is, dat in staat is om full- en semi-body-animaties te produceren die expressieve faciale details combineren met nauwkeurige grote bewegingen, terwijl ook een verbeterde identiteitsconsistentie wordt bereikt – een gebied waarin zelfs leidende commerciële systemen vaak tekortschieten.

In het onderstaande voorbeeld zien we een prestatie die wordt aangestuurd door een acteur (boven links) en afgeleid van één afbeelding (boven rechts), die een opmerkelijk flexibele en behendige rendering biedt, zonder de gebruikelijke problemen bij het creëren van grote bewegingen of ‘gokken’ over verborgen gebieden (d.w.z. delen van kleding en faciale hoeken die moeten worden afgeleid of uitgevonden omdat ze niet zichtbaar zijn in de enige bronfoto):

AUDIO-INHOUD. Klik om af te spelen. Een prestatie wordt geboren uit twee bronnen, inclusief lip-sync, die normaal gesproken het domein zijn van toegewijde hulp-systemen. Dit is een gereduceerde versie van de bron-site (zie opmerking aan het begin van het artikel – van toepassing op alle andere ingesloten video’s hier).

Hoewel we enkele resterende uitdagingen kunnen zien met betrekking tot de persistentie van identiteit bij elke clip, is dit het eerste systeem dat ik heb gezien dat over het algemeen (hoewel niet altijd) identiteit behoudt over een langere periode zonder het gebruik van LoRAs:

AUDIO-INHOUD. Klik om af te spelen. Verdere voorbeelden van het DreamActor-project.

Het nieuwe systeem, getiteld DreamActor, gebruikt een drievoudig hybride besturingssysteem dat speciale aandacht besteedt aan faciale expressie, hoofdrotatie en core-skeletontwerp, waardoor AI-gestuurde prestaties mogelijk zijn waarbij noch de faciale noch de lichaamsaspecten lijden onder het andere – een zeldzame, mogelijk onbekende capaciteit onder soortgelijke systemen.

Onderaan zien we een van deze facetten, hoofdrotatie, in actie. De gekleurde bal in de rechterhoek van elke miniatuur naar rechts geeft een soort virtuele gimbal aan die hoofdoriëntatie onafhankelijk van faciale beweging en expressie definieert, die hier wordt aangestuurd door een acteur (onder links).

Klik om af te spelen. De multicolore bal die hier wordt weergegeven, vertegenwoordigt de rotatieas van het hoofd van de avatar, terwijl de expressie wordt aangedreven door een aparte module en geïnformeerd door een acteursprestatie (hier onder links te zien).

Een van de meest interessante functionaliteiten van het project, die niet eens goed wordt getest in het artikel, is de capaciteit om lip-sync-beweging rechtstreeks van audio af te leiden – een capaciteit die ongewoon goed werkt, zelfs zonder een aangedreven acteur-video.

De onderzoekers hebben de beste bestaande systemen in deze richting genomen, waaronder de veelgeprezen Runway Act-One en LivePortrait, en melden dat DreamActor in staat was om betere kwantitatieve resultaten te behalen.

Aangezien onderzoekers hun eigen criteria kunnen kiezen, zijn kwantitatieve resultaten niet noodzakelijkerwijs een empirische standaard; maar de bijbehorende kwalitatieve tests lijken de conclusies van de auteurs te ondersteunen.

Helaas is dit systeem niet bedoeld voor openbare release, en de enige waarde die de gemeenschap mogelijk kan afleiden uit het werk, is door potentieel de methodologieën te reproduceren die in het artikel worden beschreven (zoals eerder werd gedaan met het eveneens gesloten Google Dreambooth in 2022).

Het artikel vermeldt*:

‘Human image animatie heeft mogelijke sociale risico’s, zoals het misbruiken om nep-video’s te maken. De voorgestelde technologie kan worden gebruikt om nep-video’s van mensen te maken, maar bestaande detectie-tools [Demamba, Dormant] kunnen deze nep-video’s detecteren.

‘Om deze risico’s te verminderen, zijn duidelijke ethische regels en verantwoorde gebruiksrichtlijnen noodzakelijk. We zullen de toegang tot onze core-modellen en -codes strikt beperken om misbruik te voorkomen.’

Natuurlijk zijn ethische overwegingen van deze soort handig vanuit een commercieel oogpunt, aangezien ze een rechtvaardiging bieden voor API-only-toegang tot het model, dat vervolgens gemonetariseerd kan worden. ByteDance heeft dit al eerder gedaan in 2025, door de zeer geprezen OmniHuman beschikbaar te stellen voor betaalde credits op de Dreamina-website. Daarom lijkt het waarschijnlijk dat DreamActor, mogelijk een sterkere product, hetzelfde lot zal ondergaan. Wat nog moet worden gezien, is de mate waarin de principes, voor zover ze in het artikel worden uitgelegd, de open source-gemeenschap kunnen helpen.

Het nieuwe artikel heet DreamActor-M1: Holistische, Expressieve en Robuuste Human Image Animatie met Hybride Besturing, en komt van zes Bytedance-onderzoekers.

Methode

Het DreamActor-systeem dat in het artikel wordt voorgesteld, heeft als doel om human animatie te genereren vanuit een referentie-afbeelding en een aangedreven video, met behulp van een Diffusion Transformer (DiT)-framework aangepast voor latent ruimte (blijkbaar een soort Stable Diffusion, hoewel het artikel alleen de landmark-publicatie van 2022 citeert).

In plaats van te vertrouwen op externe modules om referentie-condities te behandelen, combineren de auteurs verschijning en bewegingskenmerken rechtstreeks in de DiT-backend, waardoor interactie mogelijk is over ruimte en tijd via aandacht:

Schema voor het nieuwe systeem: DreamActor codeert pose, faciale beweging en verschijning in afzonderlijke latenten, combineert deze met geruisde video-latenten gegenereerd door een 3D VAE. Deze signalen worden gefuseerd in een Diffusion Transformer met zelf- en cross-aandacht, met gedeelde gewichten over takken. Het model wordt gesuperviseerd door de vergeleken denoised outputs met schone video-latenten. Bron: https://arxiv.org/pdf/2504.01724

Om dit te doen, gebruikt het model een vooraf getrainde 3D variational autoencoder om zowel de invoer-video als de referentie-afbeelding te coderen. Deze latenten worden patchified, samengevoegd en ingevoerd in de DiT, die deze gezamenlijk verwerkt.

Deze architectuur wijkt af van de gebruikelijke praktijk van het koppelen van een secundair netwerk voor referentie-injectie, wat de benadering was voor de invloedrijke Animate Anyone en Animate Anyone 2 projecten.

In plaats daarvan bouwt DreamActor de fusie in het hoofdmodel zelf, waardoor het ontwerp wordt vereenvoudigd en de stroom van informatie tussen verschijning en bewegingssignalen wordt verbeterd. Het model wordt vervolgens getraind met flow matching in plaats van het standaard diffusie-objectief (Flow matching traint diffusie-modellen door rechtstreeks de snelheidsvelden tussen gegevens en ruis te voorspellen, waardoor score-estimatie wordt overgeslagen).

Hybride Bewegingsbesturing

De Hybride Bewegingsbesturing-methode die de neurale renderingen informeert, combineert pose-tokens afgeleid van 3D-lichaamsskeletten en hoofdsferen; impliciete faciale representaties geëxtraheerd door een vooraf getrainde face-encoder; en referentie-verschijningstokens bemonsterd uit de bronafbeelding.

Deze elementen worden geïntegreerd in de Diffusion Transformer met behulp van verschillende aandachtmecanismen, waardoor het systeem globale beweging, faciale expressie en visuele identiteit kan coördineren tijdens het generatieproces.

Voor het eerste hiervan gebruikt DreamActor impliciete faciale representaties om expressie-generatie te sturen, in plaats van faciale landmarks, waardoor fijne controle over faciale dynamiek mogelijk wordt, terwijl identiteit en hoofdpose van expressie worden ontkoppeld.

Om deze representaties te creëren, detecteert en cropt de pipeline eerst het gezichtsgebied in elke frame van de aangedreven video, en past deze aan tot 224×224. De gecropte gezichten worden verwerkt door een face-motion-encoder die vooraf is getraind op de PD-FGC-dataset, die vervolgens wordt geconditioneerd door een MLP-laag.

PD-FGC, gebruikt in DreamActor, genereert een pratend hoofd vanuit een referentie-afbeelding met ontkoppelde controle over lip-sync (van audio), hoofdpose, oogbeweging en expressie (van afzonderlijke video’s), waardoor precieze, onafhankelijke manipulatie van elk mogelijk is. Bron: https://arxiv.org/pdf/2211.14506

Het resultaat is een reeks van faciale bewegingstokens, die worden geïnjecteerd in de Diffusion Transformer via een cross-aandacht-laag.

Hetzelfde kader ondersteunt ook een audio-gestuurde variant, waarin een afzonderlijke encoder wordt getraind die spraakinput rechtstreeks naar faciale bewegingstokens kaart. Dit maakt het mogelijk om gesynchroniseerde faciale animatie te genereren – inclusief lipbewegingen – zonder een aangedreven video.

AUDIO-INHOUD. Klik om af te spelen. Lip-sync afgeleid puur van audio, zonder een aangedreven acteur-referentie. De enige karakterinput is de statische foto die boven rechts zichtbaar is.

Ten tweede introduceert het systeem een 3D-hoofdsfeer-representatie (zie video ingesloten eerder in dit artikel), die faciale dynamiek ontkoppelt van globale hoofdbeweging, waardoor precisie en flexibiliteit tijdens animatie worden verbeterd.

Hoofdsferen worden gegenereerd door 3D-gezichtsparameters – zoals rotatie en camera-pose – uit de aangedreven video te extraheren met behulp van de FaceVerse-trackingmethode.

Schema voor het FaceVerse-project. Bron: https://www.liuyebin.com/faceverse/faceverse.html

Deze parameters worden gebruikt om een gekleurde sfeer te renderen die op de 2D-afbeeldingsvlak wordt geprojecteerd, ruimtelijk uitgelijnd met de aangedreven hoofd. De grootte van de sfeer komt overeen met de referentie-hoofd, en de kleur weerspiegelt de oriëntatie van het hoofd. Deze abstractie vermindert de complexiteit van het leren van 3D-hoofdbeweging, waardoor gestileerde of geëxaggerede hoofdvormen in personages afgeleid van animatie kunnen worden behouden.

Visualisatie van de controle-sfeer die de hoofdoriëntatie beïnvloedt.

Ten slotte gebruikt het systeem 3D-lichaamsskeletten met adaptieve botlengte-normalisatie om volledige lichaamsbeweging te sturen. Lichaam en handparameters worden geschat met behulp van 4DHumans en de hand-georiënteerde HaMeR, die beide werken op het SMPL-X-lichaamsmodel.

SMPL-X past een parametrisch mesh toe op het volledige lichaam in een afbeelding, uitgelijnd met geschatte pose en expressie om pose-gevoelige manipulatie mogelijk te maken met behulp van de mesh als volumetrische gids. Bron: https://arxiv.org/pdf/1904.05866

Vanuit deze uitvoer worden sleutelgewrichten geselecteerd, geprojecteerd in 2D en verbonden in lijn-gebaseerde skeletkaarten. In tegenstelling tot methoden zoals Champ, die volledige lichaamsmeshes renderen, vermijdt deze benadering het opleggen van vooraf gedefinieerde vormprioriteiten, en door uitsluitend te vertrouwen op skeletstructuur, wordt het model aangemoedigd om lichaamsvorm en -verschijning rechtstreeks af te leiden uit de referentie-afbeeldingen, waardoor voorkeur voor vaste lichaamstypen wordt verminderd en generalisatie over een breed scala aan poses en lichaamsbouw wordt verbeterd.

Tijdens de training worden de 3D-lichaamsskeletten samengevoegd met hoofdsferen en doorgegeven aan een pose-encoder, die functies uitvoert die vervolgens worden gecombineerd met geruisde video-latenten om de ruis-tokens te produceren die door de Diffusion Transformer worden gebruikt.

Op het moment van inferentie houdt het systeem rekening met skeletverschillen tussen onderwerpen door botlengtes te normaliseren. Het SeedEdit-voorgebouwde beeldbewerkingsmodel transformeert zowel referentie- als aangedreven afbeeldingen in een standaard canonieke configuratie. RTMPose wordt vervolgens gebruikt om skeletproporties te extraheren, die worden gebruikt om het aangedreven skelet aan te passen aan de anatomie van het referentie-onderwerp.

Overzicht van de inferentie-pipeline. Pseudo-referenties kunnen worden gegenereerd om verschijningssignalen te verrijken, terwijl hybride besturingsignalen – impliciete faciale beweging en expliciete pose van hoofdsferen en lichaamsskeletten – worden geëxtraheerd uit de aangedreven video. Deze worden vervolgens ingevoerd in een DiT-model om geanimeerde output te produceren, met faciale beweging ontkoppeld van lichaamspositie, waardoor audio als besturingsmechanisme kan worden gebruikt.

Verschijning Besturing

Om de verschijningstrouw te verbeteren, met name in verborgen of zelden zichtbare gebieden, vult het systeem de primaire referentie-afbeelding aan met pseudo-referenties die zijn bemonsterd uit de invoer-video.

Klik om af te spelen .. Het systeem voorziet de noodzaak om verborgen gebieden nauwkeurig en consistent te renderen. Dit is zo dichtbij als ik heb gezien, in een project van deze soort, bij een CGI-achtige bitmap-tekstuurbenadering.

Deze extra frames worden geselecteerd op basis van pose-diversiteit met behulp van RTMPose en gefilterd met behulp van CLIP-gebaseerde overeenkomst om ervoor te zorgen dat ze consistent blijven met de identiteit van het onderwerp.

Alle referentieframes (primaire en pseudo) worden gecodeerd door dezelfde visuele encoder en gefuseerd via een zelf-aandachtmecanisme, waardoor het model toegang heeft tot aanvullende verschijningssignalen. Deze configuratie verbetert de dekking van details zoals profielfoto’s of ledemaat-teksturen. Pseudo-referenties worden altijd gebruikt tijdens de training en optioneel tijdens de inferentie.

Training

DreamActor werd getraind in drie fasen om geleidelijk complexiteit toe te voegen en stabiliteit te verbeteren.

In de eerste fase werden alleen 3D-lichaamsskeletten en 3D-hoofdsferen gebruikt als besturingsignalen, met uitsluiting van faciale representaties. Dit stelde het basisvideo-generatiemodel, geïnitialiseerd vanuit MMDiT, in staat om zich aan te passen aan human animatie zonder te worden overweldigd door fijne besturingsmechanismen.

In de tweede fase werden impliciete faciale representaties toegevoegd, maar alle andere parameters bevroren. Alleen de face-motion-encoder en face-aandachtlagen werden getraind op dat moment, waardoor het model in staat was om expressieve details te leren in isolatie.

In de laatste fase werden alle parameters ontdooid voor gezamenlijke optimalisatie over verschijning, pose en faciale dynamiek.

Gegevens en Tests

Voor de testfase wordt het model geïnitialiseerd vanuit een vooraf getraind image-to-video DiT-checkpoint^† en getraind in drie fasen: 20.000 stappen voor elk van de eerste twee fasen en 30.000 stappen voor de derde.

Om generalisatie over verschillende duur en resoluties te verbeteren, werden video-clips willekeurig bemonsterd met lengtes tussen 25 en 121 frames. Deze werden vervolgens herschaald tot 960x640px, waarbij het aspectratio werd behouden.

De training werd uitgevoerd op acht (China-georiënteerde) NVIDIA H20-GPU’s, elk met 96GB VRAM, met behulp van de AdamW-optimizer met een (redelijk hoge) leer tempo van 5e−6.

Op het moment van inferentie bevatte elke video-segment 73 frames. Om consistentie over segmenten te behouden, werd de laatste latente van een segment opnieuw gebruikt als de initiële latente voor het volgende, waardoor de taak als sequentiële image-to-video-generatie wordt gecontextualiseerd.

Classifier-free guidance werd toegepast met een gewicht van 2,5 voor zowel referentie-afbeeldingen als bewegingsbesturingsignalen.

De auteurs construeerden een trainingsdataset (geen bronnen worden vermeld in het artikel) bestaande uit 500 uur video afkomstig uit diverse domeinen, met voorbeelden van (onder andere) dans, sport, film en openbare spreken. De dataset was ontworpen om een breed spectrum van menselijke beweging en expressie te vangen, met een gelijkmatige verdeling tussen full-body en half-body shots.

Om de kwaliteit van de faciale synthese te verbeteren, werd Nersemble geïntegreerd in het datapreparatieproces.

Voorbeelden uit de Nersemble-dataset, gebruikt om de data voor DreamActor aan te vullen. Bron: https://www.youtube.com/watch?v=a-OAWqBzldU

Voor de evaluatie gebruikten de onderzoekers hun dataset ook als benchmark om generalisatie over verschillende scenario’s te beoordelen.

De prestatie van het model werd gemeten met behulp van standaardmetrieken uit eerder werk: Fréchet Inception Distance (FID); Structural Similarity Index (SSIM); Learned Perceptual Image Patch Similarity (LPIPS); en Peak Signal-to-Noise Ratio (PSNR) voor frame-niveau-kwaliteit. Fréchet Video Distance (FVD) werd gebruikt voor het beoordelen van temporele coherentie en algehele video-gelijkenis.

De auteurs voerden experimenten uit op zowel lichaamsanimatie- als portretanimatie-taken, waarbij allemaal één (doel)referentie-afbeelding werd gebruikt.

Voor lichaamsanimatie werd DreamActor-M1 vergeleken met Animate Anyone; Champ; MimicMotion, en DisPose.

Kwantitatieve vergelijkingen met rivaliserende kaders.

Hoewel het PDF een statische afbeelding als visuele vergelijking biedt, kan een van de video’s van de projectsite de verschillen mogelijk duidelijker laten zien:

AUDIO-INHOUD. Klik om af te spelen. Een visuele vergelijking over de challenger-kaders. De aangedreven video is boven links te zien, en de conclusie van de auteurs dat DreamActor de beste resultaten produceert, lijkt redelijk.

Voor portretanimatie-tests werd het model geëvalueerd tegen LivePortrait; X-Portrait; SkyReels-A1; en Act-One.

Kwantitatieve vergelijkingen voor portretanimatie.

De auteurs merken op dat hun methode wint in kwantitatieve tests en beweren dat het ook kwalitatief superieur is.

AUDIO-INHOUD. Klik om af te spelen. Voorbeelden van portretanimatie-vergelijkingen.

Betwistbaar vertoont de derde en laatste van de clips die in de bovenstaande video worden getoond een minder overtuigende lip-sync in vergelijking met een paar van de rivaliserende kaders, hoewel de algemene kwaliteit opmerkelijk hoog is.

Conclusie

Door de noodzaak te anticiperen om texturen te creëren die zijn geïmpliceerd maar niet daadwerkelijk aanwezig zijn in de enkele doelafbeelding die deze re-creatie’s aandrijft, heeft Bytedance een van de grootste uitdagingen aangepakt die de diffusie-gebaseerde video-generatie tegenkomt – consistente, persistente texturen. De volgende logische stap na het perfectioneren van een dergelijke benadering zou zijn om op de een of andere manier een referentie-atlas te creëren van de initiële gegenereerde clip die kan worden toegepast op latere, verschillende generaties, om verschijning te behouden zonder LoRAs.

Hoewel een dergelijke benadering in wezen nog steeds een externe referentie zou zijn, is dit niet anders dan texture-mapping in traditionele CGI-technieken, en de kwaliteit van realisme en geloofwaardigheid is veel hoger dan wat die oude methoden kunnen bereiken.

Dat gezegd hebbende, is het meest indrukwekkende aspect van DreamActor het gecombineerde drieledige besturingssysteem, dat de traditionele kloof tussen faciale en lichaamsgeoriënteerde human synthese op een ingenieuze manier overbrugt.

Het enige dat nog moet worden gezien, is of enkele van deze kernprincipes kunnen worden benut in toegankelijker aanbod; zoals het er nu uitziet, lijkt DreamActor gedoemd om nog een synthese-as-a-service-aanbod te worden, ernstig beperkt door beperkingen op gebruik en door de onpraktische mogelijkheid om uitgebreid te experimenteren met een commerciële architectuur.

* Mijn vervanging van hyperlinks voor de auteurs; inline citaten

^† Zoals eerder vermeld, is het niet duidelijk welke smaak van Stable Diffusion in dit project is gebruikt.

Eerst gepubliceerd op vrijdag 4 april 2025