Andersons vinkel
En betydelig fremskridt i menneske-drevet AI-video

Bemærk: Projektets side for dette arbejde indeholder 33 autoplaying high-res videoer, der i alt udgør en halv gigabyte, hvilket destabiliserede mit system under indlæsning. Af denne grund vil jeg ikke linke direkte til den. Læsere kan finde URL’en i artiklens abstract eller PDF, hvis de ønsker.
En af de primære mål i nuværende video-syntese-forskning er at generere en komplet AI-drevet video-præstation fra et enkelt billede. Denne uge offentliggjorde Bytedance Intelligent Creation en ny artikel, der måske er det mest omfattende system af denne type hidtil, i stand til at producere fuld- og semi-kroppsanimationer, der kombinerer udtryksfulde ansigtsdetaljer med præcis stor-skala-bevægelse, samt opnår forbedret identitets-konsistens – et område, hvor selv ledende kommercielle systemer ofte fejler.
I eksemplet nedenfor ser vi en præstation drevet af en skuespiller (øverst til venstre) og afledt fra et enkelt billede (øverst til højre), der giver en bemærkelsesværdigt fleksibel og dygtig rendering, uden de sædvanlige problemer omkring at skabe store bevægelser eller ‘gætte’ om skjulte områder (dvs. dele af tøj og ansigtsvinkler, der må være underforstået eller opfundet, fordi de ikke er synlige i det eneste kilde-billede):
LYDINDHOLD. Klik for at afspille. En præstation er født af to kilder, herunder lip-sync, som normalt er forbeholdt dedikeret hjælpe-systemer. Dette er en reduceret version fra kilde-siden (se bemærkning i begyndelsen af artiklen – gælder for alle andre indlejrede videoer her).
Selv om vi kan se nogle resterende udfordringer med hensyn til vedvarende identitet i hver klip, er dette det første system, jeg har set, der generelt (omend ikke altid) opretholder ID i en længere periode uden brug af LoRAs:
LYDINDHOLD. Klik for at afspille. Yderligere eksempler fra DreamActor-projektet.
Det nye system, titlen DreamActor, bruger et tre-del-hybrid kontrolsystem, der giver dedikeret opmærksomhed til ansigtsudtryk, hovedrotation og kerne-skelet-design, således at AI-drevne præstationer kan kombineres, hvor hverken ansigt eller krop lider under det andet – en sjælden, muligvis ukendt kapacitet blandt lignende systemer.
Nedenfor ser vi en af disse aspekter, hovedrotation, i aktion. Den farvede bold i hjørnet af hver miniature til højre indikerer en slags virtuel gimbal, der definerer hoved-orientering uafhængigt af ansigtsbevægelse og udtryk, der her er drevet af en skuespillers præstation (nederst til venstre).
Klik for at afspille. Den multicolorede bold visualiseres her og repræsenterer rotationsaksen for hovedet på avatar, mens udtrykket er drevet af en separat modul og informeret af en skuespillers præstation (set her nederst til venstre).
En af projektets mest interessante funktioner, der ikke engang er inkluderet ordentligt i artiklens tests, er dets evne til at aflede lip-sync-bevægelse direkte fra lyd – en kapacitet, der virker usædvanligt godt, selv uden en drivende skuespiller-video.
Forskerne har taget på de bedste indehavere i denne jagt, herunder den meget roste Runway Act-One og LivePortrait, og rapporterer, at DreamActor var i stand til at opnå bedre kvantitative resultater.
Da forskere kan sætte deres egne kriterier, er kvantitative resultater ikke nødvendigvis en empirisk standard; men de tilhørende kvalitative tests synes at støtte forfatternes konklusioner.
Desværre er dette system ikke tiltænkt offentlig udgivelse, og den eneste værdi, som fællesskabet potentielt kan udlede fra arbejdet, er i at muligvis reproducere de metoder, der er beskrevet i artiklen (som blev gjort med bemærkelsesværdig effekt for den lige så lukkede Google Dreambooth i 2022).
Artiklen fastslår*:
‘Menneske-billede-animasjon har mulige sociale risici, som at blive misbrugt til at lave falske videoer. Den foreslåede teknologi kunne blive brugt til at skabe falske videoer af mennesker, men eksisterende detektionsværktøjer [Demamba, Dormant] kan spotte disse falske.
‘For at reducere disse risici er klare etiske regler og ansvarlige brugsvejledninger nødvendige. Vi vil strengt begrænse adgangen til vores kerne-modeller og -koder for at forhindre misbrug.’
Naturligvis er etiske overvejelser af denne art praktiske fra et kommercielt synspunkt, da det giver en begrundelse for API-kun adgang til modellen, som derefter kan blive monetiseret. ByteDance har allerede gjort dette en gang i 2025 ved at gøre den meget roste OmniHuman tilgængelig for betalte kredit på Dreamina-webstedet. Derfor synes det sandsynligt, at DreamActor er et endnu stærkere produkt, og dette synes at være den sandsynlige udkomme. Hvad der endnu skal ses, er, i hvilken udstrækning dets principper, så vidt de er beskrevet i artiklen, kan hjælpe det åbne kilde-samfund.
Den nye artikel er titlen DreamActor-M1: Holistisk, udtryksfuld og robust menneske-billede-animasjon med hybrid vejledning, og kommer fra seks Bytedance-forskere.
Metode
DreamActor-systemet, der er foreslået i artiklen, sigter mod at generere menneske-animasjon fra et reference-billede og en drivende video, ved hjælp af en Diffusion Transformer (DiT) ramme, tilpasset til latent rum (apparentligt en slags Stable Diffusion, selv om artiklen kun citerer 2022-landmark udgivelsespublikationen).
I stedet for at afhænge af eksterne moduler til at håndtere reference-betingelse, fusionerer forfatterne udseende og bevægelsesfunktioner direkte inden for DiT-baggrunden, hvilket tillader interaktion over rum og tid gennem opmærksomhed:

Schema for det nye system: DreamActor encoderer pose, ansigtsbevægelse og udseende i separate latenter, kombinerer dem med støjede video-latenter produceret af en 3D VAE. Disse signaler er fusioneret inden for en Diffusion Transformer ved hjælp af selv- og kryds-opmærksomhed, med fælles vægte på tværs af grene. Modellen er overvåget ved at sammenligne afrensede udgang med rene video-latenter. Kilde: https://arxiv.org/pdf/2504.01724
For at gøre dette, bruger modellen en forudtrænet 3D variational autoencoder til at encoder både input-videoen og reference-billedet. Disse latenter er patchified, konkateneret og indført i DiT, som behandler dem fælles.
Denne arkitektur afviger fra den almindelige praksis med at tilføje en sekundær netværk til reference-injektion, som var tilgangen for de indflydelsesrige Animate Anyone og Animate Anyone 2 projekter.
I stedet bygger DreamActor fusionen ind i hovedmodellen selv, hvilket forenkler designet og forbedrer informationsflowet mellem udseende og bevægelses-kilder. Modellen er derefter trænet ved hjælp af flow matching i stedet for den standard diffusion-objektive (Flow matching træner diffusion-modeller ved direkte at forudsige hastighedsfelter mellem data og støj, og springer score-estimation over).
Hybrid Bevægelses-Vejledning
Hybrid Bevægelses-Vejlednings-metoden, der informerer de neurale renderinger, kombinerer pose-tokens afledt fra 3D-kropps-skeletter og hoved-sfærer; implicit ansigts-repræsentationer ekstraheret af en forudtrænet ansigts-encoder; og reference-udseende-tokens samplet fra kilde-billedet.
Disse elementer er integreret inden for Diffusion Transformer ved hjælp af distinkte opmærksomheds-mekanismer, hvilket tillader systemet at koordinere global bevægelse, ansigtsudtryk og visuel identitet under genereringsprocessen.
For det første, i stedet for at afhænge af ansigts-landemærker, bruger DreamActor implicit ansigts-repræsentationer til at guide udtryks-generering, hvilket åbenbart tillader en mere præcis kontrol over ansigts-dynamik, samtidig med at identitet og hoved-rotation adskilles fra udtryk.
For at oprette disse repræsentationer, detekterer og beskærer pipeline først ansigts-området i hver ramme af drivende video, og ændrer størrelsen til 224×224. De beskårne ansigter er behandlet af en ansigts-bevægelses-encoder, der er forudtrænet på PD-FGC dataset, og derefter betinget af en MLP lag.

PD-FGC, anvendt i DreamActor, genererer en talende hoved fra et reference-billede med adskilt kontrol over lip-sync (fra lyd), hoved-rotation, øje-bevægelse og udtryk (fra separate videoer), hvilket tillader præcis, uafhængig manipulation af hver. Kilde: https://arxiv.org/pdf/2211.14506
Resultatet er en sekvens af ansigts-bevægelses-tokens, der indføres i Diffusion Transformer gennem en kryds-opmærksomheds lag.
Den samme ramme understøtter også en lyd-drevet variant, hvor en separat encoder er trænet til at kortlægge tale-input direkte til ansigts-bevægelses-tokens. Dette gør det muligt at generere synkroniseret ansigts-animasjon – herunder læbe-bevægelser – uden en drivende video.
LYDINDHOLD. Klik for at afspille. Lip-sync afledt rent fra lyd, uden en drivende skuespiller-reference. Den eneste karakter-input er det statiske billede set øverst til højre.
For det andet, for at kontrollere hoved-rotation uafhængigt af ansigts-udtryk, introducerer systemet en 3D hoved-sfære-repræsentation (se video indlejret tidligere i denne artikel), der adskiller ansigts-dynamik fra global hoved-bevægelse, og forbedrer præcision og fleksibilitet under animation.
Hoved-sfærer er genereret ved at ekstrahere 3D ansigts-parametre – såsom rotation og kamera-pose – fra drivende video ved hjælp af FaceVerse sporing-metoden.

Schema for FaceVerse-projektet. Kilde: https://www.liuyebin.com/faceverse/faceverse.html
Disse parametre er brugt til at renderere en farvet sfære projiceret på 2D-billed-planen, spatialt aligneret med drivende hoved. Sfærens størrelse matcher reference-hoved, og dens farve reflekterer hovedets orientering. Denne abstraktion reducerer kompleksiteten af at lære 3D hoved-bevægelse, og hjælper med at bevare stiliserede eller forstørrede hoved-former i karakterer tegnet fra animation.

Visualisering af kontrol-sfæren, der påvirker hoved-orientering.
For det tredje, for at guide fuld-kropps-bevægelse, bruger systemet 3D-kropps-skeletter med adaptiv ben-længde-normalisering. Kropps- og hånd-parametre er estimeret ved hjælp af 4DHumans og hånd-fokuseret HaMeR, begge opererer på SMPL-X krop-modellen.

SMPL-X anvender en parametrisk mesh over hele kroppen i et billede, aligneret med estimeret pose og udtryk for at muliggøre pose-bevidst manipulation ved hjælp af mesh’en som en volumetrisk guide. Kilde: https://arxiv.org/pdf/1904.05866
Fra disse udgangspunkter vælges nøgle-led ud, projiceres ind i 2D og forbinder til linje-baserede skelet-kort. I modsætning til metoder som Champ, der render fuld-kropps-mesh, undgår denne tilgang at påføre forudbestemte form-forudsætninger, og ved at afhænge udelukkende af skelet-struktur, opmuntres modellen til at slutte krop-form og udseende direkte fra reference-billederne, reducerer bias mod faste krop-typer og forbedrer generalisering på tværs af en række stillinger og bygninger.
Under træning kombineres 3D-kropps-skeletter med hoved-sfærer og passerer gennem en pose-encoder, der udgang funktioner, der derefter kombineres med støjede video-latenter for at producere støj-tokens brugt af Diffusion Transformer.
Ved slutning af systemet tager hensyn til skelet-forskelle mellem subjekter ved at normalisere ben-længder. SeedEdit forudtrænet billed-redigering-model transformerer både reference- og drivende billeder til en standard kanonisk konfiguration. RTMPose bruges derefter til at ekstrahere skelet-proportioner, der bruges til at justere drivende skelet for at matche anatomin af reference-subjektet.

Oversigt over slutnings-pipeline. Pseudo-references kan genereres for at berige udseende-kilder, mens hybrid kontrol-signaler – implicit ansigts-bevægelse og ekspllicit pose fra hoved-sfærer og krop-skeletter – ekstraheres fra drivende video. Disse indføres derefter i en DiT-model for at producere animeret udgang, med ansigts-bevægelse adskilt fra krop-pose, hvilket tillader brug af lyd som driver.
Udseende-Vejledning
For at forbedre udseende-trofasthed, især i skjulte eller sjældent synlige områder, supplerer systemet den primære reference-billede med pseudo-references samplet fra input-videoen.
Klik for at afspille .. Systemet forudser behovet for at rendre skjulte områder nøjagtigt og konsekvent. Dette er omkring så tæt, som jeg har set, i et projekt af denne type, på en CGI-stil bitmap-tekstur-tilgang.
Disse yderligere rammer er valgt for stillings-mangfoldighed ved hjælp af RTMPose, og filtreret ved hjælp af CLIP-baseret lighed for at sikre, at de forbliver konsistente med subjektets identitet.
Alle reference-rammer (primære og pseudo) er kodet af samme visuel encoder og fusioneret gennem en selv-opmærksomheds-mekanisme, hvilket tillader modellen at få adgang til komplementære udseende-kilder. Denne opsætning forbedrer dækning af detaljer såsom profil-views eller lem-texturer. Pseudo-references bruges altid under træning og valgfrit under slutning.
Træning
DreamActor blev trænet i tre faser for at gradvist introducere kompleksitet og forbedre stabilitet.
I den første fase, blev kun 3D-kropps-skeletter og 3D-hoved-sfærer brugt som kontrol-signaler, og ansigts-repræsentationer udeladt. Dette tillod grundlæggende video-genererings-modellen, initialiseret fra MMDiT, at tilpasse sig menneske-animasjon uden at blive overvældet af fin-grænse-kontroller.
I den anden fase, blev implicit ansigts-repræsentationer tilføjet, men alle andre parametre frosset. Kun ansigts-bevægelses-encoder og ansigts-opmærksomheds-lag blev trænet på dette tidspunkt, hvilket tillod modellen at lære udtryksfuld detail i isolation.
I den tredje og sidste fase, blev alle parametre af-frosset for fælles optimering på tværs af udseende, pose og ansigts-dynamik.
Data og Tests
Til test-fasen, initialiseres modellen fra en forudtrænet image-to-video DiT checkpoint† og trænes i tre faser: 20.000 skridt for hver af de to første faser og 30.000 skridt for den tredje.
For at forbedre generalisering på tværs af forskellige varigheder og opløsninger, blev video-klip tilfældigt samplet med længder mellem 25 og 121 rammer. Disse blev derefter ændret i størrelse til 960x640px, mens aspekt-forhold blev bevaret.
Træning blev udført på otte (Kina-fokuseret) NVIDIA H20 GPU’er, hver med 96GB VRAM, ved hjælp af AdamW optimizer med en (tolerabelt høj) læringsrate på 5e−6.
Ved slutning af systemet, indeholdt hver video-segment 73 rammer. For at opretholde konsistens på tværs af segmenter, blev den sidste latent fra et segment genbrugt som den første latent for det næste, hvilket kontekstualiserer opgaven som sekventiel image-to-video-generering.
Klassifikator-fri vejledning blev anvendt med en vægt på 2,5 for både reference-billeder og bevægelses-kontrol-signaler.
Forfatterne konstruerede en trænings-dataset (ingen kilder er nævnt i artiklen) bestående af 500 timer video fra forskellige domæner, med eksempler på (bl.a.) dans, sport, film og offentlige taler. Datasettet var designet til at fange en bred spektrum af menneske-bevægelse og udtryk, med en jævn fordeling mellem fuld-kropps- og halv-kropps-shots.
For at forbedre ansigts-syntese-kvalitet, blev Nersemble inkorporeret i data-forberedelses-processen.

Eksempler fra Nersemble-dataset, brugt til at supplere data for DreamActor. Kilde: https://www.youtube.com/watch?v=a-OAWqBzldU
Til evaluering, brugte forskerne deres dataset også som en benchmark til at vurdere generalisering på tværs af forskellige scenarier.
Modellens præstation blev målt ved hjælp af standard-målinger fra tidligere arbejde: Fréchet Inception Distance (FID); Structural Similarity Index (SSIM); Lærte Perceptuelle Billede-Patch-Lighed (LPIPS); og Peak Signal-til-Støj-Forhold (PSNR) til ramme-niveau-kvalitet. Fréchet Video Distance (FVD) blev brugt til at vurdere tidsmæssig kohærens og samlet video-trofasthed.
Forfatterne udførte eksperimenter på både krop-animasjon og portræt-animasjon-opgaver, alle med en enkelt (mål) reference-billede.
Til krop-animasjon, blev DreamActor-M1 sammenlignet med Animate Anyone; Champ; MimicMotion; og DisPose.

Kvantitative sammenligninger mod rivaliserende rammer.
Selv om PDF’en giver en statisk billed-sammenligning, kan en af videoerne fra projektets side måske højligere fremhæve forskellene:
LYDINDHOLD. Klik for at afspille. En visuel sammenligning på tværs af udfordrer-rammerne. Drivende video ses øverst til venstre, og forfatternes konklusion om, at DreamActor producerer de bedste resultater, synes rimelig.
Til portræt-animasjon-tests, blev modellen evaluering mod LivePortrait; X-Portrait; SkyReels-A1; og Act-One.

Kvantitative sammenligninger for portræt-animasjon.
Forfatterne bemærker, at deres metode vinder i kvantitative tests, og hævder, at den også er overlegen kvalitativt.
LYDINDHOLD. Klik for at afspille. Eksempler på portræt-animasjon-sammenligninger.
Argumenterbar er det tredje og sidste af klipene vist i videoen ovenfor, at den viser en mindre overbevisende lip-sync sammenlignet med et par af de rivaliserende rammer, selv om den generelle kvalitet er bemærkelsesværdigt høj.
Konklusion
I forventning om, at teksturer, der er antydet, men ikke faktisk til stede i det eneste mål-billede, der driver disse genskabelser, har Bytedance adresse en af de største udfordringer, der står over for diffusion-baseret video-generering – konsekvente, vedvarende teksturer. Det næste logiske skridt efter at perfektionere en sådan tilgang ville være at oprette en reference-atlas fra den første genererede klip, der kunne anvendes på efterfølgende, forskellige generationer, for at opretholde udseende uden LoRAs.
Selv om en sådan tilgang ville være en ekstern reference, er det ikke anderledes end tekstur-mapping i traditionelle CGI-teknikker, og kvaliteten af realisme og plausibilitet er langt højere end, hvad disse ældre metoder kan opnå.
Det sagt, er det mest imponerende aspekt af DreamActor den kombinerede tre-delte vejledningssystem, der brobygger den traditionelle kløft mellem ansigt-fokuseret og krop-fokuseret menneske-syntese på en genial måde.
Det eneste, der endnu skal ses, er, om nogle af disse kerne-principper kan udnyttes i mere tilgængelige tilbud; som det står, synes DreamActor at være bestemt til at blive endnu et syntese-som-en-tjeneste-tilbud, alvorligt begrænset af begrænsninger på brug og af ulemperne ved at eksperimentere omfattende med en kommerciel arkitektur.
* Min substitution af hyperlinks for forfatterne; inline-citationer
† Som nævnt tidligere, er det ikke klart, hvilken flavor af Stable Diffusion, der blev brugt i dette projekt.
Først publiceret fredag, 4. april 2025












