Andersons vinkel

En merkbar fremgang i menneske-drevet AI-video

Published April 4, 2025

Updated April 3, 2026

Martin Anderson

Examples from the DreamActor project page.

Merk: Prosjektsiden for denne arbeid inkluderer 33 autoplay-lydhøye videoer som totalt utgjør en halv gigabyte, som destabiliserte systemet mitt ved lasting. Av denne grunn vil jeg ikke lenke direkte til det. Leserne kan finne URL-en i papirets abstrakt eller PDF hvis de ønsker.

En av de primære målene i nåværende video-syntese-forskning er å generere en fullstendig AI-drevet video-prestasjon fra ett enkelt bilde. Denne uken kom et nytt papir fra Bytedance Intelligent Creation som muligens er det mest omfattende systemet av denne typen så langt, i stand til å produsere full- og semi-kropps-animasjoner som kombinerer uttrykksfulle ansiktsdetaljer med nøyaktig stor-skala-bevegelse, samtidig som det oppnår forbedret identitets-konsistens – et område der selv ledende kommersielle systemer ofte svikter.

I eksempelet under ser vi en prestasjon drevet av en skuespiller (øverst til venstre) og avledet fra ett enkelt bilde (øverst til høyre), som gir en merkelig fleksibel og dyktig gjengivelse, uten de vanlige problemer rundt å lage store bevegelser eller ‘gjette’ om skjulte områder (dvs. deler av klær og ansiktsvinkler som må innledes eller oppfinnes fordi de ikke er synlige i det eneste kilde-bildet):

LYDINNHOLD. Klikk for å spille. En prestasjon blir født fra to kilder, inkludert lip-sync, som vanligvis er forbeholdt dedikerte hjelpe-systemer. Dette er en redusert versjon fra kilde-siden (se merknad i begynnelsen av artikkelen – gjelder for alle andre innebygde videoer her).

Selv om vi kan se noen gjenværende utfordringer med å vedlikeholde identitet i hver klipp når det går frem, er dette det første systemet jeg har sett som utmerker seg generelt (om enn ikke alltid) i å vedlikeholde ID over en forlenget periode uten å bruke LoRAs:

LYDINNHOLD. Klikk for å spille. Flere eksempler fra DreamActor-prosjektet.

Det nye systemet, tittelen DreamActor, bruker et tredelt hybrid-styringssystem som gir dedikert oppmerksomhet til ansikts-uttrykk, hode-rotasjon og kjerne-skelett-design, og dermed akkommoderer AI-drevne prestasjoner hvor hverken ansikt eller kropp-aspekt lider under fordelene til den andre – en sjelden, muligens ukjent evne blant lignende systemer.

Nedenfor ser vi en av disse aspektene, hode-rotasjon, i aksjon. Den fargede ballen i hjørnet av hver miniatyrbilde mot høyre indikerer en slags virtuell gimbal som definerer hode-orientering uavhengig av ansikts-bevegelse og uttrykk, som her drives av en skuespiller (nederst til venstre).

Klikk for å spille. Den fargede ballen visualisert her representerer rotasjons-aksen til hode av avatar, mens uttrykket er drevet av en separat modul og informert av en skuespillers prestasjon (ses her nederst til venstre).

En av prosjektets mest interessante funksjoner, som ikke engang er inkludert ordentlig i papirets tester, er dens evne til å avlede lip-sync-bevegelse direkte fra lyd – en funksjon som fungerer usedvanlig godt selv uten en drivende skuespiller-video.

Forskerne har tatt på seg de beste etablerte aktørene i denne jakten, inkludert den meget lovet Runway Act-One og LivePortrait, og rapporterer at DreamActor var i stand til å oppnå bedre kvantitative resultater.

Siden forskerne kan sette sine egne kriterier, er kvantitative resultater ikke nødvendigvis en empirisk standard; men de tilhørende kvalitative testene ser ut til å støtte forfatternes konklusjoner.

Desverre er dette systemet ikke ment for offentlig utgivelse, og den eneste verdien fellesskapet potensielt kan trekke ut av arbeidet er i å potensielt gjenskape metodene som er beskrevet i papiret (som ble gjort med merkbar effekt for den likevel stengte Google Dreambooth i 2022).

Papiret sier*:

‘Menneske-bilde-animasjon har mulige sosiale risikoer, som å bli misbrukt til å lage falske videoer. Den foreslåtte teknologien kunne bli brukt til å lage falske videoer av mennesker, men eksisterende detekterings-verktøy [Demamba, Dormant] kan spore disse falskhetene.

‘For å redusere disse risikoene, er det nødvendig med klare etiske regler og ansvarlige bruks-veiledninger. Vi vil strengt begrense tilgangen til våre kjerne-modeller og -koder for å forhindre misbruk.’

Naturligvis er etiske overveielser av denne typen praktiske fra et kommersielt ståsted, siden det gir en begrunnelse for API-kun-tilgang til modellen, som kan bli monalisert. ByteDance har allerede gjort dette en gang i 2025, ved å gjøre den meget lovet OmniHuman tilgjengelig for betalte kreditter på Dreamina-nettstedet. Derfor, siden DreamActor muligens er et enda sterkere produkt, ser dette ut til å være det sannsynlige resultatet. Hva som gjenstår å se er om dens prinsipper, så langt de er forklart i papiret, kan hjelpe det åpne kilde-samfunnet.

Det nye papiret er tittelen DreamActor-M1: Holistisk, Uttrykksfull og Robust Menneske-Bilde-Animasjon med Hybrid Veiledning, og kommer fra seks Bytedance-forskere.

Metode

DreamActor-systemet foreslått i papiret har som mål å generere menneske-animasjon fra et referanse-bilde og en drivende video, ved å bruke en Diffusion Transformer (DiT) ramme som er tilpasset for latent-rom (apparatlig en smak av Stable Diffusion, selv om papiret bare nevner 2022-landmark-utgivelsen).

I stedet for å stole på eksterne moduler for å håndtere referanse-betingelser, slår forfatterne sammen utseende- og bevegelses-egenskaper direkte inn i DiT-bakgrunnen, og tillater samspill over rom og tid gjennom oppmerksomhet:

Schema for det nye systemet: DreamActor koder pose, ansikts-bevegelse og utseende inn i separate latenter, kombinert med støy-forstyrrede video-latenter produsert av en 3D VAE. Disse signalene fusjoneres innenfor en Diffusion Transformer ved å bruke selv- og kryss-oppmerksomhet, med delt vekt over grener. Modellen er overvåket ved å sammenligne av-støy-forstyrrede utdata med rene video-latenter. Kilde: https://arxiv.org/pdf/2504.01724

For å gjøre dette, bruker modellen en forhånds-trent 3D variational autoencoder for å koding både inndata-video og referanse-bildet. Disse latentene er patchified, konkatener og matet inn i DiT, som prosesserer dem felles.

Denne arkitekturen avviker fra vanlig praksis å feste en sekundær nettverk for referanse-injeksjon, som var tilnærmingen for de innflytelsesrike Animate Anyone og Animate Anyone 2 prosjektene.

I stedet bygger DreamActor fusjonen inn i hoved-modellen selv, forenkler designet og forbedrer informasjonsflyten mellom utseende- og bevegelses-kilder. Modellen er deretter trenet ved å bruke flow-matching i stedet for standard diffusjons-objektet (Flow-matching trener diffusjons-modeller ved å direkte forutsi hastighetsfelt mellom data og støy, og hopper over score-estimasjon).

Hybrid Bevegelses-Veiledning

Hybrid Bevegelses-Veilednings-metoden som informerer de neurale gjengivelser kombinerer pose-tokens avledet fra 3D kropps-skeletter og hode-sfærer; implisitte ansikts-representasjoner ekstrahert av en forhånds-trent ansikts-encoder; og referanse-utseende-tokens samplet fra kilde-bildet.

Disse elementene integreres innenfor Diffusion Transformer ved å bruke distinkte oppmerksomhets-mekanismer, og tillater systemet å koordinere global bevegelse, ansikts-uttrykk og visuell identitet gjennom genererings-prosessen.

For den første av disse, i stedet for å stole på ansikts-landemerker, bruker DreamActor implisitte ansikts-representasjoner for å guide uttrykks-generering, og åpenbart muliggjør finere kontroll over ansikts-dynamikk samtidig som den skiller identitet og hode-pose fra uttrykk.

For å lage disse representasjonene, prosesserer pipeline først og kroppen ansikts-regionen i hver ramme av drivende video, og endrer størrelsen til 224×224. De kroppede ansiktene prosesseres av en ansikts-bevegelses-encoder forhånds-trent på PD-FGC datasettet, som deretter betinget av en MLP lag.

PD-FGC, brukt i DreamActor, genererer en snakkende hode fra et referanse-bilde med skilt uttrykk for lip-sync (fra lyd), hode-pose, øye-bevegelse og uttrykk (fra separate videoer), og tillater nøyaktig, uavhengig manipulering av hver. Kilde: https://arxiv.org/pdf/2211.14506

Resultatet er en sekvens av ansikts-bevegelses-tokens, som injiseres inn i Diffusion Transformer gjennom en kryss-oppmerksomhets lag.

Samme ramme støtter også en lyd-drevet variant, hvor en separat encoder er trenet som kart legger lyd-inndata direkte til ansikts-bevegelses-tokens. Dette gjør det mulig å generere synkronisert ansikts-animasjon – inkludert leppe-bevegelser – uten en drivende video.

LYDINNHOLD. Klikk for å spille. Lip-sync avledet ren fra lyd, uten en drivende skuespiller-referanse. Den eneste karakter-inndata er det statiske bildet øverst til høyre.

For det andre, for å kontrollere hode-pose uavhengig av ansikts-uttrykk, innfører systemet en 3D hode-sfære-representasjon (se video innlemmet tidligere i denne artikkelen), som frigjør ansikts-dynamikk fra global hode-bevegelse, og forbedrer nøyaktighet og fleksibilitet under animasjon.

Hode-sfærer genereres ved å trekke ut 3D ansikts-parametre – som rotasjon og kamera-pose – fra drivende video ved å bruke FaceVerse sporing-metoden.

Schema for FaceVerse-prosjektet. Kilde: https://www.liuyebin.com/faceverse/faceverse.html

Disse parameterne brukes til å rendre en fargede sfære projisert på 2D-bildet, romlig justert med drivende hode. Sfærens størrelse matcher referanse-hodet, og fargen reflekterer hodets orientering. Denne abstraksjonen reduserer kompleksiteten ved å lære 3D hode-bevegelse, og hjelper til å bevare stiliserte eller forsterkede hode-former i figurer tegnet fra animasjon.

Visualisering av kontroll-sfæren som påvirker hode-orientering.

Til slutt, for å guide full-kropps-bevegelse, bruker systemet 3D kropps-skeletter med adaptiv bein-lengde-normalisering. Kropps- og hånd-parametre estimeres ved å bruke 4DHumans og hånd-fokusert HaMeR, begge opererer på SMPL-X kropps-modellen.

SMPL-X anvender en parametrisk mesh over hele menneske-kroppen i et bilde, justert med estimert pose og uttrykk for å muliggjøre pose-bevisst manipulering ved å bruke mesh som en volumetrisk guide. Kilde: https://arxiv.org/pdf/1904.05866

Fra disse utdata, velges nøkkel-ledd ut, projiseres inn i 2D, og kobles inn i linje-basert skelett-kart. I motsetning til metoder som Champ, som rendre full-kropps-mesh, unngår denne tilnærmingen å påføre forhåndsbestemte form-priorer, og ved å stole kun på skelett-struktur, oppmuntres modellen til å innføre kropps-form og utseende direkte fra referanse-bildene, reduserer forutinntak mot faste kropps-typer, og forbedrer generalisering over et spekter av poser og bygninger.

Under trening, kobles 3D kropps-skeletter med hode-sfærer og passerer gjennom en pose-encoder, som utsteder egenskaper som deretter kombineres med støy-forstyrrede video-latenter for å produsere støy-tokens brukt av Diffusion Transformer.

Ved inferens, tar systemet hensyn til skelett-forskjeller mellom subjekter ved å normalisere bein-lengder. SeedEdit forhånds-trent bilde-redigeringsmodell transformerer både referanse- og drivende bilder inn i en standard kanonisk konfigurasjon. RTMPose brukes deretter til å trekke ut skelett-proportioner, som brukes til å justere drivende skelett for å matche anatomien til referanse-subjektet.

Oversikt over inferens-pipeline. Pseudo-referanser kan genereres for å berike utseende-koder, mens hybrid kontroll-signaler – implisitt ansikts-bevegelse og eksplisitt pose fra hode-sfærer og kropps-skeletter – trekkes ut fra drivende video. Disse signalene matet inn i en DiT-modell for å produsere animert utdata, med ansikts-bevegelse frigjort fra kropps-pose, og tillater å bruke lyd som en driver.

Utseende-Veiledning

For å forbedre utseende-trofasthet, spesielt i skjulte eller sjeldent synlige områder, supplerer systemet primær-referanse-bildet med pseudo-referanser samplet fra inndata-videoen.

Klikk for å spille. Systemet forutser behovet for å rendre skjulte regioner nøyaktig og konsistent. Dette er omtrent like nært som jeg har sett, i et prosjekt av denne typen, til en CGI-stil bitmap-tekstur-tilnærming.

Disse ekstra rammer velges for pose-mangfold ved å bruke RTMPose, og filtreres ved å bruke CLIP-basert likhet for å sikre at de forblir konsistente med subjektets identitet.

Alle referanse-rammer (primær og pseudo) kodes av samme visuelt encoder og fusjoneres gjennom en selv-oppmerksomhets-mekanisme, som tillater modellen å få tilgang til komplementære utseende-koder. Denne oppsettet forbedrer dekning av detaljer som profil-utsikt eller lem-teksturer. Pseudo-referanser brukes alltid under trening og valgfritt under inferens.

Trening

DreamActor ble trenet i tre stadier for å gradvis introdusere kompleksitet og forbedre stabilitet.

I det første stadiet, ble bare 3D kropps-skeletter og 3D hode-sfærer brukt som kontroll-signaler, og ansikts-representasjoner ble ekskludert. Dette tillot den grunnleggende video-genererings-modellen, initialisert fra MMDiT, å tilpasse seg menneske-animasjon uten å bli overveldet av fin-grå kontroller.

I det andre stadiet, ble implisitte ansikts-representasjoner lagt til, men alle andre parametre frosset. Bare ansikts-bevegelses-encoder og ansikts-oppmerksomhets-lag ble trenet på dette tidspunktet, og tillot modellen å lære uttrykksfulle detaljer i isolasjon.

I det siste stadiet, ble alle parametre av-frosset for felles-optimalisering over utseende, pose og ansikts-dynamikk.

Data og Tester

For test-fasen, initialiseres modellen fra en forhånds-trent bilde-til-video DiT- checkpoint^† og trenes i tre stadier: 20 000 skritt for hver av de to første stadiene og 30 000 skritt for det tredje.

For å forbedre generalisering over forskjellige varighet og oppløsning, ble video-klipp tilfeldig samplet med lengder mellom 25 og 121 rammene. Disse ble deretter endret til 960x640px, mens de beholdt aspekt-forhold.

Trening ble utført på åtte (Kina-fokusert) NVIDIA H20 GPU-er, hver med 96GB VRAM, ved å bruke AdamW optimizer med en (tålelig høy) lærings-rate på 5e−6.

Ved inferens, inneholdt hver video-segment 73 rammene. For å vedlikeholde konsistens over segmenter, ble den siste latent fra ett segment gjenbrukt som den initielle latent for det neste, som kontekstualiserer oppgaven som sekvensiell bilde-til-video-generering.

Klassifikator-fri veiledning ble brukt med en vekt på 2,5 for både referanse-bilder og bevegelses-kontroll-signaler.

Forfatterne konstruerte en trening-datasett (ingen kilder er nevnt i papiret) bestående av 500 timer video fra forskjellige domener, med eksempler på (blant andre) dans, idrett, film og offentlige taler. Datasettet var designet for å fange en bred spekter av menneske-bevegelse og uttrykk, med en jevn fordeling mellom full-kropps- og halv-kropps-utsikt.

For å forbedre ansikts-syntese-kvalitet, ble Nersemble inkorporert i data-forberedelses-prosessen.

Eksempler fra Nersemble-datasettet, brukt til å berike data for DreamActor. Kilde: https://www.youtube.com/watch?v=a-OAWqBzldU

For evaluering, brukte forskerne deres datasett også som en benchmark for å vurdere generalisering over forskjellige scenarioer.

Modellens ytelse ble målt ved å bruke standard-mål fra tidligere arbeid: Fréchet Inception Distance (FID); Strukturert Likhet-Indeks (SSIM); Lært Perceptuell Bilde-Patch-Likhet (LPIPS); og Peak Signal-til-Støy-Forhold (PSNR) for ramme-nivå-kvalitet. Fréchet Video Distance (FVD) ble brukt for å vurdere tidsmessig kohesjon og generell video-trofasthet.

Forfatterne utførte eksperimenter på både kropps-animasjon og portrett-animasjon-oppdrag, alle med en enkelt (mål) referanse-bilde.

For kropps-animasjon, ble DreamActor-M1 sammenlignet med Animate Anyone; Champ; MimicMotion, og DisPose.

Kvantitative sammenligninger mot rivaliserende rammer.

Selv om PDF-en gir en statisk bilde som en visuell sammenligning, kan en av videoene fra prosjektsiden muligens høydepunkter forskjellene mer tydelig:

LYDINNHOLD. Klikk for å spille. En visuell sammenligning over utfordrer-rammene. Drivende videoen ses øverst til venstre, og forfatternes konklusjon om at DreamActor produserer de beste resultater, ser ut til å være rimelig.

For portrett-animasjon-tester, ble modellen evaluert mot LivePortrait; X-Portrait; SkyReels-A1; og Act-One.

Kvantitative sammenligninger for portrett-animasjon.

Forfatterne påpeker at deres metode vinner ut i kvantitative tester, og hevder at den også er overlegen kvalitativt.

LYDINNHOLD. Klikk for å spille. Eksempler på portrett-animasjon-sammenligninger.

Tvilagt er det tredje og siste av klippene vist i videoen ovenfor utstiller en mindre overbevisende lip-sync sammenlignet med noen av de rivaliserende rammene, selv om den generelle kvaliteten er merkelig høy.

Konklusjon

I forventning om å rendre teksturer som er antydet, men ikke faktisk til stede i det eneste mål-bildet som driver disse rekonstruksjonene, har Bytedance adressert en av de største utfordringene som møter diffusjons-basert video-generering – konsistent, varig tekstur. Det neste logiske skrittet etter å perfeksjonere en slik tilnærming ville være å noen hvordan å lage en referanse-atlas fra den initielle genererte klippet som kunne bli brukt til påfølgende, forskjellige genereringer, for å vedlikeholde utseende uten LoRAs.

Selv om en slik tilnærming ville i virkeligheten være en ekstern referanse, er dette ikke forskjellig fra tekstur-mapping i tradisjonelle CGI-teknikker, og kvaliteten på realisme og trofasthet er langt høyere enn hva disse eldre metodene kan oppnå.

Det som er mest imponerende med DreamActor, er det kombinerte tre-delt veiledningssystemet, som broer den tradisjonelle skillelinjen mellom ansikts-fokusert og kropps-fokusert menneske-syntese på en genial måte.

Det eneste som gjenstår å se, er om noen av disse grunnleggende prinsippene kan bli utnyttet i mer tilgjengelige tilbud; som det står nå, ser DreamActor ut til å bli et annet syntese-som-en-tjeneste-tilbud, alvorlig begrenset av restriksjoner på bruk, og av umuligheten av å eksperimentere omfattende med en kommersiell arkitektur.

* Mitt erstatning av hyperlenker for forfatterne; inline-citater

^†Som nevnt tidligere, er det ikke klart hvilken smak av Stable Diffusion som ble brukt i dette prosjektet.

Først publisert fredag, 4. april 2025