Kunstig intelligens

Et nytt system for temporalt konsistent Stable Diffusion video karakterer

Published September 25, 2024

Updated April 27, 2026

Martin Anderson

A capture from the project page of MIMO (https://menyifang.github.io/projects/MIMO/index.html), depicting a motion-driven wolf creature.

En ny initiativ fra Alibaba Group tilbyr ett av de beste metodene jeg har sett for å generere fullkropps menneskelige avatarer fra en Stable Diffusion-basert grunnmodell.

Tittelen MIMO (MIMicking med Object Interactions), systemet bruker en rekke populære teknologier og moduler, inkludert CGI-baserte menneskelige modeller og AnimateDiff, for å aktivere temporalt konsistent karaktererstatning i videoer – eller å drive en karakter med en brukerdefinert skjelettpose.

Her ser vi karakterer interpolert fra en enkelt bilde kilde, og drevet av en forhåndsdefinert bevegelse:

[Klikk video nedenfor for å spille]

Fra enkelt kildebilde, tre diverse karakterer drevet av en 3D pose sekvens (langt til venstre) ved hjelp av MIMO-systemet. Se prosjektets nettside og den tilhørende YouTube-videoen (innlemmet i slutten av denne artikkelen) for flere eksempler og bedre oppløsning. Kilde: https://menyifang.github.io/projects/MIMO/index.html

Genererte karakterer, som også kan hentes fra rammer i videoer og på andre måter, kan integreres i virkelige filmer.

MIMO tilbyr et nytt system som genererer tre diskrete kodninger, hver for karakter, scene og okklusjon (dvs. matting, når et objekt eller person passerer foran karakteren som avbildes). Disse kodningene integreres på inferens tid.

[Klikk video nedenfor for å spille]

MIMO kan erstatte originale karakterer med fotorealistiske eller stiliserte karakterer som følger bevegelsen fra målvideoen. Se prosjektets nettside og den tilhørende YouTube-videoen (innlemmet i slutten av denne artikkelen) for flere eksempler og bedre oppløsning.

Systemet er trenet over Stable Diffusion V1.5-modellen, ved hjelp av en tilpasset dataset kurert av forskerne, og består like mye av virkelige og simuleringsvideoer.

Det store problemet med diffusjonsbasert video er temporalt stabilitet, hvor innholdet i videoen enten flimrer eller “utvikler” seg på måter som ikke er ønsket for konsistent karakterrepresentasjon.

MIMO, isteden, bruker effektivt ett enkelt bilde som en kart for konsistent veiledning, som kan orkestreres og begrenses av de interstitielle SMPL CGI-modellen.

Siden kilde referansen er konsistent, og grunnmodellen som systemet er trenet på har blitt forbedret med adekvate representative bevegelseseksempler, er systemets evner for temporalt konsistent utgang over det generelle standarden for diffusjonsbaserte avatarer.

[Klikk video nedenfor for å spille]

Flere eksempler på pose-drevne MIMO-karakterer. Se prosjektets nettside og den tilhørende YouTube-videoen (innlemmet i slutten av denne artikkelen) for flere eksempler og bedre oppløsning.

Det blir mer vanlig for enkeltbilder å bli brukt som kilde for effektive neurale representasjoner, enten på egen hånd eller på en multimodal måte, kombinert med tekstprompt. For eksempel, det populære LivePortrait ansikts-overførings system kan også generere svært troverdige deepfaked ansikter fra enkelt ansiktsbilde.

Forskerne tror at prinsippene brukt i MIMO-systemet kan utvides til andre og nye typer generative systemer og rammer.

Den nye artikkelen er tittelen MIMO: Controllable Character Video Synthesis with Spatial Decomposed Modeling, og kommer fra fire forskere ved Alibaba Group’s Institute for Intelligent Computing. Arbeidet har en video-rik prosjekt side og en tilhørende YouTube-video, som også er innlemmet i slutten av denne artikkelen.

Metode

MIMO oppnår automatisk og usupervisert separasjon av de ovennevnte tre romlige komponentene, i en end-to-end arkitektur (dvs. alle underprosessene er integrert i systemet, og brukeren bare trenger å angi inndata).

Konseptuell skjema for MIMO. Kilde: https://arxiv.org/pdf/2409.16160

Objekter i kildevideoer oversettes fra 2D til 3D, først ved hjelp av monokulær dybde-estimatoren Depth Anything. Det menneskelige elementet i hver ramme utvinnes med metoder tilpasset fra Tune-A-Video-prosjektet.

Disse egenskapene oversettes deretter til video-baserte volumetriske aspekter via Facebook Research’s Segment Anything 2-arkitektur.

Scenelaget i seg selv oppnås ved å fjerne objekter detektert i de andre to lagene, og gir effektivt en rotoscope-stil mask automatisk.

For bevegelsen, en mengde utvunne latente koder for det menneskelige elementet er ankret til en standard menneskelig CGI-basert SMPL-modell, hvis bevegelser gir konteksten for det renderede menneskelige innholdet.

En 2D egenskapskart for det menneskelige innholdet oppnås ved en differensierbar rasterisator avledet fra en 2020-initiativ fra NVIDIA. Ved å kombinere de oppnådde 3D-data fra SMPL med de 2D-data oppnådde ved NVIDIA-metoden, har de latente kodene som representerer ‘neurale person’ en solid korrespondanse til deres eventuelle kontekst.

På dette punktet er det nødvendig å etablere en referanse som vanligvis er nødvendig i arkitekturer som bruker SMPL – en kanonisk pose. Dette er bredt likt Da Vincis ‘Vitruvian mann’, i det at det representerer en null-pose mal som kan akseptere innhold og deretter bli deformert, og bringe det (effektivt) tekstur-mappede innholdet med det.

Disse deformasjonene, eller ‘avvik fra normen’, representerer menneskelig bevegelse, mens SMPL-modellen bevare de latente kodene som utgjør den menneskelige identiteten som er utvunnet, og representerer dermed den resulterende avatar korrekt i forhold til pose og tekstur.

Et eksempel på en kanonisk pose i en SMPL-figur. Kilde: https://www.researchgate.net/figure/Layout-of-23-joints-in-the-SMPL-models_fig2_351179264

Med hensyn til problemet med entanglement (graden til hvilken trent data kan vise seg å være inflexibelt når du strekker det beyond sine trente grenser og assosiasjoner), uttaler forfatterne*:

‘For å fullstendig disentangle utseendet fra poserte video-rammer, er en ideell løsning å lære den dynamiske menneskelige representasjonen fra den monokulære videoen og transformere det fra posert rom til kanonisk rom.

‘Med hensyn til effektivitet, bruker vi en forenklet metode som direkte transformerer den poserte menneskelige bildet til det kanoniske resultatet i standard A-pose ved hjelp av en forhånds-trent menneskelig omposisjonsmodell. Den syntetiske kanoniske utseende-bildet matet til ID-encoder for å få identitets [kode].

‘Dette enkle designet muliggjør full disentanglement av identitet og bevegelsesattributter. Følger [Animate Anyone], inkluderer ID-encoder en CLIP-bilde-encoder og en reference-nett-arkitektur for å innkapsle for det globale og lokale trekk, [henholdsvis].’

For scenen og okklusjon aspektene, brukes en felles og fast Variational Autoencoder (VAE – i dette tilfelle avledet fra en 2013 publikasjon) for å innkapsle scenen og okklusjonselementene i latent rom. Inkongruenser håndteres av en inpainting-metode fra 2023 ProPainter-prosjektet.

Når dette er satt sammen og retusjert på denne måten, vil både bakgrunnen og eventuelle okkluderende objekter i videoen gi en matte for den bevegelige menneskelige avatar.

Disse dekomponerte attributtene matet deretter inn i en U-Net-ryggrad basert på Stable Diffusion V1.5-arkitekturen. Den fullstendige scenekoden konkateneres med verts-systemets native latente støy. Det menneskelige komponentet integreres via self-attention og cross-attention lag, henholdsvis.

Deretter er denøyse-resultatet utgang via VAE-dekoderen.

Data og tester

For trening, skapte forskerne et menneskevideo-datasett tittelen HUD-7K, som bestod av 5 000 reelle karaktervideoer og 2 000 syntetiske animasjoner skapt av En3D-systemet. De reelle videoene krevde ingen annotering, på grunn av den ikke-semantiske naturen av figur-utvinning prosedyrene i MIMO-arkitekturen. De syntetiske dataene var fullstendig annotert.

Modellen ble trenet på åtte NVIDIA A100 GPU-er (selv om artikkelen ikke spesifiserer om disse var 40GB eller 80GB VRAM-modellene), i 50 iterasjoner, ved hjelp av 24 video-rammer og en batch-størrelse på fire, til konvergens.

Bevegelsesmodulen for systemet ble trenet på vekter fra AnimateDiff. Under trening prosessen, var vekter fra VAE-encoder/decoder og CLIP-bilde-encoder frosset (i motsetning til full finjustering, som vil ha en mye bredere effekt på en grunnmodell).

Selv om MIMO ikke ble testet mot analoge systemer, testet forskerne det på vanskelige utenfor-distribusjon bevegelses sekvenser hentet fra AMASS og Mixamo. Disse bevegelsene inkluderte klatring, spill og dans.

De testet også systemet på i-villkårene menneskevideoer. I begge tilfeller, rapporterer artikkelen ‘høy robusthet’ for disse usette 3D-bevegelsene, fra forskjellige synsvinkler.

Selv om artikkelen tilbyr flere statiske bilde-resultater som demonstrerer effektiviteten til systemet, er den sanne ytelsen til MIMO best vurdert med de omfattende video-resultatene tilgjengelig på prosjektets side, og i YouTube-videoen innlemmet nedenfor (fra hvilken videoene i begynnelsen av denne artikkelen er avledet).

Forfatterne konkluderer:

‘Eksperimentelle resultater [demonstrere] at vår metode muliggjør ikke bare fleksible karakter, bevegelse og scene-kontroll, men også avansert skalerbarhet til vilkårlige karakterer, generalitet til nye 3D-bevegelser og anvendelighet til interaktive scener.

‘Vi tror også [at] vår løsning, som tar hensyn til den innebygde 3D-naturen og automatisk koder 2D-video til hierarkiske romlige komponenter, kunne inspirere fremtidige studier for 3D-bevisst video-syntese.

‘Fortsatt, vår ramme er ikke bare godt egnet til å generere karaktervideoer, men kan også potensielt tilpasses til andre kontrollerbare video-syntese-oppgaver.’

Konklusjon

Det er friskt å se et avatar-system basert på Stable Diffusion som ser ut til å være i stand til så stor temporalt stabilitet – ikke minst fordi Gaussian Avatars ser ut til å vinne det høye grunn i denne spesifikke forskningssektoren.

De stiliserte avatarer representert i resultater er effektive, og selv om nivået av fotorealistisk som MIMO kan produsere ikke er like nå som hva Gaussian Splatting er i stand til, er de diverse fordeler med å skape temporalt konsistente mennesker i en semantisk-basert Latent Diffusion Network (LDM) betydelig.