Kunstig intelligens

Et Nyt System til Temporalt Konsistent Stable Diffusion Video Figurer

Published September 25, 2024

Updated April 27, 2026

Martin Anderson

A capture from the project page of MIMO (https://menyifang.github.io/projects/MIMO/index.html), depicting a motion-driven wolf creature.

En ny initiativ fra Alibaba Group tilbyder en af de bedste metoder, jeg har set, til at generere fuld-kropps menneskelige avatarer fra en Stable Diffusion-baseret grundmodel.

Denne initiativ hedder MIMO (MIMikring med Objekt Interaktioner), og systemet bruger en række populære teknologier og moduler, herunder CGI-baserede menneskelige modeller og AnimateDiff, til at enable temporalt konsistent karakter erstattelse i videoer – eller også til at drive en karakter med en brugerdefineret skelet pose.

Her ser vi karakterer interpoleret fra en enkelt billedkilde, og drevet af en foruddefineret bevægelse:

[Klik på video nedenfor for at afspille]

Fra enkelt billedkilde kan tre forskellige karakterer drives af en 3D-pose sekvens (langt til venstre) ved hjælp af MIMO-systemet. Se projektets webside og den tilhørende YouTube-video (indlejret i slutningen af denne artikel) for flere eksempler og bedre opløsning. Kilde: https://menyifang.github.io/projects/MIMO/index.html

Genererede karakterer, der også kan være baseret på billeder fra videoer og på andre måder, kan integreres i virkelige optagelser.

MIMO tilbyder et nyt system, der genererer tre separate kodninger, hver for karakter, scene og okklusion (dvs. matning, når et objekt eller en person passerer foran karakteren, der afbildes). Disse kodninger integreres på inferens tid.

[Klik på video nedenfor for at afspille]

MIMO kan erstatte originale karakterer med fotorealistiske eller stiliserede karakterer, der følger bevægelsen fra målvideoen. Se projektets webside og den tilhørende YouTube-video (indlejret i slutningen af denne artikel) for flere eksempler og bedre opløsning.

Systemet er trænet over Stable Diffusion V1.5-modellen, ved hjælp af en brugerdefineret dataset kurateret af forskerne, og består ligeligt af virkelige og simulerede videoer.

Det store problem med diffusion-baseret video er temporalt stabilitet, hvor videoens indhold enten flimrer eller “udvikler” sig på måder, der ikke er ønskeligt for konsistent karakter repræsentation.

MIMO bruger i stedet effektivt en enkelt billedkilde som en vejledning for konsistent vejledning, der kan orkestreres og begrænses af den interstitielle SMPL CGI-model.

Da referencekilden er konsistent, og grundmodellen, som systemet er trænet på, er forbedret med tilstrækkelige repræsentative bevægelseseksempler, er systemets evner til at producere temporalt konsistent output langt over det generelle standard for diffusion-baserede avatarer.

[Klik på video nedenfor for at afspille]

Yderligere eksempler på pose-drevne MIMO-karakterer. Se projektets webside og den tilhørende YouTube-video (indlejret i slutningen af denne artikel) for flere eksempler og bedre opløsning.

Det bliver mere almindeligt, at enkelt billeder bruges som kilde til effektive neurale repræsentationer, enten alene eller på en multimodal måde, kombineret med tekstprompt. For eksempel kan den populære LivePortrait ansigts-overføringssystem også generere meget plausibelt deepfaked ansigter fra enkelt ansigtsbillede.

Forskerne mener, at principperne, der bruges i MIMO-systemet, kan udvides til andre og nye typer generative systemer og rammer.

Den nye artikel hedder MIMO: Controllable Character Video Synthesis with Spatial Decomposed Modeling, og kommer fra fire forskere ved Alibaba Group’s Institute for Intelligent Computing. Arbejdet har en video-fuld projekt-side og en tilhørende YouTube-video, der også er indlejret i slutningen af denne artikel.

Metode

MIMO opnår automatisk og usuperviseret adskillelse af de ovennævnte tre rumlige komponenter, i en end-to-end arkitektur (dvs. alle underprocesser er integreret i systemet, og brugeren behøver kun at tilføje inputmaterialet).

Den konceptuelle skema for MIMO. Kilde: https://arxiv.org/pdf/2409.16160

Objekter i kildevideoer oversættes fra 2D til 3D, initialt ved hjælp af den monokulære dybde-estimator Depth Anything. Den menneskelige komponent i enhver ramme ekstraheres med metoder tilpasset fra Tune-A-Video-projektet.

Disse funktioner oversættes derefter til video-baserede volumetriske facetter via Facebook Research’s Segment Anything 2 arkitektur.

Scenen lag selv erhverves ved at fjerne objekter, der er detekteret i de to andre lag, og giver effektivt en rotoscope-stil mask automatisk.

For bevægelsen bruges en sæt af ekstraherede latente koder for den menneskelige komponent, der er forankret til en standard menneskelig CGI-baseret SMPL-model, hvis bevægelser giver konteksten for det renderede menneskelige indhold.

En 2D funktion kart for det menneskelige indhold erhverves ved en differentierbar rasterizer afledt fra en 2020-initiativ fra NVIDIA. Ved at kombinere de erhvervede 3D-data fra SMPL med de 2D-data, der erhverves ved NVIDIA-metoden, har de latente koder, der repræsenterer ‘neurale person’, en solid korrespondance til deres eventuelle kontekst.

På dette tidspunkt er det nødvendigt at etablere en reference, der ofte er nødvendig i arkitekturer, der bruger SMPL – en kanonisk pose. Dette er bredt lignende Da Vincis ‘Vitruvian man’, da det repræsenterer en nul-pose skabelon, der kan acceptere indhold og derefter deformeres, og bringe det (effektivt) tekstur-mappede indhold med det.

Disse deformationer eller ‘afvigelser fra normen’ repræsenterer menneskelig bevægelse, mens SMPL-modellen bevarede de latente koder, der udgør den menneskelige identitet, der er ekstraheret, og repræsenterer derfor den resulterende avatar korrekt i forhold til pose og tekstur.

Et eksempel på en kanonisk pose i en SMPL-figur. Kilde: https://www.researchgate.net/figure/Layout-of-23-joints-in-the-SMPL-models_fig2_351179264

Med hensyn til spørgsmålet om entanglement (graden, i hvilken trænet data kan vise sig at være ufleksible, når du strækker det ud over dets trænede konfiner og associationer), skriver forfatterne*:

‘For at fuldstændigt adskille udseendet fra poseret video-ramme, er en ideal løsning at lære den dynamiske menneskelige repræsentation fra den monokulære video og omdanne det fra poseret rum til kanonisk rum.

‘Med hensyn til effektivitet, bruger vi en forenklet metode, der direkte omdanner den poserede menneskelige billed til det kanoniske resultat i standard A-pose ved hjælp af en forudtrænet menneskelig re-pose-model. Den syntetiserede kanoniske udseende-billede fødes til ID-encodere for at få identitets[kode].

‘Dette simple design ermögller fuld adskillelse af identitet og bevægelsesattributter. Følgende [Animate Anyone], inkluderer ID-encodere en CLIP billed-encoder og en reference-net arkitektur til at indlejre for det globale og lokale funktion, [respektivt].’

For scenen og okklusion aspekter, bruges en fælles og fast Variational Autoencoder (VAE – i dette tilfælde afledt fra en 2013 publikation) til at indlejre scenen og okklusion elementer i latent rum. Inkonsistenser håndteres af en inpainting metode fra 2023 ProPainter projekt.

Når disse dekomponerede attributter er samlet og retoucherede på denne måde, vil både baggrunden og eventuelle okkluderende objekter i videoen give en matte for den bevægelige menneskelige avatar.

Disse dekomponerede attributter fødes derefter ind i en U-Net baggrund baseret på Stable Diffusion V1.5 arkitekturen. Den komplette scene-kode er konkateneret med værtsystemets native latente støj. Den menneskelige komponent integreres via self-attention og cross-attention lag, respektivt.

Derefter er denoised resultatet udgang via VAE-dekoderen.

Data og Tests

Til træning, skabte forskerne et menneske-video dataset kaldet HUD-7K, der bestod af 5.000 virkelige karakter-videoer og 2.000 syntetiske animationer skabt af En3D systemet. De virkelige videoer krævede ingen annotation, på grund af den ikke-semantiske natur af figur-ekstraktions procedurerne i MIMO’s arkitektur. De syntetiske data var fuldt annoterede.

Modellen blev trænet på otte NVIDIA A100 GPU’er (selvom artiklen ikke specificerer, om det var 40GB eller 80GB VRAM-modellerne), i 50 iterationer, ved hjælp af 24 video-rammer og en batch-størrelse på fire, indtil konvergens.

Bevægelsesmodulen for systemet blev trænet på vægtene af AnimateDiff. Under træningsprocessen blev vægtene af VAE-encoder/decoder og CLIP-billed-encoder frosset (i modsætning til fuld fine-tuning, som vil have en bredere effekt på en grundmodel).

Selvom MIMO ikke blev testet mod analoge systemer, testede forskerne det på svære out-of-distribution bevægelsessekvenser fra AMASS og Mixamo. Disse bevægelser inkluderede klatring, spil og dans.

De testede også systemet på virkelige menneske-videoer. I begge tilfælde rapporterer artiklen ‘høj robusthed’ for disse usete 3D-bevægelser, fra forskellige vinkler.

Selvom artiklen tilbyder flere statiske billedresultater, der demonstrerer systemets effektivitet, kan MIMO’s sande præstation bedst vurderes med de omfattende videoresultater, der er tilgængelige på projektets side, og i YouTube-videoen, der er indlejret nedenfor (fra hvilken videoer i starten af denne artikel er afledt).

Forfatterne konkluderer:

‘Eksperimentelle resultater [demonstrerer] at vores metode ermögiller ikke kun fleksibel karakter, bevægelse og scene-kontrol, men også avanceret skalerbarhed til vilkårlige karakterer, generalitet til nye 3D-bevægelser og anvendelighed til interaktive scener.

‘Vi tror også [at] vores løsning, der tager den indre 3D-natur og automatisk koder 2D-video til hierarkiske rumlige komponenter, kunne inspirere fremtidige undersøgelser til 3D-bevidst video-syntese.

‘Desuden er vores ramme ikke kun velegnet til at generere karakter-videoer, men kan også potentielt tilpasses til andre kontrollerbare video-syntese-opgaver.’

Konklusion

Det er opfriskende at se et avatar-system baseret på Stable Diffusion, der synes at være i stand til sådan temporalt stabilitet – ikke mindst, fordi Gaussian Avatars synes at være gaining the high ground i dette specifikke forskningssektor.

De stiliserede avatarer, der er repræsenteret i resultaterne, er effektive, og selvom niveauet af fotorealistisk, som MIMO kan producere, ikke er lig med, hvad Gaussian Splatting er i stand til, er de forskellige fordele ved at skabe temporalt konsistente mennesker i en semantisk-baseret Latent Diffusion Network (LDM) betydelige.