Intelligenza artificiale

Un Nuovo Sistema per Personaggi di Video di Diffusione Stabile Temporalmente Coerenti

Published September 25, 2024

Updated April 3, 2026

Martin Anderson

A capture from the project page of MIMO (https://menyifang.github.io/projects/MIMO/index.html), depicting a motion-driven wolf creature.

Un nuova iniziativa del gruppo Alibaba offre uno dei migliori metodi che ho visto per generare avatar umani a corpo intero da un modello di base basato su Stable Diffusion.

Intitolato MIMO (MIMicking con Object Interactions), il sistema utilizza una gamma di tecnologie e moduli popolari, tra cui modelli di esseri umani basati su CGI e AnimateDiff, per abilitare la sostituzione di personaggi in video in modo temporalmente coerente – o per guidare un personaggio con una posa scheletrica definita dall’utente.

Qui vediamo personaggi interpolati da una singola immagine sorgente, e guidati da una sequenza di movimento predefinita:

[Fare clic sul video qui sotto per riprodurlo]

Da immagini sorgente singole, tre personaggi diversi sono guidati da una sequenza di pose 3D (in alto a sinistra) utilizzando il sistema MIMO. Visitare il sito web del progetto e il video YouTube accompagnatore (inserito alla fine di questo articolo) per ulteriori esempi e risoluzione superiore. Fonte: https://menyifang.github.io/projects/MIMO/index.html

I personaggi generati, che possono anche essere tratti da frame di video e in modi diversi, possono essere integrati in riprese del mondo reale.

MIMO offre un sistema innovativo che genera tre codici di encoding discreti, ognuno per personaggio, scena e occlusione (cioè, mascheratura, quando un oggetto o una persona passa davanti al personaggio rappresentato). Questi encoding vengono integrati al momento dell’inferenza.

[Fare clic sul video qui sotto per riprodurlo]

MIMO può sostituire personaggi originali con personaggi fotorealistici o stilizzati che seguono il movimento del video di destinazione. Visitare il sito web del progetto e il video YouTube accompagnatore (inserito alla fine di questo articolo) per ulteriori esempi e risoluzione superiore.

Il sistema è stato addestrato sul modello Stable Diffusion V1.5, utilizzando un set di dati personalizzato curato dai ricercatori, e composto in parti uguali di video del mondo reale e simulati.

Il grande problema della diffusione dei video è la stabilità temporale, dove il contenuto del video o lampeggia o “evolve” in modi non desiderati per una rappresentazione di personaggi coerente.

MIMO, invece, utilizza efficacemente una singola immagine come mappa per una guida coerente, che può essere orchestrata e vincolata dal modello CGI SMPL interstiziale.

Poiché la fonte di riferimento è coerente, e il modello di base su cui il sistema è stato addestrato è stato migliorato con esempi di movimento rappresentativi adeguati, le capacità del sistema per un output temporalmente coerente sono ben al di sopra dello standard generale per gli avatar basati sulla diffusione.

[Fare clic sul video qui sotto per riprodurlo]

Ulteriori esempi di personaggi MIMO guidati dalla posa. Visitare il sito web del progetto e il video YouTube accompagnatore (inserito alla fine di questo articolo) per ulteriori esempi e risoluzione superiore.

Sta diventando più comune utilizzare singole immagini come fonte per rappresentazioni neurali efficaci, da sole o in modo multimodale, combinate con prompt di testo. Ad esempio, il sistema di trasferimento facciale LivePortrait può anche generare facce deepfaked molto plausibili da singole immagini di facce.

I ricercatori ritengono che i principi utilizzati nel sistema MIMO possano essere estesi ad altri e nuovi tipi di sistemi e framework generativi.

Il nuovo articolo è intitolato MIMO: Controllable Character Video Synthesis with Spatial Decomposed Modeling, e proviene da quattro ricercatori dell’Istituto di Intelligenza Artificiale di Alibaba. Il lavoro ha una pagina del progetto video-laden e un video YouTube accompagnatore YouTube, che è anche inserito alla fine di questo articolo.

Metodo

MIMO raggiunge la separazione automatica e non supervisionata dei tre componenti spaziali sopra menzionati, in un’architettura end-to-end (cioè, tutti i sottoprocessi sono integrati nel sistema, e l’utente deve fornire solo il materiale di input).

Lo schema concettuale per MIMO. Fonte: https://arxiv.org/pdf/2409.16160

Gli oggetti nei video di origine vengono tradotti da 2D a 3D, inizialmente utilizzando l’estimatore di profondità monocolare Depth Anything. L’elemento umano in qualsiasi frame viene estratto con metodi adattati dal progetto Tune-A-Video.

Questi caratteristiche vengono quindi tradotti in faccette volumetriche basate su video tramite l’architettura Segment Anything 2 di Facebook Research.

Lo strato della scena stesso viene ottenuto rimuovendo gli oggetti rilevati negli altri due strati, fornendo efficacemente una maschera rotoscopica automatica.

Per il movimento, un set di codici latenti estratti per l’elemento umano vengono ancorati a un modello di default di esseri umani basato su CGI SMPL, il cui movimento fornisce il contesto per il contenuto umano rappresentato.

Una mappa di caratteristiche 2D per il contenuto umano viene ottenuta tramite un rasterizzatore differenziabile derivato da un’iniziativa 2020 di NVIDIA. Combinando i dati 3D ottenuti da SMPL con i dati 2D ottenuti dal metodo NVIDIA, i codici latenti che rappresentano la ‘persona neurale’ hanno una corrispondenza solida con il loro contesto eventuale.

A questo punto, è necessario stabilire un riferimento comunemente necessario in architetture che utilizzano SMPL – una posa canonica. Ciò è ampiamente simile all’uomo ‘Vitruviano’ di Da Vinci, in quanto rappresenta un modello di posa zero che può accettare contenuto e poi essere deformato, portando con sé (efficacemente) il contenuto texture-mapped.

Queste deformazioni, o ‘deviazioni dalla norma’, rappresentano il movimento umano, mentre il modello SMPL conserva i codici latenti che costituiscono l’identità umana estratta, e rappresenta quindi l’avatar risultante in modo corretto in termini di posa e texture.

Un esempio di posa canonica in una figura SMPL. Fonte: https://www.researchgate.net/figure/Layout-of-23-joints-in-the-SMPL-models_fig2_351179264

Per quanto riguarda il problema dell’intreccio (la misura in cui i dati addestrati possono risultare inflessibili quando li si estende oltre i confini e le associazioni addestrate), gli autori affermano*:

‘Per disentangolare completamente l’aspetto dalle cornici di video in posa, una soluzione ideale è imparare la rappresentazione umana dinamica dal video monocolare e trasformarla dallo spazio in posa allo spazio canonico.

‘Considerando l’efficienza, impieghiamo un metodo semplificato che trasforma direttamente l’immagine umana in posa nel risultato canonico nello standard A-pose utilizzando un modello di riposizionamento umano pre-addestrato. L’immagine di aspetto canonico sintetizzata viene alimentata con encoder ID per ottenere il codice [di identità].

‘Questo design semplice consente una disentanglement completa degli attributi di identità e movimento. Seguendo [Animate Anyone], gli encoder ID includono un encoder di immagine CLIP e un’architettura di rete di riferimento per incorporare le caratteristiche globali e locali, [rispettivamente].’

Per gli aspetti della scena e dell’occlusione, viene utilizzato un autoencoder variazionale condiviso e fisso Variational Autoencoder (VAE – in questo caso derivato da una pubblicazione del 2013) per incorporare gli elementi della scena e dell’occlusione nello spazio latente. Le incongruenze vengono gestite con un metodo di inpainting del progetto ProPainter del 2023.

Una volta assemblati e ritoccati in questo modo, sia lo sfondo che gli oggetti occludenti nel video forniranno una maschera per l’avatar umano in movimento.

Questi attributi decomposti vengono quindi alimentati in un U-Net basato sull’architettura Stable Diffusion V1.5. Il codice di scena completo viene concatenato con il rumore latente nativo del sistema host. Il componente umano viene integrato tramite self-attention e layer di cross-attention, rispettivamente.

Quindi, il risultato denoised viene output tramite il decoder VAE.

Dati e Test

Per l’addestramento, i ricercatori hanno creato un set di dati video umani intitolato HUD-7K, che consiste in 5.000 video di personaggi reali e 2.000 animazioni sintetiche create dal sistema En3D. I video reali non richiedevano alcuna annotazione, a causa della natura non semantica delle procedure di estrazione della figura nell’architettura di MIMO. I dati sintetici erano completamente annotati.

Il modello è stato addestrato su otto GPU NVIDIA A100 (anche se l’articolo non specifica se si trattava dei modelli da 40GB o 80GB di VRAM), per 50 iterazioni, utilizzando 24 frame video e una dimensione del batch di quattro, fino a convergenza.

Il modulo di movimento per il sistema è stato addestrato sui pesi di AnimateDiff. Durante il processo di addestramento, i pesi dell’encoder/decoder VAE e dell’encoder di immagine CLIP sono stati congelati (in contrasto con il fine-tuning completo, che avrebbe un effetto molto più ampio su un modello di base).

Sebbene MIMO non sia stato testato contro sistemi analoghi, i ricercatori lo hanno testato su sequenze di movimento difficili fuori dalla distribuzione provenienti da AMASS e Mixamo. Questi movimenti includevano arrampicata, gioco e danza.

Hanno anche testato il sistema su video umani nel mondo reale. In entrambi i casi, l’articolo riporta ‘alta robustezza’ per questi movimenti 3D non visti, da diverse prospettive.

Sebbene l’articolo offra molti risultati di immagini statiche che dimostrano l’efficacia del sistema, le prestazioni reali di MIMO sono meglio valutate con i risultati video estensivi forniti nella pagina del progetto e nel video YouTube incorporato di seguito (da cui sono stati derivati i video all’inizio di questo articolo).