Angolo di Anderson

Un Notevole Progresso nell’AI Video Guidata dall’Uomo

Published April 4, 2025

Updated April 3, 2026

Martin Anderson

Examples from the DreamActor project page.

Nota: La pagina del progetto per questo lavoro include 33 video ad alta risoluzione in riproduzione automatica per un totale di mezzo gigabyte, che ha destabilizzato il mio sistema al caricamento. Per questo motivo, non linkerò direttamente a esso. I lettori possono trovare l’URL nell’abstract del paper o nel PDF se lo desiderano.

Uno degli obiettivi principali nella ricerca sulla sintesi video attuale è generare una performance video completa guidata da AI a partire da una singola immagine. Questa settimana un nuovo paper di Bytedance Intelligent Creation ha delineato ciò che potrebbe essere il sistema più completo di questo tipo finora, in grado di produrre animazioni a corpo intero e semicorpo che combinano dettagli espressivi facciali con movimenti su larga scala precisi, oltre a raggiungere una migliore coerenza dell’identità – un’area in cui anche i sistemi commerciali leader spesso falliscono.

Nell’esempio seguente, vediamo una performance guidata da un attore (in alto a sinistra) e derivata da una singola immagine (in alto a destra), che fornisce una resa notevolmente flessibile e agile, senza alcuno dei soliti problemi relativi alla creazione di grandi movimenti o ‘ipotesi’ su aree occluse (ad esempio, parti di abbigliamento e angoli facciali che devono essere dedotti o inventati perché non sono visibili nella foto di origine):

CONTENUTO AUDIO. Clicca per riprodurre. Una performance nasce da due fonti, compresa la sincronizzazione labiale, che di solito è appannaggio di sistemi ausiliari dedicati. Questa è una versione ridotta dal sito di origine (vedi nota all’inizio dell’articolo – si applica a tutti gli altri video incorporati qui).

Sebbene possiamo vedere alcune sfide residue relative alla persistenza dell’identità man mano che ogni clip procede, questo è il primo sistema che ho visto che eccelle nel mantenere generalmente (anche se non sempre) l’ID per un periodo sostenuto senza l’uso di LoRAs:

CONTENUTO AUDIO. Clicca per riprodurre. Ulteriori esempi dal progetto DreamActor.

Il nuovo sistema, intitolato DreamActor, utilizza un sistema di controllo ibrido a tre parti che dedica un’attenzione specifica all’espressione facciale, alla rotazione della testa e alla progettazione dello scheletro centrale, consentendo così performance guidate da AI in cui né l’aspetto facciale né quello corporeo soffrono a spese dell’altro – una capacità rara, forse sconosciuta tra sistemi simili.

In basso vediamo una di queste facce, rotazione della testa, in azione. La palla colorata nell’angolo di ogni miniatura verso destra indica una sorta di gimbal virtuale che definisce l’orientamento della testa in modo indipendente dal movimento e dall’espressione facciale, che qui è guidata da un attore (in basso a sinistra).

Clicca per riprodurre. La palla multicolore visualizzata qui rappresenta l’asse di rotazione della testa dell’avatara, mentre l’espressione è alimentata da un modulo separato e informato dalle performance di un attore (visibile qui in basso a sinistra).

Una delle funzionalità più interessanti del progetto, che non è nemmeno inclusa correttamente nei test del paper, è la sua capacità di derivare il movimento di sincronizzazione labiale direttamente dall’audio – una capacità che funziona in modo insolitamente efficace anche senza un video di attore di guida.

I ricercatori hanno preso di mira i migliori incumbent in questo perseguimento, compresi il molto lodato Runway Act-One e LivePortrait, e riportano che DreamActor è stato in grado di ottenere migliori risultati quantitativi.

Poiché i ricercatori possono impostare i propri criteri, i risultati quantitativi non sono necessariamente uno standard empirico; ma i test qualitativi che li accompagnano sembrano supportare le conclusioni degli autori.

Purtroppo questo sistema non è destinato alla release pubblica, e l’unico valore che la comunità può potenzialmente trarre da questo lavoro è nella possibile riproduzione delle metodologie descritte nel paper (come è stato fatto con effetto notevole per l’equivalente closed-source Google Dreambooth nel 2022).

Il paper afferma*:

‘L’animazione dell’immagine umana ha possibili rischi sociali, come essere utilizzata per creare video falsi. La tecnologia proposta potrebbe essere utilizzata per creare video falsi di persone, ma gli strumenti di rilevamento esistenti [Demamba, Dormant] possono rilevare questi falsi.

‘Per ridurre questi rischi, sono necessarie regole etiche chiare e linee guida per l’uso responsabile. Limiteremo severamente l’accesso ai nostri modelli e codici di base per prevenire l’uso improprio.’

Naturalmente, considerazioni etiche di questo tipo sono comode dal punto di vista commerciale, poiché forniscono una giustificazione per l’accesso API-only al modello, che può quindi essere monetizzato. ByteDance ha già fatto questo una volta nel 2025, rendendo disponibile il molto lodato OmniHuman per crediti pagati sul sito web Dreamina. Pertanto, poiché DreamActor è possibilmente un prodotto ancora più forte, questo sembra il risultato probabile. Ciò che rimane da vedere è la misura in cui i suoi principi, per quanto spiegati nel paper, possono aiutare la comunità open source.

Il nuovo paper è intitolato DreamActor-M1: Animazione dell’Immagine Umana Olistica, Espressiva e Robusta con Guida Ibrida, e proviene da sei ricercatori di Bytedance.

Metodo

Il sistema DreamActor proposto nel paper mira a generare animazione umana da un’immagine di riferimento e un video di guida, utilizzando un framework Diffusion Transformer (DiT) adattato per spazio latente (apparentemente una sorta di Stable Diffusion, anche se il paper cita solo la pubblicazione di rilascio del 2022).

Invece di affidarsi a moduli esterni per gestire la condizione di riferimento, gli autori fondono direttamente le caratteristiche di aspetto e movimento all’interno del backbone DiT, consentendo l’interazione nello spazio e nel tempo attraverso l’attenzione:

Schema per il nuovo sistema: DreamActor codifica la posa, il moto facciale e l’aspetto in latenti separati, combinandoli con latenti video rumorosi prodotti da un 3D VAE. Questi segnali vengono fusi all’interno di un Diffusion Transformer utilizzando auto- e cross-attenzione, con pesi condivisi tra i rami. Il modello è supervisionato confrontando le uscite denoise con i latenti video puliti. Fonte: https://arxiv.org/pdf/2504.01724

Per fare ciò, il modello utilizza un 3D variational autoencoder pre-addestrato per codificare sia il video di input che l’immagine di riferimento. Questi latenti vengono patchificati, concatenati e alimentati nel DiT, che li elabora congiuntamente.

Questa architettura si discosta dalla pratica comune di allegare una rete secondaria per l’iniezione di riferimento, che era l’approccio per i progetti influenti Animate Anyone e Animate Anyone 2.

Invece, DreamActor costruisce la fusione all’interno del modello principale stesso, semplificando la progettazione mentre migliora il flusso di informazioni tra i suggerimenti di aspetto e movimento. Il modello viene quindi addestrato utilizzando flow matching anziché l’obiettivo di diffusione standard (Flow matching addestra i modelli di diffusione prevedendo direttamente i campi di velocità tra i dati e il rumore, saltando score estimation).

Guida del Moto Ibrida

Il metodo di Guida del Moto Ibrida che informa le rendering neurali combina token di posa derivati da scheletri del corpo 3D e sfere della testa; rappresentazioni facciali implicite estratte da un encoder facciale pre-addestrato; e token di aspetto di riferimento campionati dall’immagine di origine.

Questi elementi vengono integrati all’interno del Diffusion Transformer utilizzando meccanismi di attenzione distinti, consentendo al sistema di coordinare il movimento globale, l’espressione facciale e l’identità visiva durante il processo di generazione.

Per il primo di questi, anziché affidarsi ai punti di riferimento facciali, DreamActor utilizza rappresentazioni facciali implicite per guidare la generazione dell’espressione, apparentemente consentendo un controllo più fine sulla dinamica facciale mentre disentangle l’identità e la posizione della testa dall’espressione.

Per creare queste rappresentazioni, la pipeline rileva e ritaglia l’area del viso in ogni frame del video di guida, ridimensionandolo a 224×224. I visi ritagliati vengono elaborati da un encoder di moto facciale pre-addestrato sul dataset PD-FGC, che viene quindi condizionato da un layer MLP.

PD-FGC, impiegato in DreamActor, genera una testa parlante da un’immagine di riferimento con controllo disentangled della sincronizzazione labiale (dall’audio), della posizione della testa, del movimento degli occhi e dell’espressione (da video separati), consentendo una manipolazione precisa e indipendente di ciascuno. Fonte: https://arxiv.org/pdf/2211.14506

Il risultato è una sequenza di token di moto facciale, che vengono iniettati nel Diffusion Transformer attraverso un layer di cross-attenzione.

Lo stesso framework supporta anche una variante guidata dall’audio, in cui un encoder separato viene addestrato per mappare direttamente l’input del discorso ai token di moto facciale. Ciò consente di generare animazioni facciali sincronizzate – compresi i movimenti labiali – senza un video di guida.

CONTENUTO AUDIO. Clicca per riprodurre. Sincronizzazione labiale derivata puramente dall’audio, senza un riferimento video di attore. L’unico input del personaggio è la foto statica visibile in alto a destra.

In secondo luogo, per controllare la posizione della testa in modo indipendente dall’espressione facciale, il sistema introduce una rappresentazione di sfera della testa 3D (vedi video incorporato in precedenza in questo articolo), che disaccoppia la dinamica facciale dal movimento globale della testa, migliorando la precisione e la flessibilità durante l’animazione.

Le sfere della testa vengono generate estraendo parametri facciali 3D – come la rotazione e la posizione della camera – dal video di guida utilizzando il metodo di tracciamento FaceVerse.

Schema per il progetto FaceVerse. Fonte: https://www.liuyebin.com/faceverse/faceverse.html

Questi parametri vengono utilizzati per renderizzare una sfera colorata proiettata sul piano dell’immagine 2D, allineata spazialmente con la testa di guida. La dimensione della sfera corrisponde alla testa di riferimento, e il suo colore riflette l’orientamento della testa. Questa astrazione riduce la complessità dell’apprendimento del movimento della testa 3D, aiutando a preservare forme di testa stilizzate o esagerate in personaggi tratti da animazioni.

Visualizzazione della sfera di controllo che influenza l’orientamento della testa.

Infine, per guidare il movimento del corpo intero, il sistema utilizza scheletri del corpo 3D con normalizzazione della lunghezza delle ossa adattiva. I parametri del corpo e della mano vengono stimati utilizzando 4DHumans e il modello HaMeR focalizzato sulla mano, entrambi operanti sul modello del corpo SMPL-X.

SMPL-X applica una mesh parametrica su tutto il corpo umano in un’immagine, allineandosi con la posa stimata e l’espressione per abilitare la manipolazione della posa utilizzando la mesh come guida volumetrica. Fonte: https://arxiv.org/pdf/1904.05866

Da questi output, vengono selezionati i giunti chiave, proiettati in 2D e connessi in mappe scheletriche a linea. A differenza di metodi come Champ, che rendono mesh del corpo intero, questo approccio evita di imporre priori di forma predefiniti, e affidandosi solo alla struttura scheletrica, il modello è così incoraggiato a dedurre la forma e l’aspetto del corpo direttamente dalle immagini di riferimento, riducendo il bias verso tipi di corpo fissi e migliorando la generalizzazione su una gamma di pose e corporature.

Durante l’addestramento, gli scheletri del corpo 3D vengono concatenati con le sfere della testa e passati attraverso un encoder di posa, che produce caratteristiche che vengono poi combinate con latenti video rumorosi per produrre i token di rumore utilizzati dal Diffusion Transformer.

Al momento dell’inferenza, il sistema tiene conto delle differenze scheletriche tra i soggetti normalizzando le lunghezze delle ossa. Il modello di editing di immagini SeedEdit pre-addestrato trasforma sia le immagini di riferimento che quelle di guida in una configurazione canonica standard. RTMPose viene quindi utilizzato per estrarre le proporzioni scheletriche, che vengono utilizzate per regolare lo scheletro di guida in modo che corrisponda all’anatomia del soggetto di riferimento.

Panoramica della pipeline di inferenza. Pseudo-riferimenti possono essere generati per arricchire i suggerimenti di aspetto, mentre segnali di controllo ibridi – moto facciale implicito e posa esplicita da sfere della testa e scheletri del corpo – vengono estratti dal video di guida. Questi vengono quindi alimentati in un modello DiT per produrre output animati, con il moto facciale disaccoppiato dalla posa del corpo, consentendo l’uso dell’audio come guida.

Guida dell’Aspetto

Per migliorare la fedeltà dell’aspetto, in particolare in aree occluse o raramente visibili, il sistema integra l’immagine di riferimento principale con pseudo-riferimenti campionati dal video di input.

Clicca per riprodurre. Il sistema prevede la necessità di rappresentare in modo accurato e coerente le aree occluse. Questo è probabilmente il più vicino a un approccio di texture bitmap stile CGI che abbia visto in un progetto di questo tipo.

Questi frame aggiuntivi vengono scelti per la diversità di posa utilizzando RTMPose e filtrati utilizzando la similarità basata su CLIP per assicurarsi che rimangano coerenti con l’identità del soggetto.

Tutte le immagini di riferimento (principali e pseudo) vengono codificate dallo stesso encoder visivo e fuse attraverso un meccanismo di auto-attenzione, consentendo al modello di accedere a suggerimenti di aspetto complementari. Questa impostazione migliora la copertura di dettagli come viste laterali o texture di arti.

I pseudo-riferimenti vengono sempre utilizzati durante l’addestramento e opzionalmente durante l’inferenza.

Addestramento

DreamActor è stato addestrato in tre fasi per introdurre gradualmente la complessità e migliorare la stabilità.

Nella prima fase, solo gli scheletri del corpo 3D e le sfere della testa 3D sono stati utilizzati come segnali di controllo, escludendo le rappresentazioni facciali. Ciò ha consentito al modello di base di generazione video, inizializzato da MMDiT, di adattarsi all’animazione umana senza essere sopraffatto da controlli fine-granulari.

Nella seconda fase, le rappresentazioni facciali implicite sono state aggiunte, ma tutti gli altri parametri congelati. Solo l’encoder di moto facciale e i layer di attenzione facciale sono stati addestrati in questo punto, consentendo al modello di apprendere dettagli espressivi in isolamento.

Nella terza e ultima fase, tutti i parametri sono stati scongelati per l’ottimizzazione congiunta dell’aspetto, della posa e della dinamica facciale.

Dati e Test

Per la fase di testing, il modello è stato inizializzato da un checkpoint DiT pre-addestrato per l’immagine-to-video e addestrato in tre fasi: 20.000 passi per ciascuna delle prime due fasi e 30.000 passi per la terza.

Per migliorare la generalizzazione su diverse durate e risoluzioni, i clip video sono stati campionati casualmente con lunghezze comprese tra 25 e 121 frame. Questi sono stati quindi ridimensionati a 960x640px, mantenendo il rapporto di aspetto.

L’addestramento è stato eseguito su otto (China-focused) NVIDIA H20 GPU, ciascuno con 96GB di VRAM, utilizzando l’ottimizzatore AdamW con un tasso di apprendimento (sopportabilmente alto) di 5e−6.

Al momento dell’inferenza, ogni segmento di video conteneva 73 frame. Per mantenere la coerenza tra i segmenti, l’ultimo latente di un segmento è stato riutilizzato come latente iniziale per il segmento successivo, contestualizzando il compito come generazione di immagine-to-video sequenziale.

La guida del classificatore è stata applicata con un peso di 2,5 sia per le immagini di riferimento che per i segnali di controllo del movimento.

Gli autori hanno costruito un set di dati di addestramento (nessuna fonte è indicata nel paper) composto da 500 ore di video provenienti da domini diversi, che presentano istanze di (tra gli altri) danza, sport, film e discorsi pubblici. Il set di dati è stato progettato per catturare uno spettro ampio di movimento e espressione umana, con una distribuzione uniforme tra riprese a corpo intero e a mezzo corpo.

Per migliorare la qualità della sintesi facciale, Nersemble è stato incorporato nel processo di preparazione dei dati.