Intelligenza artificiale

AniPortrait: Sintesi Audio-Driven di Animazioni di Ritratto Fotorealistico

Published May 3, 2024

Updated April 27, 2026

Kunal Kejriwal

Negli anni, la creazione di animazioni di ritratto realistiche ed espressive da immagini statiche e audio ha trovato una vasta gamma di applicazioni, tra cui giochi, media digitali, realtà virtuale e molto altro. Nonostante le sue potenziali applicazioni, è ancora difficile per gli sviluppatori creare framework in grado di generare animazioni di alta qualità che mantengano la coerenza temporale e siano visivamente accattivanti. Una delle principali cause di questa complessità è la necessità di una coordinazione intricata dei movimenti delle labbra, delle posizioni della testa e delle espressioni facciali per creare un effetto visivamente convincente.

In questo articolo, parleremo di AniPortrait, un framework innovativo progettato per generare animazioni di alta qualità guidate da un’immagine di ritratto di riferimento e da un campione audio. Il funzionamento del framework AniPortrait è diviso in due fasi. In primo luogo, il framework AniPortrait estrae le rappresentazioni intermedie 3D dai campioni audio e le proietta in una sequenza di punti di riferimento facciali 2D. Successivamente, il framework utilizza un modello di diffusione robusto abbinato a un modulo di movimento per convertire le sequenze di punti di riferimento in animazioni fotorealistiche e temporalmente coerenti. I risultati sperimentali dimostrano la superiorità e la capacità del framework AniPortrait di generare animazioni di alta qualità con eccezionale qualità visiva, diversità di pose e naturalità facciale, offrendo così un’esperienza percettiva arricchita e migliorata. Inoltre, il framework AniPortrait presenta un notevole potenziale in termini di controllabilità e flessibilità e può essere applicato efficacemente in aree come la ri-creazione facciale, la modifica del movimento facciale e molto altro. Questo articolo si propone di coprire il framework AniPortrait in profondità e di esplorare il meccanismo, la metodologia, l’architettura del framework e il suo confronto con i framework attuali.

AniPortrait: Animazione di Ritratto Fotorealistico

La creazione di animazioni di ritratto realistiche ed espressive è stata l’obiettivo dei ricercatori per un po’ di tempo, grazie al suo incredibile potenziale e alle sue applicazioni che spaziano dai media digitali e dalla realtà virtuale ai giochi e molto altro. Nonostante anni di ricerca e sviluppo, la produzione di animazioni di alta qualità che mantengano la coerenza temporale e siano visivamente accattivanti rappresenta ancora una sfida significativa. Un ostacolo importante per gli sviluppatori è la necessità di una coordinazione intricata tra posizioni della testa, espressioni visive e movimenti delle labbra per creare un effetto visivamente convincente. I metodi esistenti non sono riusciti a superare queste sfide, principalmente perché la maggior parte di essi si basa su generatori a capacità limitata come NeRF, decoder basati sul movimento e GAN per la creazione di contenuti visivi. Queste reti esibiscono capacità di generalizzazione limitate e sono instabili nella generazione di contenuti di alta qualità.

Sulla base dei progressi dei modelli di diffusione, il framework AniPortrait si propone di generare ritratti animati di alta qualità utilizzando un’immagine di riferimento e un campione audio. Il funzionamento del framework AniPortrait è diviso in due fasi. Nella prima fase, il framework AniPortrait utilizza modelli basati su transformer per estrarre una sequenza di mesh facciali 3D e pose della testa dall’input audio e le proietta successivamente in una sequenza di punti di riferimento facciali 2D. La prima fase consente al framework AniPortrait di catturare i movimenti delle labbra e le espressioni sottili dall’audio, oltre ai movimenti della testa che si sincronizzano con il ritmo del campione audio. La seconda fase, il framework AniPortrait utilizza un modello di diffusione robusto e lo integra con un modulo di movimento per trasformare la sequenza di punti di riferimento in un ritratto animato fotorealistico e temporalmente coerente.

AniPortrait: Funzionamento e Metodologia

Il framework AniPortrait proposto comprende due moduli, ovvero Lmk2Video e Audio2Lmk. Il modulo Audio2Lmk tenta di estrarre una sequenza di punti di riferimento che cattura i movimenti intricati delle labbra e le espressioni facciali dall’input audio, mentre il modulo Lmk2Video utilizza questa sequenza di punti di riferimento per generare video di ritratto di alta qualità con stabilità temporale. La figura seguente presenta una panoramica del funzionamento del framework AniPortrait. Come si può osservare, il framework AniPortrait estrae prima la mesh facciale 3D e la pose della testa dall’audio e le proietta successivamente in punti chiave 2D. Nella seconda fase, il framework utilizza un modello di diffusione per trasformare i punti chiave 2D in un video di ritratto con due fasi addestrate contemporaneamente all’interno della rete.

Audio2Lmk

Per una data sequenza di snippet di parlato, l’obiettivo principale del framework AniPortrait è prevedere la sequenza corrispondente di mesh facciali 3D con rappresentazioni vettoriali di traslazione e rotazione. Il framework AniPortrait utilizza il metodo wav2vec pre-addestrato per estrarre le caratteristiche audio e il modello esibisce un alto grado di generalizzazione, ed è in grado di riconoscere l’intonazione e la pronuncia dall’audio con precisione, aspetto che gioca un ruolo cruciale nella generazione di animazioni facciali realistiche. Sfruttando le caratteristiche audio robuste acquisite, il framework AniPortrait è in grado di utilizzare efficacemente un’architettura semplice costituita da due strati fc per convertire queste caratteristiche in mesh facciali 3D.

Lmk2Video

Per un’immagine di ritratto di riferimento e una sequenza di punti di riferimento facciali, il modulo Lmk2Video proposto crea un’animazione di ritratto temporalmente coerente, e questa animazione allinea il movimento con la sequenza di punti di riferimento, mantiene un aspetto che è coerente con l’immagine di riferimento e, infine, il framework rappresenta l’animazione del ritratto come una sequenza di frame di ritratto. La progettazione della struttura di rete di Lmk2Video trae ispirazione dal framework AnimateAnyone esistente. Il framework AniPortrait utilizza un modello di diffusione Stable Diffusion 1.5, un modello di diffusione estremamente potente, come suo backbone e incorpora un modulo di movimento temporale che converte efficacemente gli input di rumore multi-frame in una sequenza di frame video.

AniPortrait: Implementazione e Risultato

Per la fase Audio2Lmk, il framework AniPortrait adotta il componente wav2vec2.0 come suo backbone e sfrutta l’architettura MediaPipe per estrarre mesh 3D e pose 6D per le annotazioni. Il modello ottiene i dati di addestramento per il componente Audio2Mesh dal proprio set di dati interno che comprende circa 60 minuti di dati di parlato di alta qualità provenienti da un solo speaker. Per garantire che la mesh 3D estratta dal componente MediaPipe sia stabile, l’attore vocale è istruito a guardare la telecamera e mantenere una posizione della testa costante durante l’intero processo di registrazione.

Come dimostrato nell’immagine seguente, il framework AniPortrait genera una serie di animazioni che dimostrano una qualità e un realismo superiori.

Pensieri Finali

In questo articolo, abbiamo parlato di AniPortrait, un framework innovativo progettato per generare animazioni di alta qualità guidate da un’immagine di ritratto di riferimento e da un campione audio. Inserendo semplicemente un’immagine di riferimento e un clip audio, il framework AniPortrait è in grado di generare un video di ritratto che presenta movimenti naturali della testa e movimenti delle labbra fluidi. Sfruttando le robuste capacità di generalizzazione del modello di diffusione, il framework AniPortrait genera animazioni che mostrano una qualità di immagine realistica impressionante e un movimento realistico. Il funzionamento del framework AniPortrait è diviso in due fasi. In primo luogo, il framework AniPortrait estrae le rappresentazioni intermedie 3D dai campioni audio e le proietta in una sequenza di punti di riferimento facciali 2D. Successivamente, il framework utilizza un modello di diffusione robusto abbinato a un modulo di movimento per convertire le sequenze di punti di riferimento in animazioni fotorealistiche e temporalmente coerenti.