Angolo di Anderson

La tecnologia LipSync3D di Google offre una migliore sincronizzazione del movimento labiale “deepfaked”

mm

Una collaborazione tra i ricercatori di Google AI e l’Indian Institute of Technology Kharagpur offre un nuovo framework per sintetizzare teste parlanti da contenuti audio. Il progetto mira a produrre metodi ottimizzati e ragionevolmente risorsati per creare contenuti video di “teste parlanti” da audio, per gli scopi di sincronizzazione dei movimenti labiali con audio doppiati o tradotti con macchina, e per l’uso in avatar, in applicazioni interattive e in altri ambienti in tempo reale.

Fonte: https://www.youtube.com/watch?v=L1StbX9OznY

Fonte: https://www.youtube.com/watch?v=L1StbX9OznY

I modelli di apprendimento automatico addestrati nel processo – chiamati LipSync3D – richiedono solo un video singolo dell’identità del viso di destinazione come dati di input. La pipeline di preparazione dei dati separa l’estrazione della geometria facciale dalla valutazione dell’illuminazione e di altri aspetti di un video di input, consentendo un addestramento più economico e focalizzato.

Il flusso di lavoro a due stadi di LipSync3D. Sopra, la generazione di un viso 3D dinamicamente testurizzato dall'audio di destinazione; sotto, l'inserimento della mesh generata in un video di destinazione.

Il flusso di lavoro a due stadi di LipSync3D. Sopra, la generazione di un viso 3D dinamicamente testurizzato dall’audio di destinazione; sotto, l’inserimento della mesh generata in un video di destinazione.

In realtà, il contributo più notevole di LipSync3D alla ricerca in questo settore potrebbe essere il suo algoritmo di normalizzazione dell’illuminazione, che decoppia l’addestramento e l’inferenza dell’illuminazione.

La decoupling dei dati di illuminazione dalla geometria generale aiuta LipSync3D a produrre output di movimento labiale più realistico in condizioni impegnative. Altri approcci degli ultimi anni si sono limitati a condizioni di illuminazione 'fisse' che non rivelano la loro capacità limitata in questo senso.

La decoupling dei dati di illuminazione dalla geometria generale aiuta LipSync3D a produrre output di movimento labiale più realistico in condizioni impegnative. Altri approcci degli ultimi anni si sono limitati a condizioni di illuminazione ‘fisse’ che non rivelano la loro capacità limitata in questo senso.

Durante la pre-elaborazione dei frame di input, il sistema deve identificare e rimuovere i punti speculari, poiché questi sono specifici delle condizioni di illuminazione sotto cui è stato girato il video e altrimenti interferirebbero con il processo di ri-illuminazione.

LipSync3D, come suggerisce il nome, non esegue solo un’analisi dei pixel sui visi che valuta, ma utilizza attivamente i punti di riferimento facciali identificati per generare mesh CGI-style mobili, insieme alle texture “scoperte” che vengono avvolte intorno ad essi in una pipeline CGI tradizionale.

Normalizzazione della posa in LipSync3D. A sinistra sono presenti i frame di input e le caratteristiche rilevate; al centro, i vertici normalizzati della mesh di valutazione generata; e a destra, l'atlante di texture corrispondente, che fornisce la verità di base per la previsione della texture. Fonte: https://arxiv.org/pdf/2106.04185.pdf

Normalizzazione della posa in LipSync3D. A sinistra sono presenti i frame di input e le caratteristiche rilevate; al centro, i vertici normalizzati della mesh di valutazione generata; e a destra, l’atlante di texture corrispondente, che fornisce la verità di base per la previsione della texture. Fonte: https://arxiv.org/pdf/2106.04185.pdf

Oltre al metodo di ri-illuminazione innovativo, i ricercatori affermano che LipSync3D offre tre principali innovazioni rispetto ai lavori precedenti: la separazione della geometria, dell’illuminazione, della posa e della texture in flussi di dati discreti in uno spazio normalizzato; un modello di previsione della texture auto-regressivo facilmente addestrabile che produce una sintesi video temporalmente coerente; e un aumento della realismo, come valutato dalle valutazioni umane e dalle metriche oggettive.

La divisione delle varie facce dell'immagine facciale del video consente un maggiore controllo nella sintesi video.

La divisione delle varie facce dell’immagine facciale del video consente un maggiore controllo nella sintesi video.

LipSync3D può derivare la geometria del movimento labiale appropriata direttamente dall’audio analizzando i fonemi e altri aspetti del discorso, e traducendoli in pose muscolari note corrispondenti intorno all’area della bocca.

Questo processo utilizza una pipeline di previsione congiunta, dove la geometria e la texture inferite hanno encoder dedicati in un set-up di autoencoder, ma condividono un encoder audio con il discorso che deve essere impostato sul modello:

La sintesi del movimento labiale di LipSync3D è anche destinata a alimentare avatar CGI stilizzati, che in effetti sono solo lo stesso tipo di mesh e informazioni di texture di immagini del mondo reale:

Un avatar 3D stilizzato ha i suoi movimenti labiali alimentati in tempo reale da un video di un relatore di origine. In un tale scenario, i migliori risultati sarebbero ottenuti con un pre-addestramento personalizzato.

Un avatar 3D stilizzato ha i suoi movimenti labiali alimentati in tempo reale da un video di un relatore di origine. In un tale scenario, i migliori risultati sarebbero ottenuti con un pre-addestramento personalizzato.

I ricercatori anticipano anche l’uso di avatar con un aspetto leggermente più realistico:

I tempi di addestramento di esempio per i video vanno da 3 a 5 ore per un video da 2 a 5 minuti, in una pipeline che utilizza TensorFlow, Python e C++ su una GeForce GTX 1080. Le sessioni di addestramento hanno utilizzato una dimensione del batch di 128 frame su 500-1000 epoche, con ogni epoca che rappresenta una valutazione completa del video.

Verso la sincronizzazione dinamica del movimento labiale

Il campo della sincronizzazione labiale per adattarsi a una nuova traccia audio ha ricevuto molta attenzione nella ricerca di visione computerizzata negli ultimi anni (vedi sotto), non meno come prodotto della tecnologia di “deepfake” controversa.

Nel 2017, l’Università di Washington ha presentato una ricerca in grado di apprendere la sincronizzazione labiale dall’audio, utilizzandola per cambiare i movimenti labiali dell’allora presidente Obama. Nel 2018, l’Istituto Max Planck per l’informatica ha guidato un’altra iniziativa di ricerca per abilitare il trasferimento video da identità a identità, con la sincronizzazione labiale come prodotto del processo; e nel maggio 2021, l’azienda di intelligenza artificiale FlawlessAI ha rivelato la sua tecnologia di sincronizzazione labiale proprietaria TrueSync, ampiamente ricevuta dalla stampa come abilitatore di tecnologie di doppiaggio migliorate per importanti uscite di film in diverse lingue.

E, naturalmente, lo sviluppo continuo di repository open source di deepfake fornisce un altro ramo di ricerca attiva e contribuita dagli utenti in questa sfera di sintesi di immagini facciali.

nc tecnologia TrueSync, ampiamente ricevuta dalla stampa come abilitatore di tecnologie di doppiaggio migliorate per importanti uscite di film in diverse lingue. E, naturalmente, lo sviluppo continuo di repository open source di deepfake fornisce un altro ramo di ricerca attiva e contribuita dagli utenti in questa sfera di sintesi di immagini facciali.

Scrittore su apprendimento automatico, specialista di dominio nella sintesi di immagini umane. Ex capo della ricerca contenuti presso Metaphysic.ai.