Intelligenza Artificiale

LipSync3D di Google offre una migliore sincronizzazione del movimento della bocca "deepfaked".

aggiornato on Dicembre 9, 2022

A collaborazione tra i ricercatori di Google AI e l'Indian Institute of Technology Kharagpur offre un nuovo framework per sintetizzare teste parlanti da contenuti audio. Il progetto mira a produrre modi ottimizzati e dotati di risorse ragionevoli per creare contenuti video "teste parlanti" dall'audio, allo scopo di sincronizzare i movimenti delle labbra con l'audio doppiato o tradotto automaticamente e per l'uso in avatar, in applicazioni interattive e in altri ambienti in tempo reale.

Fonte: https://www.youtube.com/watch?v=L1StbX9OznY

I modelli di machine learning addestrati nel processo – chiamati LipSync3D – richiedono solo un singolo video dell’identità del volto target come dati di input. La pipeline di preparazione dei dati separa l'estrazione della geometria facciale dalla valutazione dell'illuminazione e di altri aspetti di un video di input, consentendo una formazione più economica e mirata.

Il flusso di lavoro in due fasi di LipSync3D. Sopra, la generazione di un volto 3D strutturato dinamicamente dall'audio "target"; sotto, l'inserimento della mesh generata in un video target.

In effetti, il contributo più notevole di LipSync3D al corpus di sforzi di ricerca in quest'area potrebbe essere il suo algoritmo di normalizzazione dell'illuminazione, che disaccoppia l'illuminazione di addestramento e di inferenza.

Il disaccoppiamento dei dati di illuminazione dalla geometria generale aiuta LipSync3D a produrre un output di movimento delle labbra più realistico in condizioni difficili. Altri approcci degli ultimi anni si sono limitati a condizioni di illuminazione "fisse" che non rivelano la loro capacità più limitata in questo senso.

Durante la pre-elaborazione dei frame di dati di input, il sistema deve identificare e rimuovere i punti speculari, poiché questi sono specifici delle condizioni di illuminazione in cui è stato ripreso il video e interferiranno altrimenti con il processo di riilluminazione.

LipSync3D, come suggerisce il nome, non sta eseguendo una semplice analisi dei pixel sui volti che valuta, ma utilizza attivamente punti di riferimento facciali identificati per generare mesh mobili in stile CGI, insieme alle trame "dispiegate" che sono avvolte attorno a loro in un CGI tradizionale tubatura.

Posa normalizzazione in LipSync3D. A sinistra ci sono i frame di input e le caratteristiche rilevate; al centro, i vertici normalizzati della valutazione della mesh generata; e sulla destra, il corrispondente atlante delle trame, che fornisce la verità di base per la previsione delle trame. Fonte: https://arxiv.org/pdf/2106.04185.pdf

Oltre al nuovo metodo di riilluminazione, i ricercatori affermano che LipSync3D offre tre innovazioni principali rispetto al lavoro precedente: la separazione di geometria, illuminazione, posa e trama in flussi di dati discreti in uno spazio normalizzato; un modello di previsione della trama auto-regressiva facilmente addestrabile che produce una sintesi video coerente nel tempo; e maggiore realismo, come valutato da valutazioni umane e metriche oggettive.

La suddivisione delle varie sfaccettature delle immagini facciali video consente un maggiore controllo nella sintesi video.

LipSync3D può derivare il movimento della geometria delle labbra appropriato direttamente dall'audio analizzando fonemi e altri aspetti del discorso e traducendoli in pose muscolari corrispondenti note intorno all'area della bocca.

Questo processo utilizza una pipeline di previsione congiunta, in cui la geometria e la trama dedotte hanno codificatori dedicati in una configurazione di codificatore automatico, ma condividono un codificatore audio con il discorso che deve essere imposto al modello:

La labile sintesi del movimento di LipSync3D ha anche lo scopo di alimentare avatar CGI stilizzati, che in effetti sono solo lo stesso tipo di informazioni su mesh e texture delle immagini del mondo reale:

Un avatar 3D stilizzato ha i movimenti delle labbra alimentati in tempo reale da un video del relatore sorgente. In uno scenario del genere, i migliori risultati si otterrebbero con un pre-training personalizzato.

I ricercatori prevedono anche l'uso di avatar con una sensazione leggermente più realistica:

I tempi di addestramento di esempio per i video vanno da 3-5 ore per un video di 2-5 minuti, in una pipeline che utilizza TensorFlow, Python e C++ su una GeForce GTX 1080. Le sessioni di addestramento hanno utilizzato una dimensione batch di 128 fotogrammi su 500-1000 epoche, con ogni epoca che rappresenta una valutazione completa del video.

LipSync3D: volti parlanti 3D personalizzati da video utilizzando la normalizzazione della posa e dell'illuminazione

LipSync3D: Personalized 3D Talking Faces from Video using Pose and Lighting Normalization

Watch this video on YouTube

Verso la risincronizzazione dinamica del movimento delle labbra

Il campo della risincronizzazione delle labbra per accogliere una nuova traccia audio ha ricevuto molta attenzione nella ricerca sulla visione artificiale negli ultimi anni (vedi sotto), anche perché è un sottoprodotto di controverse tecnologia deepfake.

Nel 2017 l'Università di Washington ricerca presentata capace di imparare la sincronizzazione labiale dall'audio, usandolo per cambiare i movimenti delle labbra dell'allora presidente Obama. Nel 2018; guidato dal Max Planck Institute for Informatics un'altra iniziativa di ricerca per abilitare il trasferimento video identità>identità, con sincronizzazione labiale a sottoprodotto del processo; e nel maggio del 2021 la startup AI FlawlessAI ha rivelato la sua tecnologia proprietaria di sincronizzazione labiale TrueSync, ampiamente ricevuto sulla stampa come promotore di migliori tecnologie di doppiaggio per le principali uscite cinematografiche in tutte le lingue.

E, naturalmente, il continuo sviluppo di repository open source deepfake fornisce un altro ramo della ricerca attiva del contributo degli utenti in questa sfera della sintesi dell'immagine facciale.