Intelligenza Artificiale
LipSync3D di Google offre una migliore sincronizzazione del movimento della bocca "deepfaked".
A collaborazione tra i ricercatori di Google AI e l'Indian Institute of Technology Kharagpur offre un nuovo framework per sintetizzare teste parlanti da contenuti audio. Il progetto mira a produrre modi ottimizzati e dotati di risorse ragionevoli per creare contenuti video "teste parlanti" dall'audio, allo scopo di sincronizzare i movimenti delle labbra con l'audio doppiato o tradotto automaticamente e per l'uso in avatar, in applicazioni interattive e in altri ambienti in tempo reale.
I modelli di machine learning addestrati nel processo – chiamati LipSync3D – richiedono solo un singolo video dell’identità del volto target come dati di input. La pipeline di preparazione dei dati separa l'estrazione della geometria facciale dalla valutazione dell'illuminazione e di altri aspetti di un video di input, consentendo una formazione più economica e mirata.
In effetti, il contributo più notevole di LipSync3D al corpus di sforzi di ricerca in quest'area potrebbe essere il suo algoritmo di normalizzazione dell'illuminazione, che disaccoppia l'illuminazione di addestramento e di inferenza.
Durante la pre-elaborazione dei frame di dati di input, il sistema deve identificare e rimuovere i punti speculari, poiché questi sono specifici delle condizioni di illuminazione in cui è stato ripreso il video e interferiranno altrimenti con il processo di riilluminazione.
LipSync3D, come suggerisce il nome, non sta eseguendo una semplice analisi dei pixel sui volti che valuta, ma utilizza attivamente punti di riferimento facciali identificati per generare mesh mobili in stile CGI, insieme alle trame "dispiegate" che sono avvolte attorno a loro in un CGI tradizionale tubatura.
Oltre al nuovo metodo di riilluminazione, i ricercatori affermano che LipSync3D offre tre innovazioni principali rispetto al lavoro precedente: la separazione di geometria, illuminazione, posa e trama in flussi di dati discreti in uno spazio normalizzato; un modello di previsione della trama auto-regressiva facilmente addestrabile che produce una sintesi video coerente nel tempo; e maggiore realismo, come valutato da valutazioni umane e metriche oggettive.
LipSync3D può derivare il movimento della geometria delle labbra appropriato direttamente dall'audio analizzando fonemi e altri aspetti del discorso e traducendoli in pose muscolari corrispondenti note intorno all'area della bocca.
Questo processo utilizza una pipeline di previsione congiunta, in cui la geometria e la trama dedotte hanno codificatori dedicati in una configurazione di codificatore automatico, ma condividono un codificatore audio con il discorso che deve essere imposto al modello:
La labile sintesi del movimento di LipSync3D ha anche lo scopo di alimentare avatar CGI stilizzati, che in effetti sono solo lo stesso tipo di informazioni su mesh e texture delle immagini del mondo reale:
I ricercatori prevedono anche l'uso di avatar con una sensazione leggermente più realistica:
I tempi di addestramento di esempio per i video vanno da 3-5 ore per un video di 2-5 minuti, in una pipeline che utilizza TensorFlow, Python e C++ su una GeForce GTX 1080. Le sessioni di addestramento hanno utilizzato una dimensione batch di 128 fotogrammi su 500-1000 epoche, con ogni epoca che rappresenta una valutazione completa del video.
Verso la risincronizzazione dinamica del movimento delle labbra
Il campo della risincronizzazione delle labbra per accogliere una nuova traccia audio ha ricevuto molta attenzione nella ricerca sulla visione artificiale negli ultimi anni (vedi sotto), anche perché è un sottoprodotto di controverse tecnologia deepfake.
Nel 2017 l'Università di Washington ricerca presentata capace di imparare la sincronizzazione labiale dall'audio, usandolo per cambiare i movimenti delle labbra dell'allora presidente Obama. Nel 2018; guidato dal Max Planck Institute for Informatics un'altra iniziativa di ricerca per abilitare il trasferimento video identità>identità, con sincronizzazione labiale a sottoprodotto del processo; e nel maggio del 2021 la startup AI FlawlessAI ha rivelato la sua tecnologia proprietaria di sincronizzazione labiale TrueSync, ampiamente ricevuto sulla stampa come promotore di migliori tecnologie di doppiaggio per le principali uscite cinematografiche in tutte le lingue.
E, naturalmente, il continuo sviluppo di repository open source deepfake fornisce un altro ramo della ricerca attiva del contributo degli utenti in questa sfera della sintesi dell'immagine facciale.