Intelligence artificielle
LipSync3D de Google offre une meilleure synchronisation des mouvements de la bouche "Deepfaked"
A collaboration entre les chercheurs de Google AI et l'Indian Institute of Technology Kharagpur propose un nouveau cadre pour synthétiser les têtes parlantes à partir de contenu audio. Le projet vise à produire des moyens optimisés et dotés de ressources raisonnables pour créer du contenu vidéo « tête parlante » à partir de l'audio, dans le but de synchroniser les mouvements des lèvres avec l'audio doublé ou traduit automatiquement, et pour une utilisation dans des avatars, dans des applications interactives et dans d'autres environnements en temps réel.
Les modèles d’apprentissage automatique formés au cours du processus – appelés LipSync3D – ne nécessitent qu’une seule vidéo de l’identité du visage cible comme données d’entrée. Le pipeline de préparation des données sépare l'extraction de la géométrie du visage de l'évaluation de l'éclairage et des autres facettes d'une vidéo d'entrée, permettant une formation plus économique et ciblée.
En fait, la contribution la plus notable de LipSync3D à l'ensemble des efforts de recherche dans ce domaine est peut-être son algorithme de normalisation de l'éclairage, qui découple l'apprentissage et l'éclairage d'inférence.
Lors du prétraitement des trames de données d'entrée, le système doit identifier et supprimer les points spéculaires, car ceux-ci sont spécifiques aux conditions d'éclairage dans lesquelles la vidéo a été prise et interféreront autrement avec le processus de rééclairage.
LipSync3D, comme son nom l'indique, n'effectue pas une simple analyse de pixels sur les visages qu'il évalue, mais utilise activement des repères faciaux identifiés pour générer des maillages mobiles de style CGI, ainsi que les textures "dépliées" qui les entourent dans un CGI traditionnel. pipeline.
Outre la nouvelle méthode de rééclairage, les chercheurs affirment que LipSync3D offre trois innovations principales par rapport aux travaux précédents : la séparation de la géométrie, de l'éclairage, de la pose et de la texture en flux de données discrets dans un espace normalisé ; un modèle de prédiction de texture auto-régressif facilement entraînable qui produit une synthèse vidéo cohérente dans le temps ; et un réalisme accru, évalué par des évaluations humaines et des mesures objectives.
LipSync3D peut dériver le mouvement de la géométrie appropriée des lèvres directement à partir de l'audio en analysant les phonèmes et d'autres facettes de la parole, et en les traduisant en poses musculaires correspondantes connues autour de la bouche.
Ce processus utilise un pipeline de prédiction conjointe, où la géométrie et la texture déduites ont des encodeurs dédiés dans une configuration d'auto-encodeur, mais partagent un encodeur audio avec la parole qui est destinée à être imposée au modèle :
La synthèse de mouvement labile de LipSync3D est également destinée à alimenter les avatars CGI stylisés, qui ne sont en fait que le même type d'informations de maillage et de texture que l'imagerie du monde réel :
Les chercheurs prévoient également l'utilisation d'avatars avec une sensation un peu plus réaliste :
Les exemples de temps de formation pour les vidéos vont de 3 à 5 heures pour une vidéo de 2 à 5 minutes, dans un pipeline qui utilise TensorFlow, Python et C++ sur une GeForce GTX 1080. Les sessions de formation ont utilisé une taille de lot de 128 images sur 500-1000 époques, chaque époque représentant une évaluation complète de la vidéo.
Vers une resynchronisation dynamique du mouvement des lèvres
Le domaine de la resynchronisation des lèvres pour s'adapter à une nouvelle piste audio a reçu beaucoup d'attention dans la recherche en vision par ordinateur ces dernières années (voir ci-dessous), notamment parce qu'il s'agit d'un sous-produit de controverses. technologie deepfake.
En 2017, l'Université de Washington recherche présentée capable d'apprendre la synchronisation labiale à partir de l'audio, en l'utilisant pour modifier les mouvements des lèvres du président Obama de l'époque. En 2018; l'Institut Max Planck pour l'informatique a dirigé une autre initiative de recherche pour activer le transfert vidéo identité> identité, avec synchronisation labiale a sous-produit du procédé; et en mai 2021, la startup AI FlawlessAI a dévoilé sa technologie propriétaire de synchronisation labiale TrueSync, largement reçu dans la presse en tant que catalyseur des technologies de doublage améliorées pour les sorties de films majeures dans toutes les langues.
Et, bien sûr, le développement en cours de référentiels open source deepfake fournit une autre branche de recherche active contribuée par les utilisateurs dans ce domaine de la synthèse d'images faciales.