Intelligence artificielle
Modifier les émotions dans les séquences vidéo avec l'IA
Des chercheurs grecs et britanniques ont développé une nouvelle approche d'apprentissage en profondeur pour changer les expressions et l'humeur apparente des personnes dans les séquences vidéo, tout en préservant la fidélité de leurs mouvements de lèvres à l'audio original d'une manière que les tentatives précédentes n'ont pas pu égaler. .
Ce domaine particulier entre dans la catégorie croissante des émotions profondes, où l'identité du locuteur d'origine est préservée, mais ses expressions et micro-expressions sont altérées. À mesure que cette technologie d'IA évolue, elle offre la possibilité aux productions cinématographiques et télévisuelles d'apporter des modifications subtiles aux expressions des acteurs – mais ouvre également une catégorie relativement nouvelle de deepfakes vidéo « modifiés par les émotions ».
Changer de visage
Les expressions faciales des personnalités publiques, telles que les politiciens, sont rigoureusement conservées ; en 2016, les expressions faciales d'Hillary Clinton sont apparues sous haute surveillance médiatique pour leur impact négatif potentiel sur ses perspectives électorales ; les expressions faciales, il s'avère, sont aussi un sujet d'intérêt au FBI; et ils sont un indicateur critique dans les entretiens d'embauche, faisant de la perspective (lointaine) d'un filtre de "contrôle de l'expression" en direct un développement souhaitable pour les demandeurs d'emploi essayant de passer une présélection sur Zoom.
Une étude de 2005 au Royaume-Uni a affirmé que l'apparence du visage affecte les décisions de vote, tandis qu'un article du Washington Post de 2019 examinait utilisation du partage de clips vidéo "hors contexte", qui est actuellement la chose la plus proche que les partisans des fausses nouvelles doivent réellement pouvoir changer la façon dont une personnalité publique semble se comporter, réagir ou se sentir.
Vers la manipulation de l'expression neurale
A l'heure actuelle, l'état de l'art en matière de manipulation de l'affect facial est assez rudimentaire, puisqu'il s'agit de s'attaquer au démêlage de concepts de haut niveau (tels que triste, en colère, heureux vous, souriant) à partir du contenu vidéo réel. Bien que les architectures deepfake traditionnelles semblent assez bien réaliser ce démêlage, la mise en miroir des émotions à travers différentes identités nécessite toujours que deux ensembles de visages de formation contiennent des expressions correspondantes pour chaque identité.
Ce qui est souhaitable, et n'a pas encore été parfaitement atteint, est de reconnaître comment le sujet B (par exemple) sourit, et de créer simplement un 'sourire' basculer dans l'architecture, sans avoir besoin de la mapper sur une image équivalente du sujet A souriant.
La nouveau papier est intitulé Neural Emotion Director : Contrôle sémantique préservant la parole des expressions faciales dans les vidéos "dans la nature", et vient de chercheurs de l'École de génie électrique et informatique de l'Université technique nationale d'Athènes, de l'Institut d'informatique de la Fondation pour la recherche et la technologie Hellas (FORTH) et du Collège d'ingénierie, de mathématiques et de sciences physiques de la Université d'Exeter au Royaume-Uni.
L'équipe a développé un cadre appelé Directeur des émotions neurales (NED), intégrant un réseau de traduction des émotions basé sur la 3D, Manipulateur d'émotions basé sur la 3D.
NED prend une séquence reçue de paramètres d'expression et les traduit en un domaine cible. Il est formé sur des données non parallèles, ce qui signifie qu'il n'est pas nécessaire de s'entraîner sur des ensembles de données où chaque identité a des expressions faciales correspondantes.
Les auteurs affirment que NED est la première méthode basée sur la vidéo pour «diriger» des acteurs dans des situations aléatoires et imprévisibles, et ont rendu le code disponible sur NED. page du projet.
Méthode et architecture
Le système est formé sur deux grands ensembles de données vidéo qui ont été annotés avec des étiquettes « émotion ».
La sortie est activée par un rendu de visage vidéo qui restitue l'émotion souhaitée à la vidéo à l'aide de techniques traditionnelles de synthèse d'images faciales, y compris la segmentation du visage, l'alignement des repères faciaux et le mélange, où seule la zone du visage est synthétisée, puis imposée sur le métrage d'origine.
Initialement, le système obtient une récupération faciale 3D et impose des alignements de repères faciaux sur les images d'entrée afin d'identifier l'expression. Après cela, ces paramètres d'expression récupérés sont transmis au manipulateur d'émotions basé sur 3D, et un vecteur de style calculé au moyen d'une étiquette sémantique (telle que « heureux ») ou d'un fichier de référence.
Un fichier de référence est une vidéo représentant une expression/émotion particulière reconnue, qui est ensuite imposée à l'intégralité de la vidéo cible, en remplaçant l'expression originale.
La forme de visage 3D finale générée est ensuite concaténée avec la coordonnée moyenne normalisée du visage (NMFC) et les images des yeux (les points rouges dans l'image ci-dessus), et transmise au moteur de rendu neuronal, qui effectue la manipulation finale.
Résultats
Les chercheurs ont mené des études approfondies, y compris des études d'utilisateurs et d'ablation, pour évaluer l'efficacité de la méthode par rapport aux travaux antérieurs, et ont constaté que dans la plupart des catégories, la NED surpasse l'état actuel de la technique dans ce sous-secteur de la manipulation faciale neurale.
Les auteurs de l'article envisagent que les implémentations ultérieures de ce travail, et des outils de nature similaire, seront utiles principalement dans les industries de la télévision et du cinéma, déclarant :
«Notre méthode ouvre une pléthore de nouvelles possibilités d'applications utiles des technologies de rendu neuronal, allant de la post-production de films et des jeux vidéo aux avatars affectifs photoréalistes.»
Il s'agit d'un travail précoce dans le domaine, mais l'un des premiers à tenter une reconstitution faciale avec de la vidéo plutôt qu'avec des images fixes. Bien que les vidéos soient essentiellement de nombreuses images fixes qui s'exécutent ensemble très rapidement, il existe des considérations temporelles qui rendent les applications précédentes de transfert d'émotion moins efficaces. Dans la vidéo d'accompagnement et les exemples de l'article, les auteurs incluent des comparaisons visuelles de la sortie de NED par rapport à d'autres méthodes récentes comparables.
Des comparaisons plus détaillées et de nombreux autres exemples de NED sont disponibles dans la vidéo complète ci-dessous :
3 décembre 2021, 18h30 GMT+2 - À la demande de l'un des auteurs de l'article, des corrections ont été apportées concernant le "fichier de référence", dont j'ai déclaré par erreur qu'il s'agissait d'une photo fixe (alors qu'il s'agit en fait d'un clip vidéo). Également une modification du nom de l'Institut d'informatique de la Fondation pour la recherche et la technologie.
3 décembre 2021, 20h50 GMT+2 - Une deuxième demande de l'un des auteurs de l'article pour une nouvelle modification du nom de l'institution susmentionnée.