talon Modifier les émotions dans les séquences vidéo avec l'IA - Unite.AI
Suivez nous sur

Intelligence artificielle

Modifier les émotions dans les séquences vidéo avec l'IA

mm
Le kit de préparation mis à jour on

Des chercheurs grecs et britanniques ont développé une nouvelle approche d'apprentissage en profondeur pour changer les expressions et l'humeur apparente des personnes dans les séquences vidéo, tout en préservant la fidélité de leurs mouvements de lèvres à l'audio original d'une manière que les tentatives précédentes n'ont pas pu égaler. .

De la vidéo accompagnant l'article (intégrée à la fin de cet article), un bref extrait de l'acteur Al Pacino dont l'expression est subtilement modifiée par NED, sur la base de concepts sémantiques de haut niveau. Source : https://www.youtube.com/watch?v=Li6W8pRDMJQ

De la vidéo accompagnant l'article (intégrée à la fin de cet article), un bref extrait de l'acteur Al Pacino dont l'expression est subtilement modifiée par NED, basée sur des concepts sémantiques de haut niveau définissant les expressions faciales individuelles et leur émotion associée. La méthode "Reference-Driven" sur la droite prend la ou les émotions interprétées d'une vidéo source et les applique à l'intégralité d'une séquence vidéo. Source : https://www.youtube.com/watch?v=Li6W8pRDMJQ

Ce domaine particulier entre dans la catégorie croissante des émotions profondes, où l'identité du locuteur d'origine est préservée, mais ses expressions et micro-expressions sont altérées. À mesure que cette technologie d'IA évolue, elle offre la possibilité aux productions cinématographiques et télévisuelles d'apporter des modifications subtiles aux expressions des acteurs – mais ouvre également une catégorie relativement nouvelle de deepfakes vidéo « modifiés par les émotions ».

Changer de visage

Les expressions faciales des personnalités publiques, telles que les politiciens, sont rigoureusement conservées ; en 2016, les expressions faciales d'Hillary Clinton sont apparues sous haute surveillance médiatique pour leur impact négatif potentiel sur ses perspectives électorales ; les expressions faciales, il s'avère, sont aussi un sujet d'intérêt au FBI; et ils sont un indicateur critique dans les entretiens d'embauche, faisant de la perspective (lointaine) d'un filtre de "contrôle de l'expression" en direct un développement souhaitable pour les demandeurs d'emploi essayant de passer une présélection sur Zoom.

Une étude de 2005 au Royaume-Uni a affirmé que l'apparence du visage affecte les décisions de vote, tandis qu'un article du Washington Post de 2019 examinait utilisation du partage de clips vidéo "hors contexte", qui est actuellement la chose la plus proche que les partisans des fausses nouvelles doivent réellement pouvoir changer la façon dont une personnalité publique semble se comporter, réagir ou se sentir.

Vers la manipulation de l'expression neurale

A l'heure actuelle, l'état de l'art en matière de manipulation de l'affect facial est assez rudimentaire, puisqu'il s'agit de s'attaquer au démêlage de concepts de haut niveau (tels que triste, en colère, heureux vous, souriant) à partir du contenu vidéo réel. Bien que les architectures deepfake traditionnelles semblent assez bien réaliser ce démêlage, la mise en miroir des émotions à travers différentes identités nécessite toujours que deux ensembles de visages de formation contiennent des expressions correspondantes pour chaque identité.

Étant donné que l'identification faciale et les caractéristiques de pose sont actuellement si étroitement liées, une parité étendue d'expression, de pose de tête et (dans une moindre mesure) d'éclairage est nécessaire sur deux ensembles de données faciales afin de former un modèle deepfake efficace sur des systèmes tels que DeepFaceLab. Moins une configuration particulière (telle que "vue latérale/souriant/éclairé par le soleil") est présentée dans les deux ensembles de visages, moins elle sera rendue avec précision dans une vidéo deepfake, si nécessaire.

Exemples typiques d'images de visage dans des ensembles de données utilisés pour former des deepfakes. Actuellement, vous ne pouvez manipuler l'expression faciale d'une personne qu'en créant des voies d'expression <> d'expression spécifiques à l'ID dans un réseau de neurones deepfake. Le logiciel deepfake de l'ère 2017 n'a pas de compréhension intrinsèque et sémantique d'un «sourire» - il ne fait que cartographier et faire correspondre les changements perçus dans la géométrie du visage entre les deux sujets.

Ce qui est souhaitable, et n'a pas encore été parfaitement atteint, est de reconnaître comment le sujet B (par exemple) sourit, et de créer simplement un 'sourire' basculer dans l'architecture, sans avoir besoin de la mapper sur une image équivalente du sujet A souriant.

La nouveau papier est intitulé Neural Emotion Director : Contrôle sémantique préservant la parole des expressions faciales dans les vidéos "dans la nature", et vient de chercheurs de l'École de génie électrique et informatique de l'Université technique nationale d'Athènes, de l'Institut d'informatique de la Fondation pour la recherche et la technologie Hellas (FORTH) et du Collège d'ingénierie, de mathématiques et de sciences physiques de la Université d'Exeter au Royaume-Uni.

L'équipe a développé un cadre appelé Directeur des émotions neurales (NED), intégrant un réseau de traduction des émotions basé sur la 3D, Manipulateur d'émotions basé sur la 3D.

NED prend une séquence reçue de paramètres d'expression et les traduit en un domaine cible. Il est formé sur des données non parallèles, ce qui signifie qu'il n'est pas nécessaire de s'entraîner sur des ensembles de données où chaque identité a des expressions faciales correspondantes.

La vidéo, montrée à la fin de cet article, passe par une série de tests où NED impose un état émotionnel apparent sur des images de l'ensemble de données YouTube.

La vidéo, montrée à la fin de cet article, passe par une série de tests où NED impose un état émotionnel apparent sur des images de l'ensemble de données YouTube.

Les auteurs affirment que NED est la première méthode basée sur la vidéo pour «diriger» des acteurs dans des situations aléatoires et imprévisibles, et ont rendu le code disponible sur NED. page du projet.

Méthode et architecture

Le système est formé sur deux grands ensembles de données vidéo qui ont été annotés avec des étiquettes « émotion ».

La sortie est activée par un rendu de visage vidéo qui restitue l'émotion souhaitée à la vidéo à l'aide de techniques traditionnelles de synthèse d'images faciales, y compris la segmentation du visage, l'alignement des repères faciaux et le mélange, où seule la zone du visage est synthétisée, puis imposée sur le métrage d'origine.

L'architecture du pipeline du Neural Emotion Detector (NED). Source : https://arxiv.org/pdf/2112.00585.pdf

L'architecture du pipeline du Neural Emotion Detector (NED). Source : https://arxiv.org/pdf/2112.00585.pdf

Initialement, le système obtient une récupération faciale 3D et impose des alignements de repères faciaux sur les images d'entrée afin d'identifier l'expression. Après cela, ces paramètres d'expression récupérés sont transmis au manipulateur d'émotions basé sur 3D, et un vecteur de style calculé au moyen d'une étiquette sémantique (telle que « heureux ») ou d'un fichier de référence.

Un fichier de référence est une vidéo représentant une expression/émotion particulière reconnue, qui est ensuite imposée à l'intégralité de la vidéo cible, en remplaçant l'expression originale.

Étapes du pipeline de transfert d'émotions, mettant en vedette divers acteurs échantillonnés à partir de vidéos YouTube.

Étapes du pipeline de transfert d'émotions, mettant en vedette divers acteurs échantillonnés à partir de vidéos YouTube.

La forme de visage 3D finale générée est ensuite concaténée avec la coordonnée moyenne normalisée du visage (NMFC) et les images des yeux (les points rouges dans l'image ci-dessus), et transmise au moteur de rendu neuronal, qui effectue la manipulation finale.

Résultats

Les chercheurs ont mené des études approfondies, y compris des études d'utilisateurs et d'ablation, pour évaluer l'efficacité de la méthode par rapport aux travaux antérieurs, et ont constaté que dans la plupart des catégories, la NED surpasse l'état actuel de la technique dans ce sous-secteur de la manipulation faciale neurale.

Les auteurs de l'article envisagent que les implémentations ultérieures de ce travail, et des outils de nature similaire, seront utiles principalement dans les industries de la télévision et du cinéma, déclarant :

«Notre méthode ouvre une pléthore de nouvelles possibilités d'applications utiles des technologies de rendu neuronal, allant de la post-production de films et des jeux vidéo aux avatars affectifs photoréalistes.»

Il s'agit d'un travail précoce dans le domaine, mais l'un des premiers à tenter une reconstitution faciale avec de la vidéo plutôt qu'avec des images fixes. Bien que les vidéos soient essentiellement de nombreuses images fixes qui s'exécutent ensemble très rapidement, il existe des considérations temporelles qui rendent les applications précédentes de transfert d'émotion moins efficaces. Dans la vidéo d'accompagnement et les exemples de l'article, les auteurs incluent des comparaisons visuelles de la sortie de NED par rapport à d'autres méthodes récentes comparables.

Des comparaisons plus détaillées et de nombreux autres exemples de NED sont disponibles dans la vidéo complète ci-dessous :

[CVPR 2022] NED : Contrôle sémantique préservant la parole des expressions faciales dans les vidéos "dans la nature"

 

3 décembre 2021, 18h30 GMT+2 - À la demande de l'un des auteurs de l'article, des corrections ont été apportées concernant le "fichier de référence", dont j'ai déclaré par erreur qu'il s'agissait d'une photo fixe (alors qu'il s'agit en fait d'un clip vidéo). Également une modification du nom de l'Institut d'informatique de la Fondation pour la recherche et la technologie.
3 décembre 2021, 20h50 GMT+2 - Une deuxième demande de l'un des auteurs de l'article pour une nouvelle modification du nom de l'institution susmentionnée.