Intelligence Artificielle

Restructuration des visages dans les vidéos avec l'apprentissage automatique

Publié May 9, 2022

Le kit de préparation mis à jour December 9, 2022

Martin Anderson

Une collaboration de recherche entre la Chine et le Royaume-Uni a mis au point une nouvelle méthode pour remodeler les visages en vidéo. La technique permet un élargissement et un rétrécissement convaincants de la structure faciale, avec une grande cohérence et une absence d'artefacts.

À partir d'une vidéo YouTube utilisée comme source par les chercheurs, l'actrice Jennifer Lawrence apparaît comme une personnalité plus vulpine (à droite). Voir la vidéo d'accompagnement intégrée au bas de l'article pour de nombreux autres exemples avec une meilleure résolution. Source : https://www.youtube.com/watch?v=tA2BxvrKvjE

À partir d'une vidéo YouTube utilisée comme source par les chercheurs, l'actrice Jennifer Lawrence apparaît comme une personnalité plus maigre (à droite). Voir la vidéo d'accompagnement intégrée au bas de l'article pour de nombreux autres exemples avec une meilleure résolution. Source : https://www.youtube.com/watch?v=tA2BxvrKvjE

Ce type de transformation n'est généralement possible que par le biais de méthodes CGI traditionnelles qui nécessiteraient de recréer entièrement le visage via des procédures détaillées et coûteuses de capsulage de mouvement, de gréement et de texturation.

Au lieu de cela, les éléments CGI présents dans la technique sont intégrés dans un pipeline neuronal sous forme d'informations paramétriques de visage 3D qui sont ensuite utilisées comme base pour un flux de travail d'apprentissage automatique.

Les visages paramétriques traditionnels sont de plus en plus utilisés comme lignes directrices pour les processus de transformation qui utilisent l'IA au lieu de CGI. Source : https://arxiv.org/pdf/2205.02538.pdf

Les auteurs déclarent:

"Notre objectif est de générer un remodelage vidéo de portrait de haute qualité [résultats] en modifiant la forme générale des visages du portrait en fonction de la déformation naturelle du visage dans le monde réel. Cela peut être utilisé pour des applications telles que la génération de visages galbés pour la béatification et l'exagération du visage pour les effets visuels.

Bien que la déformation et la distorsion 2D du visage soient disponibles pour les consommateurs depuis l'avènement de Photoshop (et aient conduit à des images étranges et souvent inacceptables sous-cultures autour de la distorsion du visage et de la dysmorphie corporelle), c'est une astuce difficile à réaliser en vidéo sans utiliser CGI.

Les dimensions de Mark Zuckerberg ont été élargies et rétrécies par la technique chinoise/britannique.

Les dimensions faciales de Mark Zuckerberg ont été élargies et rétrécies par la nouvelle technique chinoise/britannique.

Le remodelage corporel est actuellement un domaine de Intérêt intense dans le secteur de la vision par ordinateur, principalement en raison de son potentiel dans le commerce électronique de mode, même si faire paraître quelqu'un plus grand ou présentant une diversité squelettique est actuellement un problème. défi notable.

De même, changer la forme d'une tête dans des séquences vidéo de manière cohérente et convaincante a fait l'objet de travail prioritaire des chercheurs du nouveau document, bien que cette mise en œuvre ait souffert d'artefacts et d'autres limitations. La nouvelle offre étend la capacité de cette recherche antérieure de la sortie statique à la sortie vidéo.

Le nouveau système a été formé sur un PC de bureau avec un AMD Ryzen 9 3950X avec 32 Go de mémoire et utilise un algorithme de flux optique de OpenCV pour les motion maps, lissées par le StructureFlux cadre; le réseau d'alignement facial (FAN) composant pour l'estimation des points de repère, qui est également utilisé dans les packages deepfakes populaires ; et le Solveur Cérès pour résoudre les problèmes d'optimisation.

Un exemple extrême d'élargissement du visage avec le nouveau système.

Les papier est intitulé Remodelage paramétrique des portraits dans les vidéos, et vient de trois chercheurs de l'Université du Zhejiang et un de l'Université de Bath.

A propos du visage

Dans le cadre du nouveau système, la vidéo est extraite dans une séquence d'images, et une pose rigide est d'abord estimée pour chaque visage. Ensuite, un nombre représentatif d'images suivantes est estimé conjointement pour construire des paramètres d'identité cohérents tout au long de la série d'images (c'est-à-dire les images de la vidéo).

Flux architectural du système de déformation du visage.

Après cela, l'expression est évaluée, produisant un paramètre de remodelage implémenté par régression linéaire. Ensuite, une nouvelle fonction de distance signée (SDF) construit une cartographie 2D dense des linéaments du visage avant et après le remodelage.

Enfin, une optimisation de déformation sensible au contenu est effectuée sur la vidéo de sortie.

Faces paramétriques

Le processus utilise un modèle de visage 3D morphable (3DMM), un modèle de plus en plus utilisé. complément populairet aux systèmes de synthèse de visage neuronaux et basés sur GAN, en plus d'être en vigueur pour les systèmes de détection de deepfake.

Pas de l'article, mais un exemple de modèle de visage morphable 3D (3DMM) - un prototype de visage paramétrique utilisé dans le nouveau projet. En haut à gauche, application repère sur un visage 3DMM. En haut à droite, les sommets du maillage 3D d'une isocarte. En bas à gauche montre le raccord de point de repère ; en bas au milieu, une isocarte de la texture du visage extraite ; et en bas à droite, un raccord et une forme résultants. Source : http://www.ee.surrey.ac.uk/CVSSP/Publications/papers/Huber-VISAPP-2016.pdf

Pas du nouveau document, mais un exemple de modèle de visage morphable 3D (3DMM) - un prototype de visage paramétrique utilisé dans le nouveau projet. En haut à gauche, application repère sur un visage 3DMM. En haut à droite, les sommets du maillage 3D d'une isocarte. En bas à gauche, montre le raccord de point de repère ; en bas au milieu, une isocarte de la texture du visage extraite ; et en bas à droite, un raccord et une forme résultants. Source : http://www.ee.surrey.ac.uk/CVSSP/Publications/papers/Huber-VISAPP-2016.pdf

Le flux de travail du nouveau système doit prendre en compte les cas d'occlusion, comme un cas où le sujet détourne le regard. C'est l'un des plus grands défis des logiciels deepfake, car les points de repère FAN ont peu de capacité à rendre compte de ces cas et ont tendance à s'éroder en qualité lorsque le visage évite ou est occlus.

Le nouveau système est capable d'éviter ce piège en définissant un énergie de contour capable de faire correspondre la limite entre la face 3D (3DMM) et la face 2D (telle que définie par les points de repère FAN).

Optimisation

Un déploiement utile pour un tel système serait d'implémenter une déformation en temps réel, par exemple dans les filtres de chat vidéo. Le cadre actuel ne le permet pas, et les ressources informatiques nécessaires feraient de la déformation "en direct" un défi notable.

Selon l'article, et en supposant une cible vidéo de 24 ips, les opérations par image dans le pipeline représentent une latence de 16.344 secondes pour chaque seconde de métrage, avec des coups uniques supplémentaires pour l'estimation de l'identité et la déformation du visage 3D (321 ms et 160 ms, respectivement) .

Par conséquent, l'optimisation est essentielle pour progresser vers la réduction de la latence. Étant donné qu'une optimisation conjointe sur toutes les images ajouterait une surcharge importante au processus et qu'une optimisation de type init (en supposant l'identité ultérieure cohérente du locuteur à partir de la première image) pourrait conduire à des anomalies, les auteurs ont adopté un schéma clairsemé pour calculer les coefficients de trames échantillonnées à des intervalles pratiques.

Une optimisation conjointe est ensuite effectuée sur ce sous-ensemble de trames, conduisant à un processus de reconstruction plus léger.

Visage

La technique de déformation utilisée dans le projet est une adaptation du travail des auteurs de 2020 Portraits profonds et galbés (DSP).

Deep Shapely Portraits, une soumission 2020 à ACM Multimedia. L'article est dirigé par des chercheurs du ZJU-Tencent Game and Intelligent Graphics Innovation Technology Joint Lab. Source : http://www.cad.zju.edu.cn/home/jin/mm2020/demo.mp4

Les auteurs observent "Nous étendons cette méthode du remodelage d'une image monoculaire au remodelage de toute la séquence d'images."

Tests

Le document observe qu'il n'y avait pas de matériel antérieur comparable par rapport auquel évaluer la nouvelle méthode. Par conséquent, les auteurs ont comparé les images de leur sortie vidéo déformée avec la sortie DSP statique.

Test du nouveau système par rapport aux images statiques de Deep Shapely Portraits.

Les auteurs notent que les artefacts résultent de la méthode DSP, en raison de son utilisation d'un mappage clairsemé - un problème que le nouveau cadre résout avec un mappage dense. De plus, la vidéo produite par DSP, selon le journal, démontre manque de fluidité et de cohérence visuelle.

Les auteurs déclarent:

«Les résultats montrent que notre approche peut produire de manière robuste des vidéos de portrait remodelées cohérentes, tandis que la méthode basée sur l'image peut facilement conduire à des artefacts scintillants notables.»

Regardez la vidéo d'accompagnement ci-dessous, pour plus d'exemples :

Remodelage paramétrique des portraits dans les vidéos - ACM MM 2021

Parametric Reshaping of Portraits in Videos - ACM MM 2021

Watch this video on YouTube

Publié pour la première fois le 9 mai 2022. Modifié à 6 h EET, remplacé « champ » par « fonction » pour SDF.

Rubriques connexes:deepfake DeepFakes synthèse d'images Une étude

Les tensions de la lutte contre le changement climatique avec l'IA

Ne manquez pas

Modification de l'espace latent d'un GAN avec des 'blobs'