Intelligence artificielle

Réorganisation des visages dans les vidéos avec l’apprentissage automatique

Published May 9, 2022

Updated April 5, 2026

Martin Anderson

Une collaboration de recherche entre la Chine et le Royaume-Uni a mis au point une nouvelle méthode pour remodeler les visages dans les vidéos. La technique permet un élargissement et un rétrécissement convaincants de la structure faciale, avec une grande cohérence et une absence d’artefacts.

À partir d’une vidéo YouTube utilisée comme matériau source par les chercheurs, l’actrice Jennifer Lawrence apparaît comme une personnalité plus maigre (à droite). Voir la vidéo accompagnant l’article en bas de la page pour de nombreux autres exemples en meilleure résolution. Source: https://www.youtube.com/watch?v=tA2BxvrKvjE

Ce type de transformation est généralement possible uniquement grâce aux méthodes CGI traditionnelles qui nécessiteraient de recréer entièrement le visage via des procédures de motion-capping, de rigging et de texturing détaillées et coûteuses.

Au lieu de cela, ce que la CGI contient dans la technique est intégré dans un pipeline neuronal en tant qu’informations faciales 3D paramétriques qui sont ensuite utilisées comme base pour un flux de travail d’apprentissage automatique.

Les visages paramétriques traditionnels sont de plus en plus utilisés comme lignes directrices pour les processus de transformation qui utilisent l’IA au lieu de la CGI. Source: https://arxiv.org/pdf/2205.02538.pdf

Les auteurs déclarent :

‘Notre objectif est de générer des résultats de remodelage de portrait de haute qualité par édition de la forme générale des visages de portrait selon la déformation naturelle du visage dans le monde réel. Cela peut être utilisé pour des applications telles que la génération de visages pour la beautification et l’exagération des visages pour les effets visuels.’

Bien que le déformage et la distorsion de visage 2D soient disponibles pour les consommateurs depuis l’avènement de Photoshop (et aient conduit à des sous-cultures étranges et souvent inacceptables autour de la distorsion du visage et de la dysmorphie corporelle), il est difficile de réaliser cela dans une vidéo sans utiliser la CGI.

Les dimensions de Mark Zuckerberg élargies et rétrécies par la technique chinoise-britannique.

Les dimensions faciales de Mark Zuckerberg élargies et rétrécies par la nouvelle technique chinoise-britannique.

La remodelage du corps est actuellement un domaine d’intérêt intense dans le secteur de la vision par ordinateur, principalement en raison de son potentiel dans le commerce électronique de la mode, bien que faire paraître quelqu’un plus grand ou plus diversifié squelettiquement soit actuellement un défi notable.

De même, changer la forme d’une tête dans une séquence vidéo de manière cohérente et convaincante a été l’objet de travaux antérieurs des chercheurs de la nouvelle étude, bien que cette mise en œuvre ait souffert d’artefacts et d’autres limitations. La nouvelle offre étend la capacité de cette recherche antérieure de la sortie statique à la sortie vidéo.

Le nouveau système a été formé sur un ordinateur de bureau avec un AMD Ryzen 9 3950X avec 32 Go de mémoire, et utilise un algorithme de flux optique de OpenCV pour les cartes de mouvement, lissées par le cadre StructureFlow ; le réseau de mise en correspondance faciale (FAN) pour l’estimation des repères, qui est également utilisé dans les packages de deepfakes populaires ; et le solveur Ceres pour résoudre les défis d’optimisation.

Un exemple extrême d’élargissement facial avec le nouveau système.

L’article est intitulé Remodelage paramétrique de portraits dans les vidéos, et provient de trois chercheurs de l’Université de Zhejiang, et d’un de l’Université de Bath.

À propos du visage

Sous le nouveau système, la vidéo est extraite en une séquence d’images, et une pose rigide est d’abord estimée pour chaque visage. Ensuite, un nombre représentatif de cadres suivants sont estimés conjointement pour construire des paramètres d’identité cohérents le long de l’ensemble des images (c’est-à-dire les cadres de la vidéo).

Flux architectural du système de déformation de visage.

Après cela, l’expression est évaluée, ce qui donne un paramètre de remodelage qui est mis en œuvre par régression linéaire. Ensuite, une nouvelle fonction de distance signée (SDF) approche construit une carte dense 2D des linéaments faciaux avant et après le remodelage.

Enfin, une optimisation de déformation sensible au contenu est effectuée sur la vidéo de sortie.

Visages paramétriques

Le processus utilise un modèle de visage morphable 3D (3DMM), un adjonct de plus en plus populaire aux systèmes de synthèse de visage basés sur les neurones et les GAN, ainsi que pour la détection de deepfakes.

Non issu de l'article, mais un exemple de modèle de visage morphable 3D (3DMM) - un prototype de visage paramétrique utilisé dans le nouveau projet. En haut à gauche, application de repères sur un visage 3DMM. En haut à droite, les sommets de maillage 3D d'une isocarte. En bas à gauche, ajustement de repères ; en bas au milieu, une isocarte de la texture de visage extraite ; et en bas à droite, un ajustement et une forme résultants. Source: http://www.ee.surrey.ac.uk/CVSSP/Publications/papers/Huber-VISAPP-2016.pdf

Non issu du nouvel article, mais un exemple de modèle de visage morphable 3D (3DMM) – un prototype de visage paramétrique utilisé dans le nouveau projet. En haut à gauche, application de repères sur un visage 3DMM. En haut à droite, les sommets de maillage 3D d’une isocarte. En bas à gauche, ajustement de repères ; en bas au milieu, une isocarte de la texture de visage extraite ; et en bas à droite, un ajustement et une forme résultants. Source: http://www.ee.surrey.ac.uk/CVSSP/Publications/papers/Huber-VISAPP-2016.pdf

Le flux de travail du nouveau système doit tenir compte des cas d’occlusion, tels qu’un cas où le sujet regarde ailleurs. C’est l’un des plus grands défis dans les logiciels de deepfake, puisque les repères FAN ont peu de capacité à tenir compte de ces cas et tendent à se dégrader en qualité à mesure que le visage s’écarte ou est occulté.

Le nouveau système est capable d’éviter cette embûche en définissant une énergie de contour capable de correspondre à la limite entre le visage 3D (3DMM) et le visage 2D (tel que défini par les repères FAN).

Optimisation

Une mise en œuvre utile pour un tel système serait de mettre en œuvre une déformation en temps réel, par exemple dans les filtres de vidéoconférence. Le cadre actuel ne permet pas cela, et les ressources de calcul nécessaires rendraient la déformation « en direct » un défi notable.

Selon l’article, et en supposant une cible de vidéo à 24 images par seconde, les opérations par cadre dans le pipeline représentent une latence de 16,344 secondes pour chaque seconde de séquence, avec des frais supplémentaires pour l’estimation d’identité et la déformation de visage 3D (321 ms et 160 ms, respectivement).

Par conséquent, l’optimisation est clé pour faire progresser la réduction de la latence. Puisque l’optimisation conjointe sur tous les cadres ajouterait une charge importante au processus, et que l’optimisation de type init pourrait conduire à des anomalies, les auteurs ont adopté un schéma épars pour calculer les coefficients des cadres échantillonnés à des intervalles pratiques.

L’optimisation conjointe est ensuite effectuée sur ce sous-ensemble de cadres, conduisant à un processus de reconstruction plus léger.

Déformation de visage

La technique de déformation utilisée dans le projet est une adaptation du travail des auteurs de 2020 Deep Shapely Portraits (DSP).

Deep Shapely Portraits, une soumission de 2020 à ACM Multimedia. L’article est mené par des chercheurs du ZJU-Tencent Game and Intelligent Graphics Innovation Technology Joint Lab. Source: http://www.cad.zju.edu.cn/home/jin/mm2020/demo.mp4

Les auteurs observent ‘Nous étendons cette méthode du remodelage d’une image monocular à la déformation de l’ensemble de la séquence d’images.’

Tests

L’article observe qu’il n’y avait pas de matériau comparable antérieur pour évaluer la nouvelle méthode. Par conséquent, les auteurs ont comparé les cadres de leur sortie de vidéo déformée avec la sortie statique de DSP.

Test du nouveau système contre des images statiques de Deep Shapely Portraits.

Les auteurs notent que les artefacts résultent de la méthode DSP, en raison de son utilisation de cartes éparses – un problème que le nouveau cadre résout avec des cartes denses. De plus, la vidéo produite par DSP, selon l’article, démontre un manque de fluidité et de cohérence visuelle.

Les auteurs déclarent :

‘Les résultats montrent que notre approche peut produire de manière robuste des vidéos de portrait remodelées cohérentes, tandis que la méthode basée sur l’image peut facilement conduire à des artefacts de scintillement remarquables.’

Voir la vidéo ci-dessous pour plus d’exemples :

Publié pour la première fois le 9 mai 2022. Modifié le 6 mai à 18h00 EET, remplaçant ‘champ’ par ‘fonction’ pour la SDF.

Related Topics:deepfake DeepFakes image synthesis research