Intelligence artificielle

Disney combine le CGI avec le rendu neuronal pour résoudre le problème de la « vallée de l’incertitude »

Published November 30, 2021

Updated April 28, 2026

Martin Anderson

La division de recherche en intelligence artificielle de Disney a développé une méthode hybride pour la simulation faciale de qualité cinématographique, combinant les forces du rendu neuronal facial avec la constance d’une approche basée sur le CGI.

Le document en attente est intitulé Rendering with Style: Combining Traditional and Neural Approaches for High Quality Face Rendering, et est présenté dans une nouvelle vidéo de 10 minutes sur la chaîne YouTube de la recherche Disney (intégrée à la fin de cet article*).

Maillages combinés avec des rendus faciaux neuronaux. Source : https://www.youtube.com/watch?v=k-RKSGbWLng

Maillages combinés avec des rendus faciaux neuronaux. Voir la vidéo intégrée à la fin de l’article pour plus de détails et de qualité. Source : https://www.youtube.com/watch?v=k-RKSGbWLng (remplacé par https://www.youtube.com/watch?v=TwpLqTmvqVk)

Comme le note la vidéo, le rendu neuronal des visages (y compris les deepfakes) peut produire des yeux et des intérieurs de bouche beaucoup plus réalistes que ce que le CGI est capable de faire, tandis que les textures faciales basées sur le CGI sont plus cohérentes et plus adaptées à la sortie VFX de niveau cinéma.

Par conséquent, Disney expérimente en laissant le générateur neuronal NVIDIA StyleGan2 gérer les caractéristiques entourant un visage et les éléments « vitaux » tels que les yeux, tout en superposant des éléments de peau faciale CGI cohérents dans la sortie.

À partir de la vidéo (voir fin de l’article), le concept architectural derrière l’approche hybride de Disney, où un maillage CGI classique, du type utilisé pour recréer « jeune » Carrie Fisher et le défunt Peter Cushing pour Rogue One (2016), est intégré dans des environnements de visages rendus neuronalement.

La vidéo fait une référence tacite à la critique fréquente de l’inauthenticité et de l’effet de « vallée de l’incertitude » de la recréation CGI de l’acteur britannique défunt Peter Cushing dans Rogue One (2016), en concédant :

‘[Il y a] encore un énorme fossé entre ce que les gens peuvent facilement capturer et rendre par rapport aux doubles numériques photoréalistes finals, complets avec des cheveux, des yeux et une bouche intérieure. Pour combler ce fossé, cela nécessite généralement beaucoup de travail manuel de la part d’artistes qualifiés.’

En vérité, même les systèmes de capture faciale les plus modernes ne tentent pas de recréer les yeux, les intérieurs de la bouche ou les cheveux, qui soit ont des problèmes d’authenticité dans ces techniques (yeux) ou soit de cohérence temporelle (cheveux).

La vidéo illustre ce que les artistes VFX obtiendront après une session de capture faciale moderne typique. Les yeux, les cheveux, les poils faciaux et les intérieurs de la bouche devront tous être traités par des équipes distinctes dans le pipeline de production, en plus de la texture et de l’éclairage.

Contrôle de l’éclairage

L’approche hybride est également bénéfique pour la relighting – un défi notable pour le rendu neuronal des visages, puisque les superpositions de peau CGI peuvent être plus facilement rééclairées.

Une version animée de l’approche CGI/Neural.

Dans des environnements plus difficiles, tels que les tournages extérieurs, les chercheurs ont développé une méthode de retouche autour d’une sorte de zone démilitarisée entourant la personne étant « créée ».

Une marge noire est générée pour permettre un « canevas » pour la retouche des parties extérieures de l’identité et l’intégration de la peau CGI dans la sortie CGI/neurale combinée.

La vidéo note :

‘[Le] rendu neuronal ne correspond pas parfaitement à la contrainte d’arrière-plan. – il n’est destiné qu’à guider, puisque l’optimisation pour des composants humains réalistes comme les cheveux, les yeux et les dents est l’objectif principal. Plus difficile est de tenter de maintenir une identité cohérente, tout en changeant l’éclairage de l’environnement.’

Création de maillages CGI à partir de rendus neuronaux

L’équipe de recherche a également développé un auto-encodeur variationnel formé sur une grande base de données de visages 3D (non spécifiée), et prétend qu’il peut produire des « maillages de visages 3D plausibles mais aléatoires » à partir de données de vérité.

Il existe des limites pour que cette recherche surmonte, notamment la difficulté à maintenir la cohérence temporelle des cheveux dans les rendus neuronaux, et la vidéo (voir ci-dessous) montre plusieurs exemples de cheveux se modifiant rapidement dans un pan cohérent autour d’un visage CGI/neural.

La cohérence temporelle dans le rendu vidéo neuronal est un problème beaucoup plus large que celui de Disney, et il semble probable que les itérations ultérieures de ce système puissent avoir recours à l’ajout de cheveux « en post », ou à d’autres approches possibles de génération de cheveux que d’espérer qu’une nouvelle approche neuronale résolve finalement le problème.

Utilisation pour la génération de données

La méthode est proposée également comme une méthode potentielle de génération de données synthétiques, et d’enrichissement du paysage d’images de visages, qui est devenu ces dernières années dangereusement monotone.

Disney envisage la nouvelle technique pour peupler les ensembles de données d’images de visages.

‘[Chaque] résultat photoréaliste que nous générions a une géométrie sous-jacente correspondante, et des cartes d’apparence, rendues à partir de points de vue de caméra inconnus avec une illumination connue. Ces informations de « vérité » peuvent être vitales pour la formation d’applications en aval, telles que la reconstruction de visages 3D monoculaires, la reconnaissance faciale ou la compréhension de scènes. Et chaque résultat de rendu peut être considéré comme un échantillon de données, et nous pouvons générer de nombreuses variations de nombreuses personnes différentes.

‘De plus, même pour une seule personne rendue dans une seule expression avec un seul point de vue et une seule illumination, nous pouvons générer des variations aléatoires du rendu photo-réaliste en modifiant la graine d’aléatoire pendant l’optimisation.’

Les chercheurs notent que cette diversité de sortie configurable pourrait être utile pour la formation d’applications de reconnaissance faciale, en concluant :

‘[Notre] méthode est capable d’exploiter la technologie actuelle pour la capture, la modélisation et le rendu de la peau faciale, et de créer automatiquement des rendus de visages photoréalistes complets qui correspondent à l’identité, à l’expression et à la configuration de scène souhaitées. Cette approche a des applications et un rendu facial pour le cinéma et le divertissement, en économisant la main-d’œuvre des artistes, et également pour la génération de données dans différents domaines de l’apprentissage profond.’

Pour une vue plus approfondie de la nouvelle approche, consultez la vidéo de 10 minutes publiée aujourd’hui :

* Le lien de la vidéo d’origine a été remplacé par un autre apparemment identique 8 heures après la publication de cet article. J’ai modifié tous les liens pertinents, car il n’y a aucune trace de la vidéo d’origine.

8:24 GMT+2 – La vidéo a été remplacée, car elle a été remplacée par la chaîne YouTube de la recherche Disney pour une raison quelconque.

Martin Anderson

Écrivain sur l'apprentissage automatique, spécialiste de domaine en synthèse d'images humaines. Ancien responsable du contenu de recherche chez Metaphysic.ai.

Unite.AI

Disney combine le CGI avec le rendu neuronal pour résoudre le problème de la « vallée de l’incertitude »

Contrôle de l’éclairage

Création de maillages CGI à partir de rendus neuronaux

Utilisation pour la génération de données

You may like