Connect with us

Intelligence artificielle

Rééclairage des Champs de Rayonnement Neuronaux avec n’importe quelle Carte d’Environnement

mm

Un nouvel article de l’Institut Max Planck et du MIT a proposé une technique pour obtenir une véritable séparation du contenu des Champs de Rayonnement Neuronaux (NeRF) de l’éclairage présent lors de la collecte de données, permettant ainsi des cartes d’environnement ad hoc de remplacer complètement l’illumination dans une scène NeRF :

La nouvelle technique appliquée à des données réelles. Il est important de noter que la méthode fonctionne même sur des données archivées de ce type, qui n'ont pas pris en compte le nouveau pipeline lors de la collecte des données. Malgré cela, un contrôle d'éclairage réaliste et spécifié par l'utilisateur est obtenu Source : https://arxiv.org/pdf/2207.13607.pdf

La nouvelle technique appliquée à des données réelles. Il est important de noter que la méthode fonctionne même sur des données archivées de ce type, qui n’ont pas pris en compte le nouveau pipeline lors de la collecte des données. Malgré cela, un contrôle d’éclairage réaliste et spécifié par l’utilisateur est obtenu. Source : https://arxiv.org/pdf/2207.13607.pdf

La nouvelle approche utilise le programme de animation 3D open source populaire Blender pour créer un « étage de lumière virtuel », où de nombreuses itérations de scénarios d’éclairage possibles sont rendues et finalement formées dans une couche spéciale du modèle NeRF qui peut accueillir n’importe quelle carte d’environnement que l’utilisateur souhaite utiliser pour éclairer la scène.

Une représentation de la partie du pipeline qui utilise Blender pour créer des vues d'étage de lumière virtuel de la géométrie extraite. Les méthodes antérieures suivant des lignes similaires ont utilisé de véritables étages de lumière pour fournir ces données, ce qui constitue une exigence fastidieuse pour les objets discrets, et une impossibilité pour les vues d'environnement extérieur. Dans le coin supérieur gauche des deux dernières images, on peut voir les cartes d'environnement qui dictent l'éclairage de la scène. Ces cartes peuvent être créées arbitrairement par l'utilisateur final, ce qui rapproche NeRF d'une étape de la flexibilité d'une approche CGI moderne.

Une représentation de la partie du pipeline qui utilise Blender pour créer des vues d’étage de lumière virtuel de la géométrie extraite. Les méthodes antérieures suivant des lignes similaires ont utilisé de véritables étages de lumière pour fournir ces données, ce qui constitue une exigence fastidieuse pour les objets discrets, et une impossibilité pour les vues d’environnement extérieur. Dans le coin supérieur gauche des deux dernières images, on peut voir les cartes d’environnement qui dictent l’éclairage de la scène. Ces cartes peuvent être créées arbitrairement par l’utilisateur final, ce qui rapproche NeRF d’une étape de la flexibilité d’une approche CGI moderne.

L’approche a été testée contre le cadre de rendu inverse Mitsuba2, et également contre les travaux antérieurs PhySG, RNR, Neural-PIL et NeRFactor, en utilisant uniquement un modèle d’éclairage direct, et a obtenu les meilleurs scores :

Résultats de la nouvelle technique, comparés à des approches comparables sous diverses fonctions de perte. Les chercheurs affirment que leur approche donne les méthodes de la plus haute qualité, avec des résultats évalués par le rapport signal/bruit de pointe (PSNR), l'indice de similarité structurelle (SSIM) et la similarité d'image apprise par patch (LPIPS).

Résultats de la nouvelle technique, comparés à des approches comparables sous diverses fonctions de perte. Les chercheurs affirment que leur approche donne les méthodes de la plus haute qualité, avec des résultats évalués par le rapport signal/bruit de pointe (PSNR), l’indice de similarité structurelle (SSIM) et la similarité d’image apprise par patch (LPIPS).

L’article indique :

‘Nos résultats qualitatifs et quantitatifs démontrent un progrès clair en termes de récupération des paramètres de scène ainsi que de la qualité de synthèse de notre approche sous de nouvelles vues et conditions d’éclairage par rapport à l’état de l’art précédent.’

Les chercheurs déclarent qu’ils publieront finalement le code du projet.

Le Besoin d’Éditeur NeRF

Ce type de séparation a prouvé être un défi notable pour les chercheurs dans les Champs de Rayonnement Neuronaux, puisque NeRF est essentiellement une technique de photogrammétrie qui calcule la valeur de pixel de milliers de chemins possibles à partir d’un point de vue, en attribuant des valeurs RGBD, et en assemblant une matrice de ces valeurs dans une représentation volumétrique. Au cœur de NeRF, il est défini par l’éclairage.

En fait, malgré ses visuels impressionnants et son adoption luxuriante par NVIDIA, NeRF est remarquablement « rigide » – en termes de CGI, « cuit ». Par conséquent, la communauté de recherche s’est concentrée sur l’amélioration de sa tractabilité et de sa polyvalence à cet égard au cours des 12 à 18 derniers mois.

En termes de signification, les enjeux pour ce type d’étape sont élevés, et incluent la possibilité de transformer l’industrie des effets visuels d’une modèle créatif et collaboratif centré sur la génération de maillage, la dynamique du mouvement et le texturage, à un modèle construit autour de l’inversion de rendu, où le pipeline VFX est alimenté par des photos du monde réel (ou même, concevablement, de modèles réels et synthétisés), plutôt que des approximations artisanales estimées.

Pour l’instant, il y a relativement peu de raisons de s’inquiéter parmi la communauté des effets visuels, du moins en ce qui concerne les Champs de Rayonnement Neuronaux. NeRF n’a que des capacités naissantes en termes de rigging, nesting, contrôle de profondeur, articulation… et certainement aussi en ce qui concerne l’éclairage. La vidéo accompagnant un nouvel article, qui propose des déformations rudimentaires pour la géométrie NeRF, illustre le fossé énorme entre l’état actuel de l’art en CGI et les efforts seminaux des techniques de rendu neuronal.

La Séparation des Éléments

Néanmoins, puisqu’il est nécessaire de commencer quelque part, les chercheurs de la nouvelle étude ont adopté CGI comme un mécanisme de contrôle et de production intermédiaire, ce qui est maintenant une approche courante pour les espaces latents rigides des GAN et les réseaux presque impénétrables et linéaires de NeRF.

Effectivement, le défi central est de calculer l’éclairage global (GI, qui n’a pas d’applicabilité directe dans le rendu neuronal) dans un calcul équivalent de transfert de rayonnement précalculé (PRT, qui peut être adapté au rendu neuronal).

GI est une technique de rendu CGI maintenant vénérable qui modélise la façon dont la lumière rebondit sur les surfaces et sur d’autres surfaces, et intègre ces zones de lumière réfléchie dans un rendu, pour une réalisme ajouté.

PRT est utilisé comme une fonction d’éclairage intermédiaire dans la nouvelle approche, et le fait qu’il s’agisse d’un composant discret et éditable est ce qui permet la séparation. La nouvelle méthode modélise le matériau de l’objet NeRF avec un PRT appris.

L’éclairage réel de la scène de la données d’origine est récupéré sous la forme d’une carte d’environnement dans le processus, et la géométrie de la scène elle-même est extraite sous la forme d’un champ de distance signé (SDF) qui fournira finalement un maillage traditionnel pour Blender pour fonctionner dans l’étage de lumière virtuel.

Une vue d'ensemble du pipeline pour la nouvelle technique.

Une vue d’ensemble du pipeline pour la nouvelle technique.

La première étape du processus consiste à extraire la géométrie de la scène à partir des images de vues multiples disponibles par la reconstruction de surface implicite, via des techniques utilisées dans la collaboration de recherche NeuS 2021.

Pour développer un champ de transfert de rayonnement neuronal (NRTF, qui accueillera les données d’éclairage), les chercheurs ont utilisé le traceur de chemin différentiable Mitsuba 2.

Cela permet l’optimisation conjointe d’une fonction de distribution de diffusion bidirectionnelle (BSDF), ainsi que la génération d’une carte d’environnement initiale. Une fois que le BSDF est créé, le traceur de chemin peut être utilisé dans Blender (voir la vidéo intégrée ci-dessus) pour créer des rendus de scène virtuels à un éclairage à la fois (OLAT).

Le NRTF est ensuite formé avec une perte combinée entre les effets de matériau photoréalistes et les données synthétiques, qui ne sont pas entrelacées les unes avec les autres.

Une comparaison avec le prédécesseur NeRFactor, sur les défis de la synthèse de vues et de l'éclairage novateurs.

Une comparaison avec le prédécesseur NeRFactor, sur les défis de la synthèse de vues et de l’éclairage novateurs.

La Route de l’Illumination

Les exigences de formation pour cette technique, bien que nettement inférieures aux temps de formation NeRF d’origine, ne sont pas insignifiantes. Sur un NVIDIA Quadro RTX 8000 avec 48 Go de VRAM, la formation préliminaire pour l’estimation initiale de la lumière et de la texture prend 30 minutes ; la formation OLAT (c’est-à-dire la formation des captures d’étage de lumière virtuel) prend huit heures ; et l’optimisation conjointe finale entre les données synthétiques et réelles désentrelacées prend 16 heures supplémentaires pour atteindre une qualité optimale.

De plus, la représentation neuronale résultante ne peut pas fonctionner en temps réel, prenant, selon les chercheurs, « plusieurs secondes par image ».

Écrivain sur l'apprentissage automatique, spécialiste de domaine en synthèse d'images humaines. Ancien responsable du contenu de recherche chez Metaphysic.ai.