Intelligence artificielle
NeRF : Le défi de l’édition du contenu des champs de rayonnement neuronaux

Plus tôt cette année, NVIDIA a fait progresser la recherche sur les champs de rayonnement neuronaux (NeRF) de manière notable avec InstantNeRF, apparemment capable de générer des scènes neuronales explorables en quelques secondes – à partir d’une technique qui, lorsqu’elle est apparue en 2020, prenait souvent des heures ou même des jours pour être formée.

NVIDIA’s InstantNeRF provides impressive and rapid results. Source: https://www.youtube.com/watch?v=DJ2hcC1orc4
Bien que ce type d’interpolation produise une scène statique, NeRF est également capable de dépeindre le mouvement, et d’une édition de base ‘copier-coller’, où des NeRF individuels peuvent être soit collés dans des scènes composites ou insérés dans des scènes existantes.

Nested NeRFs, featured in 2021 research from Shanghai Tech University and DGene Digital Technology. Source: https://www.youtube.com/watch?v=Wp4HfOwFGP4
Cependant, si vous cherchez à intervenir dans un NeRF calculé et à modifier réellement quelque chose qui se passe à l’intérieur (de la même manière que vous pouvez modifier des éléments dans une scène CGI traditionnelle), le rythme rapide de l’intérêt du secteur a abouti à très peu de solutions à ce jour, et aucune qui commence à égaler les capacités des flux de travail CGI.
Bien que l’estimation de la géométrie soit essentielle pour créer une scène NeRF, le résultat final est composé de valeurs plutôt ‘verrouillées’. Même si des progrès sont réalisés pour modifier les valeurs de texture dans NeRF, les objets réels dans une scène NeRF ne sont pas des maillages paramétriques qui peuvent être édités et manipulés, mais plutôt des nuages de points fragiles et gelés.
Dans ce scénario, une personne rendue dans un NeRF est essentiellement une statue (ou une série de statues, dans les NeRF vidéo) ; les ombres qu’elle projette sur elle-même et sur d’autres objets sont des textures, plutôt que des calculs flexibles basés sur les sources de lumière ; et l’édition du contenu NeRF est limitée aux choix faits par le photographe qui prend les photos sources rares à partir desquelles le NeRF est généré. Les paramètres tels que les ombres et la pose restent non éditables, dans tout sens créatif.
NeRF-Édition
Une nouvelle collaboration de recherche universitaire entre la Chine et le Royaume-Uni répond à ce défi avec NeRF-Édition, où des maillages CGI de style proxy sont extraits d’un NeRF, déformés à volonté par l’utilisateur, et les déformations sont transmises à nouveau aux calculs neuronaux du NeRF :

NeRF puppetry with NeRF-editing, as the deformations calculated from footage are applied to equivalent points inside a NeRF representation. Source: http://geometrylearning.com/NeRFEditing/
La méthode adapte la technique de reconstruction NeuS 2021 États-Unis/Chine, qui extrait une fonction de distance signée (SDF, une méthode de reconstruction volumétrique beaucoup plus ancienne) capable d’apprendre la géométrie représentée à l’intérieur du NeRF.
Cet objet SDF devient la base de sculpture de l’utilisateur, avec des capacités de déformation et de modelage fournies par la technique vénérable As-Rigid-As-Possible (ARAP).

ARAP allows users to deform the extracted SDF mesh, though other methods, such as skeleton-based and cage-based approaches (i.e. NURBs), would also work well. Source: https://arxiv.org/pdf/2205.04978.pdf
Avec les déformations appliquées, il est nécessaire de traduire ces informations du vecteur au niveau RGB/pixel natif de NeRF, ce qui est un peu plus long.
Les sommets triangulaires du maillage que l’utilisateur a déformé sont d’abord traduits dans un maillage tétraédrique, qui forme une peau autour du maillage de l’utilisateur. Un champ de déformation discret spatial est extrait de ce maillage supplémentaire, et enfin un champ de déformation continu NeRF-friendly est obtenu qui peut être transmis à nouveau dans l’environnement de rayonnement neuronal, reflétant les modifications et les éditions de l’utilisateur, et affectant directement les rayons interprétés dans le NeRF cible.

Objects deformed and animated by the new method.
Le document indique :
‘Après avoir transféré la déformation de surface au maillage tétraédrique, nous pouvons obtenir le champ de déformation discret de l”espace efficace’. Nous utilisons maintenant ces transformations discrètes pour courber les rayons de projection. Pour générer une image du champ de rayonnement déformé, nous projetons des rayons dans l’espace contenant le maillage tétraédrique déformé.’
Le document est intitulé NeRF-Édition : Édition de géométrie des champs de rayonnement neuronaux, et provient de chercheurs de trois universités et institutions chinoises, ainsi que d’un chercheur de l’École des sciences informatiques et d’informatique de l’Université de Cardiff, et de deux autres chercheurs du groupe Alibaba.
Limitations
Comme mentionné plus tôt, la géométrie transformée ne ‘mettra pas à jour’ les aspects liés du NeRF qui n’ont pas été édités, ni reflétera les conséquences secondaires de l’élément déformé, telles que les ombres. Les chercheurs fournissent un exemple, où les ombres sous une figure humaine dans un NeRF restent inchangées, même si la déformation devrait modifier l’éclairage :

From the paper: we see that the horizontal shadow on the figure’s arm remains in place even as the arm is moved upward.
Expériences
Les auteurs observent qu’il n’y a actuellement aucune méthode comparable pour une intervention directe dans la géométrie NeRF. Par conséquent, les expériences menées pour la recherche étaient plus exploratoires que comparatives.
Les chercheurs ont démontré NeRF-Édition sur un certain nombre de jeux de données publics, notamment des personnages de Mixamo, et le célèbre bulldozer et chaise Lego de la mise en œuvre originale de NeRF. Ils ont également expérimenté sur une statue de cheval réelle capturée à partir du jeu de données FVS, ainsi que sur leurs propres captures originales.

A horse’s head tilted.
Pour les travaux futurs, les auteurs ont l’intention de développer leur système dans le cadre d’apprentissage automatique compilé juste-à-temps Jittor.
Publié pour la première fois le 16 mai 2022.










