Intelligence artificielle

NeRF : le défi de l'édition du contenu des champs de rayonnement neuronal

Le kit de préparation mis à jour on 9 décembre 2022

Plus tôt cette année, NVIDIA a avancé Neural Radiance Fields (Nerf) recherche notamment avec InstantNeRF, apparemment capable de générer des scènes neuronales explorables en quelques secondes seulement - à partir d'une technique qui, lorsqu'elle émergé en 2020, ont souvent mis des heures voire des jours à s'entraîner.

InstantNeRF de NVIDIA fournit des résultats impressionnants et rapides. Source : https://www.youtube.com/watch?v=DJ2hcC1orc4

Bien que ce type d'interpolation produise une scène statique, NeRF est également capable de représentant le mouvement, et de l'édition de base par "copier-coller", où les NeRF individuels peuvent être assemblés dans scènes composites or inséré dans des scènes existantes.

Les NeRF imbriqués, présentés dans les recherches de 2021 de la Shanghai Tech University et de DGene Digital Technology. Source : https://www.youtube.com/watch?v=Wp4HfOwFGP4

Cependant, si vous cherchez à intervenir dans un NeRF calculé et à changer réellement quelque chose qui se passe à l'intérieur (de la même manière que vous pouvez changer des éléments dans une scène CGI traditionnelle), le rythme rapide de l'intérêt du secteur est venu avec très few SOLUTIONS à ce jour, et aucun qui ne commence même à égaler les capacités des flux de travail CGI.

Bien que l'estimation de la géométrie soit essentielle à la création d'une scène NeRF, le résultat final est composé de valeurs assez "verrouillées". Alors qu'il y a quelques progrès étant faits pour changer les valeurs de texture dans NeRF, les objets réels d'une scène NeRF ne sont pas des maillages paramétriques qui peuvent être modifiés et manipulés, mais plutôt des nuages de points cassants et gelés.

Dans ce scénario, une personne rendue dans un NeRF est essentiellement une statue (ou une série de statues, dans les NeRF vidéo); les ombres qu'ils projettent sur eux-mêmes et sur d'autres objets sont des textures, plutôt que des calculs flexibles basés sur des sources lumineuses ; et la possibilité de montage du contenu NeRF est limitée aux choix effectués par le photographe qui prend les rares photos sources à partir desquelles le NeRF est généré. Les paramètres tels que les ombres et la pose restent non modifiables, dans aucun sens créatif.

Édition NeRF

Une nouvelle collaboration de recherche universitaire entre la Chine et le Royaume-Uni relève ce défi avec Édition NeRF, où les maillages proxy de style CGI sont extraits d'un NeRF, déformés à volonté par l'utilisateur, et les déformations sont renvoyées aux calculs neuronaux du NeRF :

Marionnettes NeRF avec édition NeRF, car les déformations calculées à partir du métrage sont appliquées à des points équivalents à l'intérieur d'une représentation NeRF. Source : http://geometrylearning.com/NeRFEditing/

La méthode adapte NeuS 2021 Technique de reconstruction US/Chine, qui extrait un Fonction de distance signée (SDF, une méthode beaucoup plus ancienne de reconstruction volumétrique) qui est capable d'apprendre la géométrie représentée à l'intérieur du NeRF.

Cet objet SDF devient la base de sculpture de l'utilisateur, avec des capacités de déformation et de moulage fournies par le vénérable As-Rigid-As-Possible (PARA) techniques.

ARAP permet aux utilisateurs de déformer le maillage SDF extrait, bien que d'autres méthodes, telles que les approches basées sur le squelette et sur la cage (c'est-à-dire les NURB), fonctionnent également bien. Source : https://arxiv.org/pdf/2205.04978.pdf

Avec les déformations appliquées, il est nécessaire de traduire ces informations du vecteur au niveau RVB/pixel natif de NeRF, ce qui est un parcours un peu plus long.

Les sommets triangulaires du maillage que l'utilisateur a déformé sont d'abord traduits en un maillage tétraédrique, qui forme une peau autour du maillage-utilisateur. Un champ de déformation spatiale discrète est extrait de ce maillage supplémentaire, et enfin un champ de déformation continue compatible NeRF est obtenu qui peut être renvoyé dans l'environnement de rayonnement neuronal, reflétant les modifications et les modifications de l'utilisateur, et affectant directement les rayons interprétés dans la cible. NeRF.

Objets déformés et animés par la nouvelle méthode.

Le papier déclare:

« Après avoir transféré la déformation de surface au maillage tétraédrique, nous pouvons obtenir le champ de déformation discret de « l'espace effectif ». Nous utilisons maintenant ces transformations discrètes pour courber les rayons de coulée. Pour générer une image du champ de rayonnement déformé, nous projetons des rayons dans l'espace contenant le maillage tétraédrique déformé.

Les papier est intitulé NeRF-Editing : édition de la géométrie des champs de rayonnement neuronal, et provient de chercheurs de trois universités et institutions chinoises, ainsi que d'un chercheur de la School of Computer Science & Informatics de l'Université de Cardiff et de deux autres chercheurs du groupe Alibaba.

Limites

Comme mentionné précédemment, la géométrie transformée ne "mettra à jour" aucun aspect lié dans le NeRF qui n'a pas été modifié, ni ne reflétera les conséquences secondaires de l'élément déformé, telles que les ombres. Les chercheurs donnent un exemple, où les sous-ombres sur une figure humaine dans un NeRF restent inchangées, même si la déformation devrait modifier l'éclairage :

D'après le papier : nous voyons que l'ombre horizontale sur le bras de la figure reste en place même lorsque le bras est déplacé vers le haut.

Expériences

Les auteurs observent qu'il n'existe actuellement aucune méthode comparable pour une intervention directe dans la géométrie NeRF. Par conséquent, les expériences menées pour la recherche étaient plus exploratoires que comparatives.

Les chercheurs ont démontré NeRF-Editing sur un certain nombre d'ensembles de données publics, y compris des personnages de Mixamo, et le bulldozer et la chaise Lego désormais emblématiques du NeRF original. la mise en oeuvre. Ils ont également expérimenté sur une véritable statue de cheval capturé du Jeu de données FVS, ainsi que leurs propres captures originales.

La tête d'un cheval inclinée.

Pour les travaux futurs, les auteurs ont l’intention de développer leur système dans le cadre d’apprentissage automatique compilé juste à temps (JIT) Jittor.

Première publication le 16 mai 2022.

Rubriques connexes:synthèse d'images Nerf un article

La technologie matérielle de l'IA imite les changements dans la topologie du réseau neuronal

Ne manquez pas

Évaluation de l'exactitude historique d'ImageNet

Martin Anderson

Écrivain sur l'apprentissage automatique, l'intelligence artificielle et le big data.
Site personnel : martinanderson.ai
Contact : [email protected]
Twitter : @manders_ai

Unite.AI

NeRF : le défi de l'édition du contenu des champs de rayonnement neuronal

Intelligence artificielle