Intelligence artificielle

NeRF : Facebook Co-Research Développe la Synthèse Vidéo Mixte Statique/Dynamique

Published May 14, 2021

Updated April 5, 2026

Martin Anderson

Une collaboration entre le Virginia Polytechnic Institute and State University et Facebook a résolu l’un des principaux défis de la synthèse vidéo NeRF : mélanger librement les images et les vidéos statiques et dynamiques dans les champs de rayonnement neuronaux (NeRF) de sortie.

Le système peut générer des scènes navigables qui présentent à la fois des éléments de vidéo dynamiques et des environnements statiques, chacun enregistré sur place, mais séparés en facettes contrôlables d’un environnement virtuel :

De plus, il atteint cela à partir d’un seul point de vue, sans avoir besoin du type de matrice de caméras multiples qui peut lier les initiatives comme celle-ci à un environnement de studio.

Le document, intitulé Synthèse de vue dynamique à partir de vidéo monulaire dynamique, n’est pas le premier à développer un flux de travail NeRF monulaire, mais semble être le premier à former simultanément un modèle à variation temporelle et un modèle temporel statique à partir de la même entrée, et à générer un cadre qui permet la vidéo en mouvement à l’intérieur d’un emplacement NeRF ‘pré-cartographié’, similaire au type d’environnements virtuels qui encapsulent souvent les acteurs dans des sorties SF à gros budget.

Au-delà de D-NeRF

Les chercheurs ont dû essentiellement recréer la polyvalence de Dynamic NeRF (D-NeRF) avec un seul point de vue, et non la multiplicité de caméras que D-NeRF utilise. Pour résoudre cela, ils ont prédit le flux de scène avant et arrière et ont utilisé ces informations pour développer un champ de rayonnement déformé qui est temporellement cohérent.

Avec un seul POV, il était nécessaire d’utiliser l’analyse du flux optique 2D pour obtenir des points 3D dans des cadres de référence. Le point 3D calculé est ensuite réinjecté dans la caméra virtuelle afin d’établir un ‘flux de scène’ qui correspond au flux optique calculé avec le flux optique estimé.

Au moment de la formation, les éléments dynamiques et statiques sont réconciliés dans un modèle complet en tant que facettes accessibles séparément.

En incluant un calcul de perte d’ordre de profondeur, le modèle et en appliquant une régularisation rigoureuse de la prédiction du flux de scène dans D-NeRF, le problème du flou de mouvement est grandement atténué.

Bien que la recherche ait beaucoup à offrir en termes de régularisation du calcul NeRF, et améliore grandement la souplesse et la facilité d’exploration pour la sortie d’un seul POV, de note au moins égale est la séparation et la réintégration novatrice des éléments NeRF dynamiques et statiques.

En s’appuyant sur une seule caméra, un tel système ne peut pas reproduire la vue panoptique des matrices de caméras NeRF multiples, mais il peut aller partout, et sans camion.

NeRF – Statique ou Vidéo ?

Récemment, nous avons examiné certaines recherches impressionnantes NeRF de Chine qui peuvent séparer les éléments dans une scène NeRF dynamique capturée avec 16 caméras.

ST-NeRF

ST-NeRF (ci-dessus) permet au spectateur de repositionner des éléments individuels dans une scène capturée, et même de les redimensionner, de modifier leur taux de lecture, de les geler ou de les faire marcher à rebours. De plus, ST-NeRF permet à l’utilisateur de ‘défiler’ à travers n’importe quelle partie de l’arc de 180 degrés capturé par les 16 caméras.

Environnements NeRF statiques hautement éditables

Une scène NeRF statique, maintenant isolée de tous les segments de vidéo en mouvement, est plus facile à traiter et à augmenter de plusieurs manières, y compris la relumière, comme proposé plus tôt cette année par NeRV (Neural Reflectance and Visibility Fields for Relighting and View Synthesis), qui offre une étape initiale pour modifier l’éclairage et/ou la texture d’un environnement ou d’un objet NeRF :

Relumière un objet NeRF avec NeRV. Source : https://www.youtube.com/watch?v=4XyDdvhhjVo

Retexturing dans NeRV, même avec des effets spéculaires photoréalistes. Puisque la base de la série d’images est statique, il est plus facile de traiter et d’augmenter une facette NeRF de cette manière que de couvrir l’effet sur une plage de cadres vidéo, ce qui rend le prétraitement initial et la formation finale plus légers et plus faciles.

Related Topics:image synthesis NeRF research video

Martin Anderson

Écrivain sur l'apprentissage automatique, spécialiste de domaine en synthèse d'images humaines. Ancien responsable du contenu de recherche chez Metaphysic.ai.