Suivez nous sur

NeRF : Facebook Co-Research développe une synthèse vidéo mixte statique/dynamique

Intelligence Artificielle

NeRF : Facebook Co-Research développe une synthèse vidéo mixte statique/dynamique

mm

Une collaboration entre le Virginia Polytechnic Institute and State University et Facebook a résolu l'un des principaux défis de la synthèse vidéo NeRF : mélanger librement des images statiques et dynamiques et de la vidéo dans la sortie Neural Radiance Fields (NeRF).

Le système peut gĂ©nĂ©rer des scènes navigables qui comportent Ă  la fois des Ă©lĂ©ments vidĂ©o dynamiques et des environnements statiques, chacun enregistrĂ© sur place, mais sĂ©parĂ© en facettes contrĂ´lables d'un environnement virtuel :

Synthèse dynamique de la vue à partir de la vidéo monoculaire dynamique

De plus, il y parvient d'un point de vue unique, sans avoir besoin du type de matrice multi-caméras qui peut lier des initiatives comme celle-ci à un environnement de studio.

Construction papier, intitulé Synthèse dynamique de la vue à partir de la vidéo monoculaire dynamique, n'est pas le premier à développer un monoculaire Nerf flux de travail, mais semble être le premier à former simultanément un modèle variable dans le temps et un modèle statique dans le temps à partir de la même entrée, et à générer un cadre qui permet à la vidéo en mouvement d'exister dans un environnement NeRF « pré-mappé », similaire au type d'environnements virtuels qui encapsulent souvent les acteurs dans les sorties SF à gros budget.

Au-delĂ  de D-NeRF

Les chercheurs ont dû essentiellement recréer la polyvalence de Dynamic NeRF (D-NeRF) avec un seul point de vue, et non la multiplicité des caméras utilisées par D-NeRF. Pour résoudre ce problème, ils ont prédit le flux de la scène vers l'avant et vers l'arrière et ont utilisé ces informations pour développer un champ de radiance déformé et temporellement cohérent.

Avec un seul point de vue, il a fallu utiliser l'analyse du flux optique 2D pour obtenir des points 3D dans des rĂ©fĂ©rentiels. Le point 3D calculĂ© est ensuite renvoyĂ© Ă  la camĂ©ra virtuelle afin d'Ă©tablir un « flux de scène Â» qui fait correspondre le flux optique calculĂ© avec le flux optique estimĂ©.

Au moment de la formation, les éléments dynamiques et les éléments statiques sont réconciliés dans un modèle complet en tant que facettes accessibles séparément.

En incluant un calcul de perte d'ordre de profondeur, le modèle et en appliquant une régularisation rigoureuse de la prédiction du flux de scène dans D-NeRF, le problème de flou de mouvement est grandement atténué.

Bien que la recherche ait beaucoup à offrir en termes de régularisation du calcul NeRF et améliore considérablement la dextérité et la facilité d'exploration pour la sortie d'un seul POV, la nouvelle séparation et la réintégration des éléments NeRF dynamiques et statiques sont au moins égales. .

S'appuyant sur une seule caméra, un tel système ne peut pas reproduire la vue panoptique des configurations NeRF à plusieurs caméras, mais il peut aller n'importe où et sans camion.

NeRF – Statique ou vidéo ?

Récemment, nous avons examiné certains impressionnant une nouvelle recherche NeRF en provenance de Chine qui est capable de séparer les éléments d'une scène NeRF dynamique capturée avec 16 caméras.

ST-NeRF

ST-NeRF (ci-dessus) permet au spectateur de repositionner des éléments individuels dans une scène capturée, et même de les redimensionner, de modifier leur vitesse de lecture, de les figer ou de les faire défiler en arrière. De plus, ST-NeRF permet de faire défiler n'importe quelle partie de l'arc de 180 degrés capturé par les 16 caméras.

Cependant, les chercheurs du ST-NeRF papier admettons en conclusion que le temps s'écoule toujours dans une direction ou une autre sous ce système, et qu'il est difficile de changer l'éclairage et d'appliquer des effets à des environnements qui sont en fait des vidéos, plutôt qu'à des environnements NeRF « cartographiés statiquement » qui en eux-mêmes ne contiennent aucun composant mobile et n'ont pas besoin d'être capturés sous forme de vidéo.

Environnements NeRF statiques hautement modifiables

Une scène statique Neural Radiance Field, désormais isolée de tous les segments vidéo de mouvement, est plus facile à traiter et à augmenter de plusieurs façons, y compris le rééclairage, comme proposé plus tôt cette année par NeRV (Neural Reflectance and Visibility Fields for Relighting and View Synthesis), qui offre une première étape pour changer l'éclairage et/ou la texture d'un environnement ou d'un objet NeRF :

Réallumer un objet NeRF avec NeRV. Source : https://www.youtube.com/watch?v=4XyDdvhhjVo

Réallumer un objet NeRF avec NeRV. Source : https://www.youtube.com/watch?v=4XyDdvhhjVo

Retexturation dans NeRV, incluant même des effets spéculaires photoréalistes. Étant donné que la base du tableau d'images est statique, il est plus facile de traiter et d'augmenter une facette NeRF de cette manière que d'englober l'effet sur une gamme d'images vidéo, ce qui rend le prétraitement initial et la formation éventuelle plus légers et plus faciles.

Retexturation dans NeRV, incluant même des effets spéculaires photoréalistes. Étant donné que la base du tableau d'images est statique, il est plus facile de traiter et d'augmenter une facette NeRF de cette manière que d'englober l'effet sur une gamme d'images vidéo, ce qui rend le prétraitement initial et la formation éventuelle plus légers et plus faciles.

 

Rédacteur en apprentissage automatique, spécialiste du domaine de la synthèse d'images humaines. Ancien responsable du contenu de recherche chez Metaphysic.ai.
Site personnel : martinanderson.ai
Contact [email protected]
Twitter : @manders_ai