Intelligence Artificielle
ST-NeRF : composition et montage pour la synthèse vidéo

Un consortium de recherche chinois a en réponse techniques pour apporter des capacités d'édition et de composition à l'un des secteurs de recherche de synthèse d'images les plus en vogue de l'année dernière - Neural Radiance Fields (NeRF). Le système est intitulé ST-NeRF (Spatio-Temporal Coherent Neural Radiance Field).
Ce qui ressemble à un panoramique physique dans l'image ci-dessous n'est en réalité qu'un utilisateur faisant défiler les points de vue d'un contenu vidéo dans un espace 4D. Le point de vue n'est pas lié aux performances des personnes représentées dans la vidéo, dont les mouvements peuvent être observés depuis n'importe quel point dans un rayon de 180 degrés.

Chaque facette de la vidéo est un élément capturé discrètement, composé dans une scène cohérente qui peut être explorée de manière dynamique.
Les facettes peuvent être librement dupliquées dans la scène ou redimensionnées :

De plus, le comportement temporel de chaque facette peut être facilement modifié, ralenti, inversé ou manipulé de plusieurs façons, ouvrant la voie à des architectures de filtrage et à un niveau d'interprétabilité extrêmement élevé.

Deux facettes NeRF distinctes fonctionnent à des vitesses différentes dans la même scène. Source : https://www.youtube.com/watch?v=Wp4HfOwFGP4

Il n'est pas nécessaire de rotoscopier les interprètes ou les environnements, ou de demander aux interprètes d'exécuter leurs mouvements à l'aveugle et hors du contexte de la scène prévue. Au lieu de cela, les images sont capturées naturellement via un réseau de 16 caméras vidéo couvrant 180 degrés :


Les trois éléments décrits ci-dessus, les deux personnes et l'environnement, sont distincts et décrits uniquement à des fins d'illustration. Chacun peut être échangé et chacun peut être inséré dans la scène à un moment antérieur ou ultérieur dans leur chronologie de capture individuelle.
ST-NeRF est une innovation sur la recherche dans les champs de rayonnement neuronal (Nerf), un cadre d'apprentissage automatique dans lequel plusieurs captures de points de vue sont synthétisées dans un espace virtuel navigable par une formation approfondie (bien que la capture d'un seul point de vue soit également un sous-secteur de la recherche NeRF).

Les champs de rayonnement neuronal fonctionnent en rassemblant plusieurs points de vue de capture dans un seul espace 3D cohérent et navigable, les écarts entre la couverture étant estimés et rendus par un réseau neuronal. Lorsque la vidéo (plutôt que des images fixes) est utilisée, les ressources de rendu nécessaires sont souvent considérables. Source : https://www.matthewtancik.com/nerf
L'intérêt pour NeRF est devenu intense au cours des neuf derniers mois, et un liste d'articles dérivés ou exploratoires du NeRF répertorie actuellement une soixantaine de projets.

Quelques-unes des nombreuses ramifications de l'article NeRF original. Source : https://crossminds.ai/graphlist/nerf-neural-radiance-fields-ai-research-graph-60708936c8663c4cfa875fc2/
Formation abordable
L'article est le fruit d'une collaboration entre des chercheurs de la Shanghai Tech University et Technologie numérique DGene, et a été accepté avec un certain enthousiasme à Examen ouvert.
ST-NeRF offre de nombreuses innovations par rapport aux initiatives précédentes en matière d'espaces vidéo navigables dérivés du Machine Learning. Notamment, il atteint un haut niveau de réalisme avec seulement 16 caméras. Bien que Facebook DyNeRF n'utilise que deux caméras de plus, il offre un arc navigable beaucoup plus restreint.

Un exemple de l'environnement DyNeRF de Facebook, avec un champ de mouvement plus limité et davantage de caméras par pied carré nécessaires pour reconstruire la scène. Source : https://neural-3d-video.github.io
En plus de ne pas avoir la capacité d'éditer et de composer des facettes individuelles, DyNeRF est particulièrement coûteux en termes de ressources informatiques. En revanche, les chercheurs chinois affirment que le coût de formation de leurs données se situe entre 900 et 3,000 30,000 dollars, contre XNUMX XNUMX dollars pour le modèle de génération vidéo de pointe DVDGAN et des systèmes intensifs tels que DyNeRF.
Les examinateurs ont également noté que ST-NeRF apporte une innovation majeure en dissociant le processus d'apprentissage du mouvement du processus de synthèse d'images. Cette séparation est ce qui permet l'édition et la composition, les approches précédentes étant restrictives et linéaires en comparaison.
Bien que 16 caméras constituent un réseau très limité pour un demi-cercle de vue aussi complet, les chercheurs espèrent réduire davantage ce nombre dans des travaux ultérieurs grâce à l'utilisation d'arrière-plans statiques pré-scannés par procuration et d'approches de modélisation de scène davantage axées sur les données. Ils espèrent également intégrer des capacités de rééclairage, un innovation récente dans la recherche NeRF.
Aborder les limites de ST-NeRF
Dans le contexte d'articles académiques sur l'informatique qui ont tendance à jeter à la poubelle l'utilisabilité réelle d'un nouveau système dans un paragraphe de fin jetable, même les limites que les chercheurs reconnaissent pour ST-NeRF sont inhabituelles.
Ils observent que le système ne peut actuellement pas individualiser et restituer séparément des objets particuliers dans une scène, car les personnes dans les images sont segmentées en entités individuelles via un système conçu pour reconnaître les humains et non les objets - un problème qui semble facilement résolu avec YOLO et similaire frameworks, avec le plus dur travail d'extraction de vidéo humaine déjà accompli.
Bien que les chercheurs notent qu'il n'est actuellement pas possible de générer du ralenti, il semble que peu de choses empêchent sa mise en œuvre en utilisant les innovations existantes en matière d'interpolation d'images telles que DAÏN et RIF.
Comme pour toutes les implémentations NeRF et dans de nombreux autres secteurs de la recherche en vision par ordinateur, ST-NeRF peut échouer dans les cas d'occlusion grave, où le sujet est temporairement masqué par une autre personne ou un objet, et peut être difficile à suivre en continu ou à contrôler avec précision. réacquérir ensuite. Comme ailleurs, cette difficulté devra peut-être attendre des solutions en amont. En attendant, les chercheurs admettent qu'une intervention manuelle est nécessaire dans ces cadres obstrués.
Enfin, les chercheurs observent que les procédures de segmentation humaine reposent actuellement sur des différences de couleur, ce qui pourrait conduire à un regroupement involontaire de deux personnes en un seul bloc de segmentation - une pierre d'achoppement non limitée à ST-NeRF, mais intrinsèque à la bibliothèque utilisée, et qui pourrait peut-être être résolu par l'analyse de flux optique et d'autres techniques émergentes.
Première publication le 7 mai 2021.












