Intelligence Artificielle
Le nouveau CGI : créer des quartiers neuronaux avec Block-NeRF

Champs de rayonnement neuronal (Nerf) permettent de recréer et d'explorer des objets à l'intérieur de réseaux de neurones en utilisant uniquement plusieurs photographies de points de vue en entrée, sans la complexité et le coût des méthodes CGI traditionnelles.
Cependant, le processus est coûteux en calcul, ce qui limitait initialement les environnements NeRF à modèle de table scénarios. Néanmoins, NeRF a été adopté par une communauté de recherche dévouée, voire frénétique, qui a, au cours de la dernière année, a permis des reconstructions extérieures ainsi que humains neuronaux modifiables, ainsi que de nombreuses autres innovations.
Désormais, une nouvelle initiative de recherche, qui inclut la participation de Google Research, reconnaît les possibles limites strictes de l'optimisation de NeRF et se concentre plutôt sur l'assemblage d'environnements NeRF pour créer des quartiers à la demande comprenant plusieurs instances NeRF coordonnées.

Point de vue d'un réseau Block-NeRF de NeRF liés. Voir la vidéo intégrée à la fin de l'article, ainsi que le lien source pour les vidéos supplémentaires pleine longueur haute résolution. Source : https://waymo.com/research/block-nerf/
Naviguer efficacement dans le réseau de NeRF liés rend NeRF évolutif et modulaire, fournissant des environnements navigables qui chargent des parties supplémentaires du quartier selon les besoins, d'une manière similaire aux méthodes d'optimisation des ressources des jeux vidéo, où ce qui se trouve au coin de la rue est rarement chargé jusqu'à ce qu'il devienne clair que l'environnement va être nécessaire.
Dans un effort majeur pour démêler En plus de facettes distinctes telles que la météo et l'heure, Block-NeRF introduit également des « codes d'apparence », permettant de modifier dynamiquement l'heure de la journée :


Changer l'heure de la journée avec Block-NeRF. Voir la vidéo intégrée à la fin de l'article, ainsi que le lien source pour les vidéos supplémentaires pleine longueur haute résolution. Source : https://waymo.com/research/block-nerf/
Le nouveau document suggère que l'optimisation NeRF approche de sa propre limite thermique et que les futurs déploiements d'environnements de rayonnement neuronal dans la réalité virtuelle, d'autres types de sphères interactives et de travaux VFX dépendront probablement d'opérations parallèles, de la même manière que la loi de Moore a finalement cédé la place aux architectures multicœurs, aux optimisations parallèles et aux nouvelles approches de la mise en cache.
Les auteurs de papier (intitulé Block-NeRF : Synthèse évolutive de vues neurales de grandes scènes) a utilisé 2.8 millions d'images pour créer la plus grande scène neuronale jamais tentée - une série de quartiers de San Francisco.

Block-NeRF navigue dans la cathédrale Grace de San Francisco. Voir la vidéo intégrée à la fin de l'article, ainsi que le lien source pour des vidéos supplémentaires complètes en haute résolution. Source : https://waymo.com/research/block-nerf/
L'auteur principal de l'article, représentant l'UC Berkley, est Matthew Tancik, le co-inventeur de Neural Radiance Fields, qui a entrepris le travail alors qu'il était stagiaire dans la société de développement de technologies de conduite autonome Waymo, hôte du page du projet. L'initiative propose également une vidéo de présentation sur YouTube, intégrée à la fin de cet article, ainsi que de nombreux exemples de vidéos à l'appui et supplémentaires sur la page du projet.
L'article est co-écrit par plusieurs autres créateurs de NeRF, dont Ben Mildenhall (Google Research), Pratul P. Srinivasan (Google Research) et Jonathan T. Barron (Google Research). Les autres contributeurs sont Vincent Casser, Xinchen Yan, Sabeek Pradhan, Henrik Kretzschmar et Vincent Casser, tous de Waymo.
Block-NeRF a été développé principalement en tant que recherche sur les environnements virtuels pour les systèmes de véhicules autonomes, y compris les voitures autonomes et les drones.

La chaussée Embarcadero vue à 180 degrés dans Block-NeRF. Voir la vidéo intégrée à la fin de l'article, ainsi que le lien source pour les vidéos supplémentaires pleine longueur haute résolution. Source : https://waymo.com/research/block-nerf/
D'autres facteurs qui peuvent être modifiés dynamiquement dans Block-NeRF sont l'ouverture de l'objectif (voir l'image ci-dessus), la météo et les saisons.
Cependant, le changement de saison peut entraîner des changements connexes dans l'environnement, tels que des arbres sans feuilles, ce qui nécessite un ensemble de données d'entrée encore plus étendu que celui construit pour Block-NeRF. Le papier précise :
« [Le feuillage] change selon les saisons et bouge au gré du vent ; cela entraîne des représentations floues des arbres et des plantes. De même, les incohérences temporelles dans les données d'apprentissage, comme les travaux de construction, ne sont pas traitées automatiquement et nécessitent un nouvel apprentissage manuel des blocs concernés. »
Rendu apocalyptique
Si vous regardez la vidéo intégrée à la fin, vous remarquerez un Walking DeadL'environnement réseau Block-NeRF a été enrichi d'une certaine parcimonie. Pour diverses raisons, notamment pour fournir un environnement de démarrage simulé aux systèmes robotiques, les voitures, les piétons et autres objets transitoires ont été volontairement masqués du matériel source, mais cela a laissé des artefacts, comme les ombres des véhicules stationnés « effacés » :

L'ombre fantôme d'une voiture effacée. Source : https://waymo.com/research/block-nerf/
Pour s'adapter à une gamme d'environnements d'éclairage tels que le jour ou la nuit, les réseaux ont été formés pour incorporer des flux de données désenchevêtrés relatifs à chaque condition souhaitée. Dans l'image ci-dessous, nous voyons les flux contributifs pour les images Block-NeRF d'une autoroute de jour et de nuit :

Les facettes à la demande derrière un rendu Block-NeRF apparemment « cuit », permettant à un utilisateur d'activer la nuit selon ses besoins. Source : https://waymo.com/research/block-nerf/
Considérations environnementales et éthiques
Ces dernières années, les propositions de recherche ont commencé à inclure des mises en garde et des avertissements concernant les éventuelles répercussions éthiques et environnementales des travaux proposés. Dans le cas de Block-NeRF, les auteurs soulignent que les besoins énergétiques sont élevés et que la prise en compte d'objets transitoires à court et à long terme (tels que les feuilles des arbres et les travaux de construction, respectivement) nécessiterait une réanalyse régulière des données sources, ce qui entraînerait une « surveillance » accrue dans les zones urbaines dont les modèles neuronaux doivent être mis à jour.
Les auteurs déclarent:
Selon l'échelle à laquelle ces travaux sont appliqués, leurs besoins en calcul peuvent entraîner ou aggraver des dommages environnementaux si l'énergie utilisée pour le calcul entraîne une augmentation des émissions de carbone. Comme indiqué dans l'article, nous prévoyons d'autres travaux, tels que des méthodes de mise en cache, qui pourraient réduire les besoins en calcul et ainsi atténuer les dommages environnementaux.
Concernant la surveillance, ils poursuivent :
Les applications futures de ce travail pourraient nécessiter des efforts de collecte de données encore plus importants, ce qui soulève d'autres préoccupations en matière de confidentialité. Si des images détaillées des voies publiques sont déjà disponibles sur des services comme Google Street View, notre méthodologie pourrait favoriser des analyses répétées et plus régulières de l'environnement. Plusieurs entreprises du secteur des véhicules autonomes effectuent également des analyses de zone régulières avec leur flotte de véhicules ; cependant, certaines pourraient n'utiliser que des analyses LiDAR, qui peuvent être moins sensibles que la collecte d'images par caméra.
Méthodes et solutions
Les environnements NeRF individuels peuvent être réduits, en théorie, à n'importe quelle taille avant d'être assemblés dans un réseau Block-NeRF. Cela ouvre la voie à la prise en compte granulaire de contenus forcément évolutifs, comme les arbres, et à l'identification et à la gestion des travaux de construction, qui peuvent persister dans le temps même sur des années de recapture, mais sont susceptibles d'évoluer et finissent par devenir des entités cohérentes.
Cependant, dans cette sortie de recherche initiale, les blocs NeRF discrets sont limités aux blocs urbains réels de chaque environnement représenté, assemblés, avec un chevauchement de 50 % assurant une transition cohérente d'un bloc à l'autre lorsque l'utilisateur navigue sur le réseau.
Chaque bloc est contraint par un filtre géographique. Les auteurs notent que cette partie du framework est ouverte à l'automatisation et, étonnamment, que leur implémentation repose sur OpenStreetMap plutôt que sur Google Maps.

Le rayon d'intersection pour un espace de rendu « actif » Block-NeRF. Source: Waymo
Les blocs sont formés en parallèle, avec les blocs nécessaires rendus à la demande. Les codes d'apparence innovants sont également orchestrés parmi les blocs, garantissant que l'on ne voyage pas de manière inattendue dans des conditions météorologiques, des heures de la journée ou même une saison différente.

Les segments Block-NeRF sont conditionnés à l'exposition d'une manière analogue à la plage dynamique élevée (HDR) dans le matériel source photographique. Source: Waymo
La possibilité de commuter l'éclairage et d'autres variables environnementales est dérivée des optimisations latentes génératives introduites dans NeRF dans la nature (NeRF-W), qui a lui-même dérivé la méthode du Facebook AI 2019 document de recherche Optimiser l'espace latent des réseaux génératifs.
Un modèle de segmentation sémantique est né pour Panoptique-DeepLab en 2020 est utilisé pour bloquer les éléments indésirables (tels que les personnes et les véhicules)
Date
Constatant que des ensembles de données urbains communs tels que Paysages urbains n'étaient pas adaptés à un travail de détail aussi intensif que Block-NeRF implique, les chercheurs ont créé leur propre ensemble de données. Les données d'image ont été capturées à partir de 12 caméras englobant une vue à 360 degrés, avec des séquences prises à 10 Hz avec une valeur d'exposition scalaire.

Les quartiers de San Francisco couverts étaient Alamo Square et Mission Bay. Pour les captures d'Alamo Square, une zone d'environ 960 mx 570 m a été couverte, divisée en 35 instances Block-NeRF, chacune entraînée sur les données de 38 à 48 cycles de collecte de données différents, avec un temps de conduite total de 18 à 28 minutes.
Le nombre d'images contributives pour chaque bloc-NeRF était compris entre 64,575 108,216 et 13.4 1,330, et le temps de conduite global représenté pour cette zone était de 2,818,745 heures sur XNUMX XNUMX cycles de collecte de données différents. Cela a abouti à XNUMX XNUMX XNUMX images d'entraînement uniquement pour Alamo Square. Voir le document pour plus de détails sur la collecte de données pour Mission Bay.
Première publication le 11 février 2022.












