Inteligencia Artificial
El nuevo CGI: creación de vecindarios neuronales con Block-NeRF

Campos de radiación neuronal (NERF) permiten que los objetos se recreen y exploren dentro de redes neuronales utilizando solo fotografías de múltiples puntos de vista como entrada, sin la complejidad y el gasto de los métodos CGI tradicionales.
Sin embargo, el proceso es computacionalmente costoso, lo que inicialmente limitó los entornos NeRF a modelo de mesa escenarios. No obstante, NeRF ha sido adoptado por una comunidad de investigación dedicada, incluso frenética, que durante el último año reconstrucciones exteriores habilitadas al igual que humanos neuronales editables, además de muchas otras novedades.
Ahora, una nueva iniciativa de investigación, que incluye la participación de Google Research, reconoce los posibles límites estrictos en la optimización de NeRF y, en cambio, se concentra en unir entornos NeRF para crear vecindarios bajo demanda que comprenden múltiples instancias coordinadas de NeRF.

Punto de vista desde una red Block-NeRF de NeRF vinculados. Vea el video incrustado al final del artículo y también el enlace de origen para videos complementarios completos de alta resolución. Fuente: https://waymo.com/research/block-nerf/
Navegar por la red de NeRF vinculados de manera efectiva hace que NeRF sea escalable y modular, brindando entornos navegables que cargan partes adicionales del vecindario a medida que se necesitan, de una manera similar a los métodos de optimización de recursos de los videojuegos, donde lo que está a la vuelta de la esquina rara vez se carga hasta que queda claro que se va a necesitar el entorno.
En un gran impulso hacia desenredar Además de separar facetas como el clima y la hora, Block-NeRF también introduce 'códigos de apariencia', lo que permite cambiar dinámicamente la hora del día:


Cambiar la hora del día con Block-NeRF. Vea el video incrustado al final del artículo y también el enlace de origen para videos complementarios completos de alta resolución. Fuente: https://waymo.com/research/block-nerf/
El nuevo artículo sugiere que la optimización de NeRF se está acercando a su propio límite térmico, y que las futuras implementaciones de entornos de radiancia neuronal en realidad virtual, otros tipos de esferas interactivas y trabajos de efectos visuales probablemente dependan de operaciones paralelas, de manera similar a la forma en que la Ley de Moore eventualmente dio paso a arquitecturas de múltiples núcleos, optimizaciones paralelas y nuevos enfoques para el almacenamiento en caché.
Un estudio de los autores (con derecho Block-NeRF: Síntesis escalable de vista neuronal de escena grande) usó 2.8 millones de imágenes para crear la escena neuronal más grande jamás intentada: una serie de vecindarios en San Francisco.

Block-NeRF navega por la Catedral Grace de San Francisco. Vea el video incrustado al final del artículo y también el enlace a la fuente para videos complementarios completos en alta resolución. Fuente: https://waymo.com/research/block-nerf/
El autor principal del artículo, en representación de UC Berkley, es Matthew Tancik, el co-inventor de Neural Radiance Fields, quien realizó el trabajo mientras era pasante en la empresa de desarrollo de tecnología de conducción autónoma Waymo, anfitriona del página del proyecto. La iniciativa también ofrece una descripción general de video en YouTube, incrustada al final de este artículo, además de muchos ejemplos de video de apoyo y complementarios en la página del proyecto.
El documento es coautor de varios otros creadores de NeRF, incluidos Ben Mildenhall (Google Research), Pratul P. Srinivasan (Google Research) y Jonathan T. Barron (Google Research). Los otros colaboradores son Vincent Casser, Xinchen Yan, Sabeek Pradhan, Henrik Kretzschmar y Vincent Casser, todos de Waymo.
Block-NeRF se desarrolló principalmente como investigación de entornos virtuales para sistemas de vehículos autónomos, incluidos vehículos autónomos y drones.

La calzada Embarcadero desde una posición de vista de 180 grados en Block-NeRF. Vea el video incrustado al final del artículo y también el enlace de origen para videos complementarios completos de alta resolución. Fuente: https://waymo.com/research/block-nerf/
Otros factores que se pueden cambiar dinámicamente en Block-NeRF son la apertura de la lente (ver imagen arriba), el clima y las estaciones.
Sin embargo, el cambio de estación puede causar cambios relacionados en el medio ambiente, como árboles sin hojas, lo que requiere un conjunto de datos de entrada aún más extenso que el que se construyó para Block-NeRF. El documento dice:
El follaje cambia estacionalmente y se mueve con el viento, lo que resulta en representaciones borrosas de árboles y plantas. De igual manera, las inconsistencias temporales en los datos de entrenamiento, como las obras de construcción, no se gestionan automáticamente y requieren el reentrenamiento manual de los bloques afectados.
Representación apocalíptica
Si miras el vídeo incrustado al final, notarás una Walking DeadDispersión de estilo en el entorno en red Block-NeRF. Por diversas razones, entre ellas la de proporcionar un entorno inicial simulado para sistemas robóticos, se eliminaron deliberadamente del material original coches, peatones y otros objetos transitorios, pero esto ha dejado algunos artefactos, como las sombras de vehículos estacionados "borrados".

La sombra fantasma de un coche borrado. Fuente: https://waymo.com/research/block-nerf/
Para adaptarse a una variedad de entornos de iluminación, como el día o la noche, las redes han sido entrenadas para incorporar flujos de datos desenredados relacionados con cada condición deseada. En la imagen a continuación, vemos las secuencias que contribuyen para el metraje Block-NeRF de una carretera de día y de noche:

Las facetas bajo demanda detrás de una representación de Block-NeRF aparentemente "horneada", que permite al usuario activar la noche según sea necesario. Fuente: https://waymo.com/research/block-nerf/
Consideraciones ambientales y éticas
En los últimos años, las propuestas de investigación han comenzado a incluir advertencias y descargos de responsabilidad sobre las posibles consecuencias éticas y ambientales del trabajo propuesto. En el caso de Block-NeRF, los autores señalan que los requerimientos energéticos son elevados y que la consideración de objetos transitorios a corto y largo plazo (como hojas de árboles y obras de construcción, respectivamente) requeriría un reescaneo periódico de los datos originales, lo que conlleva una mayor vigilancia en zonas urbanas cuyos modelos neuronales deben mantenerse actualizados.
Los autores declaran:
Dependiendo de la escala a la que se aplique este trabajo, sus demandas de cómputo pueden provocar o agravar daños ambientales si la energía utilizada para el cómputo genera un aumento de las emisiones de carbono. Como se menciona en el artículo, prevemos nuevos trabajos, como métodos de almacenamiento en caché, que podrían reducir las demandas de cómputo y, por lo tanto, mitigar el daño ambiental.
En cuanto a la vigilancia, continúan:
Las futuras aplicaciones de este trabajo podrían implicar esfuerzos de recopilación de datos aún mayores, lo que plantea nuevas preocupaciones sobre la privacidad. Si bien ya se pueden encontrar imágenes detalladas de vías públicas en servicios como Google Street View, nuestra metodología podría promover escaneos repetidos y más regulares del entorno. Varias empresas del sector de vehículos autónomos también realizan escaneos de área regulares con su flota de vehículos; sin embargo, algunas podrían utilizar únicamente escaneos LiDAR, que pueden ser menos sensibles que la recopilación de imágenes con cámaras.
Métodos y Soluciones
Los entornos NeRF individuales pueden reducirse, en teoría, a cualquier tamaño antes de ensamblarse en una matriz Block-NeRF. Esto abre el camino a la inclusión granular de contenido que definitivamente está sujeto a cambios, como árboles, y a la identificación y gestión de obras de construcción, que pueden persistir en el tiempo incluso años después de la recuperación, pero es probable que evolucionen y eventualmente se convierten en entidades consistentes.
Sin embargo, en esta salida de investigación inicial, los bloques NeRF discretos se limitan a los bloques de ciudad reales de cada entorno representado, unidos, con una superposición del 50 % que garantiza una transición constante de un bloque al siguiente a medida que el usuario navega por la red.
Cada bloque está limitado por un filtro geográfico. Los autores señalan que esta parte del marco está abierta a la automatización y, sorprendentemente, que su implementación se basa en OpenStreetMap en lugar de Google Maps.

El radio de intersección para un espacio de renderizado 'activo' Block-NeRF. Fuente: Waymo
Los bloques se entrenan en paralelo, y los bloques necesarios se procesan a pedido. Los códigos de apariencia innovadores también están orquestados entre el conjunto de bloques, asegurando que uno no viaje inesperadamente a un clima diferente, a una hora del día o incluso a una estación diferente.

Los segmentos Block-NeRF están condicionados a la exposición de manera análoga al alto rango dinámico (HDR) en el material de origen fotográfico. Fuente: Waymo
La capacidad de cambiar la iluminación y otras variables ambientales se deriva de las optimizaciones latentes generativas introducidas en NeRF en estado salvaje (NeRF-W), que a su vez derivó el método de la IA de Facebook de 2019 trabajo de investigación Optimización del espacio latente de las redes generativas.
Un modelo de segmentación semántica originado para Panóptico-DeepLab en 2020 se usa para bloquear elementos no deseados (como personas y vehículos)
Fecha
Descubrir que los conjuntos de datos urbanos comunes, como paisajes urbanos no eran adecuados para un trabajo detallado tan intensivo como el que implica Block-NeRF, los investigadores originaron su propio conjunto de datos. Los datos de la imagen se capturaron desde 12 cámaras que abarcan una vista de 360 grados, con imágenes tomadas a 10 Hz con un valor de exposición escalar.

Los vecindarios de San Francisco cubiertos fueron Alamo Square y Mission Bay. Para las capturas de Alamo Square, se cubrió un área de aproximadamente 960 m x 570 m, dividida en 35 instancias Block-NeRF, cada una entrenada con datos de 38 a 48 ejecuciones de recopilación de datos diferentes, con un tiempo total de conducción de 18 a 28 minutos.
La cantidad de imágenes que contribuyeron para cada Block-NeRF estuvo entre 64,575 108,216 y 13.4 1,330, y el tiempo total de conducción representado para esta área fue de 2,818,745 horas en XNUMX ejecuciones de recopilación de datos diferentes. Esto resultó en XNUMX imágenes de entrenamiento solo para Alamo Square. Consulte el documento para obtener detalles adicionales sobre la recopilación de datos para Mission Bay.
Publicado por primera vez el 11 de febrero de 2022.












