talón El nuevo CGI: creación de vecindarios neuronales con Block-NeRF - Unite.AI
Contáctanos

Inteligencia artificial

El nuevo CGI: creación de vecindarios neuronales con Block-NeRF

mm
Actualizado on

Campos de radiación neuronal (NERF) permiten que los objetos se recreen y exploren dentro de redes neuronales utilizando solo fotografías de múltiples puntos de vista como entrada, sin la complejidad y el gasto de los métodos CGI tradicionales.

Sin embargo, el proceso es computacionalmente costoso, lo que inicialmente limitó los entornos NeRF a modelo de mesa escenarios. No obstante, NeRF ha sido adoptado por una comunidad de investigación dedicada, incluso frenética, que durante el último año reconstrucciones exteriores habilitadas al igual que humanos neuronales editables, además de muchas otras novedades.

Ahora, una nueva iniciativa de investigación, que incluye la participación de Google Research, reconoce los posibles límites estrictos en la optimización de NeRF y, en cambio, se concentra en unir entornos NeRF para crear vecindarios bajo demanda que comprenden múltiples instancias coordinadas de NeRF.

Punto de vista desde una red Block-NeRF de NeRF vinculados. . Vea el video incrustado al final del artículo y también el enlace de origen para videos complementarios completos de alta resolución. Fuente: https://waymo.com/research/block-nerf/

Punto de vista desde una red Block-NeRF de NeRF vinculados. Vea el video incrustado al final del artículo y también el enlace de origen para videos complementarios completos de alta resolución. Fuente: https://waymo.com/research/block-nerf/

Navegar por la red de NeRF vinculados hace que NeRF sea modular y escalable de manera efectiva, proporcionando entornos navegables que cargan partes adicionales del vecindario a medida que se necesitan, de manera similar a los métodos de optimización de recursos de los videojuegos, donde lo que está a la vuelta de la esquina rara vez se carga hasta que queda claro que se va a necesitar el medio ambiente.

En un gran impulso hacia desenredar facetas separadas como el clima y la hora, Block-NeRF también introduce 'códigos de apariencia', lo que permite cambiar dinámicamente la hora del día:

Cambiar la hora del día con Block-NeRF. Vea el video incrustado al final del artículo y también el enlace de origen para videos complementarios completos de alta resolución. Fuente: https://waymo.com/research/block-nerf/

Cambiar la hora del día con Block-NeRF. Vea el video incrustado al final del artículo y también el enlace de origen para videos complementarios completos de alta resolución. Fuente: https://waymo.com/research/block-nerf/

El nuevo artículo sugiere que la optimización de NeRF se está acercando a su propio límite térmico, y que es probable que las futuras implementaciones de entornos de radiación neuronal en realidad virtual, otros tipos de esferas interactivas y el trabajo de VFX dependan de operaciones paralelas, de forma similar a la forma en que Moore. Law eventualmente dio paso a arquitecturas de múltiples núcleos, optimizaciones paralelas y nuevos enfoques para el almacenamiento en caché.

Los autores de la (con derecho Block-NeRF: Síntesis escalable de vista neuronal de escena grande) usó 2.8 millones de imágenes para crear la escena neuronal más grande jamás intentada: una serie de vecindarios en San Francisco.

Block-NeRF navega por la Catedral Grace de San Francisco. Vea el video incrustado al final del artículo y también el enlace de origen para videos complementarios completos de alta resolución. Fuente: https://waymo.com/research/block-nerf/

Block-NeRF navega por la Catedral Grace de San Francisco. Vea el video incrustado al final del artículo y también el enlace de origen para videos complementarios completos de alta resolución. Fuente: https://waymo.com/research/block-nerf/

El autor principal del artículo, en representación de UC Berkley, es Matthew Tancik, el co-inventor de Neural Radiance Fields, quien realizó el trabajo mientras era pasante en la empresa de desarrollo de tecnología de conducción autónoma Waymo, anfitriona del página del proyecto. La iniciativa también ofrece una descripción general de video en YouTube, incrustada al final de este artículo, además de muchos ejemplos de video de apoyo y complementarios en la página del proyecto.

El documento es coautor de varios otros creadores de NeRF, incluidos Ben Mildenhall (Google Research), Pratul P. Srinivasan (Google Research) y Jonathan T. Barron (Google Research). Los otros colaboradores son Vincent Casser, Xinchen Yan, Sabeek Pradhan, Henrik Kretzschmar y Vincent Casser, todos de Waymo.

Block-NeRF se desarrolló principalmente como investigación de entornos virtuales para sistemas de vehículos autónomos, incluidos vehículos autónomos y drones.

La calzada Embarcadero desde una posición de vista de 180 grados en Block-NeRF. Vea el video incrustado al final del artículo y también el enlace de origen para videos complementarios completos de alta resolución. Fuente: https://waymo.com/research/block-nerf/

La calzada Embarcadero desde una posición de vista de 180 grados en Block-NeRF. Vea el video incrustado al final del artículo y también el enlace de origen para videos complementarios completos de alta resolución. Fuente: https://waymo.com/research/block-nerf/

Otros factores que se pueden cambiar dinámicamente en Block-NeRF son la apertura de la lente (ver imagen arriba), el clima y las estaciones.

Sin embargo, el cambio de estación puede causar cambios relacionados en el medio ambiente, como árboles sin hojas, lo que requiere un conjunto de datos de entrada aún más extenso que el que se construyó para Block-NeRF. El documento dice:

'[El follaje] cambia estacionalmente y se mueve con el viento; esto da como resultado representaciones borrosas de árboles y plantas. De manera similar, las inconsistencias temporales en los datos de entrenamiento, como el trabajo de construcción, no se manejan automáticamente y requieren el reentrenamiento manual de los bloques afectados.'

Representación apocalíptica

Si observa el video incrustado al final, notará una Walking Dead-esparcimiento de estilo al entorno Block-NeRF en red. Por varias razones, sobre todo para proporcionar un entorno de arranque simulado para los sistemas robóticos, los automóviles, los peatones y otros objetos transitorios se eliminaron deliberadamente del material de origen, pero esto ha dejado algunos artefactos, como las sombras de los vehículos estacionados "borrados". :

La sombra fantasma de un coche borrado. Fuente: https://waymo.com/research/block-nerf/

La sombra fantasma de un coche borrado. Fuente: https://waymo.com/research/block-nerf/

Para adaptarse a una variedad de entornos de iluminación, como el día o la noche, las redes han sido entrenadas para incorporar flujos de datos desenredados relacionados con cada condición deseada. En la imagen a continuación, vemos las secuencias que contribuyen para el metraje Block-NeRF de una carretera de día y de noche:

Las facetas bajo demanda detrás de un renderizado Block-NeRF aparentemente 'horneado', que permite al usuario encender la noche según sea necesario. Fuente: https://waymo.com/research/block-nerf/

Las facetas bajo demanda detrás de un renderizado Block-NeRF aparentemente 'horneado', que permite al usuario encender la noche según sea necesario. Fuente: https://waymo.com/research/block-nerf/

Consideraciones ambientales y éticas

En los últimos años, las presentaciones de investigación han comenzado a incluir advertencias y descargos de responsabilidad con respecto a las posibles ramificaciones éticas y ambientales del trabajo propuesto. En el caso de Block-NeRF, los autores señalan que los requisitos de energía son altos y que tener en cuenta los objetos transitorios a corto y largo plazo (como las hojas de los árboles y los trabajos de construcción, respectivamente) requeriría un nuevo escaneo regular de los datos de origen, lo que lleva a una mayor "vigilancia" en áreas urbanas cuyos modelos neuronales deben mantenerse actualizados.

Los autores declaran:

'Dependiendo de la escala en la que se aplique este trabajo, sus demandas de cómputo pueden provocar o empeorar el daño ambiental si la energía utilizada para el cómputo conduce a un aumento de las emisiones de carbono. Como se menciona en el documento, prevemos más trabajo, como métodos de almacenamiento en caché, que podrían reducir las demandas informáticas y, por lo tanto, mitigar el daño ambiental”.

En cuanto a la vigilancia, continúan:

“Las futuras aplicaciones de este trabajo podrían implicar esfuerzos de recopilación de datos aún mayores, lo que plantea más preocupaciones sobre la privacidad. Si bien ya se pueden encontrar imágenes detalladas de las vías públicas en servicios como Google Street View, nuestra metodología podría promover escaneos repetidos y más regulares del entorno. También se sabe que varias empresas en el espacio de vehículos autónomos realizan escaneos de área regulares utilizando su flota de vehículos; sin embargo, es posible que algunos solo utilicen escaneos LiDAR, que pueden ser menos sensibles que la recopilación de imágenes de la cámara.

Métodos y Soluciones

Los entornos NeRF individuales pueden reducirse, en teoría, a cualquier tamaño antes de ensamblarse en una matriz Block-NeRF. Esto abre el camino a la inclusión granular de contenido que definitivamente está sujeto a cambios, como árboles, y a la identificación y gestión de obras de construcción, que pueden persistir en el tiempo incluso años después de la recuperación, pero es probable que evolucionen y eventualmente se convierten en entidades consistentes.

Sin embargo, en esta salida de investigación inicial, los bloques NeRF discretos se limitan a los bloques de ciudad reales de cada entorno representado, unidos, con una superposición del 50 % que garantiza una transición constante de un bloque al siguiente a medida que el usuario navega por la red.

Cada bloque está limitado por un filtro geográfico. Los autores señalan que esta parte del marco está abierta a la automatización y, sorprendentemente, que su implementación se basa en OpenStreetMap en lugar de Google Maps.

El radio de intersección para un espacio de representación 'activo' de Block-NeRF. Fuente: Waymo

El radio de intersección para un espacio de representación 'activo' de Block-NeRF. Fuente: Waymo

Los bloques se entrenan en paralelo, y los bloques necesarios se procesan a pedido. Los códigos de apariencia innovadores también están orquestados entre el conjunto de bloques, asegurando que uno no viaje inesperadamente a un clima diferente, a una hora del día o incluso a una estación diferente.

Los segmentos Block-NeRF están condicionados a la exposición de manera análoga al alto rango dinámico (HDR) en el material de origen fotográfico. Fuente: Waymo

Los segmentos Block-NeRF están condicionados a la exposición de manera análoga al alto rango dinámico (HDR) en el material de origen fotográfico. Fuente: Waymo

La capacidad de cambiar la iluminación y otras variables ambientales se deriva de las optimizaciones latentes generativas introducidas en NeRF en estado salvaje (NeRF-W), que a su vez derivó el método de la IA de Facebook de 2019 trabajo de investigación Optimización del espacio latente de las redes generativas.

Un modelo de segmentación semántica originado para Panóptico-DeepLab en 2020 se usa para bloquear elementos no deseados (como personas y vehículos)

Datos

Descubrir que los conjuntos de datos urbanos comunes, como paisajes urbanos no eran adecuados para un trabajo detallado tan intensivo como el que implica Block-NeRF, los investigadores originaron su propio conjunto de datos. Los datos de la imagen se capturaron desde 12 cámaras que abarcan una vista de 360 ​​grados, con imágenes tomadas a 10 Hz con un valor de exposición escalar.

Los vecindarios de San Francisco cubiertos fueron Alamo Square y Mission Bay. Para las capturas de Alamo Square, se cubrió un área de aproximadamente 960 m x 570 m, dividida en 35 instancias Block-NeRF, cada una entrenada con datos de 38 a 48 ejecuciones de recopilación de datos diferentes, con un tiempo total de conducción de 18 a 28 minutos.

La cantidad de imágenes que contribuyeron para cada Block-NeRF estuvo entre 64,575 108,216 y 13.4 1,330, y el tiempo total de conducción representado para esta área fue de 2,818,745 horas en XNUMX ejecuciones de recopilación de datos diferentes. Esto resultó en XNUMX imágenes de entrenamiento solo para Alamo Square. Consulte el documento para obtener detalles adicionales sobre la recopilación de datos para Mission Bay.

 

Publicado por primera vez el 11 de febrero de 2022.