Contáctenos

Representación neuronal: NeRF da un paseo al aire libre

Inteligencia Artificial

Representación neuronal: NeRF da un paseo al aire libre

mm

Una colaboración entre Google Research y la Universidad de Harvard ha desarrollado un nuevo método para crear videos neuronales de 360 ​​grados de escenas completas utilizando Campos de radiación neuronal (NeRF). El enfoque novedoso lleva a NeRF un paso más cerca del uso abstracto casual en cualquier entorno, sin estar restringido a modelos de mesa or escenarios interiores cerrados.

Fuente: https://www.youtube.com/watch?v=YStDS2-Ln1s

Vea el final del artículo para ver el video completo. Fuente: https://www.youtube.com/watch?v=YStDS2-Ln1s

Mip-NeRF 360 puede gestionar fondos extendidos y objetos infinitos como el cielo, ya que, a diferencia de la mayoría de las iteraciones anteriores, limita la interpretación de los rayos de luz y crea límites de atención que optimizan los largos tiempos de entrenamiento. Vea el nuevo vídeo adjunto al final de este artículo para obtener más ejemplos y una visión más detallada del proceso.

El nuevo documento se titula Mip-NeRF 360: Campos de radiación neuronal anti-aliasing ilimitados, y está dirigida por Jon Barron, científico investigador sénior del personal de Google Research.

Para comprender este avance, es necesario tener una comprensión básica de cómo funciona la síntesis de imágenes basada en el campo de radiancia neuronal.

¿Qué es NeRF?

Es problemático describir una red NeRF en términos de un "video", ya que está más cerca de ser una red completamente realizada en 3D, pero Basado en IA Entorno virtual, donde se utilizan múltiples puntos de vista de fotografías individuales (incluidos cuadros de video) para unir una escena que técnicamente existe solo en el espacio latente de un algoritmo de aprendizaje automático, pero de la cual se puede extraer una cantidad extraordinaria de puntos de vista y videos a voluntad. .

Una representación de los múltiples puntos de captura de la cámara que proporcionan los datos que NeRF ensambla en una escena neuronal (imagen a la derecha).

Una representación de los múltiples puntos de captura de la cámara que proporcionan los datos que NeRF ensambla en una escena neuronal (imagen a la derecha).

La información derivada de las fotos que contribuyen se entrena en una matriz que es similar a una tradicional. cuadrícula de voxel en los flujos de trabajo CGI, cada punto en el espacio 3D termina con un valor, lo que hace que la escena sea navegable.

Una matriz de vóxel tradicional coloca información de píxeles (que normalmente existe en un contexto 2D, como la cuadrícula de píxeles de un archivo JPEG) en un espacio tridimensional. Fuente: https://www.researchgate.net/publication/344488704_Processing_and_analysis_of_airborne_full-waveform_laser_scanning_data_for_the_characterization_of_forest_structure_and_fuel_properties

Una matriz de vóxel tradicional coloca información de píxeles (que normalmente existe en un contexto 2D, como la cuadrícula de píxeles de un archivo JPEG) en un espacio tridimensional. Fuente: ResearchGate

Después de calcular el espacio intersticial entre fotos (si es necesario), se traza efectivamente el rayo de la ruta de cada píxel posible de cada foto contribuyente y se le asigna un valor de color, incluido un valor de transparencia (sin el cual la matriz neuronal sería completamente opaca o completamente vacía).

Como cuadrículas de vóxeles, y diferente a En un espacio de coordenadas 3D basado en CGI, el interior de un objeto cerrado no existe en una matriz NeRF. Se puede abrir una batería CGI y mirar dentro, si se desea; pero en lo que respecta a NeRF, la existencia de la batería termina cuando el valor de opacidad de su superficie es igual a 1.

Una vista más amplia de un píxel

Mip-NeRF 360 es una extensión de investigación de marzo de 2021, que introdujo efectivamente un anti-aliasing eficiente en NeRF sin un supermuestreo exhaustivo.

NeRF tradicionalmente calcula solo una ruta de píxel, que tiende a producir el tipo de 'dientes de sierra' que caracterizó los primeros formatos de imagen de Internet, así como sistemas de juegos anteriores. Estos bordes dentados se resolvieron mediante varios métodos, que generalmente implicaban el muestreo de píxeles adyacentes y la búsqueda de una representación promedio.

Debido a que el NeRF tradicional solo muestrea esa ruta de un píxel, Mip-NeRF introdujo un área de captación "cónica", como una linterna de haz ancho, que brinda suficiente información sobre adyacente píxeles para producir antialiasing económico con detalles mejorados.

La captación de cono cónico que utiliza Mip-NeRF se divide en troncos cónicos (abajo), que se "difumina" aún más para representar un espacio gaussiano más vago que se puede usar para calcular la precisión y el aliasing de un píxel. Fuente: https://www.youtube.com/watch?v=EpH175PY1A0

La cuenca cónica que utiliza Mip-NeRF se divide en troncos cónicos (imagen inferior), que se "difuminan" aún más para crear espacios gaussianos vagos que pueden usarse para calcular la precisión y el aliasing de un píxel. Fuente: https://www.youtube.com/watch?v=EpH175PY1A0

La mejora con respecto a una implementación estándar de NeRF fue notable:

Mip-NeRF (derecha), lanzado en marzo de 2021, proporciona detalles mejorados a través de una canalización de aliasing más completa pero económica, en lugar de simplemente "difuminar" píxeles para evitar bordes irregulares. Fuente: https://jonbarron.info/mipnerf/

Mip-NeRF (derecha), lanzado en marzo de 2021, proporciona detalles mejorados a través de un proceso de aliasing más completo pero económico, en lugar de simplemente "difuminar" los píxeles para evitar bordes irregulares. Fuente: https://jonbarron.info/mipnerf/

NeRF Ilimitado

El documento de marzo dejó tres problemas sin resolver con respecto al uso de Mip-NeRF en entornos ilimitados que podrían incluir objetos muy distantes, incluidos los cielos. El nuevo artículo resuelve esto aplicando un estilo Kalman warp a las gaussianas Mip-NeRF.

En segundo lugar, las escenas más grandes requieren mayor potencia de procesamiento y tiempos de entrenamiento más prolongados, lo que Mip-NeRF 360 resuelve al "destilar" la geometría de la escena con una pequeña "propuesta". perceptrón multicapa (MLP), que limita previamente la geometría predicha por un NeRF MLP estándar grande. Esto acelera el entrenamiento en un factor de tres.

Finalmente, las escenas más grandes tienden a hacer ambigua la discretización de la geometría interpretada, lo que resulta en el tipo de artefactos que los jugadores podrían estar familiarizados con las interrupciones en la salida del juego. El nuevo artículo aborda este problema mediante la creación de un nuevo regularizador para intervalos de rayos Mip-NeRF.

A la derecha, vemos artefactos no deseados en Mip-NeRF debido a la dificultad de delimitar una escena tan grande. A la izquierda, vemos que el nuevo regularizador ha optimizado la escena lo suficientemente bien como para eliminar estas perturbaciones.

A la derecha, vemos artefactos no deseados en Mip-NeRF debido a la dificultad de delimitar una escena tan grande. A la izquierda, vemos que el nuevo regularizador ha optimizado la escena lo suficientemente bien como para eliminar estas perturbaciones.

Para obtener más información sobre el nuevo documento, consulte el video a continuación y también el Vídeo de presentación de marzo de 2021 a Mip-NeRF. También puede obtener más información sobre la investigación de NeRF consultando nuestra cobertura hasta ahora.

Mip-NeRF 360: Campos de radiación neuronal anti-aliasing ilimitados

Publicado originalmente el 25 de noviembre de 2021
21 de diciembre de 2021, 12:25: video muerto reemplazado. – MA