talón NeRF: investigación conjunta de Facebook desarrolla síntesis de video mixta estática/dinámica - Unite.AI
Contáctanos

Inteligencia artificial

NeRF: la investigación conjunta de Facebook desarrolla una síntesis de video mixta estática/dinámica

mm
Actualizado on

Una colaboración entre el Instituto Politécnico de Virginia y la Universidad Estatal y Facebook ha resuelto uno de los principales desafíos en la síntesis de video NeRF: mezclar libremente imágenes y videos estáticos y dinámicos en la salida Neural Radiance Fields (NeRF).

El sistema puede generar escenas navegables que presentan tanto elementos de video dinámicos como entornos estáticos, cada uno grabado en el lugar, pero separado en facetas controlables de un entorno virtual:

Síntesis de vista dinámica a partir de video monocular dinámico

Además, logra esto desde un solo punto de vista, sin la necesidad del tipo de matriz multicámara que puede vincular iniciativas como esta a un entorno de estudio.

La , titulado Síntesis de vista dinámica a partir de video monocular dinámico, no es el primero en desarrollar un monocular NERF flujo de trabajo, pero parece ser el primero en entrenar simultáneamente un modelo variable en el tiempo y uno estático en el tiempo desde la misma entrada, y en generar un marco que permite que el video en movimiento exista dentro de una configuración regional NeRF 'preasignada', similar a la tipo de entornos virtuales que a menudo encapsulan a los actores en salidas de ciencia ficción de alto presupuesto.

Más allá de D-NeRF

Los investigadores han tenido que recrear esencialmente la versatilidad de Dynamic NeRF (D-NeRF) con un solo punto de vista, y no la multiplicidad de cámaras que utiliza D-NeRF. Para resolver esto, predijeron el flujo de la escena hacia adelante y hacia atrás y usaron esta información para desarrollar un campo de radiación distorsionado que es temporalmente consistente.

Con solo un POV, fue necesario utilizar análisis de flujo óptico 2D para obtener puntos 3D en marcos de referencia. Luego, el punto 3D calculado se retroalimenta a la cámara virtual para establecer un "flujo de escena" que coincida con el flujo óptico calculado con el flujo óptico estimado.

En el momento del entrenamiento, los elementos dinámicos y los elementos estáticos se reconcilian en un modelo completo como facetas accesibles por separado.

Al incluir un cálculo de la pérdida de orden de profundidad, el modelo y aplicar una regularización rigurosa de la predicción del flujo de la escena en D-NeRF, el problema del desenfoque de movimiento se mitiga en gran medida.

Aunque la investigación tiene mucho que ofrecer en términos de regularización del cálculo NeRF y mejora en gran medida la destreza y la facilidad de exploración para la salida de un solo punto de vista, al menos igual de notable es la novedosa separación y reintegración de elementos NeRF dinámicos y estáticos. .

Al depender de una sola cámara, dicho sistema no puede replicar la vista panóptica de las configuraciones NeRF de matriz de múltiples cámaras, pero puede ir a cualquier parte y sin un camión.

NeRF: ¿estática o de vídeo?

Recientemente vimos algunos impresionante nueva investigación NeRF de China que puede separar elementos en una escena dinámica NeRF capturada con 16 cámaras.

ST-NeRF

ST-NeRF (arriba) permite al espectador reposicionar elementos individuales en una escena capturada e incluso cambiar su tamaño, cambiar su velocidad de reproducción, congelarlos o ejecutarlos hacia atrás. Además, ST-NeRF permite al usuario "desplazarse" por cualquier parte del arco de 180 grados capturado por las 16 cámaras.

Sin embargo, los investigadores del ST-NeRF conceder para cerrar que el tiempo siempre corre en una u otra dirección bajo este sistema, y ​​que es difícil cambiar la iluminación y aplicar efectos a entornos que en realidad son videos, en lugar de entornos NeRF 'mapeados estáticamente' que en sí mismos no contienen componentes en movimiento y no es necesario capturarlos como video.

Entornos NeRF estáticos altamente editables

Una escena de campo de radiación neuronal estática, ahora aislada de cualquier segmento de video en movimiento, es más fácil de tratar y aumentar de varias maneras, incluida la reiluminación, como propuso a principios de este año NeRV (Neural Reflectance and Visibility Fields for Relighting and View Synthesis), que ofrece un paso inicial para cambiar la iluminación y/o la textura de un entorno u objeto NeRF:

Reencendido de un objeto NeRF con NeRV. Fuente: https://www.youtube.com/watch?v=4XyDdvhhjVo

Reencendido de un objeto NeRF con NeRV. Fuente: https://www.youtube.com/watch?v=4XyDdvhhjVo

Retexturizado en NeRV, incluso incluyendo efectos especulares fotorrealistas. Dado que la base de la matriz de imágenes es estática, es más fácil procesar y aumentar una faceta de NeRF de esta manera que abarcar el efecto en una variedad de cuadros de video, lo que hace que el preprocesamiento inicial y el entrenamiento final sean más ligeros y fáciles.

Retexturizado en NeRV, incluso incluyendo efectos especulares fotorrealistas. Dado que la base de la matriz de imágenes es estática, es más fácil procesar y aumentar una faceta de NeRF de esta manera que abarcar el efecto en una variedad de cuadros de video, lo que hace que el preprocesamiento inicial y el entrenamiento final sean más ligeros y fáciles.