Connect with us

Inteligencia artificial

Reiluminación de Campos de Radiación Neurales con cualquier Mapa de Entorno

mm

Un nuevo artículo del Instituto Max Planck y MIT ha propuesto una técnica para obtener una verdadera desvinculación del contenido de los Campos de Radiación Neurales (NeRF) de la iluminación que estaba presente cuando se recopilaron los datos, lo que permite a los mapas de entorno ad hoc cambiar completamente la iluminación en una escena NeRF:

La nueva técnica aplicada a datos reales. Es digno de destacar que el método funciona incluso en datos archivados de este tipo, que no tuvieron en cuenta la nueva tubería cuando se capturaron los datos. A pesar de esto, se obtiene un control de iluminación realista y especificado por el usuario. Fuente: https://arxiv.org/pdf/2207.13607.pdf

La nueva técnica aplicada a datos reales. Es digno de destacar que el método funciona incluso en datos archivados de este tipo, que no tuvieron en cuenta la nueva tubería cuando se capturaron los datos. A pesar de esto, se obtiene un control de iluminación realista y especificado por el usuario. Fuente: https://arxiv.org/pdf/2207.13607.pdf

El nuevo enfoque utiliza el popular programa de animación 3D de código abierto Blender para crear un ‘escenario de luz virtual’, donde se renderizan numerosas iteraciones de posibles escenarios de iluminación y eventualmente se entrenan en una capa especial en el modelo NeRF que puede acomodar cualquier mapa de entorno que el usuario desee emplear para iluminar la escena.

Una representación de la parte de la tubería que aprovecha Blender para crear vistas de escenario de luz virtual de la geometría extraída. Los métodos anteriores que siguen líneas similares han utilizado escenarios de luz reales para proporcionar estos datos, lo que es un requisito oneroso para objetos discretos y un requisito imposible para vistas de entornos exteriores. En la parte superior izquierda de las dos imágenes de la derecha, podemos ver los mapas de entorno que dictan la iluminación de la escena. Estos pueden ser creados arbitrariamente por el usuario final, lo que acerca a NeRF un paso más a la flexibilidad de un enfoque de CGI moderno.

Una representación de la parte de la tubería que aprovecha Blender para crear vistas de escenario de luz virtual de la geometría extraída. Los métodos anteriores que siguen líneas similares han utilizado escenarios de luz reales para proporcionar estos datos, lo que es un requisito oneroso para objetos discretos y un requisito imposible para vistas de entornos exteriores. En la parte superior izquierda de las dos imágenes de la derecha, podemos ver los mapas de entorno que dictan la iluminación de la escena. Estos pueden ser creados arbitrariamente por el usuario final, lo que acerca a NeRF un paso más a la flexibilidad de un enfoque de CGI moderno.

El enfoque se probó contra el marco de renderizado inverso Mitsuba2 y también contra trabajos anteriores PhySG, RNR, Neural-PIL y NeRFactor, empleando solo un modelo de iluminación directa, y obtuvo las mejores puntuaciones:

Resultados de la nueva técnica, en comparación con enfoques comparables bajo una variedad de funciones de pérdida. Los investigadores afirman que su enfoque produce los métodos de mayor calidad, con los resultados evaluados a través de la Relación de Señal a Ruido de Pico (PSNR), el Índice de Medida de Similitud Estructural (SSIM) y la efectiva aunque excéntrica Similitud de Parches de Imágenes Percibidas Aprendidas (LPIPS).

Resultados de la nueva técnica, en comparación con enfoques comparables bajo una variedad de funciones de pérdida. Los investigadores afirman que su enfoque produce los métodos de mayor calidad, con los resultados evaluados a través de la Relación de Señal a Ruido de Pico (PSNR), el Índice de Medida de Similitud Estructural (SSIM) y la efectiva aunque excéntrica Similitud de Parches de Imágenes Percibidas Aprendidas (LPIPS).

El artículo establece:

‘Nuestros resultados cualitativos y cuantitativos demuestran un paso adelante claro en términos de la recuperación de parámetros de escena, así como la calidad de síntesis de nuestro enfoque bajo vistas y condiciones de iluminación novedosas en comparación con el estado del arte anterior.’

Los investigadores afirman que eventualmente publicarán el código del proyecto.

La necesidad de edición de NeRF

Este tipo de desvinculación ha demostrado ser un desafío notable para los investigadores de los Campos de Radiación Neurales, ya que NeRF es esencialmente una técnica de fotogrametría que calcula el valor de píxel de miles de caminos posibles desde un punto de vista, asignando valores RGBD y ensamblando una matriz de estos valores en una representación volumétrica. En su núcleo, NeRF se define por la iluminación.

De hecho, a pesar de sus impresionantes visuales y adopción lujosa por parte de NVIDIA, NeRF es notablemente ‘rígido’ – en términos de CGI, ‘cocido’. Por lo tanto, la comunidad de investigación se ha centrado en mejorar su tratabilidad y versatilidad en este sentido durante los últimos 12-18 meses.

En términos de significado, las apuestas para este tipo de hito son altas y incluyen la posibilidad de transformar la industria de efectos visuales de un modelo creativo y colaborativo centrado en la generación de mallas, la dinámica de movimiento y la texturización, a un modelo construido alrededor de renderizado inverso, donde la tubería de VFX se alimenta de fotos del mundo real de cosas reales (o incluso, concebiblemente, de modelos reales y sintetizados), en lugar de aproximaciones artesanales estimadas.

Por ahora, hay relativamente poca causa para preocuparse entre la comunidad de efectos visuales, al menos desde los Campos de Radiación Neurales. NeRF solo tiene habilidades nascentes en términos de rigging, nesting, control de profundidad, articulación…y ciertamente también en cuanto a iluminación. El video acompañante para otro nuevo artículo, que ofrece deformaciones rudimentarias para la geometría de NeRF, ilustra el enorme abismo entre el estado actual del arte en CGI y los esfuerzos seminales de las técnicas de renderizado neuronal.

Separar los elementos

No obstante, como es necesario empezar en algún lugar, los investigadores del nuevo artículo han adoptado CGI como un mecanismo de control y producción intermedio, por ahora un enfoque común hacia los espacios latentes rígidos de GAN y las redes casi impenetrables y lineales de NeRF.

Efectivamente, el desafío central es computar iluminación global (GI, que no tiene aplicabilidad directa en renderizado neuronal) en una calculación equivalente de Transferencia de Radiación Precomputada (PRT, que se puede adaptar a renderizado neuronal).

GI es una técnica de renderizado de CGI ahora venerable que modela la forma en que la luz rebota en superficies y en otras superficies, e incorpora estas áreas de luz reflejada en un render, para agregar realismo.

PRT se utiliza como una función de iluminación intermedia en el nuevo enfoque, y el hecho de que sea un componente discreto y editable es lo que logra la desvinculación. El nuevo método modela el material del objeto NeRF con un PRT aprendido.

La iluminación real de la escena del dato original se recupera como un mapa de entorno en el proceso, y la geometría de la escena se extrae como un Campo de Distancia Firmado (SDF) que eventualmente proporcionará una malla tradicional para que Blender opere en el escenario de luz virtual.

Una visión general de la tubería para la nueva técnica.

Una visión general de la tubería para la nueva técnica.

La primera etapa en el proceso es extraer la geometría de la escena de las imágenes de múltiples vistas disponibles a través de la reconstrucción de superficies implícitas, mediante técnicas utilizadas en la colaboración de investigación NeuS de 2021.

Para desarrollar un campo de transferencia de radiación neuronal (NRTF, que acomodará los datos de iluminación), los investigadores utilizaron el trazador de caminos diferenciable Mitsuba 2.

Esto facilita la optimización conjunta de una función de distribución de dispersión bidireccional (BSDF), así como la generación de un mapa de entorno inicial. Una vez creado el BSDF, el trazador de caminos se puede utilizar en Blender (ver video incrustado directamente arriba) para crear renders de escena virtuales de una luz a la vez (OLAT).

El NRTF se entrena con una pérdida combinada entre efectos de material fotorealistas y datos sintéticos, que no están entrelazados entre sí.

Una comparación con el predecesor NeRFactor, en los desafíos de síntesis de vistas novedosas y reiluminación.

Una comparación con el predecesor NeRFactor, en los desafíos de síntesis de vistas novedosas y reiluminación.

El camino a la iluminación

Los requisitos de entrenamiento para esta técnica, aunque notablemente menores que los tiempos de entrenamiento originales de NeRF, no son insignificantes. En un NVIDIA Quadro RTX 8000 con 48GB de VRAM, el entrenamiento preliminar para la estimación inicial de luz y textura tarda 30 minutos; el entrenamiento OLAT (es decir, el entrenamiento de las capturas del escenario de luz virtual) tarda ocho horas; y la optimización conjunta final entre los datos sintéticos y reales desvinculados tarda 16 horas adicionales para alcanzar la calidad óptima.

Además, la representación neuronal resultante no puede ejecutarse en tiempo real, tomando, según los investigadores, ‘varios segundos por cuadro’.

Escritor sobre aprendizaje automático, especialista en síntesis de imágenes humanas. Anterior jefe de contenido de investigación en Metaphysic.ai.