talón NeRF se acerca un paso más a la sustitución de CGI - Unite.AI
Contáctanos

Inteligencia artificial

NeRF se acerca un paso más a la sustitución de CGI

mm
Actualizado on

Investigadores del MIT y Google han dado un gran paso para resolver uno de los obstáculos más fundamentales para una tecnología emergente impulsada por IA que eventualmente puede reemplazar CGI: separar las imágenes del campo de radiación neuronal (NeRF) en sus componentes visuales constituyentes, de modo que las imágenes puedan ser re-texturizado y re-iluminado.

El nuevo enfoque, llamado NeRFactor, divide eficazmente las imágenes capturadas en normales por objeto (a las que se pueden asignar texturas), visibilidad de la luz, albedo (la proporción de luz incidente que se refleja en una superficie) y funciones de distribución de reflectancia bidireccional (BRDF).

Con estas facetas aisladas, es posible no solo cambiar texturas para objetos individuales o grupos de objetos, sino también agregar fuentes de iluminación únicas y novedosas e implementaciones de sombras, descontando las que fueron capturadas por las matrices multicámara que generan entrada para las imágenes NeRF.

Normales, visibilidad, albedo y BRDF separados bajo NeRFactor. Fuente: https://www.youtube.com/watch?v=UUVSPJlwhPg

Normales, visibilidad, albedo y BRDF separados bajo NeRFactor. Fuente: https://www.youtube.com/watch?v=UUVSPJlwhPg

El modelo admite sombras suaves o duras de fuentes de iluminación arbitrarias definidas por el usuario, y separa los cuatro aspectos del video capturado mediante programación, usando una pérdida de reconstrucción, datos de cálculos previos de BRDF y regularización de suavidad simple básica.

Flujo de trabajo de NeRFactor, que extrae facetas procesables por separado de imágenes derivadas de conjuntos de múltiples cámaras. Fuente: https://arxiv.org/pdf/2106.01970.pdf

NeRFactor utiliza una sonda de luz HDR, un enfoque bien establecido que ha impregnado la escena de las artes y la industria visual desde su creación. introducción en 1998, para evaluar posibles rutas de rayos, lo que permite una iluminación arbitraria. Dado que esto genera una cantidad ingobernable de posibles parámetros, la sonda de luz se filtra a través de un perceptrón multicapa (MLP), que asigna la geometría percibida a la sonda sin intentar calcular un mapa de volumen de iluminación completo para el espacio modelo.

Se utilizan dos modelos de campo de radiación neuronal para demostrar cinco modelos de iluminación posibles con NeRFactor. Haga clic en la imagen para una resolución más alta.

Motivo de reflexión

La nueva investigación es quizás más significativa en la separación de las capas de imágenes capturadas que controlan la reflexión. Este sigue siendo uno de los mayores desafíos para las imágenes de campo de radiación neuronal, ya que un sistema NeRF verdaderamente novedoso y flexible necesitará no solo poder sustituir texturas, sino que, de manera crucial, necesitará alguna forma de reflejar objetos en movimiento (además del entorno fijo general) que normalmente se contabilizaría en un flujo de trabajo CGI.

Este problema se notó recientemente con respecto a Intel impresionante nueva investigación en la transformación de secuencias de videojuegos en video fotorrealista a través de redes neuronales convolucionales. En tales flujos de trabajo, muchos aspectos 'horneados' del material de origen tendrían que volverse discretos e intercambiables, y esto es posiblemente más fácil de resolver para la reiluminación (que es una función de la geometría que se representa en NeRF) que para los reflejos (que utilizan ' geometría "fuera de pantalla" que está completamente fuera del alcance del modelo).

Por lo tanto, aislar las capas en el video NeRF que facilitan la reflexión lleva a NeRF un paso más cerca de resolver su 'desafío de reflexión'.

NeRFactor: factorización neuronal de forma y reflectancia bajo una iluminación desconocida

El uso de un entorno HDR ya resuelve el problema de generar reflejos del entorno mundial (es decir, cielos, paisajes y otros factores ambientales 'fijos'), pero se necesitarán nuevos enfoques para introducir reflejos en movimiento y dinámicos.

Fotogrametría con NeRF

Las imágenes de Neural Radiance Field utilizan análisis de aprendizaje automático para desarrollar un espacio completamente volumétrico a partir de una escena u objeto que ha sido capturado desde varios ángulos.

Varios esquemas basados ​​en NeRF que han surgido en el último año han utilizado una cantidad diversa de dispositivos de cámara contribuyentes; algunos usan 16 o más cámaras, otros tan solo una o dos. En todos los casos, los puntos de vista intermedios se 'rellenan' (es decir, se interpretan) para que la escena o el objeto se pueda navegar con fluidez.

La entidad resultante es un espacio completamente volumétrico, con una comprensión 3D intrínseca que se puede explotar de muchas maneras, incluida la capacidad de generar mallas CG tradicionales a partir de la suma analizada en 3D de las imágenes de entrada.

NeRF en el contexto de un 'nuevo CGI'

Las imágenes del campo de radiación neural son dibujado directamente de imágenes del mundo real, incluidas imágenes en movimiento de personas, objetos y escenas. Por el contrario, una metodología CGI 'estudia' e interpreta el mundo, lo que requiere trabajadores calificados para construir mallas, plataformas y texturas que utilizan imágenes del mundo real (es decir, capturas faciales y ambientales). Sigue siendo un enfoque esencialmente interpretativo y artesanal que es costoso y laborioso.

Además, CGI ha tenido problemas continuos con el efecto de 'valle inquietante' en sus esfuerzos por recrear semejanzas humanas, lo que no representa ninguna restricción para un enfoque impulsado por NeRF, que simplemente captura videos o imágenes de personas reales y las manipula.

Además, NeRF puede generar geometría de malla de estilo CGI tradicional directamente a partir de fotografías según sea necesario y, de hecho, suplanta muchos de los procedimientos manuales que siempre han sido necesarios en las imágenes generadas por computadora.

Desafíos para NeRF

Esta última investigación del MIT y Google se produce en el contexto de una verdadera avalancha de documentos NeRF durante el último año, muchos de los cuales han ofrecido soluciones a los diversos desafíos planteados por el documento inicial de 2020.

En abril, la innovación de un consorcio de investigación chino proporcionó una manera de aislar discretamente las líneas de tiempo individuales de las facetas en una escena NeRF, incluidas las personas.

ST-NeRF

La investigación china permite a los usuarios finales copiar, pegar y cambiar el tamaño de los elementos capturados, desenredándolos de la línea de tiempo lineal del video fuente original. Fuente: https://www.youtube.com/watch?v=Wp4HfOwFGP4

Este enfoque no solo permite volver a imaginar la escena desde cualquier ángulo capturado por el conjunto de cámaras (y no solo la vista única representada en una captura de video típica), sino que también permite una composición versátil, e incluso la capacidad de representar dos facetas del mismo metraje que se ejecuta en sus propios marcos de tiempo individuales (o incluso se ejecuta hacia atrás, según sea necesario).

Dos facetas separadas de NeRF se ejecutan a diferentes velocidades en la misma escena. Fuente: https://www.youtube.com/watch?v=Wp4HfOwFGP4

La investigación china permite a los usuarios finales copiar, pegar y cambiar el tamaño de los elementos capturados, desenredándolos de la línea de tiempo lineal del video fuente original. Fuente: https://www.youtube.com/watch?v=Wp4HfOwFGP4

Uno de los mayores desafíos para NeRF es reducir los considerables recursos necesarios para entrenar una escena, y esto se ha abordado en varios documentos recientes. Por ejemplo, el Instituto Max Planck para Sistemas Inteligentes introdujo recientemente KiloNeRF, que no solo acelera los tiempos de renderizado en un factor de 1000, sino que incluso permite que NeRF funcione de forma interactiva.

KiloNeRF ejecutando un entorno interactivo a 50 fps en una GTX 1080ti. Fuente: https://github.com/creiser/kilonerf

KiloNeRF ejecutando un entorno interactivo a 50 fps en una GTX 1080ti. Fuente: https://github.com/creiser/kilonerf

Sin embargo, la innovación de velocidad NeRF que realmente capturó la imaginación de los investigadores y el público en 2021 ha sido el plenoctrees colaboración, dirigida por UC Berkeley, que ofrece representación en tiempo real de Neural Radiance Fields:

PlenOctrees para representación en tiempo real de campos de radiación neuronal

El efecto de las capacidades interactivas de PlenOctrees se ha reproducido en un interfaz en vivo basada en la web.

Movimiento interactivo en vivo de un objeto PlenOctrees en Firefox (el movimiento es más fluido y dinámico que lo que representa este GIF). Fuente: http://alexyu.net/plenoctrees/demo/

Movimiento interactivo en vivo de un objeto PlenOctrees en Firefox (el movimiento es más fluido y dinámico que lo que representa este GIF). Fuente: http://alexyu.net/plenoctrees/demo/

Además, NeRF recursivo (de un artículo de mayo de 2021 realizado por investigadores de la Universidad de Tsinghua) ofrece representación recursiva de alta calidad bajo demanda. En lugar de obligar al usuario a renderizar escenas completas, incluidas partes que no se pueden ver, Recursive-NeRF proporciona algo similar a la compresión con pérdida de JPEG y puede generar sub-NeRF discretos para manejar imágenes adicionales a pedido, logrando un gran ahorro en recursos computacionales. .

Retención de detalles mientras se descargan cálculos de renderizado innecesarios con Recursive-NeRF. Fuente: https://arxiv.org/pdf/2105.09103.pdf

Retención de detalles mientras se descargan cálculos de renderizado innecesarios con Recursive-NeRF. Haga clic en la imagen para una resolución más alta. Fuente: https://arxiv.org/pdf/2105.09103.pdf

Otros enfoques incluyen FastNeRF, que afirma lograr una representación neuronal de alta fidelidad a 200 fps.

Se ha observado que muchas de las técnicas de optimización para NeRF involucran 'horneando' la escena, comprometiéndose con aspectos que se desea renderizar y descartando otras facetas, lo que limita la exploración pero agiliza mucho la interactividad.

La desventaja de esto es que la tensión pasa de la GPU al almacenamiento, porque las escenas horneadas ocupan una cantidad excesiva de espacio en disco; hasta cierto punto, esto se puede mitigar reduciendo la muestra de los datos horneados, aunque esto también implica un cierto compromiso, en términos de cerrar vías de exploración o interactividad.

Con respecto a la captura de movimiento y el rigging, un nuevo enfoque de las universidades de Zheijang y Cornell, revelado en mayo, ofreció un método para recrear humanos animables utilizando campos de peso combinados y estructuras esqueléticas interpretadas a partir del video de entrada:

Estructura esquelética derivada en Animatable NeRF. Fuente: https://www.youtube.com/watch?v=eWOSWbmfJo4

Estructura esquelética derivada en Animatable NeRF. Fuente: https://www.youtube.com/watch?v=eWOSWbmfJo4

¿Cuándo tendrá NeRF su momento de 'Jurassic Park'?

A pesar del rápido ritmo de progreso con la síntesis de imágenes a través de campos de radiación neuronal, es solo en este período que se establecerá cualquier tipo de 'ley de la termodinámica' sobre cuán desplegable puede llegar a ser NeRF. En términos de una línea de tiempo análoga a la historia de CGI, NeRF actualmente ronda 1973, justo antes de la primer uso de CGI en Westworld.

Eso no significa que NeRF necesariamente tendrá que esperar nueve años por su equivalente. Ira de Khan hito, o décadas por los avances similares que CGI logró bajo el patrocinio entusiasta de James Cameron en 1989 The Abyss o 1991 Terminator 2 – y luego, la tecnología es verdaderamente revolucionaria momento de ruptura en 1993 Jurassic Park.

La escena de la imagen ha cambiado mucho desde el largo período de estancamiento de los efectos visuales fotoquímicos, que dominaron la producción cinematográfica y televisiva desde el nacimiento del cine hasta principios de la década de 1990. El advenimiento de la revolución de la PC y la aceleración de la ley de Moore llevaron a la revolución CGI, que de otro modo posiblemente podría haber tenido lugar ya en la década de 1960.

Queda por ver si existe alguna barrera tan implacable que pueda retrasar el progreso de NeRF durante tanto tiempo, y si, mientras tanto, las innovaciones posteriores en visión por computadora no superarán por completo a NeRF como el contendiente clave para la corona de CGI, caracterizando los campos de radiación neuronal. como la efímera "máquina de fax" de síntesis de imágenes neuronales.

Hasta el momento, NeRF no se ha utilizado en ningún contexto fuera de la investigación académica; pero es notable que los principales actores como Google Research y muchos de los laboratorios de investigación de visión por computadora más destacados están compitiendo por el último avance de NeRF.

Muchos de los mayores obstáculos de NeRF han comenzado a abordarse directamente este año; si la investigación posterior ofrece una solución al 'problema de reflexión', y las muchas líneas de investigación de optimización de NeRF se unen en una solución decisiva para las considerables demandas de procesamiento y/o almacenamiento de la tecnología, NeRF realmente tiene la oportunidad de convertirse en 'el nuevo CGI ' en los próximos cinco años.