talón ¿Pueden los entornos de realidad aumentada HDR de Apple resolver los reflejos para la representación neuronal? - Unite.AI
Contáctanos

Inteligencia artificial

¿Pueden los entornos de realidad aumentada HDR de Apple resolver los reflejos para la representación neuronal?

mm
Actualizado on

La vigorosa inversión a largo plazo de Apple en tecnologías de Realidad Aumentada se está acelerando este año, con una nueva lista de herramientas de desarrollo para capturar y convertir objetos del mundo real en facetas AR, y un creciente convicción de la industria que las gafas AR dedicadas están llegando para respaldar las experiencias inmersivas que esta ventisca de I + D puede permitir.

Entre un tramo de nueva información sobre los esfuerzos de Apple en Realidad Aumentada, un nuevo documento de la división de investigación de visión por computadora de la compañía revela un método para utilizar imágenes panorámicas de alto rango dinámico (HDR) de 360 ​​grados para proporcionar reflejos e iluminación específicos de la escena para objetos que se superponen en escenas de realidad aumentada.

Bajo el título Estimación de mapa de entorno HDR para realidad aumentada en tiempo real, el artículo, elaborado por el ingeniero de investigación de visión por computadora de Apple, Gowri Somanath, y el gerente senior de aprendizaje automático, Daniel Kurz, propone la creación dinámica de entornos HDR en tiempo real a través de una red neuronal convolucional (CNN) que se ejecuta en un entorno de procesamiento móvil. El resultado es que los objetos reflectantes pueden reflejar literalmente entornos novedosos e invisibles bajo demanda:

En el nuevo flujo de trabajo de generación de objetos AR de Apple, una olla a presión es instanciada por fotogrametría completa con su entorno ambiental, lo que lleva a reflejos convincentes que no están 'horneados' en la textura. Fuente: https://docs-assets.developer.apple.com/

En el nuevo flujo de trabajo de generación de objetos AR de Apple, una olla a presión es instanciada por fotogrametría completa con su entorno ambiental, lo que lleva a reflejos convincentes que no están 'horneados' en la textura. Fuente: https://docs-assets.developer.apple.com/

El método, presentado en CVPR 2021, toma una instantánea de toda la escena y utiliza el EnvMapNet CNN para estimar una imagen HDR panorámica visualmente completa, también conocida como "sonda de luz".

El mapa resultante identifica fuentes de luz potentes (descritas al final de la animación anterior) y las tiene en cuenta al renderizar los objetos virtuales.

La arquitectura de EnvMapNet, que procesa imágenes limitadas en sondas de luz HDR de escena completa. Fuente: https://arxiv.org/pdf/2011.10687.pdf

La arquitectura de EnvMapNet, que procesa imágenes limitadas en sondas de luz HDR de escena completa. Fuente: https://arxiv.org/pdf/2011.10687.pdf

El algoritmo puede ejecutarse en menos de 9 ms en un iPhone XS y es capaz de representar objetos sensibles a la reflexión en tiempo real, con un error direccional reducido del 50 % en comparación con enfoques anteriores y diferentes del problema.

Sondas de luz

Los entornos de iluminación HDR han sido un factor en los efectos visuales desde que las imágenes de alto rango dinámico (inventadas en 1986) se convirtieron en una fuerza notable a través de los avances en la tecnología informática en la década de 1990. Cualquiera que haya visto imágenes detrás de escena puede haber notado la presencia surrealista en el set de técnicos que sostienen bolas de espejos en palos: imágenes de referencia que se incorporarán como factores ambientales al reconstruir elementos CGI para la escena.

Fuente: https://beforesandafters.com/

Fuente: https://beforesandafters.com/

Sin embargo, el uso de bolas de cromo para mapeo de reflexión texturas es anterior a la década de 1990, y se remonta al papel SIGGRAPH de 1983 Parametría piramidal, que presentaba imágenes fijas de un robot CGI reflectante en un estilo que se haría famoso casi una década después a través de los efectos de 'metal líquido' de James Cameron. Terminator 2: día del juicio.

¿Entornos HDR en renderizado neuronal?

La representación neuronal ofrece la posibilidad de generar video fotorrealista a partir de una entrada muy escasa, incluidos mapas de segmentación crudos.

Segmentación de Intel ISL> representación neuronal de imágenes (2017). Fuente: https://awesomeopensource.com/project/CQFIO/PhotographicImageSynthesis

Segmentación de Intel ISL> representación neuronal de imágenes (2017). Fuente: https://awesomeopensource.com/project/CQFIO/PhotographicImageSynthesis

En mayo, los investigadores de Intel revelado una nueva iniciativa en la síntesis de imágenes neuronales en la que se utilizaron imágenes de Grand Theft Auto V para generar resultados fotorrealistas basados ​​en conjuntos de datos de imágenes de calles alemanas.

Fuente: https://www.youtube.com/watch?v=0fhUJT21-bs

Fuente: https://www.youtube.com/watch?v=0fhUJT21-bs

El desafío en el desarrollo de entornos de representación neuronal que se pueden adaptar a diversas condiciones de iluminación es separar el contenido del objeto de los factores ambientales que lo afectan.

En su forma actual, los reflejos y los efectos anisotrópicos siguen siendo funciones del metraje del conjunto de datos original (lo que los hace inflexibles), o requieren el mismo tipo de esquema que emplearon los investigadores de Intel, que genera una salida semifotorrealista a partir de un motor (de juego) tosco, realiza la segmentación en él y luego aplica la transferencia de estilo desde un conjunto de datos 'horneado' (como el conjunto de vista de la calle Mapillary alemán utilizado en la investigación reciente).

En esta representación neuronal (el metraje de GTA V está a la izquierda), el vehículo de enfrente muestra un deslumbramiento convincente e incluso satura el sensor de la cámara virtual ficticia con reflejos del sol. Pero este aspecto de la iluminación se deriva del metraje original del juego, ya que las facetas neuronales de la escena no tienen estructuras de iluminación autónomas y autorreferenciales que se puedan cambiar.

En esta representación neural derivada de imágenes de GTA V (izquierda), el vehículo de enfrente muestra un deslumbramiento convincente e incluso satura el sensor de la cámara virtual ficticia con reflejos del sol. Pero este aspecto de la iluminación se deriva del motor de iluminación del metraje original del juego, ya que las facetas neuronales de la escena no tienen estructuras de iluminación autónomas y autorreferenciales que se puedan cambiar.

Reflectancia en NeRF

Imágenes derivadas de Campos de radiación neuronal (NeRF) tiene un desafío similar. Aunque investigaciones recientes sobre NeRF han avanzado en la separación de los elementos que forman una escena neuronal (por ejemplo, el MIT/Google colaboración en NeRFactor), las reflexiones han seguido siendo un obstáculo.

El enfoque NeRFactor del MIT y Google separa las normales, la visibilidad (sombras), la textura y el albedo local, pero no refleja un entorno, porque existe en el vacío. Fuente: https://arxiv.org/pdf/2106.01970.pdf

El enfoque NeRFactor del MIT y Google separa las normales, la visibilidad (sombras), la textura y el albedo local, pero no refleja un entorno más amplio (o en movimiento), porque esencialmente existe en el vacío. Fuente: https://arxiv.org/pdf/2106.01970.pdf

NeRF puede resolver este problema con el mismo tipo de mapeo HDR que está usando Apple. Cada píxel en un campo de radiación neuronal se calcula en una trayectoria desde una cámara virtual hasta el punto donde el 'rayo' no puede viajar más, de manera similar al trazado de rayos en CGI tradicional. Agregar entrada HDR al cálculo de ese rayo es un método potencial para lograr una reflectancia ambiental genuina y, de hecho, es un análogo a los métodos de representación de radiosidad o "iluminación global" de CGI, en los que una escena u objeto está parcialmente iluminado por sus propios reflejos percibidos. ambiente.

Aunque está garantizado que una matriz HDR no hará nada para aliviar las notables cargas computacionales de NeRF, una gran cantidad de la investigación en este campo en este momento se está concentrando en abordar este aspecto de la tubería de procesamiento. Inevitablemente, la reflectancia es uno de los muchos factores que esperan en las alas para volver a llenar y desafiar esa arquitectura recientemente optimizada. Sin embargo, NeRF no puede alcanzar todo su potencial como una metodología discreta de síntesis de imágenes y videos neuronales sin adoptar una forma de dar cuenta del entorno circundante.

Reflectancia en canalizaciones de representación neuronal

En una supuesta versión habilitada para HDR del escenario de renderizado neural de Intel GTA V, un solo HDR no podía acomodar los reflejos dinámicos que deben expresarse en los objetos en movimiento. Por ejemplo, para ver el propio vehículo reflejado en el vehículo de delante cuando se detiene frente a las luces, la entidad del vehículo de delante podría tener su propia sonda de luz HDR animada, cuya resolución se degradaría gradualmente a medida que se aleja del final. desde el punto de vista del usuario, para volverse de baja resolución y meramente representativo a medida que se aleja en la distancia, un LOD basado en la proximidad similar a los delimitadores de 'distancia de dibujo' en los videojuegos.

El verdadero potencial del trabajo de Apple en iluminación HDR y mapas de reflexión no es que sea particularmente innovador, ya que se basa en trabajos anteriores en síntesis de imágenes en general y en Desarrollo de escena AR. Más bien, el posible avance está representado por la forma en que las severas restricciones informáticas locales se han combinado con las innovaciones de hardware de aprendizaje automático de la serie M de Apple para producir un mapeo HDR liviano y de baja latencia que está diseñado para operar con recursos limitados.

Si este problema se puede resolver económicamente, el advenimiento de la segmentación semántica>síntesis de video fotorrealista puede estar un paso más cerca.

Fuente: https://docs-assets.developer.apple.com/