Inteligencia Artificial

Representación neuronal: ¿Qué tan bajo puede llegar en términos de entrada?

Publicado 13 de Mayo de 2021

Actualizado 9 de diciembre de 2022

Martin anderson

Ayer, un nuevo trabajo extraordinario en la síntesis de imágenes neuronales llamó la atención y la imaginación de Internet, ya que los investigadores de Intel revelaron un nuevo método para mejorar el realismo de las imágenes sintéticas.

El sistema, como se demuestra en un video de Intel, interviene directamente en el proceso de imágenes del videojuego Grand Theft Auto V y mejora automáticamente las imágenes a través de un algoritmo de síntesis de imágenes entrenado en una red neuronal convolucional (CNN), utilizando imágenes del mundo real del mapillary conjunto de datos e intercambiando la iluminación y las texturas menos realistas del motor del juego GTA.

Los comentaristas, en una amplia gama de reacciones en comunidades como Reddit y Hacker News, postulan no solo que la representación neuronal de este tipo podría reemplazar efectivamente la salida menos fotorrealista de los motores de juegos tradicionales y CGI a nivel de efectos visuales, sino que este proceso podría lograrse con una entrada mucho más básica que la que se demostró en la demostración de Intel GTA5, creando efectivamente entradas proxy "títeres" con salidas enormemente realistas.

Conjuntos de datos emparejados

El principio ha sido ejemplificado por una nueva generación de sistemas GAN y de codificador/descodificador en los últimos tres años, como GauGAN de NVIDIA, que genera imágenes escénicas fotorrealistas a partir de pinceladas toscas.

Efectivamente, este principio invierte el uso convencional de la segmentación semántica en visión de computadora a partir de un método pasivo que permite a los sistemas de máquinas identificar y aislar objetos observados en una entrada creativa, donde el usuario "pinta" un mapa de segmentación semántica falso y el sistema genera imágenes que son consistentes con las relaciones que entiende al haber clasificado y segmentado previamente un dominio en particular, como un paisaje.

Un marco de aprendizaje automático aplica la segmentación semántica a varias escenas exteriores, proporcionando el paradigma arquitectónico que permite el desarrollo de sistemas interactivos, donde el usuario pinta un bloque de segmentación semántica y el sistema rellena el bloque con imágenes apropiadas de un conjunto de datos de dominio específico, como Conjunto de vista de calle Mapillary de Alemania, utilizado en la demostración de renderizado neuronal GTA5 de Intel. Fuente: http://ais.informatik.uni-freiburg.de/publications/papers/valada17icra.pdf

Un marco de aprendizaje automático aplica segmentación semántica a varias escenas exteriores, proporcionando el paradigma arquitectónico que permite el desarrollo de sistemas interactivos, donde el usuario pinta un bloque de segmentación semántica y el sistema rellena el bloque con imágenes apropiadas de un conjunto de datos específicos del dominio, como el conjunto de vistas de calles Mapillary de Alemania, utilizado en la demostración de renderizado neuronal GTA5 de Intel. Fuente: http://ais.informatik.uni-freiburg.de/publications/papers/valada17icra.pdf

Los sistemas de síntesis de imágenes de conjuntos de datos emparejados funcionan correlacionando etiquetas semánticas en dos conjuntos de datos: un conjunto de imágenes completo y rico, generado a partir de imágenes del mundo real (como el conjunto Mapillary utilizado para mejorar GTA5 en la demostración de Intel de ayer) o a partir de imágenes sintéticas, como imágenes CGI.

Ejemplos de conjuntos de datos emparejados para un sistema de síntesis de imágenes diseñado para crear personajes renderizados neuronales a partir de bocetos torpes. A la izquierda, muestras del conjunto de datos CGI. Medio, muestras correspondientes del conjunto de datos 'boceto'. Correcto, representaciones neuronales que han convertido bocetos en imágenes de alta calidad. Fuente: https://www.youtube.com/watch?v=miLIwQ7yPkA

Ejemplos de conjuntos de datos emparejados para un sistema de síntesis de imágenes diseñado para crear personajes renderizados neuronalmente a partir de bocetos toscos. A la izquierda, muestras del conjunto de datos CGI. En el centro, muestras correspondientes del conjunto de datos "boceto". A la derecha, renderizados neuronales que han convertido los bocetos en imágenes de alta calidad.. Fuente: https://www.youtube.com/watch?v=miLIwQ7yPkA

Los entornos exteriores son relativamente sencillos a la hora de crear transformaciones de conjuntos de datos pareados de este tipo, porque las protuberancias suelen ser bastante limitadas, la topografía tiene un rango limitado de variación que se puede capturar de forma exhaustiva en un conjunto de datos y no tenemos que lidiar con la creación de personas artificiales ni con negociar el Valle Inquietante (todavía).

Inversión de mapas de segmentación

Google ha desarrollado una versión animada del esquema GauGAN, llamada Naturaleza infinita, capaz de 'alucinar' deliberadamente paisajes ficticios continuos e interminables al traducir mapas semánticos falsos en imágenes fotorrealistas a través de NVIDIA PALA sistema de relleno:

Fuente: https://www.youtube.com/watch?v=oXUf6anNAtc

Sin embargo, Infinite Nature utiliza una sola imagen como punto de partida y utiliza SPADE simplemente para pintar las secciones que faltan en fotogramas sucesivos, mientras que SPADE crea transformaciones de imagen directamente a partir de mapas de segmentación.

Fuente: https://nvlabs.github.io/SPADE/

Es esta capacidad la que parece haber despertado a los admiradores del sistema Intel Image Enhancement: la posibilidad de obtener imágenes fotorrealistas de muy alta calidad, incluso en tiempo real (eventualmente), a partir de datos extremadamente crudos.

Sustitución de texturas e iluminación con renderizado neuronal

En el caso de la entrada de GTA5, algunos se han preguntado si alguna de las texturas y luces procedimentales y de mapa de bits computacionalmente costosas de la salida del motor de juego realmente será necesaria en futuros sistemas de renderizado neuronal, o si será posible transformar una entrada de baja resolución, a nivel de wireframe, en un video fotorrealista que supere las capacidades de sombreado, textura e iluminación de los motores de juego, creando escenas hiperrealistas a partir de una entrada proxy de "marcador de posición".

Podría parecer obvio que las facetas generadas por el juego, como los reflejos, las texturas y otros tipos de detalles ambientales, son fuentes esenciales de información para un sistema de renderizado neuronal como el demostrado por Intel. Sin embargo, han pasado algunos años desde que NVIDIA... UNIDAD (Redes de Traducción de Imagen a Imagen sin Supervisión) demostró que sólo el dominio es importante, y que incluso aspectos tan amplios como "noche o día" son esencialmente cuestiones que deben ser manejadas mediante transferencia de estilo:

En términos de entrada requerida, esto potencialmente deja al motor del juego solo necesitando generar simulaciones de geometría y física base, ya que el motor de renderizado neuronal puede sobrepintar todos los demás aspectos sintetizando las imágenes deseadas del conjunto de datos capturado, usando mapas semánticos como interpretación. capa.

El sistema de Intel mejora un marco completamente terminado y renderizado de GTA5, agregando segmentación y mapas de profundidad evaluados, dos facetas que potencialmente podrían ser proporcionadas directamente por un motor de juego simplificado. Fuente: https://www.youtube.com/watch?v=P1IcaBn3ej0

El sistema de Intel mejora un fotograma completamente terminado y renderizado de GTA5, añadiendo segmentación y mapas de profundidad evaluados, dos facetas que potencialmente podrían ser suministradas directamente por un motor de juego simplificado. Fuente: https://www.youtube.com/watch?v=P1IcaBn3ej0

El enfoque de renderizado neuronal de Intel implica el análisis de fotogramas completamente renderizados desde los búferes de GTA5, y el sistema neuronal tiene la responsabilidad adicional de crear tanto los mapas de profundidad como los de segmentación. Dado que los mapas de profundidad están disponibles de forma implícita en las canalizaciones 3D tradicionales (y su generación es más sencilla que la texturización, el trazado de rayos o la iluminación global), sería más eficiente dejar que el motor del juego se encargue de ellos.

Entrada simplificada para un motor de renderizado neuronal

Por lo tanto, la implementación actual de la red de mejora de imágenes de Intel puede implicar una gran cantidad de ciclos informáticos redundantes, ya que el motor del juego genera texturas e iluminación computacionalmente costosas que el motor de renderizado neuronal realmente no necesita. El sistema parece haber sido diseñado de esta manera no porque sea necesariamente un enfoque óptimo, sino porque es más fácil adaptar un motor de renderizado neuronal a una canalización existente que crear un nuevo motor de juego optimizado para un enfoque de renderizado neuronal.

El uso más económico de recursos en un sistema de juego de esta naturaleza podría ser la cooptación completa de la GPU por parte del sistema de renderizado neuronal, con la entrada de proxy simplificada manejada por la CPU.

Además, el motor del juego podría producir fácilmente mapas de segmentación representativos por sí mismo, apagando todo el sombreado y la iluminación en su salida. Además, podría proporcionar video a una resolución mucho más baja de lo que normalmente se requiere, ya que el video solo necesitaría ser ampliamente representativo del contenido, con detalles de alta resolución manejados por el motor neuronal, liberando aún más los recursos informáticos locales.

Trabajo previo de Intel ISL con segmentación>Imagen

La traducción directa de la segmentación a video fotorrealista dista mucho de ser hipotética. En 2017, Intel ISL, creador del furor de ayer, lanzó... investigacion capaz de realizar síntesis de vídeo urbano directamente a partir de la segmentación semántica.

Segmentación del trabajo de imagen de Intel ISL a partir de 2017. Fuente: https://awesomeopensource.com/project/CQFIO/PhotographicImageSynthesis

En efecto, ese pipeline original de 2017 simplemente se ha ampliado para adaptarse a la salida completamente renderizada de GTA5.

Representación neuronal en VFX

La renderización neuronal a partir de mapas de segmentación artificial también parece ser una tecnología prometedora para los efectos visuales, con la posibilidad de traducir directamente videogramas muy básicos en metraje de efectos visuales terminados, mediante la generación de conjuntos de datos específicos del dominio tomados de modelos o imágenes sintéticas (CGI).

Un sistema de representación neuronal hipotético, donde se abstrae una amplia cobertura de cada objeto objetivo en un conjunto de datos contribuyente, y donde se utilizan mapas de segmentación generados artificialmente como base para una salida fotorrealista de resolución completa. Fuente: https://rossdawson.com/futurist/implications-of-ai/comprehensive-guide-ai-artificial-intelligence-visual-effects-vfx/

El desarrollo y la adopción de dichos sistemas cambiaría el lugar del esfuerzo artístico de un flujo de trabajo interpretativo a uno representativo, y elevaría la recopilación de datos impulsada por el dominio de un papel de apoyo a uno central en las artes visuales.

Artículo actualizado a las 4:55 p. m. para agregar material sobre la investigación de Intel ISL 2017.

Temas relacionados:síntesis de imagen intel Aprendizaje automático transformadores de redes neuronales redes neuronales nvidia videojuegos