Inteligencia artificial

Representación neural: ¿Hasta dónde se puede llegar en términos de entrada?

Published May 13, 2021

Updated April 28, 2026

Martin Anderson

Ayer, algunos nuevos trabajos extraordinarios en síntesis de imágenes neuronales captaron la atención y la imaginación de Internet, ya que los investigadores de Intel revelaron un nuevo método para mejorar la realidad de las imágenes sintéticas.

El sistema, como se demuestra en un video de Intel, interviene directamente en la tubería de imágenes para el juego de video Grand Theft Auto V, y mejora automáticamente las imágenes a través de un algoritmo de síntesis de imágenes entrenado en una red neuronal convolucional (CNN), utilizando imágenes del mundo real del conjunto de datos Mapillary, y reemplazando la iluminación y texturización menos realistas del motor del juego GTA.

Los comentaristas, en una amplia gama de reacciones en comunidades como Reddit y Hacker News, están planteando no solo que la representación neural de este tipo podría reemplazar efectivamente la salida menos fotorealista de los motores de juegos tradicionales y la CGI de nivel VFX, sino que este proceso podría lograrse con una entrada mucho más básica que la demostrada en la demo de GTA5 de Intel — creando efectivamente ‘marionetas’ de entrada de proxy con salidas muy realistas.

Conjuntos de datos emparejados

El principio ha sido ejemplificado por una nueva generación de sistemas GAN y codificador/decodificador en los últimos tres años, como GauGAN de NVIDIA, que genera imágenes escénicas fotorealistas a partir de bosquejos burdos.

En efecto, este principio invierte el uso convencional de la segmentación semántica en visión por computadora de un método pasivo que permite a los sistemas de máquina identificar y aislar objetos observados en una entrada creativa, donde el usuario ‘pinta’ un mapa de segmentación semántica falso y el sistema genera imágenes coherentes con las relaciones que entiende desde haber clasificado y segmentado un dominio particular, como un paisaje.

Un marco de aprendizaje automático aplica segmentación semántica a varias escenas exteriores, proporcionando el paradigma arquitectónico que permite el desarrollo de sistemas interactivos, donde el usuario pinta un bloque de segmentación semántica y el sistema rellena el bloque con imágenes apropiadas de un conjunto de datos específico de dominio, como el conjunto de vistas de la calle de Mapillary de Alemania, utilizado en la demo de representación neural de GTA5 de Intel. Fuente: http://ais.informatik.uni-freiburg.de/publications/papers/valada17icra.pdf

Los sistemas de síntesis de imágenes de conjuntos de datos emparejados funcionan correlacionando etiquetas semánticas en dos conjuntos de datos: un conjunto de imágenes rico y completo, generado a partir de imágenes del mundo real (como el conjunto de datos Mapillary utilizado para mejorar GTA5 en la demo de Intel de ayer) o a partir de imágenes sintéticas, como imágenes CGI.

Ejemplos de conjuntos de datos emparejados para un sistema de síntesis de imágenes diseñado para crear personajes renderizados neuronalmente a partir de bocetos torpes. A la izquierda, muestras del conjunto de datos CGI. En el medio, muestras correspondientes del conjunto de datos ‘boceto’. A la derecha, renders neuronales que han traducido bocetos de regreso a imágenes de alta calidad. Fuente: https://www.youtube.com/watch?v=miLIwQ7yPkA

Los entornos exteriores son relativamente fáciles de crear cuando se trata de transformaciones de conjuntos de datos emparejados de este tipo, porque las protuberancias suelen ser bastante limitadas, la topografía tiene un rango de variación limitado que puede ser capturado de manera integral en un conjunto de datos, y no tenemos que lidiar con la creación de personas artificiales o negociar el Valle Inquietante (todavía).

Invertir mapas de segmentación

Google ha desarrollado una versión animada del esquema GauGAN, llamada Infinite Nature, capaz de ‘alucinar’ deliberadamente paisajes ficticios continuos y nunca-ending por traducir mapas semánticos falsos en imágenes fotorealistas a través del sistema de relleno SPADE de NVIDIA:

Fuente: https://www.youtube.com/watch?v=oXUf6anNAtc

Sin embargo, Infinite Nature utiliza una sola imagen como punto de partida y utiliza SPADE solo para pintar las secciones que faltan en los fotogramas sucesivos, mientras que SPADE en sí crea transformaciones de imágenes directamente a partir de mapas de segmentación.

Fuente: https://nvlabs.github.io/SPADE/

Es esta capacidad la que parece haber conmocionado a los admiradores del sistema de mejora de imagen de Intel – la posibilidad de derivar imágenes fotorealistas de muy alta calidad, incluso en tiempo real (eventualmente), a partir de entradas extremadamente burdas.

Reemplazar texturas y iluminación con representación neural

En el caso de la entrada de GTA5, algunos se han preguntado si alguna de las texturas y la iluminación procedurales y de mapa de bits del motor del juego realmente van a ser necesarias en los sistemas de representación neural futuros, o si podría ser posible transformar la entrada de baja resolución y de nivel de alambre en video fotorealista que supere las capacidades de sombreado, texturización y iluminación de los motores de juegos, creando escenas hiperrealistas a partir de entrada de proxy ‘placeholder’.

Puede parecer obvio que los aspectos generados por el juego, como reflejos, texturas y otros tipos de detalles ambientales, son fuentes esenciales de información para un sistema de representación neural del tipo demostrado por Intel. Sin embargo, han pasado algunos años desde que la red UNIT (UNsupervised Image-to-image Translation Networks) de NVIDIA demostró que solo el dominio es importante, y que incluso aspectos como ‘noche o día’ son esencialmente problemas para ser manejados por la transferencia de estilo:

En términos de entrada requerida, esto potencialmente deja el motor del juego solo necesitando generar geometría base y simulaciones de física, ya que el motor de representación neural puede pintar todos los demás aspectos al sintetizar la imagen deseada a partir del conjunto de datos capturado, utilizando mapas semánticos como una capa de interpretación.

El sistema de Intel mejora un fotograma completamente terminado y renderizado de GTA5, agregando segmentación y mapas de profundidad evaluados — dos facetes que podrían potencialmente ser suministrados directamente por un motor de juego desmantelado. Fuente: https://www.youtube.com/watch?v=P1IcaBn3ej0

El enfoque de representación neural de Intel implica el análisis de fotogramas completamente renderizados de los búferes de GTA5, y el sistema neural tiene la carga adicional de crear tanto los mapas de profundidad como los mapas de segmentación. Dado que los mapas de profundidad están implícitamente disponibles en las tuberías 3D tradicionales (y son menos exigentes para generar que la texturización, el trazado de rayos o la iluminación global), podría ser un mejor uso de los recursos dejar que el motor del juego maneje ellos.

Entrada desmantelada para un motor de representación neural

La implementación actual de la red de mejora de imagen de Intel, por lo tanto, puede involucrar muchos ciclos de computación redundantes, ya que el motor del juego genera texturas y luces computacionalmente costosas que el motor de representación neural realmente no necesita. El sistema parece haber sido diseñado de esta manera no porque sea necesariamente un enfoque óptimo, sino porque es más fácil adaptar un motor de representación neural a una tubería existente que crear un nuevo motor de juego que esté optimizado para un enfoque de representación neural.

El uso más económico de los recursos en un sistema de juego de este tipo podría ser la copia total de la GPU por el motor de representación neural, con la entrada de proxy desmantelada manejada por la CPU.

Además, el motor del juego podría producir fácilmente mapas de segmentación representativos por sí mismo, apagando todo sombreado y luces en su salida. Además, podría suministrar video a una resolución mucho más baja de lo que normalmente se requiere, ya que el video solo necesitaría ser ampliamente representativo del contenido, con detalles de alta resolución manejados por el motor neural, lo que liberaría aún más los recursos de cómputo locales.

Trabajo previo de Intel ISL con segmentación > imagen

La traducción directa de segmentación a video fotorealista está lejos de ser hipotética. En 2017, Intel ISL, creadores del revuelo de ayer, lanzaron una investigación inicial capaz de realizar síntesis de video urbano directamente a partir de segmentación semántica.

Trabajo de segmentación a imagen de Intel ISL de 2017. Fuente: https://awesomeopensource.com/project/CQFIO/PhotographicImageSynthesis

En efecto, esa tubería original de 2017 se ha extendido simplemente para adaptarse a la salida completamente renderizada de GTA5.

Representación neural en VFX

La representación neural a partir de mapas de segmentación artificiales también parece ser una tecnología prometedora para VFX, con la posibilidad de traducir directamente videogramas muy básicos en imágenes de efectos visuales terminadas, generando conjuntos de datos específicos de dominio tomados de modelos o imágenes sintéticas (CGI).

Un sistema de representación neural hipotético, donde una cobertura extensa de cada objeto objetivo se abstrae en un conjunto de datos contribuyente, y donde se utilizan mapas de segmentación semántica generados artificialmente como base para la salida fotorealista de alta resolución. Fuente: https://rossdawson.com/futurist/implications-of-ai/comprehensive-guide-ai-artificial-intelligence-visual-effects-vfx/

El desarrollo y adopción de tales sistemas cambiarían el locus del esfuerzo artístico de un flujo de trabajo interpretativo a uno representativo, y elevarían la recopilación de datos impulsada por dominio de un papel de apoyo a uno central en las artes visuales.