Inteligencia artificial
Mejorando el realismo fotográfico de las simulaciones de conducción con Redes Adversarias Generativas

Una nueva iniciativa de investigación entre EE. UU. y China ha propuesto el uso de Redes Adversarias Generativas (GAN) para aumentar el realismo de los simuladores de conducción.
En una nueva aproximación al desafío de producir escenarios de conducción en primera persona fotorealistas, los investigadores han desarrollado un método híbrido que aprovecha las fortalezas de diferentes enfoques, combinando la salida más fotorealista de los sistemas basados en CycleGAN con elementos generados de forma más convencional, que requieren un mayor nivel de detalle y coherencia, como las marcas viales y los vehículos observados desde el punto de vista del conductor.

Hybrid Generative Neural Graphics (HGNG) ofrecen una nueva dirección para las simulaciones de conducción que retiene la precisión de los modelos 3D para elementos esenciales (como marcas viales y vehículos), mientras que aprovecha las fortalezas de las GAN para generar detalles de fondo y ambientales interesantes y no repetitivos. Fuente
El sistema, llamado Hybrid Generative Neural Graphics (HGNG), inyecta la salida altamente limitada de un simulador de conducción convencional basado en CGI en una tubería GAN, donde el marco de trabajo NVIDIA SPADE se encarga de la generación del entorno.
La ventaja, según los autores, es que los entornos de conducción se volverán potencialmente más diversos, creando una experiencia más inmersiva. Como está, incluso convertir la salida de CGI a salida de renderizado neural fotorealista no puede resolver el problema de la repetición, ya que la filmación original que entra en la tubería neural está limitada por los límites de los entornos del modelo y su tendencia a repetir texturas y mallas.

Footage convertido del documento de 2021 ‘Mejorando la fotorealidad’, que sigue dependiendo de la filmación renderizada por CGI, incluyendo el fondo y los detalles ambientales generales, lo que limita la variedad del entorno en la experiencia simulada. Fuente: https://www.youtube.com/watch?v=P1IcaBn3ej0
El documento establece*:
‘La fidelidad de un simulador de conducción convencional depende de la calidad de su tubería de gráficos por computadora, que consiste en modelos 3D, texturas y un motor de renderizado. Los modelos 3D y las texturas de alta calidad requieren artesanía, mientras que el motor de renderizado debe ejecutar cálculos físicos complicados para la representación realista de iluminación y sombreado.’
El nuevo documento se titula Fotorealismo en simulaciones de conducción: Combinando síntesis de imagen adversaria generativa con renderizado, y proviene de investigadores del Departamento de Ingeniería Eléctrica y Computación de la Universidad Estatal de Ohio, y Chongqing Changan Automobile Co Ltd en Chongqing, China.
Material de fondo
HGNG transforma el diseño semántico de una escena generada por CGI al mezclar material de primer plano parcialmente renderizado con entornos generados por GAN. Aunque los investigadores experimentaron con varios conjuntos de datos para entrenar los modelos, el más efectivo resultó ser el KITTI Vision Benchmark Suite, que principalmente presenta capturas de material desde el punto de vista del conductor del pueblo alemán de Karlsruhe.

HGNG genera un diseño de segmentación semántica desde la salida renderizada por CGI, y luego interpone SPADE, con codificaciones de estilo variables, para crear imágenes de fondo fotorealistas aleatorias y diversas, incluyendo objetos cercanos en escenas urbanas. El nuevo documento establece que los patrones repetitivos, que son comunes en las tuberías de CGI con recursos limitados, ‘rompen la inmersión’ para los conductores humanos que utilizan un simulador, y que los fondos más variados que puede proporcionar una GAN pueden aliviar este problema.
Los investigadores experimentaron con Conditional GAN (cGAN) y CYcleGAN (CyGAN) como redes generativas, encontrando finalmente que cada una tiene fortalezas y debilidades: cGAN requiere conjuntos de datos emparejados, y CyGAN no. Sin embargo, CyGAN no puede superar actualmente al estado de la técnica en simuladores convencionales, pendiente de mejoras adicionales en adaptación de dominio y consistencia cíclica. Por lo tanto, cGAN, con sus requisitos adicionales de datos emparejados, obtiene los mejores resultados en este momento.

La arquitectura conceptual de HGNG.
En la tubería de gráficos neuronales HGNG, se forman representaciones 2D a partir de escenas generadas por CGI. Los objetos que se pasan a la GAN son limitados a ‘elementos esenciales’, incluyendo marcas viales y vehículos, que una GAN no puede renderizar actualmente con la coherencia temporal y la integridad adecuadas para un simulador de conducción. La imagen sintetizada por cGAN se combina entonces con el renderizado parcial basado en física.
Pruebas
Para probar el sistema, los investigadores utilizaron SPADE, entrenado en Cityscapes, para convertir el diseño semántico de la escena en salida fotorealista. La fuente de CGI provino del simulador de conducción de código abierto CARLA, que utiliza el Unreal Engine 4 (UE4).

Salida del simulador de conducción de código abierto CARLA. Fuente: https://arxiv.org/pdf/1711.03938.pdf
El motor de sombreado y iluminación de UE4 proporcionó el diseño semántico y las imágenes renderizadas parcialmente, con solo vehículos y marcas viales de salida. La combinación se logró con una instancia de GP-GAN entrenada en la Transient Attributes Database, y todas las pruebas se ejecutaron en una NVIDIA RTX 2080 con 8 GB de GDDR6 VRAM.
Los investigadores probaron la retención semántica – la capacidad de la imagen de salida para corresponder a la máscara de segmentación semántica inicial destinada como plantilla para la escena.
En las imágenes de prueba de arriba, vemos que en la imagen ‘solo renderizado’ (abajo a la izquierda), el renderizado completo no obtiene sombras plausibles. Los investigadores señalan que aquí (círculo amarillo) las sombras de los árboles que caen sobre la acera fueron clasificadas erróneamente por DeepLabV3 (el marco de segmentación semántica utilizado para estos experimentos) como ‘contenido de carretera’.
En la columna del flujo del medio, vemos que los vehículos creados por cGAN no tienen suficiente definición coherente para ser utilizables en un simulador de conducción (círculo rojo). En la columna de flujo de la derecha, la imagen combinada se ajusta a la definición semántica original, mientras que mantiene los elementos CGI básicos.
Para evaluar el realismo, los investigadores utilizaron Frechet Inception Distance (FID) como métrica de rendimiento, ya que puede operar en datos emparejados o no emparejados.
Se utilizaron tres conjuntos de datos como verdad de referencia: Cityscapes, KITTI y ADE20K.
Las imágenes de salida se compararon entre sí utilizando puntuaciones FID, y contra la tubería basada en física (es decir, CGI), mientras que también se evaluó la retención semántica.

En los resultados de arriba, que se relacionan con la retención semántica, las puntuaciones más altas son mejores, con el enfoque de pirámide basado en cGAN (uno de los varios pipelines probados por los investigadores) obteniendo la puntuación más alta.

Los resultados que se muestran directamente arriba se refieren a las puntuaciones FID, con HGNG obteniendo la puntuación más alta a través del uso del conjunto de datos KITTI.
El método ‘solo renderizado’ (denotado como [23]) se refiere a la salida del CGI, un flujo que no se espera que sea fotorealista.
Los resultados cualitativos en el motor de renderizado convencional (‘c’ en la imagen de arriba) exhiben información de fondo distante no realista, como árboles y vegetación, mientras que requiere modelos detallados y carga de malla en tiempo real, así como otros procedimientos intensivos en procesador. En el medio (b), vemos que cGAN no puede obtener una definición adecuada para los elementos esenciales, coches y marcas viales. En la salida combinada propuesta (a), la definición de vehículos y carreteras es buena, mientras que el entorno ambiental es diverso y fotorealista.
El documento concluye sugiriendo que la coherencia temporal de la sección generada por GAN de la tubería de renderizado podría aumentarse a través del uso de conjuntos de datos urbanos más grandes, y que el trabajo futuro en esta dirección podría ofrecer una alternativa real a las transformaciones neuronales costosas de flujos basados en CGI, mientras que proporciona un mayor realismo y diversidad.
* Mi conversión de las citas en línea de los autores a enlaces.
Publicado por primera vez el 23 de julio de 2022.














