Inteligencia artificial

Mejorando el fotorrealismo de las simulaciones de conducción con redes adversarias generativas

Actualizado on 9 de diciembre de 2022

Una nueva iniciativa de investigación entre EE. UU. y China ha propuesto el uso de redes adversarias generativas (GAN) para aumentar el realismo de los simuladores de conducción.

En una versión novedosa del desafío de producir escenarios de conducción POV fotorrealistas, los investigadores han desarrollado un método híbrido que aprovecha los puntos fuertes de diversos enfoques, al mezclar la salida más fotorrealista de los sistemas basados en CycleGAN con elementos generados de manera más convencional, que requieren un mayor nivel de detalle y coherencia, como las marcas viales y los vehículos reales observados desde el punto de vista del conductor.

Los gráficos neuronales generativos híbridos (HGNG) ofrecen una nueva dirección para las simulaciones de conducción que conservan la precisión de los modelos 3D para elementos esenciales (como marcas viales y vehículos), al tiempo que aprovechan las fortalezas de las GAN para generar fondos y ambientes interesantes y no repetitivos. detalle. Fuente

El sistema, llamado Hybrid Generative Neural Graphics (HGNG), inyecta una salida muy limitada de un simulador de conducción convencional basado en CGI en una canalización GAN, donde NVIDIA PALA El marco se hace cargo del trabajo de generación del entorno.

La ventaja, según los autores, es que los entornos de conducción se volverán potencialmente más diversos, creando una experiencia más inmersiva. Tal como está, incluso la conversión de La salida de CGI a la salida de representación neuronal fotorrealista no puede resolver el problema de la repetición, ya que el metraje original que ingresa a la canalización neuronal está restringido por los límites de los entornos del modelo y su tendencia a repetir texturas y mallas.

Fuente: https://www.youtube.com/watch?v=0fhUJT21-bs

Imágenes convertidas del 2021 'Mejora de la mejora del fotorrealismo', que sigue dependiendo del metraje generado por CGI, incluido el fondo y los detalles ambientales generales, lo que restringe la variedad de entornos en la experiencia simulada. Fuente: https://www.youtube.com/watch?v=P1IcaBn3ej0

El documento dice*:

“La fidelidad de un simulador de conducción convencional depende de la calidad de su canal de gráficos por computadora, que consta de modelos 3D, texturas y un motor de renderizado. Los modelos y texturas 3D de alta calidad requieren artesanía, mientras que el motor de renderizado debe ejecutar cálculos físicos complicados para la representación realista de iluminación y sombreado.'

La nuevo documento se titula Fotorrealismo en simulaciones de conducción: combinación de síntesis generativa de imágenes antagónicas con renderizado, y proviene de investigadores del Departamento de Ingeniería Eléctrica e Informática de la Universidad Estatal de Ohio y Chongqing Changan Automobile Co Ltd en Chongqing, China.

Material de base

HGNG transforma el diseño semántico de una escena generada por CGI de entrada al mezclar material de primer plano parcialmente renderizado con entornos generados por GAN. Aunque los investigadores experimentaron con varios conjuntos de datos sobre los cuales entrenar los modelos, el más efectivo resultó ser el KITTI Vision Benchmark Suite, que presenta predominantemente capturas de material POV del conductor de la ciudad alemana de Karlsruhe.

HGNG genera un diseño de segmentación semántica a partir de la salida renderizada por CGI, y luego interpone SPADE, con diferentes codificaciones de estilo, para crear imágenes de fondo fotorrealistas aleatorias y diversas, que incluyen objetos cercanos en escenas urbanas. El nuevo documento establece que los patrones repetitivos, que son comunes a las canalizaciones CGI con recursos limitados, 'interrumpen la inmersión' para los conductores humanos que usan un simulador, y que los fondos más variados que puede proporcionar una GAN pueden aliviar este problema.

Los investigadores experimentaron con ambos GAN condicional (cGAN) y CICLOGAN (CyGAN) como redes generativas, encontrando finalmente que cada una tiene fortalezas y debilidades: cGAN requiere conjuntos de datos emparejadosy CyGAN no. Sin embargo, CyGAN actualmente no puede superar el estado del arte en los simuladores convencionales, a la espera de nuevas mejoras en adaptación de dominio y consistencia del ciclo. Por lo tanto, cGAN, con sus requisitos adicionales de datos pareados, obtiene los mejores resultados en este momento.

La arquitectura conceptual de HGNG.

En la tubería de gráficos neuronales HGNG, las representaciones 2D se forman a partir de escenas sintetizadas por CGI. Los objetos que se pasan al flujo de GAN desde la representación CGI se limitan a elementos "esenciales", incluidas las marcas viales y los vehículos, que una GAN en sí misma no puede representar actualmente con la coherencia temporal y la integridad adecuadas para un simulador de conducción. Luego, la imagen sintetizada con cGAN se combina con el renderizado parcial basado en la física.

Examenes

Para probar el sistema, los investigadores usaron SPADE, entrenados en Paisajes urbanos, para convertir el diseño semántico de la escena en una salida fotorrealista. La fuente CGI provino del simulador de conducción de código abierto CARLA, que aprovecha el Unreal Engine 4 (UE4).

Salida del simulador de conducción de código abierto CARLA. Fuente: https://arxiv.org/pdf/1711.03938.pdf

El motor de sombreado e iluminación de UE4 proporcionó el diseño semántico y las imágenes renderizadas parcialmente, con solo vehículos y marcas de carril. La mezcla se logró con un GP-GAN instancia capacitada en el Base de datos de atributos transitorios, y todos los experimentos se ejecutan en un NVIDIA RTX 2080 con 8 GB de GDDR6 VRAM.

SIGGRAPH 2014 - Atributos transitorios para la comprensión y edición de alto nivel de escenas al aire libre

SIGGRAPH 2014 - Transient Attributes for High-Level Understanding and Editing of Outdoor Scenes

Watch this video on YouTube

Los investigadores probaron para retención semántica – la capacidad de la imagen de salida para corresponder a la máscara de segmentación semántica inicial prevista como plantilla para la escena.

En las imágenes de prueba anteriores, vemos que en la imagen de 'solo procesamiento' (abajo a la izquierda), el procesamiento completo no obtiene sombras plausibles. Los investigadores notan que aquí (círculo amarillo) las sombras de los árboles que caen sobre la acera fueron clasificadas erróneamente por ProfundoLabV3 (el marco de segmentación semántica utilizado para estos experimentos) como contenido de 'carretera'.

En el flujo de la columna central, vemos que los vehículos creados con cGAN no tienen una definición lo suficientemente consistente para poder usarse en un simulador de conducción (círculo rojo). En el flujo de la columna más a la derecha, la imagen combinada se ajusta a la definición semántica original, al tiempo que conserva los elementos esenciales basados en CGI.

Para evaluar el realismo, los investigadores utilizaron Distancia de inicio de Frechet (FID) como una métrica de rendimiento, ya que puede operar en datos emparejados o datos no emparejados.

Se utilizaron tres conjuntos de datos como datos reales: Cityscapes, KITTI y ADE20K.

Las imágenes de salida se compararon entre sí utilizando puntajes FID y contra la canalización basada en la física (es decir, CGI), mientras que también se evaluó la retención semántica.

En los resultados anteriores, que se relacionan con la retención semántica, las puntuaciones más altas son mejores, con el enfoque basado en la pirámide de CGAN (una de varias canalizaciones probadas por los investigadores) con la puntuación más alta.

Los resultados que se muestran directamente arriba pertenecen a las puntuaciones FID, con la puntuación más alta de HGNG mediante el uso del conjunto de datos KITTI.

El método 'Solo renderizar' (indicado como [ 23 ]) pertenece a la salida de CARLA, un flujo CGI que no se espera que sea fotorrealista.

Los resultados cualitativos en el motor de renderizado convencional ('c' en la imagen directamente arriba) muestran información de fondo distante poco realista, como árboles y vegetación, mientras que requieren modelos detallados y carga de malla justo a tiempo, así como otros procedimientos intensivos del procesador. En el medio (b), vemos que cGAN no logra obtener una definición adecuada para los elementos esenciales, automóviles y marcas viales. En el resultado combinado propuesto (a), la definición del vehículo y la carretera es buena, mientras que el entorno ambiental es diverso y fotorrealista.

El documento concluye sugiriendo que la consistencia temporal de la sección generada por GAN de la canalización de renderizado podría aumentar mediante el uso de conjuntos de datos urbanos más grandes, y que el trabajo futuro en esta dirección podría ofrecer una alternativa real a las costosas transformaciones neuronales de CGI. flujos, al tiempo que proporciona un mayor realismo y diversidad.

* Mi conversión de las citas en línea de los autores a hipervínculos.

Publicado por primera vez el 23 de julio de 2022.

Hasta la próxima

IA en agricultura: visión artificial, robots y básculas para cerdos

No Te Lo

Los investigadores identifican un rasgo resistente de los deepfakes que podría ayudar a la detección a largo plazo

Martin anderson

Escritor sobre aprendizaje automático, inteligencia artificial y big data.
sitio personal: martinanderson.ai
Contacto: [email protected]
Gorjeo: @manders_ai