Contáctenos

Mejorando el fotorrealismo de las simulaciones de conducción con redes adversarias generativas

Inteligencia Artificial

Mejorando el fotorrealismo de las simulaciones de conducción con redes adversarias generativas

mm

Una nueva iniciativa de investigación entre EE. UU. y China ha propuesto el uso de redes adversarias generativas (GAN) para aumentar el realismo de los simuladores de conducción.

En una novedosa propuesta para afrontar el desafío de producir escenarios de conducción desde el punto de vista fotorrealistas, los investigadores han desarrollado un método híbrido que aprovecha las fortalezas de distintos enfoques, mezclando el resultado más fotorrealista de los sistemas basados ​​en CycleGAN con elementos generados de forma más convencional, que requieren un mayor nivel de detalle y consistencia, como las marcas viales y los vehículos reales observados desde el punto de vista del conductor.

Los gráficos neuronales generativos híbridos (HGNG) ofrecen una nueva dirección para las simulaciones de conducción que conservan la precisión de los modelos 3D para elementos esenciales (como marcas viales y vehículos), al tiempo que aprovechan las fortalezas de las GAN para generar fondos y ambientes interesantes y no repetitivos. detalle. Fuente

Los gráficos neuronales generativos híbridos (HGNG) ofrecen una nueva dirección para las simulaciones de conducción que conservan la precisión de los modelos 3D para elementos esenciales (como marcas viales y vehículos), al tiempo que aprovechan las fortalezas de las GAN para generar fondos y ambientes interesantes y no repetitivos. detalle. Fuente

El sistema, llamado Hybrid Generative Neural Graphics (HGNG), inyecta una salida muy limitada de un simulador de conducción convencional basado en CGI en una canalización GAN, donde NVIDIA PALA El marco se hace cargo del trabajo de generación del entorno.

La ventaja, según los autores, es que los entornos de conducción se volverán potencialmente más diversos, creando una experiencia más inmersiva. Tal como está, incluso la conversión de La salida de CGI a la salida de representación neuronal fotorrealista no puede resolver el problema de la repetición, ya que el metraje original que ingresa a la canalización neuronal está restringido por los límites de los entornos del modelo y su tendencia a repetir texturas y mallas.

Fuente: https://www.youtube.com/watch?v=0fhUJT21-bs

Imágenes convertidas del 2021 'Mejora del fotorrealismo', que sigue dependiendo del metraje generado por computadora, incluido el fondo y los detalles ambientales generales, lo que limita la variedad del entorno en la experiencia simulada. Fuente: https://www.youtube.com/watch?v=P1IcaBn3ej0

El documento dice*:

“La fidelidad de un simulador de conducción convencional depende de la calidad de su canal de gráficos por computadora, que consta de modelos 3D, texturas y un motor de renderizado. Los modelos y texturas 3D de alta calidad requieren artesanía, mientras que el motor de renderizado debe ejecutar cálculos físicos complicados para la representación realista de iluminación y sombreado. "

La nuevo documento se titula Fotorrealismo en simulaciones de conducción: combinación de síntesis generativa de imágenes antagónicas con renderizado, y proviene de investigadores del Departamento de Ingeniería Eléctrica e Informática de la Universidad Estatal de Ohio y Chongqing Changan Automobile Co Ltd en Chongqing, China.

Material de base

HGNG transforma el diseño semántico de una escena generada por CGI de entrada al mezclar material de primer plano parcialmente renderizado con entornos generados por GAN. Aunque los investigadores experimentaron con varios conjuntos de datos sobre los cuales entrenar los modelos, el más efectivo resultó ser el KITTI Vision Benchmark Suite, que presenta predominantemente capturas de material POV del conductor de la ciudad alemana de Karlsruhe.

HGNG genera un diseño de segmentación semántica a partir de la salida renderizada por CGI, y luego interpone SPADE, con diferentes codificaciones de estilo, para crear imágenes de fondo fotorrealistas aleatorias y diversas, que incluyen objetos cercanos en escenas urbanas. El nuevo documento establece que los patrones repetitivos, que son comunes a las canalizaciones CGI con recursos limitados, 'interrumpen la inmersión' para los conductores humanos que usan un simulador, y que los fondos más variados que puede proporcionar una GAN alivian este problema.

HGNG genera un diseño de segmentación semántica a partir de la salida renderizada por CGI y, a continuación, intercala SPADE, con diferentes codificaciones de estilo, para crear imágenes de fondo fotorrealistas aleatorias y diversas, incluyendo objetos cercanos en escenas urbanas. El nuevo artículo afirma que los patrones repetitivos, comunes en las canalizaciones CGI con recursos limitados, interrumpen la inmersión de los conductores humanos que utilizan un simulador, y que los fondos más variados que ofrece una GAN pueden mitigar este problema.

Los investigadores experimentaron con ambos  GAN condicional (cGAN) y CICLOGAN (CyGAN) como redes generativas, encontrando finalmente que cada una tiene fortalezas y debilidades: cGAN requiere conjuntos de datos emparejadosy CyGAN no. Sin embargo, CyGAN actualmente no puede superar el estado del arte en los simuladores convencionales, a la espera de nuevas mejoras en adaptación de dominio y consistencia del ciclo. Por lo tanto, cGAN, con sus requisitos adicionales de datos pareados, obtiene los mejores resultados en este momento.

La arquitectura conceptual de HGNG.

La arquitectura conceptual de HGNG.

En la canalización de gráficos neuronales HGNG, las representaciones 2D se generan a partir de escenas sintetizadas con CGI. Los objetos que pasan al flujo GAN desde el renderizado CGI se limitan a elementos esenciales, como marcas viales y vehículos, que una GAN por sí sola no puede renderizar con la consistencia temporal e integridad adecuadas para un simulador de conducción. La imagen sintetizada con cGAN se fusiona con el renderizado parcial basado en la física.

Examenes

Para probar el sistema, los investigadores usaron SPADE, entrenados en Paisajes urbanos, para convertir el diseño semántico de la escena en una salida fotorrealista. La fuente CGI provino del simulador de conducción de código abierto CARLA, que aprovecha el Unreal Engine 4 (UE4).

Salida del simulador de conducción de código abierto CARLA. Fuente: https://arxiv.org/pdf/1711.03938.pdf

Salida del simulador de conducción de código abierto CARLA. Fuente: https://arxiv.org/pdf/1711.03938.pdf

El motor de sombreado e iluminación de UE4 proporcionó el diseño semántico y las imágenes renderizadas parcialmente, con solo vehículos y marcas de carril. La mezcla se logró con un GP-GAN instancia capacitada en el Base de datos de atributos transitorios, y todos los experimentos se ejecutan en un NVIDIA RTX 2080 con 8 GB de GDDR6 VRAM.

Los investigadores probaron para retención semántica – la capacidad de la imagen de salida para corresponder a la máscara de segmentación semántica inicial prevista como plantilla para la escena.

En las imágenes de prueba anteriores, observamos que en la imagen de solo renderizado (abajo a la izquierda), el renderizado completo no genera sombras plausibles. Los investigadores observan que aquí (círculo amarillo) las sombras de los árboles que caen sobre la acera fueron clasificadas erróneamente por ProfundoLabV3 (el marco de segmentación semántica utilizado para estos experimentos) como contenido de "carretera".

En el flujo de la columna central, vemos que los vehículos creados con cGAN no tienen una definición lo suficientemente consistente para poder usarse en un simulador de conducción (círculo rojo). En el flujo de la columna más a la derecha, la imagen combinada se ajusta a la definición semántica original, al tiempo que conserva los elementos esenciales basados ​​en CGI.

Para evaluar el realismo, los investigadores utilizaron Distancia de inicio de Frechet (FID) como una métrica de rendimiento, ya que puede operar en datos emparejados o datos no emparejados.

Se utilizaron tres conjuntos de datos como datos reales: Cityscapes, KITTI y ADE20K.

Las imágenes de salida se compararon entre sí utilizando puntajes FID y contra la canalización basada en la física (es decir, CGI), mientras que también se evaluó la retención semántica.

En los resultados anteriores, que se relacionan con la retención semántica, las puntuaciones más altas son mejores, con el enfoque basado en la pirámide de CGAN (una de varias canalizaciones probadas por los investigadores) con la puntuación más alta.

Los resultados que se muestran directamente arriba pertenecen a las puntuaciones FID, con la puntuación más alta de HGNG mediante el uso del conjunto de datos KITTI.

El método 'Solo renderizar' (indicado como [ 23 ]) pertenece a la salida de CARLA, un flujo CGI que no se espera que sea fotorrealista.

Los resultados cualitativos del motor de renderizado convencional ('c' en la imagen superior) muestran información de fondo distante poco realista, como árboles y vegetación, a la vez que requieren modelos detallados y carga de malla justo a tiempo, así como otros procedimientos que consumen muchos recursos del procesador. En la imagen central (b), se observa que cGAN no logra una definición adecuada de los elementos esenciales: vehículos y marcas viales. En la salida combinada propuesta (a), la definición de vehículos y carreteras es buena, mientras que el entorno ambiental es diverso y fotorrealista.

El documento concluye sugiriendo que la consistencia temporal de la sección generada por GAN de la canalización de renderizado podría aumentar mediante el uso de conjuntos de datos urbanos más grandes, y que el trabajo futuro en esta dirección podría ofrecer una alternativa real a las costosas transformaciones neuronales de CGI. flujos, al tiempo que proporciona un mayor realismo y diversidad.

 

* Mi conversión de las citas en línea de los autores en hipervínculos.

Publicado por primera vez el 23 de julio de 2022.

Escritor sobre aprendizaje automático, especialista en síntesis de imágenes humanas. Exdirector de contenido de investigación en Metaphysic.ai.
sitio personal: martinanderson.ai
Contacto: [email protected]
Gorjeo: @manders_ai