Inteligência artificial

Melhorando o Realismo Fotográfico de Simulações de Dirigir com Redes Adversárias Generativas

Published July 23, 2022

Updated April 28, 2026

Martin Anderson

Uma nova iniciativa de pesquisa entre os EUA e a China propôs o uso de Redes Adversárias Generativas (GANs) para aumentar o realismo de simuladores de dirigir.

Em uma abordagem inovadora para o desafio de produzir cenários de dirigir em primeira pessoa fotorealistas, os pesquisadores desenvolveram um método híbrido que aproveita as forças de diferentes abordagens, misturando a saída mais fotorealista de sistemas baseados em CycleGAN com elementos gerados de forma mais convencional, que exigem um maior nível de detalhe e consistência, como marcas de estrada e os veículos observados do ponto de vista do motorista.

Hybrid Generative Neural Graphics (HGNG) oferece uma nova direção para simulações de dirigir que retém a precisão de modelos 3D para elementos essenciais (como marcas de estrada e veículos), enquanto aproveita as forças das GANs na geração de detalhes de fundo e ambientais interessantes e não repetitivos. Fonte

O sistema, chamado Hybrid Generative Neural Graphics (HGNG), injeta saída altamente limitada de um simulador de dirigir convencional baseado em CGI em um pipeline de GAN, onde o framework NVIDIA SPADE assume o trabalho de geração de ambiente.

A vantagem, segundo os autores, é que os ambientes de dirigir se tornarão potencialmente mais diversificados, criando uma experiência mais imersiva. Como está, mesmo converter saída de CGI para saída de renderização neural fotorealista não pode resolver o problema de repetição, pois a filmagem original que entra no pipeline neural é limitada pelos limites dos ambientes do modelo e sua tendência a repetir texturas e malhas.

Fonte: https://www.youtube.com/watch?v=0fhUJT21-bs

Footagem convertida do paper de 2021 ‘Enhancing photorealism enhancement’, que permanece dependente de footagem renderizada por CGI, incluindo o fundo e detalhes ambientais gerais, limitando a variedade de ambiente na experiência simulada. Fonte: https://www.youtube.com/watch?v=P1IcaBn3ej0

O artigo afirma*:

‘A fidelidade de um simulador de dirigir convencional depende da qualidade de sua pipeline de gráficos computacionais, que consiste em modelos 3D, texturas e um motor de renderização. Modelos 3D e texturas de alta qualidade exigem artesanato, enquanto o motor de renderização deve executar cálculos físicos complicados para a representação realista de iluminação e sombreamento.’

O novo artigo é intitulado Fotorealismo em Simulações de Dirigir: Misturando Síntese de Imagem Adversária Generativa com Renderização, e vem de pesquisadores do Departamento de Engenharia Elétrica e Computação da Universidade Estadual de Ohio, e Chongqing Changan Automobile Co Ltd em Chongqing, China.

Materiais de Fundo

HGNG transforma o layout semântico de uma cena gerada por CGI misturando material de primeiro plano parcialmente renderizado com ambientes gerados por GAN. Embora os pesquisadores tenham experimentado com vários conjuntos de dados para treinar os modelos, o mais eficaz se provou ser o KITTI Vision Benchmark Suite, que apresenta principalmente capturas de material de ponto de vista do motorista da cidade alemã de Karlsruhe.

HGNG gera um layout de segmentação semântica a partir da saída renderizada por CGI, e então intercala SPADE, com codificações de estilo variadas, para criar imagens de fundo fotorealistas aleatórias e diversificadas, incluindo objetos próximos em cenas urbanas. O novo artigo afirma que padrões repetitivos, que são comuns em pipelines de CGI com recursos limitados, ‘quebram a imersão’ para motoristas humanos que usam um simulador, e que os fundos mais variados que uma GAN pode fornecer podem aliviar esse problema.

Os pesquisadores experimentaram com Conditional GAN (cGAN) e CYcleGAN (CyGAN) como redes generativas, encontrando que cada uma tem forças e fraquezas: cGAN exige conjuntos de dados emparelhados, e CyGAN não. No entanto, CyGAN não pode atualmente superar o estado da arte em simuladores convencionais, pendente de melhorias adicionais em adaptação de domínio e consistência de ciclo. Portanto, cGAN, com seus requisitos adicionais de dados emparelhados, obtém os melhores resultados no momento.

A arquitetura conceitual de HGNG.

Na pipeline de gráficos neurais de HGNG, representações 2D são formadas a partir de cenas geradas por CGI. Os objetos que são passados para o fluxo de GAN a partir da renderização de CGI são limitados a ‘elementos essenciais’, incluindo marcas de estrada e veículos, que uma GAN não pode renderizar atualmente com consistência temporal e integridade adequadas para um simulador de dirigir. A imagem sintetizada por cGAN é então mesclada com a renderização parcial baseada em física.

Testes

Para testar o sistema, os pesquisadores usaram SPADE, treinado em Cityscapes, para converter o layout semântico da cena em saída fotorealista. A fonte de CGI veio do simulador de dirigir de código aberto CARLA, que utiliza o Unreal Engine 4 (UE4).

Saída do simulador de dirigir de código aberto CARLA. Fonte: https://arxiv.org/pdf/1711.03938.pdf

O motor de sombreamento e iluminação do UE4 forneceu o layout semântico e as imagens parcialmente renderizadas, com apenas veículos e marcas de estrada de saída. A mesclagem foi realizada com uma instância de GP-GAN treinada no Transient Attributes Database, e todos os experimentos foram executados em um NVIDIA RTX 2080 com 8 GB de GDDR6 VRAM.

Os pesquisadores testaram a retenção semântica – a capacidade da imagem de saída de corresponder à máscara de segmentação semântica inicial pretendida como o modelo para a cena.

Nas imagens de teste acima, vemos que na imagem ‘renderizada apenas’ (abaixo à esquerda), a renderização completa não obtém sombras plausíveis. Os pesquisadores observam que aqui (círculo amarelo) as sombras das árvores que caem na calçada foram classificadas incorretamente por DeepLabV3 (a estrutura de segmentação semântica usada para esses experimentos) como ‘conteúdo de estrada’.

Na coluna do meio, vemos que os veículos criados por cGAN não têm definição consistente o suficiente para serem usados em um simulador de dirigir (círculo vermelho). Na coluna da direita, a imagem mesclada corresponde à definição semântica original, enquanto retém elementos essenciais baseados em CGI.

Para avaliar o realismo, os pesquisadores usaram Frechet Inception Distance (FID) como uma métrica de desempenho, desde que pode operar em dados emparelhados ou não emparelhados.

Três conjuntos de dados foram usados como verdadeiro: Cityscapes, KITTI e ADE20K.

As imagens de saída foram comparadas entre si usando escores FID, e contra a pipeline baseada em física (ou seja, CGI), enquanto a retenção semântica também foi avaliada.

Nos resultados acima, que se referem à retenção semântica, escores mais altos são melhores, com a abordagem baseada em pirâmide de cGAN (uma das várias pipelines testadas pelos pesquisadores) obtendo o escore mais alto.

Os resultados acima se referem a escores FID, com HGNG obtendo o escore mais alto por meio do uso do conjunto de dados KITTI.

O método ‘Apenas renderizar’ (denotado como [23]) se refere à saída do CARLA, um fluxo de CGI que não é esperado para ser fotorealista.

Resultados qualitativos no motor de renderização convencional (‘c’ na imagem acima) exibem informações de fundo distante não realistas, como árvores e vegetação, enquanto exigem modelos detalhados e carregamento de malha em tempo real, bem como outros procedimentos intensivos de processador. No meio (b), vemos que cGAN não consegue obter definição adequada para os elementos essenciais, carros e marcas de estrada. Na saída mesclada proposta (a), a definição de veículo e estrada é boa, enquanto o ambiente é diverso e fotorealista.

O artigo conclui sugerindo que a consistência temporal da seção gerada por GAN da pipeline de renderização pode ser aumentada por meio do uso de conjuntos de dados urbanos maiores, e que trabalhos futuros nessa direção podem oferecer uma alternativa realista e mais diversificada aos caros transformadores neurais de fluxos baseados em CGI, enquanto fornece um realismo e diversidade maiores.

* Minha conversão das citações em linha dos autores para links.

Publicado pela primeira vez em 23 de julho de 2022.