인공 지능

Generative Adversarial Networks로 운전 시뮬레이션의 사실적 향상

업데이트 on 2022 년 12 월 9 일

미국과 중국 간의 새로운 연구 이니셔티브는 운전 시뮬레이터의 현실감을 높이기 위해 GAN(Generative Adversarial Networks)의 사용을 제안했습니다.

사실적인 POV 운전 시나리오를 생성하는 새로운 과제에서 연구원들은 CycleGAN 기반 시스템의 보다 사실적인 출력을 기존 방식으로 생성된 요소와 혼합하여 다양한 접근 방식의 강점을 활용하는 하이브리드 방법을 개발했습니다. 운전자의 관점에서 관찰되는 도로 표시 및 실제 차량과 같은 더 높은 수준의 세부 사항 및 일관성.

HGNG(Hybrid Generative Neural Graphics)는 필수 요소(예: 도로 표시 및 차량)에 대한 3D 모델의 정확도를 유지하는 동시에 흥미롭고 반복되지 않는 배경 및 주변 환경을 생성하는 GAN의 강점을 활용하는 시뮬레이션을 위한 새로운 방향을 제시합니다. 세부 사항. 원천

HGNG(Hybrid Generative Neural Graphics)는 필수 요소(예: 도로 표시 및 차량)에 대한 3D 모델의 정확성을 유지하는 동시에 흥미롭고 반복되지 않는 배경 및 주변 환경을 생성하는 GAN의 강점을 활용하는 운전 시뮬레이션의 새로운 방향을 제시합니다. 세부 사항. 출처

HGNG(Hybrid Generative Neural Graphics)라고 하는 이 시스템은 기존의 CGI 기반 운전 시뮬레이터의 매우 제한된 출력을 GAN 파이프라인에 주입합니다. 스페이드 프레임워크가 환경 생성 작업을 대신합니다.

저자에 따르면 장점은 운전 환경이 잠재적으로 더 다양해져 더 몰입감 있는 경험을 만들 수 있다는 것입니다. 그대로도, 변환 실사 신경 렌더링 출력에 대한 CGI 출력은 반복 문제를 해결할 수 없습니다. 신경 파이프라인에 입력되는 원본 푸티지는 모델 환경의 한계와 텍스처 및 메시를 반복하는 경향에 의해 제한되기 때문입니다.

출처: https://www.youtube.com/watch?v=0fhUJT21-bs

2021년부터 변환된 영상 종이 배경 및 일반적인 주변 세부 사항을 포함하여 CGI 렌더링 영상에 의존하는 '실사적 향상 향상'은 시뮬레이션된 경험의 다양한 환경을 제한합니다. 출처: https://www.youtube.com/watch?v=P1IcaBn3ej0

논문 상태*:

'기존 주행 시뮬레이터의 충실도는 3D 모델, 텍스처 및 렌더링 엔진으로 구성된 컴퓨터 그래픽 파이프라인의 품질에 달려 있습니다. 고품질 3D 모델과 텍스처에는 장인 정신이 필요한 반면 렌더링 엔진은 사실적인 표현을 위해 복잡한 물리 계산을 실행해야 합니다. 조명 및 음영.'

XNUMXD덴탈의 새 용지 제목이 드라이빙 시뮬레이션의 포토리얼리즘: 생성적 적대적 이미지 합성과 렌더링의 혼합, 오하이오 주립 대학의 전기 및 컴퓨터 공학과 연구원과 중국 충칭의 Chongqing Changan Automobile Co Ltd에서 왔습니다.

배경 자료

HGNG는 부분적으로 렌더링된 전경 자료를 GAN 생성 환경과 혼합하여 입력 CGI 생성 장면의 시맨틱 레이아웃을 변환합니다. 연구자들은 모델을 교육하기 위해 다양한 데이터 세트를 실험했지만 가장 효과적인 것은 키티 Vision Benchmark Suite는 주로 독일 칼스루에(Karlsruhe) 마을의 운전자 POV 자료 캡처를 특징으로 합니다.

HGNG는 CGI 렌더링 출력에서 시맨틱 분할 레이아웃을 생성한 다음 다양한 스타일 인코딩으로 SPADE를 삽입하여 도시 장면의 주변 물체를 포함하여 무작위적이고 다양한 사실적인 배경 이미지를 생성합니다. 새 논문에서는 리소스 제약이 있는 CGI 파이프라인에 공통적인 반복 패턴이 시뮬레이터를 사용하는 인간 운전자의 '몰입 중단'과 GAN이 제공할 수 있는 더 다양한 배경이 이 문제를 완화할 수 있다고 설명합니다.

연구원들은 두 가지 모두를 실험했습니다. 조건부 GAN (cGAN) 및 싸이클건 (CyGAN)을 생성 네트워크로 사용하여 궁극적으로 각각의 강점과 약점을 발견: cGAN에는 페어링된 데이터 세트, CyGAN은 그렇지 않습니다. 그러나 CyGAN은 현재 기존 시뮬레이터의 최신 기술을 능가할 수 없습니다. 도메인 적응 주기 일관성. 따라서 추가 쌍 데이터 요구 사항이 있는 cGAN은 현재 최상의 결과를 얻습니다.

HGNG의 개념적 아키텍처.

HGNG 신경 그래픽 파이프라인에서 2D 표현은 CGI 합성 장면에서 형성됩니다. CGI 렌더링에서 GAN 흐름으로 전달되는 객체는 GAN 자체가 현재 운전 시뮬레이터를 위한 적절한 시간적 일관성과 무결성으로 렌더링할 수 없는 도로 표시 및 차량을 포함한 '필수' 요소로 제한됩니다. 그런 다음 cGAN 합성 이미지는 부분 물리 기반 렌더링과 혼합됩니다.

테스트

시스템을 테스트하기 위해 연구원들은 SPADE를 사용했습니다. 도시, 장면의 시맨틱 레이아웃을 사실적인 출력으로 변환합니다. CGI 소스는 오픈 소스 드라이빙 시뮬레이터에서 가져왔습니다. CARLA, Unreal Engine 4(UE4)를 활용합니다.

오픈 소스 운전 시뮬레이터 CARLA의 출력. 출처 : https://arxiv.org/pdf/1711.03938.pdf

UE4의 셰이딩 및 조명 엔진은 시맨틱 레이아웃과 부분적으로 렌더링된 이미지를 제공했으며 차량 및 차선 표시만 출력했습니다. 블렌딩은 GP-간 에서 훈련된 인스턴스 일시적 속성 데이터베이스, 모든 실험은 NVIDIA에서 실행됩니다. RTX 2080 8GB의 GDDR6 VRAM.

SIGGRAPH 2014 - 야외 장면의 높은 수준의 이해 및 편집을 위한 과도 속성

SIGGRAPH 2014 - Transient Attributes for High-Level Understanding and Editing of Outdoor Scenes

Watch this video on YouTube

연구원들은 의미 보존 – 장면의 템플릿으로 의도된 초기 시맨틱 분할 마스크에 해당하는 출력 이미지의 기능.

위의 테스트 이미지에서 '렌더링 전용' 이미지(왼쪽 하단)에서 전체 렌더링이 그럴듯한 그림자를 얻지 못하는 것을 볼 수 있습니다. 연구자들은 보도에 떨어진 나무의 그림자(노란색 원)가 다음에 의해 잘못 분류되었다는 점에 주목합니다. 딥랩V3 (이러한 실험에 사용된 시맨틱 분할 프레임워크)를 '도로' 콘텐츠로 사용합니다.

중간 열 흐름에서 우리는 cGAN으로 만든 차량이 드라이빙 시뮬레이터(빨간색 원)에서 사용할 수 있을 만큼 일관된 정의가 충분하지 않다는 것을 알 수 있습니다. 맨 오른쪽 열 흐름에서 혼합된 이미지는 필수 CGI 기반 요소를 유지하면서 원래 의미론적 정의를 준수합니다.

사실성을 평가하기 위해 연구자들은 다음을 사용했습니다. 프레셰 시작 거리 (FID)는 쌍을 이룬 데이터 또는 쌍을 이루지 않은 데이터에서 작동할 수 있으므로 성능 메트릭으로 사용됩니다.

Cityscapes, KITTI 및 ADE20K.

출력 이미지는 FID 점수를 사용하여 서로 비교하고 물리 기반(예: CGI) 파이프라인과 비교했으며 의미 보존도 평가했습니다.

의미 보존과 관련된 위의 결과에서 점수가 높을수록 CGAN 피라미드 기반 접근 방식(연구원이 테스트한 여러 파이프라인 중 하나)이 가장 높은 점수를 받았습니다.

바로 위에 표시된 결과는 FID 점수와 관련이 있으며 HGNG는 KITTI 데이터 세트를 사용하여 가장 높은 점수를 받았습니다.

'렌더링만' 방법( [23])는 사실적이지 않을 것으로 예상되는 CGI 흐름인 CARLA의 출력과 관련이 있습니다.

기존 렌더링 엔진(바로 위 이미지의 'c')에 대한 정성적 결과는 나무와 초목과 같은 비현실적인 원거리 배경 정보를 나타내면서 상세한 모델과 적시 메시 로딩 및 기타 프로세서 집약적인 절차가 필요합니다. 중간(b)에서 cGAN이 필수 요소, 자동차 및 도로 표시에 대한 적절한 정의를 얻지 못하는 것을 볼 수 있습니다. 제안된 혼합 출력(a)에서 차량 및 도로 정의는 양호하지만 주변 환경은 다양하고 사실적입니다.

이 논문은 렌더링 파이프라인의 GAN 생성 섹션의 시간적 일관성이 더 큰 도시 데이터 세트의 사용을 통해 증가할 수 있으며 이 방향의 향후 작업이 CGI 기반의 비용이 많이 드는 신경 변환에 대한 실질적인 대안을 제공할 수 있다고 제안함으로써 결론을 내립니다. 더 큰 현실감과 다양성을 제공하면서 스트림.

* 저자의 인라인 인용을 하이퍼링크로 변환했습니다.

23년 2022월 XNUMX일에 처음 게시되었습니다.