์ธ๊ณต์ง๋ฅ
์ด์ ์๋ฎฌ๋ ์ด์ ์ ์ฌ์ง์ ํ์ค๊ฐ์ ๊ฐ์ ํ๋ ์์ฑ์ ์ ๋์ ๋คํธ์ํฌ

미국과 중국의 새로운 연구 이니셔티브는 운전 시뮬레이터의 현실감을 높이기 위해 생성적 적대적 네트워크(GANs)를 사용하는 것을 제안했습니다.
운전 시뮬레이션에서 사진적 현실감을 높이는 새로운 접근 방식으로, 연구자들은 CycleGAN 기반 시스템의 더 사진적 현실적인 출력과 더 전통적으로 생성된 요소(예: 도로 표시와 운전자의 관점에서 볼 수 있는 실제 차량)를 결합하는 하이브리드 방법을 개발했습니다. 이러한 요소는 더 많은 세부 사항과 일관성이 필요합니다.

하이브리드 생성 신경 그래픽스(HGNG)는 운전 시뮬레이션을 위한 새로운 방향을 제공하며, 필수 요소(예: 도로 표시 및 차량)에 대한 3D 모델의 정확성을 유지하면서 GAN의 강점을 활용하여 흥미롭고 반복되지 않는 배경 및 환경 세부 사항을 생성합니다. 출처
시스템, 즉 하이브리드 생성 신경 그래픽스(HGNG)는 전통적인 CGI 기반 운전 시뮬레이터의 출력을 GAN 파이프라인에 주입하며, NVIDIA SPADE 프레임워크가 환경 생성 작업을 수행합니다.
연구자들은 운전 환경이 더 다양해져 더 몰입적인 경험을 제공할 수 있을 것이라고 주장합니다. 현재로서는 CGI 출력을 사진적 신경 렌더링 출력으로 변환하는 것조차도 반복 문제를 해결할 수 없습니다. 이는 원본 영상을 신경 파이프라인에 입력하는 것이 모델 환경의 제한과 반복되는 텍스처 및 메시의 경향으로 인해 제한되기 때문입니다.

2021년 논문 ‘사진적 현실감 향상’에서 변환된 영상을 보여주는 그림입니다. 이는 여전히 CGI 렌더링된 영상을 기반으로 하며, 이는 배경 및 일반적인 환경 세부 사항을 제한합니다. 출처: https://www.youtube.com/watch?v=P1IcaBn3ej0
논문은 다음과 같이述합니다:
‘전통적인 운전 시뮬레이터의 충실도는 컴퓨터 그래픽스 파이프라인의 품질에 달려 있으며, 이는 3D 모델, 텍스처 및 렌더링 엔진으로 구성됩니다. 높은 품질의 3D 모델과 텍스처는 예술적 기술이 필요하며, 렌더링 엔진은 실제적인 조명 및 셰이딩 표현을 위해 복잡한 물리 계산을 수행해야 합니다.’
新的 논문은 新的 논문으로, 운전 시뮬레이션의 사진적 현실감: 생성적 적대적 이미지 합성 및 렌더링의 결합이라는 제목을 가지고 있으며, 오하이오 주립 대학교의 전기 및 컴퓨터 공학부와 중국 충칭 창안 자동차有限公司의 연구자들이 참여했습니다.
배경
HGNG는 입력된 CGI 생성된 장면의 의미론적 레이아웃을 변환하여 부분적으로 렌더링된 전경 물체와 GAN 생성된 환경을 결합합니다. 연구자들은 다양한 데이터셋을 사용하여 모델을 훈련시켰지만, 가장 효과적인 것으로 chứng명된 것은 주로 독일 카를스루에의 운전자 관점에서 촬영한 영상을 특징으로 하는 KITTI 비전 벤치마크 스위트입니다.

HGNG는 CGI 렌더링된 출력에서 의미론적 분할 레이아웃을 생성한 다음, 다양한 스타일 인코딩을 사용하여 SPADE를 사용하여 랜덤하고 다양한 사진적 배경 이미지를 생성합니다. 새로운 논문은 반복되는 패턴이 몰입을 깨뜨린다고 주장하며, GAN이 제공할 수 있는 더 다양한 배경이 이 문제를 완화할 수 있다고 합니다.
연구자들은 조건부 GAN(cGAN)과 CycleGAN(CyGAN)을 생성 네트워크로 사용하여 실험을 수행했으며, 각 방법에는 강점과 약점이 있다고 결론지었습니다. cGAN은 페어링된 데이터셋이 필요하며, CyGAN은 그렇지 않습니다. 그러나 CyGAN은 현재 전통적인 시뮬레이터의 상태를 초과할 수 없으며, 도메인 적응 및 사이클 일관성의 추가적인 개선이 필요합니다. 따라서 페어링된 데이터셋을 요구하는 cGAN이 현재 가장好的 결과를 얻습니다.

HGNG의 개념적 아키텍처
HGNG 신경 그래픽스 파이프라인에서 2D 표현은 CGI 생성된 장면에서 형성됩니다. GAN 흐름으로 전달되는 CGI 렌더링에서 생성된 객체는 필수 요소로, 도로 표시 및 차량과 같은 요소로 제한되며, GAN 자체는 현재 운전 시뮬레이터에 적합한 시간적 일관성 및 무결성을 갖추지 못합니다. cGAN 생성된 이미지는 부분적으로 물리 기반 렌더링과 결합됩니다.
테스트
시스템을 테스트하기 위해, 연구자들은 Cityscapes에서 훈련된 SPADE를 사용하여 장면의 의미론적 레이아웃을 사진적 출력으로 변환했습니다. CGI 소스는 오픈 소스 운전 시뮬레이터 CARLA에서 왔으며, 이는 언리얼 엔진 4(UE4)를 사용합니다.

오픈 소스 운전 시뮬레이터 CARLA의 출력 출처: https://arxiv.org/pdf/1711.03938.pdf
UE4의 셰이딩 및 조명 엔진은 의미론적 레이아웃과 부분적으로 렌더링된 이미지를 제공했으며, 차량 및 차선 표시만 출력했습니다. 블렌딩은 GP-GAN 인스턴스를 사용하여 Transient Attributes Database에서 훈련시킨 후 수행되었습니다. 모든 실험은 NVIDIA RTX 2080에서 8GB의 GDDR6 VRAM을 사용하여 실행되었습니다.
연구자들은 의미론적 유지라는 것을 테스트했습니다. 즉, 출력 이미지가 초기 의미론적 분할 마스크와 일치하는지의 능력입니다.
위의 테스트 이미지에서, ‘렌더링만’ 이미지(하단 왼쪽)에서 전체 렌더링은 실제적인 그림자를 얻지 못합니다. 연구자들은 여기서(노란색 원) 보도에投影되는 나무의 그림자가 DeepLabV3에 의해 ‘도로’ 내용으로 잘못 분류되었다고 주장합니다.
중간 열 흐름에서, cGAN 생성된 차량은 운전 시뮬레이터에서 사용할 수 있을만큼 일관된 정의를 갖지 못합니다(빨간색 원). 오른쪽 열 흐름에서, 블렌DED 이미지에서는 원래 의미론적 정의를 유지하면서 필수적인 CGI 기반 요소를 유지합니다.
현실감을 평가하기 위해, 연구자들은 Frechet Inception Distance(FID)를 성능 지표로 사용했습니다. 이는 페어링된 데이터 또는 비페어링된 데이터에서 작동할 수 있기 때문입니다.
세 개의 데이터셋을 사용하여 실제 결과를 비교했습니다: Cityscapes, KITTI 및 ADE20K.
출력 이미지는 FID 점수를 사용하여 서로 비교되었으며, 물리 기반 파이프라인과 비교되었습니다. 의미론적 유지 또한 평가되었습니다.

위의 결과는 의미론적 유지와 관련이 있으며, 더 높은 점수가 더 좋습니다. 여기서 피라미드 기반 접근 방식(cGAN)은 최고의 점수를 얻었습니다.

위의 결과는 FID 점수와 관련이 있으며, HGNG는 KITTI 데이터셋을 사용하여 최고의 점수를 얻었습니다.
‘렌더링만’ 방법([23]으로 표시됨)은 CGI 흐름의 출력으로, 사진적 현실감을 기대할 수 없습니다.
전통적인 렌더링 엔진(‘c’로 표시됨)의 질적 결과는 실제적인遠景 정보(예: 나무 및 식생)를 나타내지 못하며,詳細한 모델 및 정시 메시 로딩과 같은 프로세서 집약적인 절차가 필요합니다. 중간(b)에서, cGAN은 필수 요소(차량 및 도로 표시)에 대한 정의를 얻지 못합니다. 제안된 블렌DED 출력(a)에서, 차량 및 도로 정의는 良好하며, 환경은 다양하고 사진적입니다.
논문은 GAN 생성된 렌더링 파이프라인의 시간적 일관성을 더 큰 도시 데이터셋을 사용하여提高할 수 있다고 결론지으며, 이러한 방향으로의 미래 연구는 실제적인 대체안을 제공할 수 있으며, 더 많은 현실감과 다양성을 제공할 수 있다고 주장합니다.
* 저자의 인라인 인용을 하이퍼링크로 변환했습니다.
최초로 게시된 날짜는 2022년 7월 23일입니다.














