Trí tuệ nhân tạo

Cải thiện tính hiện thực của mô phỏng lái xe với Mạng đối lập sinh

Published July 23, 2022

Updated April 28, 2026

Martin Anderson

Một sáng kiến nghiên cứu mới giữa Mỹ và Trung Quốc đã đề xuất sử dụng Mạng đối lập sinh (GANs) để tăng tính hiện thực của mô phỏng lái xe.

Trong một cách tiếp cận mới đối với thách thức của việc sản xuất kịch bản lái xe POV hiện thực, các nhà nghiên cứu đã phát triển một phương pháp kết hợp chơi đến điểm mạnh của các phương pháp khác nhau, bằng cách kết hợp đầu ra hiện thực hơn của hệ thống dựa trên CycleGAN với các yếu tố được tạo ra một cách thông thường, đòi hỏi mức độ chi tiết và nhất quán cao hơn, chẳng hạn như đánh dấu đường và phương tiện thực tế được quan sát từ điểm nhìn của người lái.

Hybrid Generative Neural Graphics (HGNG) cung cấp một hướng mới cho mô phỏng lái xe mà vẫn giữ được độ chính xác của mô hình 3D cho các yếu tố thiết yếu (chẳng hạn như đánh dấu đường và phương tiện), trong khi tận dụng điểm mạnh của GAN trong việc tạo ra chi tiết nền và chi tiết môi trường thú vị và không lặp lại. Source

Hệ thống, được gọi là Hybrid Generative Neural Graphics (HGNG), tiêm đầu ra hạn chế từ một mô phỏng lái xe thông thường, dựa trên CGI, vào một đường ống GAN, nơi khuôn khổ NVIDIA SPADE tiếp quản công việc tạo môi trường.

Ưu điểm, theo các tác giả, là môi trường lái xe sẽ trở nên đa dạng hơn, tạo ra một trải nghiệm nhập vai hơn. Hiện tại, thậm chí chuyển đổi đầu ra CGI sang đầu ra kết xuất thần kinh hiện thực không thể giải quyết vấn đề lặp lại, vì footage gốc nhập vào đường ống thần kinh bị hạn chế bởi giới hạn của môi trường mô hình và xu hướng lặp lại kết cấu và lưới.

Source: https://www.youtube.com/watch?v=0fhUJT21-bs

Footage được chuyển đổi từ bài báo ‘Cải thiện hiện thực’ năm 2021, vẫn phụ thuộc vào footage được tạo ra bởi CGI, bao gồm cả nền và chi tiết môi trường chung, hạn chế sự đa dạng của môi trường trong trải nghiệm mô phỏng. Source: https://www.youtube.com/watch?v=P1IcaBn3ej0

Bài báo cho biết*:

‘Độ trung thực của một mô phỏng lái xe thông thường phụ thuộc vào chất lượng của đường ống đồ họa máy tính, bao gồm mô hình 3D, kết cấu và động cơ kết xuất. Mô hình 3D và kết cấu chất lượng cao đòi hỏi sự thủ công, trong khi động cơ kết xuất phải chạy các tính toán vật lý phức tạp để có thể hiện thực hóa ánh sáng và bóng.’

Bài báo mới mới có tiêu đề Hiện thực trong mô phỏng lái xe: Kết hợp tổng hợp hình ảnh đối lập với kết xuất, và đến từ các nhà nghiên cứu tại Bộ môn Điện và Máy tính tại Đại học Ohio, và Chongqing Changan Automobile Co Ltd ở Chongqing, Trung Quốc.

Tài liệu nền

HGNG biến đổi bố cục ngữ nghĩa của một cảnh được tạo ra bởi CGI bằng cách kết hợp vật liệu tiền cảnh một phần với môi trường được tạo ra bởi GAN. Mặc dù các nhà nghiên cứu đã thử nghiệm với các tập dữ liệu khác nhau để đào tạo mô hình, nhưng tập dữ liệu hiệu quả nhất đã chứng minh là KITTI Vision Benchmark Suite, chủ yếu bao gồm các cảnh được quay từ điểm nhìn của người lái ở thị trấn Karlsruhe của Đức.

HGNG tạo ra một bố cục phân đoạn ngữ nghĩa từ đầu ra được tạo ra bởi CGI, và sau đó xen kẽ SPADE, với mã hóa phong cách khác nhau, để tạo ra hình ảnh nền hiện thực và đa dạng, bao gồm cả các vật thể gần đó trong các cảnh thành thị. Bài báo mới cho biết rằng các mẫu lặp lại, phổ biến trong các đường ống CGI bị hạn chế về tài nguyên, ‘làm hỏng sự nhập vai’ cho người lái sử dụng mô phỏng, và rằng các nền đa dạng hơn mà GAN có thể cung cấp có thể giảm thiểu vấn đề này.

Các nhà nghiên cứu đã thử nghiệm với cả Conditional GAN (cGAN) và CYcleGAN (CyGAN) như mạng sinh, và cuối cùng họ phát hiện ra rằng mỗi mạng có điểm mạnh và điểm yếu: cGAN đòi hỏi các tập dữ liệu được ghép nối, và CyGAN thì không. Tuy nhiên, CyGAN không thể hiện tại vượt qua trạng thái hiện tại trong các mô phỏng thông thường, chờ đợi sự cải tiến thêm trong đồng bộ hóa miền và tính nhất quán chu kỳ. Do đó, cGAN, với yêu cầu dữ liệu ghép nối thêm, đạt được kết quả tốt nhất tại thời điểm này.

Kiến trúc khái niệm của HGNG.

Trong đường ống đồ họa thần kinh HGNG, các biểu diễn 2D được hình thành từ các cảnh được tạo ra bởi CGI. Các vật thể được truyền qua GAN chỉ bị giới hạn ở ‘các yếu tố thiết yếu’, bao gồm đánh dấu đường và phương tiện, mà GAN không thể hiện tại kết xuất tại sự nhất quán và toàn vẹn thời gian đủ cho một mô phỏng lái xe. Hình ảnh được tổng hợp bởi cGAN sau đó được trộn với kết xuất dựa trên vật lý một phần.

Thử nghiệm

Để thử nghiệm hệ thống, các nhà nghiên cứu đã sử dụng SPADE, được đào tạo trên Cityscapes, để chuyển đổi bố cục ngữ nghĩa của cảnh thành đầu ra hiện thực. Nguồn CGI đến từ mô phỏng lái xe mã nguồn mở CARLA, sử dụng Unreal Engine 4 (UE4).

Đầu ra từ mô phỏng lái xe mã nguồn mở CARLA. Source: https://arxiv.org/pdf/1711.03938.pdf

Động cơ bóng và ánh sáng của UE4 cung cấp bố cục ngữ nghĩa và hình ảnh được kết xuất một phần, chỉ có phương tiện và đánh dấu đường được xuất. Sự trộn lẫn được thực hiện với một thể hiện GP-GAN được đào tạo trên Transient Attributes Database, và tất cả các thí nghiệm được chạy trên một NVIDIA RTX 2080 với 8 GB GDDR6 VRAM.

Các nhà nghiên cứu đã thử nghiệm về duy trì ngữ nghĩa – khả năng của hình ảnh đầu ra tương ứng với mặt nạ phân đoạn ngữ nghĩa ban đầu được định nghĩa là mẫu cho cảnh.

Trong hình ảnh thử nghiệm trên, chúng ta thấy rằng trong hình ‘chỉ kết xuất’ (dưới cùng bên trái), kết xuất đầy đủ không có bóng thực tế. Các nhà nghiên cứu lưu ý rằng ở đây (vòng tròn vàng), bóng của cây cối trên vỉa hè được phân loại sai bởi DeepLabV3 (khung phân đoạn ngữ nghĩa được sử dụng cho các thí nghiệm này) là ‘nội dung đường’.

Trong cột dòng chảy ở giữa, chúng ta thấy rằng phương tiện được tạo ra bởi cGAN không có định nghĩa nhất quán đủ để có thể sử dụng trong một mô phỏng lái xe (vòng tròn đỏ). Trong cột dòng chảy bên phải, hình ảnh trộn lẫn tuân thủ định nghĩa ngữ nghĩa ban đầu, trong khi vẫn giữ được các yếu tố CGI dựa trên thiết yếu.

Để đánh giá tính hiện thực, các nhà nghiên cứu đã sử dụng Frechet Inception Distance (FID) như một chỉ số hiệu suất, vì nó có thể hoạt động trên dữ liệu được ghép nối hoặc không được ghép nối.

Ba tập dữ liệu được sử dụng làm chân thực: Cityscapes, KITTI và ADE20K.

Các hình ảnh đầu ra được so sánh với nhau bằng cách sử dụng điểm FID, và so với đường ống dựa trên vật lý (tức là CGI), trong khi duy trì ngữ nghĩa cũng được đánh giá.

Trong kết quả trên, liên quan đến duy trì ngữ nghĩa, điểm số cao hơn là tốt hơn, với phương pháp dựa trên cGAN (một trong số các đường ống được thử nghiệm bởi các nhà nghiên cứu) đạt điểm cao nhất.

Kết quả trên liên quan đến điểm FID, với HGNG đạt điểm cao nhất thông qua việc sử dụng tập dữ liệu KITTI.

Phương pháp ‘Chỉ kết xuất’ (được ký hiệu là [23]) liên quan đến đầu ra từ CARLA, một dòng chảy CGI không được kỳ vọng là hiện thực.

Kết quả định tính trên động cơ kết xuất thông thường (‘c’ trong hình ảnh trên) cho thấy thông tin nền xa không thực tế, chẳng hạn như cây cối và thực vật, trong khi đòi hỏi mô hình chi tiết và tải lưới vừa đúng lúc, cũng như các thủ tục đòi hỏi nhiều bộ xử lý khác. Trong hình ảnh giữa (b), chúng ta thấy rằng cGAN không thể đạt được định nghĩa đủ cho các yếu tố thiết yếu, xe và đánh dấu đường. Trong đầu ra trộn lẫn được đề xuất (a), định nghĩa phương tiện và đường tốt, trong khi môi trường xung quanh đa dạng và hiện thực.

Bài báo kết luận bằng cách đề xuất rằng sự nhất quán thời gian của phần được tạo ra bởi GAN trong đường ống kết xuất có thể được tăng lên thông qua việc sử dụng các tập dữ liệu đô thị lớn hơn, và rằng công việc trong tương lai theo hướng này có thể cung cấp một giải pháp thay thế thực sự cho các biến đổi thần kinh tốn kém của dòng CGI, trong khi cung cấp tính hiện thực và đa dạng cao hơn.

* Tôi đã chuyển đổi các chú thích nội tuyến của tác giả thành liên kết.

Được xuất bản lần đầu tiên vào ngày 23 tháng 7 năm 2022.

Martin Anderson

Nhà văn về học máy, chuyên gia lĩnh vực tổng hợp hình ảnh con người. Cựu trưởng nhóm nội dung nghiên cứu tại Metaphysic.ai.
Trang cá nhân: martinanderson.ai
Liên hệ: [email protected]

Unite.AI

Cải thiện tính hiện thực của mô phỏng lái xe với Mạng đối lập sinh

Tài liệu nền

Thử nghiệm

You may like