Trí tuệ nhân tạo
Chuyển đổi LiDAR sang Hình ảnh Photo-Real với Mạng Đối nghịch Generative

Earlier này tuần, đoạn footage đã được released cho thấy hệ thống lái tự động Tesla va chạm trực tiếp vào bên cạnh một chiếc xe bị đình chỉ trên một đường cao tốc vào tháng 6 năm 2021. Thực tế rằng chiếc xe màu đen và khó phân biệt đã促 đẩy thảo luận về những hạn chế của việc dựa vào tầm nhìn máy tính trong các tình huống lái tự động.

Footage released in December 2021 depicts the moment of impact. Source: https://twitter.com/greentheonly/status/1473307236952940548
Mặc dù việc nén video trong footage được chia sẻ rộng rãi tạo ra một ấn tượng hơi phóng đại về việc chiếc xe tải bị đình chỉ ‘lén’ vào tài xế trong trường hợp này, một video chất lượng cao hơn của cùng một sự kiện cho thấy rằng một tài xế hoàn toàn cảnh giác cũng sẽ gặp khó khăn trong việc phản ứng với bất kỳ điều gì ngoài một cú đánh lái chậm hoặc phanh bán hiệu quả.
Footage này thêm vào cuộc tranh cãi xung quanh quyết định của Tesla loại bỏ cảm biến radar cho Autopilot, được công bố vào tháng 5 năm 2021, và quan điểm của nó về ưu tiên hệ thống dựa trên tầm nhìn hơn các công nghệ định vị khác, chẳng hạn như LiDAR.
Ngẫu nhiên, một bài nghiên cứu mới từ Israel trong tuần này cung cấp một cách tiếp cận để kết hợp các lĩnh vực LiDAR và tầm nhìn máy tính, bằng cách chuyển đổi điểm mây LiDAR thành hình ảnh photo-real với sự giúp đỡ của Mạng Đối nghịch Generative (GAN).

In the new project from Israel, Black cars identified in LiDAR footage are converted to a ‘daylight’ scenario for computer vision-based analyses, similar to the tack that Tesla is pursuing for the development of its Autopilot system. Source: https://arxiv.org/pdf/2112.11245.pdf
Các tác giả tuyên bố:
‘Các mô hình của chúng tôi đã học cách dự đoán hình ảnh có vẻ thực tế từ chỉ dữ liệu điểm mây, thậm chí cả hình ảnh với xe màu đen.
‘Xe màu đen khó phát hiện trực tiếp từ điểm mây vì mức phản xạ thấp của chúng. Cách tiếp cận này có thể được sử dụng trong tương lai để thực hiện nhận dạng đối tượng hình ảnh trên hình ảnh photo-realistic được tạo ra từ điểm mây LiDAR.’
Hình ảnh Photo-Real, Dựa trên LiDAR
Bài báo mới có tiêu đề Generating Photo-realistic Images from LiDAR Point Clouds with Generative Adversarial Networks, và đến từ bảy nhà nghiên cứu tại ba khoa học Israel, cùng với sáu nhà nghiên cứu từ Innoviz Technologies có trụ sở tại Israel.
Các nhà nghiên cứu đã đặt ra để khám phá xem liệu hình ảnh tổng hợp dựa trên GAN có thể được sản xuất ở một tốc độ phù hợp từ điểm mây được tạo ra bởi hệ thống LiDAR, để luồng hình ảnh sau đó có thể được sử dụng trong các công việc nhận dạng đối tượng và phân đoạn ngữ nghĩa.
Dữ liệu
Ý tưởng trung tâm, như trong nhiều dự án chuyển đổi hình ảnh mới [x] > [x], là đào tạo một thuật toán trên dữ liệu được ghép nối, nơi hình ảnh điểm mây LiDAR (phụ thuộc vào ánh sáng phát ra từ thiết bị) được đào tạo chống lại một khung hình phù hợp từ camera phía trước.
Because footage được quay vào ban ngày, nơi một hệ thống tầm nhìn máy tính có thể dễ dàng phân biệt một chiếc xe màu đen (như chiếc xe mà Tesla va chạm vào tháng 6), việc đào tạo này nên cung cấp một sự thật cơ bản hơn mà ít bị ảnh hưởng bởi điều kiện ánh sáng yếu.
Dữ liệu được thu thập với cảm biến LiDAR InnovizOne, cung cấp tốc độ chụp 10fps hoặc 15fps, tùy thuộc vào mô hình.

LiDAR data captured by an Innoviz device. Source: https://www.youtube.com/watch?v=wmcaf_VpsQI
Kết quả tập dữ liệu chứa khoảng 30.000 hình ảnh và 200.000 điểm 3D thu thập được. Các nhà nghiên cứu đã thực hiện hai thử nghiệm: một trong đó dữ liệu điểm mây chỉ mang thông tin phản xạ; và một thứ hai, trong đó dữ liệu điểm mây có hai kênh, một cho phản xạ và một cho khoảng cách.
Đối với thử nghiệm đầu tiên, GAN được đào tạo đến 50 kỷ, sau đó quá trình quá拟 hợp trở thành một vấn đề.

GAN-created images from the first experiment. On the left, point cloud data; in the middle, actual frames from captured footage, used as ground truth; right, the synthetic representations created by the Generative Adversarial Network.
Các tác giả nhận xét:
‘Bộ thử nghiệm là một bản ghi hoàn toàn mới mà GAN chưa từng thấy trước khi thử nghiệm. Điều này được dự đoán sử dụng chỉ thông tin phản xạ từ điểm mây.
‘Chúng tôi đã chọn hiển thị khung hình với xe màu đen vì xe màu đen thường khó phát hiện từ LiDAR. Chúng tôi có thể thấy rằng bộ tạo đã học cách tạo ra xe màu đen, có thể từ thông tin ngữ cảnh, vì màu sắc và hình dạng chính xác của các đối tượng trong hình ảnh dự đoán không giống hệt như trong hình ảnh thực.’
Đối với thử nghiệm thứ hai, các tác giả đã đào tạo GAN đến 40 kỷ với kích thước lô 1, kết quả là một trình bày ‘đại diện’ xe màu đen được thu được chủ yếu từ ngữ cảnh. Cấu hình này cũng được sử dụng để tạo ra một video cho thấy footage được tạo ra bởi GAN (hình trên, trong hình ảnh mẫu dưới) cùng với footage thực tế.

Đánh giá
Quy trình đánh giá và so sánh với các phương pháp hiện tại không thể thực hiện được với dự án này, do tính chất độc đáo của nó. Thay vào đó, các nhà nghiên cứu đã tạo ra một metric tùy chỉnh liên quan đến mức độ mà xe (phần nhỏ và ngắn trong footage nguồn) được thể hiện trong footage đầu ra.
Họ đã chọn 100 cặp hình ảnh LiDAR / Tạo từ mỗi tập và hiệu quả chia số lượng hình ảnh xe trong footage nguồn cho số lượng hình ảnh trong dữ liệu tổng hợp được tạo, tạo ra một thang đo từ 0 đến 1.
Các tác giả tuyên bố:
‘Điểm số trong cả hai thử nghiệm nằm giữa 0,7 và 0,8. Xem xét thực tế rằng chất lượng chung của hình ảnh dự đoán thấp hơn hình ảnh thực (nó khó hơn để phát hiện đối tượng trong hình ảnh chất lượng thấp), điểm số này cho thấy rằng hầu hết xe trong footage thực tế đều có trong hình ảnh dự đoán.’
Các nhà nghiên cứu kết luận rằng việc phát hiện xe màu đen, điều này là một vấn đề cho cả hệ thống dựa trên tầm nhìn máy tính và LiDAR, có thể được thực hiện bằng cách xác định thiếu dữ liệu cho các phần của hình ảnh:
‘Thực tế là trong hình ảnh dự đoán, thông tin màu sắc và hình dạng chính xác không giống hệt với footage thực, gợi ý rằng dự đoán xe màu đen chủ yếu được dẫn xuất từ thông tin ngữ cảnh và không từ phản xạ LiDAR của các điểm chính nó.
‘Chúng tôi đề xuất rằng, ngoài hệ thống LiDAR thông thường, một hệ thống thứ hai tạo ra hình ảnh photo-real từ điểm mây LiDAR sẽ chạy đồng thời cho nhận dạng đối tượng hình ảnh trong thời gian thực.’
Các nhà nghiên cứu dự định sẽ phát triển công việc trong tương lai, với các tập dữ liệu lớn hơn.
Độ trễ và Bộ xử lý SDV Đông đúc
Một người bình luận trên bài đăng Twitter về vụ va chạm Autopilot chia sẻ rộng rãi ước tính rằng, khi di chuyển với tốc độ khoảng 75mph (110 feet một giây), một luồng video hoạt động ở 20fps sẽ chỉ bao phủ 5,5 feet mỗi khung hình. Tuy nhiên, nếu xe đang chạy phần cứng và phần mềm mới nhất của Tesla, tốc độ khung hình sẽ là 36fps (cho camera chính), điều này đặt tốc độ đánh giá tại 110 feet một giây (ba feet mỗi khung hình).
Besides chi phí và ergonomics, vấn đề khi sử dụng LiDAR như một luồng dữ liệu bổ sung là quy mô lớn của ‘kẹt xe thông tin’ của đầu vào cảm biến vào khuôn khổ xử lý SDV. Kết hợp với bản chất quan trọng của nhiệm vụ, điều này dường như đã buộc radar và LiDAR ra khỏi ngăn xếp Autopilot ủng hộ các phương pháp đánh giá dựa trên hình ảnh.
Do đó, dường như không có khả năng một hệ thống sử dụng LiDAR – điều này sẽ thêm vào một nút thắt xử lý trên Autopilot – để suy luận hình ảnh photo-real là khả thi từ quan điểm của Tesla.
Người sáng lập Tesla Elon Musk không phải là một người chỉ trích LiDAR, mà anh ấy chỉ ra được sử dụng bởi SpaceX cho các thủ tục dock, nhưng cho rằng công nghệ này là ‘vô ích’ cho xe tự lái. Musk đề xuất rằng một bước sóng thâm nhập che khuất, chẳng hạn như ~4mm của radar chính xác, sẽ hữu ích hơn.
Tuy nhiên, tính đến tháng 6 năm 2021, xe Tesla không được trang bị radar. Hiện tại không có nhiều dự án được thiết kế để tạo ra luồng hình ảnh từ radar theo cách tương tự như dự án Israel hiện tại (mặc dù Bộ Năng lượng Hoa Kỳ tài trợ một nỗ lực cho hình ảnh GAN từ radar vào năm 2018).
Được xuất bản lần đầu vào ngày 23 tháng 12 năm 2021.












