Trí tuệ nhân tạo
Trí tuệ nhân tạo dự đoán điểm nóng tai nạn từ hình ảnh vệ tinh và dữ liệu GPS

Các nhà nghiên cứu từ MIT và Trung tâm Trí tuệ nhân tạo Qatar đã phát triển một hệ thống học máy phân tích hình ảnh vệ tinh độ phân giải cao, tọa độ GPS và dữ liệu tai nạn lịch sử để tạo bản đồ các đoạn đường có khả năng xảy ra tai nạn, thành công trong việc dự đoán các ‘điểm nóng’ tai nạn ở những nơi không có dữ liệu hoặc phương pháp trước đây chỉ ra.

Middle right, predictive accident hot-spots emerge from collating three sources of data. Areas highlighted in circles are ‘high risk’ predictions that actually have no historical accident history. Source: https://openaccess.thecvf.com/content/ICCV2021/papers/He_Inferring_High-Resolution_Traffic_Accident_Risk_Maps_Based_on_Satellite_Imagery_ICCV_2021_paper.pdf
Hệ thống này cung cấp dự đoán táo bạo cho các khu vực trong mạng lưới đường có khả năng trở thành điểm nóng tai nạn, thậm chí ở những khu vực không có lịch sử tai nạn. Khi thử nghiệm hệ thống trên dữ liệu trong bốn năm, các nhà nghiên cứu đã tìm thấy rằng dự đoán của họ về các khu vực ‘không có lịch sử’ tiềm ẩn nguy cơ tai nạn đã được chứng minh bằng sự kiện trong những năm sau.
Bài báo mới có tên Inferring high-resolution traffic accident risk maps based on satellite imagery and GPS trajectories. Các tác giả dự đoán sử dụng cho kiến trúc mới này ngoài dự đoán tai nạn, giả thuyết rằng nó có thể được áp dụng cho bản đồ rủi ro khẩn cấp 911 hoặc hệ thống dự đoán khả năng nhu cầu về taxi và dịch vụ chia sẻ chuyến đi.
Các nỗ lực tương tự trước đây đã cố gắng tạo ra các dự đoán tương tự từ bản đồ độ phân giải thấp với thiên vị cao, hoặc sử dụng tần suất tai nạn as một khóa chính, dẫn đến dự đoán không chính xác với phương sai cao. Thay vào đó, dự án mới này, bao gồm bốn thành phố lớn của Mỹ với tổng diện tích 7.488 kilômét vuông, vượt trội so với các kế hoạch trước đây bằng cách thu thập nhiều dạng dữ liệu đa dạng hơn.
Dữ liệu thưa thớt
Vấn đề mà các nhà nghiên cứu phải đối mặt là dữ liệu thưa thớt – số lượng lớn các vụ tai nạn sẽ不可 tránh khỏi được nhận thấy và giải quyết mà không cần phân tích máy, nhưng các mối tương quan nguy hiểm tinh vi hơn thì khó xác định.
Các hệ thống dự đoán tai nạn trước đây tập trung vào đ估 lượng Monte Carlo của dữ liệu tai nạn lịch sử, và không thể cung cấp cơ chế dự đoán hiệu quả ở nơi không có dữ liệu này. Do đó, nghiên cứu mới này nghiên cứu các phần của mạng lưới đường với mẫu giao thông tương tự, hình dạng trực quan và cấu trúc tương tự, suy ra khuynh hướng tai nạn dựa trên các đặc điểm này.
Đây là một ‘cú bắn vào bóng tối’ dường như đã phát hiện ra các chỉ số tai nạn cơ bản, có thể được sử dụng trong thiết kế của các mạng lưới đường mới.

Kernel Density Estimation (KDE) has been used to highlight historical traffic accident hot-spots, failing to predict future accident locations. In the upper left image we see where KDE has predicted accidents in the blue box region, versus where the accidents generally localized (adjacent). Bottom right, a comparison of KDE prediction failure to the accurate prediction (blue box) of the MIT system.
Các tác giả lưu ý rằng dữ liệu tọa độ GPS cung cấp thông tin về dòng chảy, tốc độ và mật độ giao thông, trong khi hình ảnh vệ tinh của khu vực thêm thông tin về bố cục làn đường, số làn đường, cũng như sự tồn tại của làn đường cứng và sự hiện diện của người đi bộ.
Tác giả Amin Sadeghi, từ Qatar Computing Research Institute (QCRI) cho biết “Mô hình của chúng tôi có thể tổng quát hóa từ một thành phố sang thành phố khác bằng cách kết hợp nhiều gợi ý từ các nguồn dữ liệu không liên quan. Đây là một bước tiến tới trí tuệ nhân tạo tổng quát, vì mô hình của chúng tôi có thể dự đoán bản đồ tai nạn ở các vùng lãnh thổ chưa được khám phá.” và tiếp tục “Mô hình có thể được sử dụng để suy ra một bản đồ tai nạn hữu ích ngay cả khi không có dữ liệu tai nạn lịch sử, điều này có thể dịch sang sử dụng tích cực cho việc lập kế hoạch và chính sách thành phố bằng cách so sánh các kịch bản tưởng tượng”.

The architecture of the traffic prediction system generates an accident risk map at a 5-meter resolution, which the authors state is critical to distinguish different risks between freeway and adjacent residential roads.
Dự án này được đánh giá trên các vụ tai nạn và dữ liệu ngang trong khoảng thời gian từ 2017-18. Dự đoán sau đó được thực hiện cho 2019 và 2020, với một số vị trí ‘nguy cơ cao’ xuất hiện ngay cả khi không có dữ liệu lịch sử nào dự đoán điều này.
Đạt được tổng quát hóa hữu ích
Overfitting là một rủi ro quan trọng trong một hệ thống được thúc đẩy bởi dữ liệu thưa thớt, ngay cả khi, như trong trường hợp này, có hai nguồn dữ liệu hỗ trợ bổ sung. Khi một sự kiện là thấp, các giả định quá mức có thể được rút ra từ quá ít ví dụ, dẫn đến một thuật toán đang mong đợi một dải các tình huống có thể xảy ra rất cụ thể, và sẽ không thể xác định các xác suất rộng hơn.
Do đó, trong quá trình đào tạo mô hình, các nhà nghiên cứu đã ngẫu nhiên ‘bỏ qua’ mỗi nguồn dữ liệu đầu vào với xác suất 20%, để các khu vực có ít (hoặc không) dữ liệu tai nạn có thể được xem xét khi mô hình đào tạo hướng tới tổng quát hóa, và để các nguồn dữ liệu song song có thể hoạt động như một đại diện thay thế cho thông tin thiếu hụt cho bất kỳ nghiên cứu nào về một điểm giao hoặc đoạn đường.
Đánh giá
Mô hình này được thử nghiệm trên một tập dữ liệu bao gồm gần 7.500km khu vực đô thị ở Boston, Los Angeles, Chicago và NYC. Tập dữ liệu được tổ chức dưới dạng 1.872 ô 2kmx2km, mỗi ô chứa hình ảnh vệ tinh từ MapBox, với phân đoạn đường được che bằng dữ liệu từ OpenStreetMap. Cả hình ảnh cơ bản và bản đồ phân đoạn đều có độ phân giải 0,625 mét.
Dữ liệu GPS đến dưới dạng một tập dữ liệu độc quyền được thu thập giữa 2015-17 trên bốn thành phố, với tổng cộng 7,6 triệu kilômét đường đi GPS tại tốc độ lấy mẫu 1 giây.
Dự án này cũng khai thác 4,2 triệu hồ sơ bao gồm 2016-2020 trong US Accidents Dataset. Mỗi hồ sơ bao gồm dấu thời gian và các siêu dữ liệu khác.
Hai năm đầu tiên của dữ liệu lịch sử được cung cấp cho mô hình, và hai năm cuối cùng được sử dụng để đào tạo và đánh giá, cho phép các nhà nghiên cứu thiết lập độ chính xác của hệ thống trong hai năm trong một khung thời gian ngắn.
Hệ thống này được thử nghiệm với và không có dữ liệu lịch sử, và đã thành công trong việc nắm bắt phân bố rủi ro cơ bản trên tất cả các trường hợp, đáng chú ý là cải thiện trên các phương pháp dựa trên KDE trước đây (xem trên).
Con đường phía trước
Các tác giả cho rằng hệ thống của họ có thể được áp dụng cho các quốc gia khác với ít thay đổi kiến trúc, thậm chí ở những nơi không có dữ liệu tai nạn. Ngoài ra, các tác giả đề xuất nghiên cứu của họ như một phần bổ sung có thể cho thiết kế lập kế hoạch thành phố cho các phát triển đô thị mới.
Tác giả chính Songtao He bình luận về công việc mới:
“By capturing the underlying risk distribution that determines the probability of future crashes at all places, and without any historical data, we can find safer routes, enable auto insurance companies to provide customized insurance plans based on driving trajectories of customers, help city planners design safer roads, and even predict future crashes.”
Mặc dù bài báo cho biết rằng mã của hệ thống đã được phát hành trên GitHub, liên kết đến mã không hoạt động, không thể tìm thấy bằng tìm kiếm và có lẽ sẽ được bao gồm trong một phiên bản sau.
Nghiên cứu này có tiềm năng được tích hợp vào các ứng dụng GPS dựa trên lưu lượng giao thông và lập kế hoạch tuyến đường phổ biến, theo Songtao He:
“If people can use the risk map to identify potentially high-risk road segments, they can take action in advance to reduce the risk of trips they take. Apps like Waze and Apple Maps have incident feature tools, but we’re trying to get ahead of the crashes — before they happen,”






