Góc nhìn Anderson

Dự đoán và Phòng ngừa Thảm kịch trên Nền tảng Metro với Trí tuệ Nhân tạo

mm
AI-generated image (GPT-2): A surveillance-style view of a subway platform showing a person walking near the platform edge, with an AI monitoring overlay displaying a detection box around the individual, a tunnel entrance ahead, and passengers visible on the opposite platform.

Hệ thống trí tuệ nhân tạo được đào tạo trên dữ liệu giám sát thực tế của tàu điện ngầm tuyên bố có thể phát hiện các dấu hiệu cảnh báo của một nỗ lực tự sát vài phút trước khi nó xảy ra, theo dõi các hành vi như đi lại, lưu lại ở rìa nền tảng và nhìn vào đường hầm một cách lặp đi lặp lại.

 

Các hệ thống học máy đã được thử nghiệm như hệ thống giám sát sự kiện trên nền tảng trong vài năm, thường với một số biến thể của ứng dụng nhận dạng hình ảnh phổ biến You Only Look Once (YOLO) cho các kịch bản mà người đi bộ có thể đã ngã xuống, hoặc một tội ác đang được thực hiện, hoặc nơi nền tảng ga đơn giản là quá đông (cho phép cơ quan ga điều chỉnh quyền truy cập và khắc phục vấn đề).

Từ nghiên cứu năm 2024 'Nghiên cứu thí điểm giám sát hành khách ga tàu bằng cách tiếp cận trí tuệ nhân tạo', các giai đoạn mà YOLOV7 xác định hành khách trên nền tảng. Nguồn - https://www.mdpi.com/1424-8220/24/11/3377

Từ nghiên cứu năm 2024 ‘Nghiên cứu thí điểm giám sát hành khách ga tàu bằng cách tiếp cận trí tuệ nhân tạo’, các giai đoạn mà YOLOV7 xác định hành khách trên nền tảng. Nguồn

Với sự gia tăng số lượng tự sát hoặc cố gắng tự sát trên đường sắt trong 3-5 năm qua (ở các khu vực như Anh, CanadaHà Lan), sự quan tâm đã tăng lên trong việc sử dụng các hệ thống học máy để xác định hành vi tự sát trên nền tảng đường sắt và tàu điện ngầm, dựa trên xu hướng và các yếu tố đa dạng khác:

Những người ở ngưỡng cửa: dữ liệu mẫu từ bộ dữ liệu cung cấp cho dự án STARR, được đề cập trong bài viết này. Nguồn - https://openaccess.thecvf.com/content/WACV2025W/RWS/papers/Naimi_SSTAR_Skeleton-based_Spatio-Temporal_Action_Recognition_for_Intelligent_Video_Surveillance_and_WACVW_2025_paper.pdf

Những người ở ngưỡng cửa: dữ liệu mẫu từ bộ dữ liệu cung cấp cho dự án STARR, được đề cập trong bài viết này. Nguồn

Tổng hợp lại, các dự án nghiên cứu về việc sử dụng trí tuệ nhân tạo để phát hiện hành vi tự sát trên nền tảng đã không áp dụng một phương pháp hoặc hệ thống chung – không chỉ vì các phương pháp này đang liên tục phát triển, mà còn vì kiến thức tâm lý và tâm thần học cũng đang được cập nhật để hiểu rõ hơn về loại trí tuệ nhân tạo này.

Phương pháp Tiên tiến

Một nghiên cứu mới từ Canada cung cấp một khuôn khổ chính thức cho hướng nghiên cứu này, được gọi là Đánh giá Rủi ro Tự sát, trong bối cảnh các nỗ lực tự sát tại các ga tàu điện ngầm.

Thông qua sự hợp tác với cơ quan giao thông Montreal, các nhà nghiên cứu tham gia vào nghiên cứu mới đã có quyền truy cập vào hình ảnh của 66 nỗ lực tự sát thực tế, được quay bởi camera trên nền tảng thuộc thẩm quyền của họ:

Từ bài viết mới, dự đoán đầu ra từ hai khung hình, một mô tả một nỗ lực tự sát thực sự và khung hình kia không. Ở mỗi bên của mỗi hình ảnh là một bản đồ nhiệt của các khu vực nguy hiểm và an toàn hơn trên nền tảng đang được giám sát, mô tả 'xu hướng ở lại' của một người đối với miệng đường hầm. Nguồn - https://arxiv.org/pdf/2605.22904

Từ bài viết mới, dự đoán đầu ra từ hai khung hình, một mô tả một nỗ lực tự sát thực sự và khung hình kia không. Ở mỗi bên của mỗi hình ảnh là một bản đồ nhiệt của các khu vực nguy hiểm và an toàn hơn trên nền tảng đang được giám sát, mô tả ‘xu hướng ở lại’ của một người đối với miệng đường hầm. Nguồn

Mặc dù cần phải giải quyết sự mất cân bằng lớp học xảy ra với tập dữ liệu thực này, đây vẫn là dữ liệu quý giá với số lượng mẫu hợp lý; có thể hy vọng rằng các dự án trong tương lai từ các cơ quan giao thông trên toàn thế giới có thể cho phép một tập dữ liệu đa quốc gia với số lượng mẫu lớn hơn. Tuy nhiên, việc tiếp cận loại dữ liệu này là rất khó khăn do tính chất nhạy cảm của nó.

Sáng kiến này, theo các tác giả, là lần đầu tiên thống nhất các nhiệm vụ đa dạng định nghĩa cho việc theo dõi sự kiện trên nền tảng vào một khuôn khổ, và mang lại một điểm chuẩn mới cho kịch bản tự sát trên nền tảng ga tàu điện ngầm.

Các tác giả tuyên bố:

‘Không giống như các phương pháp tập trung vào các nhiệm vụ con riêng lẻ hoặc cố gắng suy luận ý định trực tiếp, cách tiếp cận của chúng tôi đánh giá rủi ro tự sát từ bằng chứng tích lũy bằng cách kết hợp theo dõi người, nhận dạng hoạt động, phân đoạn ngữ nghĩa của nền tảng và mô hình hóa bản đồ nhiệt rủi ro dựa trên quỹ đạo.

‘Bằng cách chính thức hóa Đánh giá Rủi ro Tự sát như một nhiệm vụ riêng biệt và tạo điểm chuẩn cho một đường ống hoạt động hoàn chỉnh đạt được 83,2% ROC-AUC trên dữ liệu giám sát thực, công việc này nhấn mạnh sự phức tạp của đánh giá rủi ro tự sát và mở ra các hướng nghiên cứu mới về hệ thống trí tuệ nhân tạo giải thích được cho lợi ích xã hội.’

Bài viết mới này có tiêu đề Đánh giá Rủi ro Tự sát từ Giám sát Video Trí tuệ Nhân tạo: Một Khung khổ Giải thích cho Phòng ngừa tại Ga Tàu điện ngầm, và đến từ bốn tác giả thuộc Université TÉLUQ, Polytechnique Montréal, và Université du Québec à Montréal.

Phương pháp

Khung khổ của các tác giả phân tích một luồng video giám sát trực tiếp để tạo ra một điểm số rủi ro tự sát liên tục cập nhật cho từng hành khách được theo dõi. Các cá nhân được phát hiện, theo dõi và chuyển đổi thành các biểu diễn tư thế cơ thể đơn giản, sau đó một hệ thống nhận dạng hoạt động dựa trên khung xương xác định các hành động trong khoảng thời gian ngắn:

Đường ống hệ thống để ước tính rủi ro tự sát của hành khách từ video giám sát, cho thấy cách theo dõi, ước tính tư thế, nhận dạng hoạt động, phân vùng nền tảng và bản đồ nhiệt quỹ đạo được kết hợp để chuyển đổi các chuyển động và hành vi của từng người trên nền tảng thành một điểm số rủi ro liên tục cập nhật.

Đường ống hệ thống để ước tính rủi ro tự sát của hành khách từ video giám sát, cho thấy cách theo dõi, ước tính tư thế, nhận dạng hoạt động, phân vùng nền tảng và bản đồ nhiệt quỹ đạo được kết hợp để chuyển đổi các chuyển động và hành vi của từng người trên nền tảng thành một điểm số rủi ro liên tục cập nhật.

Nền tảng sau đó được chia thành các khu vực có ý nghĩa, cho phép phát hiện các mẫu di chuyển – như đi lại lặp đi lặp lại giữa các khu vực khác nhau – và tạo ra các bản đồ nhiệt cho thấy các khu vực thường xuyên được chiếm đóng hoặc đi qua bởi những người có liên quan đến rủi ro cao.

Cuối cùng, hệ thống tham chiếu các mẫu không gian này với các hành vi quan sát được để tạo ra một đánh giá rủi ro tự sát cá nhân cho từng người trên nền tảng – một quá trình mà các tác giả gọi là suy luận rủi ro.

Các tác giả sử dụng một triển khai YOLOX được đào tạo trước làm bộ phát hiện người cho hệ thống của họ, và phát hiện ra rằng trạng thái sẵn sàng sử dụng của nó hoàn toàn phù hợp cho mục đích này. ByteTrack được sử dụng để điều phối theo dõi nhiều đối tượng.

Mỗi người được phân biệt bằng các quá trình này được chỉ định một mô hình HRNet được đào tạo trước, cung cấp ước tính khớp và điểm chính 2D trong một hộp giới hạn được xác định bởi ước tính ngoài cùng của những ước tính này:

Ví dụ về ước tính khớp từ HRNet, được sử dụng trong dự án mới. Nguồn - https://github.com/HRNet

Ví dụ về ước tính khớp từ HRNet, được sử dụng trong dự án mới. Nguồn

Các tư thế được đánh giá từ dữ liệu video từ nền tảng ga tàu điện ngầm được xây dựng thành các bản đồ tích lũy định nghĩa lịch sử (xem ‘bản đồ nhiệt nền tảng’ ở bên cạnh hình ảnh trên).

Hệ thống mới kết hợp khuôn khổ STARR, một công việc trước đó được thiết kế để đánh giá xác suất hành vi tự sát tại các nền tảng:

Ước tính tư thế từ khuôn khổ STARR. Nguồn - https://openaccess.thecvf.com/content/WACV2025W/RWS/papers/Naimi_SSTAR_Skeleton-based_Spatio-Temporal_Action_Recognition_for_Intelligent_Video_Surveillance_and_WACVW_2025_paper.pdf

Ước tính tư thế từ khuôn khổ STARR. Nguồn

Trong trường hợp này, STARR được sử dụng để phát hiện ba chú thích hành động của hành khách: Ngắm vào đường hầm; Đi bộ; và Đứng.

Để kết hợp bối cảnh môi trường, khái niệm về nền tảng của hệ thống được chia thành các khu vực có ý nghĩa về mặt ngữ nghĩa bằng cách sử dụng mô hình phân đoạn ngữ nghĩa YOLOv8n được đào tạo trên hình ảnh nền tảng được chú thích thủ công:

Ngữ nghĩa nền tảng: quá trình phân vùng được hệ thống sử dụng để chuyển đổi một nền tảng phân đoạn thành ba khu vực hành vi có ý nghĩa. Các khu vực tường gần, vàng gần và gần đường hầm được tạo ra cung cấp bối cảnh không gian được sử dụng để đánh giá chuyển động của hành khách và hành vi liên quan đến rủi ro.

Ngữ nghĩa nền tảng: quá trình phân vùng được hệ thống sử dụng để chuyển đổi một nền tảng phân đoạn thành ba khu vực hành vi có ý nghĩa. Các khu vực tường gần, vàng gần và gần đường hầm được tạo ra cung cấp bối cảnh không gian được sử dụng để đánh giá chuyển động của hành khách và hành vi liên quan đến rủi ro.

Kết quả phân đoạn được sử dụng để ước tính ranh giới nền tảng và định nghĩa ba khu vực hoạt động: Khu vực gần Tường gần nền tảng; Khu vực gần Dòng vàng, nơi hành khách có thể tiếp cận cạnh nền tảng trong khi vẫn nằm trong ranh giới an toàn; và Khu vực Far-End gần miệng đường hầm.

Các khu vực này cung cấp bối cảnh không gian cần thiết để xác định các hành vi mà các nghiên cứu tâm lý đã liên kết với rủi ro tự sát cao. Cụ thể, chúng cho phép hệ thống phát hiện chuyển động lặp lại giữa tường và dòng vàng, cùng với việc vào khu vực cuối xa của nền tảng.

Kết hợp với các bản đồ nhiệt quỹ đạo được tạo ra trước đó, những tín hiệu không gian này sau đó được kết hợp vào đánh giá rủi ro tự sát cuối cùng.

Đáng chú ý, bài viết lưu ý rằng một trong những đặc điểm của các nỗ lực tự sát là xu hướng để lại một vật trên nền tảng; tuy nhiên, các tác giả không thể kết hợp điều này vào phiên bản hiện tại của dự án, để lại cho công việc trong tương lai.

Bản đồ Rủi ro Nền tảng

Thay vì chỉ dựa vào hành vi của một người, khuôn khổ cũng kết hợp các bản đồ nhiệt quỹ đạo từ nhiều trường hợp có rủi ro đã biết để tạo ra một ‘bản đồ rủi ro nền tảng’ trên toàn nền tảng:

Xây dựng bản đồ rủi ro nền tảng từ chuyển động của nhiều hành khách có rủi ro. Các khu vực thu hút sự lưu lại, đi lại và các hành vi liên quan đến rủi ro khác trở nên nổi bật và sau đó được sử dụng như một yếu tố trong đánh giá rủi ro cuối cùng.

Xây dựng bản đồ rủi ro nền tảng từ chuyển động của nhiều hành khách có rủi ro. Các khu vực thu hút sự lưu lại, đi lại và các hành vi liên quan đến rủi ro khác trở nên nổi bật và sau đó được sử dụng như một yếu tố trong đánh giá rủi ro cuối cùng.

Các khu vực thu hút sự lưu lại lâu trở thành các khu vực rủi ro cao, trong khi các vị trí liên quan đến các chuyến thăm ngắn và không thường xuyên vẫn là các khu vực rủi ro thấp. Điểm số rủi ro vị trí này trở thành một trong những đầu vào được sử dụng trong đánh giá rủi ro tự sát cuối cùng.

Điểm số rủi ro cuối cùng dựa trên tám chỉ số tích lũy theo thời gian: điểm số rủi ro vị trí được suy dẫn từ bản đồ nhiệt nền tảng; việc một hành khách đi bộ hoặc đứng trên dòng vàng; số lần đi qua dòng vàng; tổng thời gian dành trên dòng vàng; khoảng thời gian không gián đoạn dài nhất trên dòng vàng; chuyển động đi lại lặp lại giữa tường và dòng vàng; hướng liên tục về phía đường hầm; và việc vào khu vực xa nhất của nền tảng.

Những tín hiệu hành vi và không gian này sau đó được kết hợp thông qua một mô hình XGBoost, tạo ra một ước tính rủi ro tự sát liên tục cập nhật cho từng cá nhân trên nền tảng.

Dữ liệu và Kiểm tra

Các thử nghiệm được thực hiện trên dữ liệu giám sát do Société de transport de Montréal (STM) cung cấp, bao gồm 66 bản ghi 5 phút được quay trước các nỗ lực tự sát thực sự, cùng với 56 bản ghi kiểm soát được ghi từ cùng một camera, vào những thời điểm tương tự khi không có nỗ lực tự sát xảy ra.

Với sự hỗ trợ của chuyên gia tâm lý và chuyên gia về hành vi tự sát, các hành khách cá nhân được chú thích theo việc họ có xuất hiện trong một kịch bản có rủi ro hay không, tạo ra một tập dữ liệu gồm 256 cá nhân, trong đó 66 được liên kết với các trường hợp tự sát và 190 được chỉ định cho nhóm kiểm soát.

Để ngăn chặn sự rò rỉ thông tin, tất cả các cá nhân được trích xuất từ cùng một bản ghi được chỉ định cho cùng một phân chia dữ liệu, với 75% dữ liệu được sử dụng cho đào tạo và 25% được dành cho thử nghiệm trong khi vẫn giữ nguyên sự cân bằng giữa các trường hợp có rủi ro và kiểm soát.

Mô hình XGBoost được đào tạo trong 300 lần tăng cường, với tốc độ học 0,05, và lấy mẫu ngẫu nhiên cho cả các trường hợp đào tạo và tính năng, để cải thiện sự tổng quát hóa. Vì tập dữ liệu chứa nhiều trường hợp kiểm soát hơn các trường hợp có rủi ro, quá trình đào tạo bù đắp cho điều này bằng cách gán trọng số thêm cho lớp thiểu số.

Hiệu suất được đánh giá chủ yếu bằng Diện tích dưới Đường Cong Receiver Operating Characteristic (ROC-AUC), đo lường hiệu quả của hệ thống trong việc phân biệt giữa các cá nhân có rủi ro và kiểm soát.

Các chỉ số bổ sung bao gồm độ nhạy, đo lường việc xác định đúng các trường hợp có rủi ro; độ đặc异, đo lường việc xác định đúng các trường hợp kiểm soát; tỷ lệ dương giả, phản ánh các báo động giả (FPR); và tỷ lệ âm giả, phản ánh việc bỏ sót (FNR). Một ngưỡng quyết định có chủ ý thấp được áp dụng để ưu tiên việc xác định sớm các tình huống có khả năng có rủi ro:

Hiệu suất của khuôn khổ đánh giá rủi ro tự sát dưới bốn cấu hình, so sánh các biến thể có sự hỗ trợ của dữ liệu thực, giới hạn trên và hoàn toàn tự động trên ROC-AUC, độ nhạy, độ đặc异, tỷ lệ báo động giả và tỷ lệ bỏ sót – và cho thấy tác động của việc thay thế chú thích dữ liệu thực bằng các mô块 phát hiện, theo dõi và nhận dạng hoạt động tự động.

Hiệu suất của khuôn khổ đánh giá rủi ro tự sát dưới bốn cấu hình, so sánh các biến thể có sự hỗ trợ của dữ liệu thực, giới hạn trên và hoàn toàn tự động trên ROC-AUC, độ nhạy, độ đặc异, tỷ lệ báo động giả và tỷ lệ bỏ sót – và cho thấy tác động của việc thay thế chú thích dữ liệu thực bằng các môđun phát hiện, theo dõi và nhận dạng hoạt động tự động.

Như được thấy trong bảng kết quả ban đầu trên, hệ thống tự động hoàn toàn đạt được ROC-AUC là 0,832, trong khi việc thay thế các thành phần phát hiện và theo dõi tự động bằng chú thích dữ liệu thực tăng hiệu suất lên 0,919.

Thay thế chỉ môđun nhận dạng hoạt động tạo ra lợi ích nhỏ hơn, tăng ROC-AUC lên 0,893. Điểm số cao nhất, 0,924, được đạt được khi tất cả các đầu vào đều được cung cấp từ chú thích dữ liệu thực, cho thấy rằng phát hiện, theo dõi và trích xuất chỉ số xuôi dòng vẫn là nguồn gây ra lỗi chính trong đường ống hiện tại.

Phân tích mô hình XGBoost được đào tạo cho thấy sự tương tác trực tiếp với dòng vàng là một trong những dự đoán mạnh nhất của rủi ro cao, tiếp theo là số lần đi qua dòng vàng, và chuyển động đi lại lặp lại giữa các khu vực nền tảng. Thời gian dành trên dòng vàng và điểm số rủi ro vị trí cũng đóng góp đáng kể, trong khi sự chú ý hướng đến đường hầm và việc vào khu vực xa nhất của nền tảng cung cấp các tín hiệu bổ sung nhưng ít quyết định hơn.

Quay lại kết quả định tính được xem trước, khuôn khổ đã gán điểm số rủi ro cao cho các cá nhân sau đó được liên kết với các nỗ lực tự sát trong khi gán điểm số thấp hơn đáng kể cho các hành khách kiểm soát xung quanh:

Như đã thấy trước đó trong bài viết, kết quả định tính được trình bày trong bài viết bao gồm đầu ra dự đoán của hai hình ảnh từ dữ liệu giám sát, với bản đồ nhiệt ở mỗi bên để chỉ ra các hoạt động lưu lại và khác trên nền tảng.

Như đã thấy trước đó trong bài viết, kết quả định tính được trình bày trong bài viết bao gồm đầu ra dự đoán của hai hình ảnh từ dữ liệu giám sát, với bản đồ nhiệt ở mỗi bên để chỉ ra các hoạt động lưu lại và khác trên nền tảng.

Trong một trường hợp, điểm số rủi ro 0,98 được liên kết với sự hiện diện kéo dài trên dòng vàng và chiếm các khu vực được bản đồ rủi ro vị trí xác định là có rủi ro cao. Trong một trường hợp khác, một cá nhân có rủi ro nhận được điểm số 0,92, trong khi các hành khách kiểm soát gần đó nhận được ước tính thấp hơn nhiều.

Theo các tác giả, những sự khác biệt này xuất phát từ sự tích lũy của nhiều chỉ số, chứ không phải từ một hành vi duy nhất. Việc đi qua dòng vàng kéo dài, hướng liên tục về phía đường hầm và sự hiện diện lâu dài trong các khu vực có rủi ro cao của nền tảng đều góp phần vào ước tính rủi ro cao.

Các tác giả kết luận:

‘Ngoài hiệu suất, nghiên cứu của chúng tôi nhấn mạnh tính giải thích, cho thấy rằng các đánh giá rủi ro được thúc đẩy bởi các chỉ số trực quan phù hợp với các yếu tố rủi ro hành vi và không gian đã được thiết lập.

‘Điều này đặt khuôn khổ được đề xuất của chúng tôi như một cầu nối có ý nghĩa giữa các hệ thống giám sát trí tuệ nhân tạo và nghiên cứu liên ngành về phòng ngừa tự sát.’

Kết luận

Về mặt cá nhân, thật là một sự nhẹ nhõm ngày càng hiếm khi tìm thấy một bài viết về trí tuệ nhân tạo xứng đáng được báo cáo mà không có khả năng tạo ra phản ứng gây tranh cãi trong một phần của dân số, vì sẽ rất khó để phủ nhận giá trị của các mục tiêu đằng sau loại dự án này.

Trên thực tế, việc rất nhỏ của các pixel mà đầu của một người chiếm và số lượng không gian màn hình tương đối nhỏ mà toàn bộ người được giám sát trong kịch bản này chiếm, làm cho nó rất khó để xác định liệu cá nhân có đang nhìn thường xuyên vào đường hầm hay không – một trong những dấu hiệu của nỗ lực tự sát trên đường sắt.

Như thường lệ, trong các dự án liên quan đến cơ sở hạ tầng giám sát, điều này dường như là một vấn đề về độ phân giải và tài nguyên: nếu có nhiều camera ở nhiều khoảng thời gian hơn trên nền tảng, bao gồm cả một camera cụ thể che khuất lối vào đường hầm (tức là khía cạnh của đường hầm mà một tàu điện ngầm xuất hiện đột ngột), thì sẽ có cơ hội để tham gia một số khuôn khổ đang phát triển xung quanh hướng nhìn. Như nó đang đứng, công việc hiện tại phụ thuộc vào việc đánh giá toàn bộ hướng của cơ thể để chỉ ra rằng chủ thể đang xem xét đường hầm.

Cuối cùng, vấn đề là một vấn đề về ngân sách, ít nhất là liên quan đến cơ sở hạ tầng đường sắt; nếu tất cả các nền tảng được trang bị rào cản và cổng – những tính năng xuất hiện không thường xuyên ở các điểm dừng của London Underground và các mạng tàu điện ngầm của các thành phố khác trên thế giới – thì các nền tảng sẽ không cung cấp cơ hội cho tự hại.

Đúng vậy, việc tăng cường giám sát là lựa chọn rẻ hơn, và việc xác định sớm các dấu hiệu đặc trưng của tự hại có thể cho phép can thiệp trực tiếp trước khi thảm kịch xảy ra.

 

Được xuất bản lần đầu vào Thứ Ba, ngày 9 tháng 6 năm 2026

Nhà văn về học máy, chuyên gia lĩnh vực tổng hợp hình ảnh con người. Cựu trưởng nhóm nội dung nghiên cứu tại Metaphysic.ai.
Trang cá nhân: martinanderson.ai
Liên hệ: [email protected]