Connect with us

Trí tuệ nhân tạo tiết lộ hoạt động bí mật được tiết lộ bởi tường trống

Giám sát

Trí tuệ nhân tạo tiết lộ hoạt động bí mật được tiết lộ bởi tường trống

mm

Một sự hợp tác nghiên cứu, bao gồm các đóng góp từ NVIDIA và MIT, đã phát triển một phương pháp học máy có thể xác định người ẩn chỉ bằng cách quan sát ánh sáng gián tiếp trên tường gần đó, ngay cả khi những người đó không ở gần nguồn ánh sáng. Phương pháp này có độ chính xác gần 94% khi cố gắng xác định số lượng người ẩn và cũng có thể xác định hoạt động cụ thể của một người ẩn bằng cách khuếch đại mạnh các phản xạ ánh sáng không nhìn thấy được bằng mắt thường và các phương pháp khuếch đại hình ảnh tiêu chuẩn.

Các biến đổi ánh sáng không đáng kể, được khuếch đại bởi phương pháp mới, sử dụng mạng nơ-ron tích chập để xác định các khu vực thay đổi. Source: https://www.youtube.com/watch?v=K4PapXyX-bI

Các biến đổi ánh sáng không đáng kể, được khuếch đại bởi phương pháp mới, sử dụng mạng nơ-ron tích chập để xác định các khu vực thay đổi. Source: https://www.youtube.com/watch?v=K4PapXyX-bI

Bài báo mới paper có tiêu đề Điều bạn có thể học được bằng cách nhìn vào tường trống, với sự đóng góp từ NVIDIA và MIT, cũng như Viện Công nghệ Israel.

Các phương pháp trước đây để ‘nhìn thấy xung quanh tường’ đã dựa trên nguồn ánh sáng có thể điều khiển hoặc kiến thức trước về nguồn che khuất đã biết, trong khi kỹ thuật mới này có thể tổng quát hóa cho bất kỳ phòng nào mới, không cần hiệu chỉnh lại. Hai mạng nơ-ron tích chập được sử dụng để xác định người ẩn đã sử dụng dữ liệu từ chỉ 20 cảnh.

Dự án này nhằm vào các tình huống nguy hiểm cao, quan trọng về an ninh, cho các hoạt động tìm kiếm và cứu hộ, nhiệm vụ giám sát của cảnh sát, các tình huống phản ứng khẩn cấp, để phát hiện ngã ở người cao tuổi và như một phương tiện để phát hiện người đi bộ ẩn cho xe tự hành.

Đánh giá thụ động

Như thường thấy với các dự án tầm nhìn máy tính, nhiệm vụ trung tâm là xác định, phân loại và hoạt hóa các trạng thái được nhận thức trong dòng hình ảnh. Nối các thay đổi này dẫn đến các mẫu ký hiệu có thể được sử dụng để xác định số lượng cá nhân hoặc để phát hiện hoạt động của một hoặc nhiều cá nhân.

Công việc này mở ra khả năng đánh giá cảnh thụ động hoàn toàn, không cần sử dụng bề mặt phản chiếu, tín hiệu Wi-Fi, radar, âm thanh hoặc bất kỳ ‘điều kiện đặc biệt’ nào khác được yêu cầu trong các nỗ lực nghiên cứu gần đây nhằm thiết lập sự hiện diện của con người ẩn trong môi trường nguy hiểm hoặc quan trọng.

Một kịch bản thu thập dữ liệu mẫu được sử dụng cho nghiên cứu mới. Các đối tượng được đặt cẩn thận để không tạo bóng hoặc che khuất trực tiếp bất kỳ nguồn ánh sáng nào và không cho phép bất kỳ bề mặt phản chiếu hoặc vectơ 'lừa' nào.

Một kịch bản thu thập dữ liệu mẫu được sử dụng cho nghiên cứu mới. Các đối tượng được đặt cẩn thận để không tạo bóng hoặc che khuất trực tiếp bất kỳ nguồn ánh sáng nào và không cho phép bất kỳ bề mặt phản chiếu hoặc vectơ ‘lừa’ nào. Source: https://arxiv.org/pdf/2108.13027.pdf

Hiệu quả, ánh sáng môi trường cho kịch bản ứng dụng điển hình sẽ vượt quá bất kỳ sự xáo trộn nhỏ nào do ánh sáng phản chiếu từ người ẩn ở nơi khác trong cảnh. Các nhà nghiên cứu tính toán rằng đóng góp của ánh sáng-xáo trộn của các cá nhân sẽ thường ít hơn 1% ánh sáng nhìn thấy được.

Xóa ánh sáng tĩnh

Để trích xuất chuyển động từ hình ảnh tường tĩnh, cần phải tính toán giá trị trung bình thời gian của video và xóa nó khỏi mỗi khung hình. Các mẫu chuyển động kết quả thường nằm dưới ngưỡng nhiễu của thậm chí thiết bị video chất lượng tốt và về cơ bản nhiều chuyển động xảy ra trong không gian pixel âm.

Để khắc phục điều này, các nhà nghiên cứu giảm mẫu video bằng một yếu tố 16 và tăng tỷ lệ khung hình kết quả bằng một yếu tố 50, đồng thời thêm một mức màu xám trung bình để phân biệt sự hiện diện của pixel âm (không thể được tính toán bởi nhiễu cảm biến video cơ bản).

Sự khác biệt giữa tường nhìn thấy được của con người và sự xáo trộn của các cá nhân ẩn. Vì chất lượng hình ảnh là một vấn đề trung tâm trong nghiên cứu này, vui lòng tham khảo video chính thức ở cuối bài viết để có hình ảnh chất lượng cao hơn.

Sự khác biệt giữa tường nhìn thấy được của con người và sự xáo trộn của các cá nhân ẩn. Vì chất lượng hình ảnh là một vấn đề trung tâm trong nghiên cứu này, vui lòng tham khảo video chính thức ở cuối bài viết để có hình ảnh chất lượng cao hơn.

Cửa sổ cơ hội để nhận thức chuyển động rất mong manh và có thể bị ảnh hưởng ngay cả bởi sự nhấp nháy của đèn ở tần số 60 Hz AC. Do đó, sự xáo trộn tự nhiên này cũng phải được đánh giá và xóa khỏi footage trước khi chuyển động do người gây ra sẽ xuất hiện.

Cuối cùng, hệ thống sản xuất các bản đồ không gian-thời gian cho thấy một số lượng cụ thể các cư dân ẩn trong phòng – các chữ ký trực quan rời rạc:

Các bản đồ không gian-thời gian ký hiệu cho các số lượng người ẩn khác nhau trong một phòng.

Các bản đồ không gian-thời gian ký hiệu cho các số lượng người ẩn khác nhau trong một phòng.

Các hoạt động của con người khác nhau cũng sẽ dẫn đến các xáo trộn ký hiệu có thể được phân loại và nhận ra sau:

Các bản đồ không gian-thời gian ký hiệu cho không hoạt động, đi bộ, quỳ, vẫy tay và nhảy.

Các bản đồ không gian-thời gian ký hiệu cho không hoạt động, đi bộ, quỳ, vẫy tay và nhảy.

Để tạo ra một quy trình làm việc tự động dựa trên học máy cho việc nhận dạng người ẩn, các đoạn video đa dạng từ 20 kịch bản phù hợp đã được sử dụng để đào tạo hai mạng nơ-ron hoạt động trên các cấu hình tương tự rộng rãi – một để đếm số lượng người trong cảnh và một để xác định bất kỳ chuyển động nào xảy ra.

Thử nghiệm

Các nhà nghiên cứu đã thử nghiệm hệ thống được đào tạo trong mười môi trường thực tế không nhìn thấy được thiết kế để tái tạo các hạn chế dự kiến cho việc triển khai cuối cùng. Hệ thống đã có thể đạt được độ chính xác lên đến 94,4% (trong 256 khung hình – thường là khoảng 8 giây video) trong việc phân loại số lượng người ẩn và lên đến 93,7% độ chính xác (trong cùng điều kiện) trong việc phân loại hoạt động. Mặc dù độ chính xác giảm với ít khung hình nguồn, nhưng nó không phải là một sự giảm tuyến tính và thậm chí 64 khung hình sẽ đạt được tốc độ chính xác 79,4% cho việc đánh giá ‘số lượng người’ (so với gần 95% đối với bốn lần số khung hình).

Mặc dù phương pháp này robust đối với các thay đổi về thời tiết trong ánh sáng, nhưng nó gặp khó khăn trong một cảnh được chiếu sáng bởi một chiếc ti vi hoặc trong các tình huống mà những người đó mặc quần áo đồng màu với tường phản chiếu.

More details of the research, including higher-quality footage of the extractions, can be seen in the official video below.

Nhà văn về học máy, chuyên gia lĩnh vực tổng hợp hình ảnh con người. Cựu trưởng nhóm nội dung nghiên cứu tại Metaphysic.ai.
Trang cá nhân: martinanderson.ai
Liên hệ: [email protected]