Trí tuệ nhân tạo
Các ‘Lộ Trình Bí Mật’ Có Thể Làm Hỏng Hệ Thống Nhận Dạng Người Đi Bộ

Một nghiên cứu hợp tác mới giữa Israel và Nhật Bản cho rằng các hệ thống phát hiện người đi bộ có những điểm yếu vốn có, cho phép những người am hiểu có thể tránh được các hệ thống nhận dạng khuôn mặt bằng cách đi theo những lộ trình được lên kế hoạch cẩn thận qua các khu vực mà mạng lưới giám sát kém hiệu quả nhất.
Với sự giúp đỡ của phim tài liệu công khai từ Tokyo, New York và San Francisco, các nhà nghiên cứu đã phát triển một phương pháp tự động để tính toán các đường đi như vậy, dựa trên các hệ thống nhận dạng đối tượng phổ biến nhất có khả năng được sử dụng trong các mạng công cộng.

Ba điểm giao nhau được sử dụng trong nghiên cứu: Shibuya Crossing ở Tokyo, Nhật Bản; Broadway, New York; và Castro District, San Francisco. Nguồn: https://arxiv.org/pdf/2501.15653
Bằng cách này, có thể tạo ra bản đồ nhiệt độ tin cậy để xác định các khu vực trong luồng camera mà người đi bộ ít có khả năng cung cấp một kết quả nhận dạng khuôn mặt tích cực:

Ở bên phải, chúng ta thấy bản đồ nhiệt độ tin cậy được tạo ra bởi phương pháp của các nhà nghiên cứu. Các khu vực màu đỏ chỉ ra sự tự tin thấp, và một cấu hình của tư thế, góc camera và các yếu tố khác có khả năng cản trở việc nhận dạng khuôn mặt.
Trong lý thuyết, một phương pháp như vậy có thể được chuyển đổi thành một ứng dụng nhận thức vị trí hoặc một loại nền tảng khác để phổ biến các đường đi ít ‘thân thiện với nhận dạng’ từ A đến B ở bất kỳ vị trí nào được tính toán.
Bài báo mới đề xuất một phương pháp như vậy, có tên Kỹ Thuật Tăng Cường Quyền Riêng Tư Dựa Trên Vị Trí (L-PET); nó cũng đề xuất một biện pháp đối phó có tên Ngưỡng Thích Ứng Dựa Trên Vị Trí (L-BAT), về cơ bản chạy cùng một quy trình, nhưng sau đó sử dụng thông tin để tăng cường và cải thiện các biện pháp giám sát, thay vì tìm cách tránh được nhận dạng; và trong nhiều trường hợp, những cải tiến như vậy sẽ không thể thực hiện được nếu không có thêm đầu tư vào cơ sở hạ tầng giám sát.
Bài báo do đó đặt ra một cuộc chiến công nghệ tiềm tàng giữa những người tìm cách tối ưu hóa lộ trình của họ để tránh bị phát hiện và khả năng của các hệ thống giám sát để tận dụng tối đa các công nghệ nhận dạng khuôn mặt.
Các phương pháp trước đây để tránh bị phát hiện ít tinh tế hơn so với điều này, và tập trung vào các phương pháp đối kháng, chẳng hạn như TnT Attacks, và việc sử dụng các mẫu in để làm混 lẫn thuật toán phát hiện.

Công việc năm 2019 ‘Fooling automated surveillance cameras: adversarial patches to attack person detection’ đã chứng minh một mẫu in đối kháng có khả năng thuyết phục một hệ thống nhận dạng rằng không có người nào được phát hiện, cho phép một loại ‘tính vô hình’. Nguồn: https://arxiv.org/pdf/1904.08653
Các nhà nghiên cứu đứng sau bài báo mới quan sát thấy rằng phương pháp của họ yêu cầu ít chuẩn bị hơn, không cần phải tạo ra các vật dụng đối kháng có thể đeo được (xem hình ảnh trên).
Bài báo có tiêu đề Một Kỹ Thuật Tăng Cường Quyền Riêng Tư Để Tránh Phát Hiện Bằng Camera Đường Phố Không Sử Dụng Phụ Kiện Đối Kháng, và đến từ năm nhà nghiên cứu trên khắp Đại học Ben-Gurion của Negev và Fujitsu Limited.
Phương Pháp và Kiểm Tra
Theo các công việc trước đây như Adversarial Mask, AdvHat, mẫu in đối kháng, và các lần xuất hiện tương tự khác, các nhà nghiên cứu giả định rằng người đi bộ ‘tấn công’ biết hệ thống phát hiện đối tượng nào đang được sử dụng trong mạng giám sát. Điều này thực sự không phải là một giả định không hợp lý, do sự áp dụng rộng rãi của các hệ thống mã nguồn mở tiên tiến như YOLO trong các hệ thống giám sát từ các công ty như Cisco và Ultralytics (hiện là lực lượng chính thúc đẩy sự phát triển của YOLO).
Bài báo cũng giả định rằng người đi bộ có quyền truy cập vào một luồng trực tiếp trên internet tập trung vào các vị trí được tính toán, điều này, một lần nữa, là một giả định hợp lý trong hầu hết các địa điểm có khả năng có cường độ bao phủ.

Các trang web như 511ny.org cung cấp quyền truy cập vào nhiều camera giám sát ở khu vực NYC. Nguồn: https://511ny.or
Ngoài ra, người đi bộ cần quyền truy cập vào phương pháp được đề xuất, và vào cảnh đó (tức là, các điểm giao nhau và đường đi mà một ‘đường đi an toàn’ sẽ được thiết lập).
Để phát triển L-PET, các tác giả đã đánh giá tác động của góc người đi bộ đối với camera; tác động của chiều cao camera; tác động của khoảng cách; và tác động của thời gian trong ngày. Để có được sự thật, họ đã chụp ảnh một người ở các góc 0°, 45°, 90°, 135°, 180°, 225°, 270°, và 315°.

Các quan sát sự thật được thực hiện bởi các nhà nghiên cứu.
Họ đã lặp lại các biến thể này ở ba chiều cao camera khác nhau (0,6m, 1,8m, 2,4m), và với các điều kiện ánh sáng khác nhau (sáng, trưa, tối và ‘phòng thí nghiệm’).
Feeding footage này vào Faster R-CNN và YOLOv3 phát hiện đối tượng, họ đã tìm thấy rằng sự tự tin của đối tượng phụ thuộc vào độ sắc nét của góc người đi bộ, khoảng cách người đi bộ, chiều cao camera, và điều kiện ánh sáng / thời tiết *.
Các tác giả sau đó đã kiểm tra một loạt các phát hiện đối tượng rộng hơn trong cùng một kịch bản: Faster R-CNN; YOLOv3; SSD; DiffusionDet; và RTMDet.
Các tác giả tuyên bố:
‘Chúng tôi đã tìm thấy rằng tất cả năm kiến trúc phát hiện đối tượng đều bị ảnh hưởng bởi vị trí người đi bộ và ánh sáng xung quanh. Ngoài ra, chúng tôi đã tìm thấy rằng đối với ba trong số năm mô hình (YOLOv3, SSD và RTMDet) tác động vẫn tồn tại trong tất cả các mức ánh sáng xung quanh.’
Để mở rộng phạm vi, các nhà nghiên cứu đã sử dụng footage từ các camera giao thông công khai ở ba vị trí: Shibuya Crossing ở Tokyo, Broadway ở New York, và Castro District ở San Francisco.
Mỗi vị trí cung cấp giữa năm và sáu bản ghi, với khoảng bốn giờ footage mỗi bản ghi. Để phân tích hiệu suất phát hiện, một khung hình đã được trích xuất mỗi hai giây, và được xử lý sử dụng một phát hiện đối tượng Faster R-CNN. Đối với mỗi pixel trong các khung hình thu được, phương pháp đã ước tính sự tự tin trung bình của các hộp giới hạn ‘người’ được hiện diện trong pixel đó.
‘Chúng tôi đã tìm thấy rằng ở tất cả三个 vị trí, sự tự tin của phát hiện đối tượng thay đổi tùy thuộc vào vị trí của người trong khung hình. Ví dụ, trong footage của Shibuya Crossing, có những khu vực lớn có sự tự tin thấp hơn ở xa camera, cũng như gần camera, nơi một cột điện một phần che khuất người đi bộ đang qua.’
Phương pháp L-PET về cơ bản là quy trình này, có thể nói là ‘vũ khí hóa’ để có được một con đường qua một khu vực đô thị mà ít có khả năng dẫn đến việc người đi bộ bị nhận dạng thành công.
Ngược lại, L-BAT theo cùng quy trình, với sự khác biệt là nó cập nhật các điểm số trong hệ thống phát hiện, tạo ra một vòng lặp phản hồi được thiết kế để loại bỏ phương pháp L-PET và làm cho các ‘khu vực mù’ của hệ thống trở nên hiệu quả hơn.
(Trong thực tế, tuy nhiên, việc cải thiện phạm vi bao phủ dựa trên bản đồ nhiệt thu được sẽ yêu cầu hơn là chỉ nâng cấp camera ngồi ở vị trí dự kiến; dựa trên các tiêu chí kiểm tra, bao gồm vị trí, nó sẽ yêu cầu việc lắp đặt thêm camera để bao phủ các khu vực bị bỏ qua – do đó, có thể lập luận rằng phương pháp L-PET làm tăng cuộc ‘chiến tranh lạnh’ này thành một kịch bản rất tốn kém)

Sự tự tin phát hiện người đi bộ trung bình cho mỗi pixel, trên các khung phát hiện đối tượng đa dạng, trong khu vực quan sát của Castro Street, được phân tích trên năm video. Mỗi video được ghi lại dưới các điều kiện ánh sáng khác nhau: bình minh, ban ngày, hoàng hôn và hai cài đặt ban đêm khác nhau. Kết quả được trình bày riêng cho mỗi kịch bản ánh sáng.
Sau khi chuyển đổi biểu diễn ma trận dựa trên pixel thành một biểu diễn đồ thị phù hợp cho nhiệm vụ, các nhà nghiên cứu đã điều chỉnh thuật toán Dijkstra để tính toán các đường đi tối ưu cho người đi bộ để đi qua các khu vực có giảm khả năng phát hiện của hệ thống giám sát.
Thay vì tìm đường đi ngắn nhất, thuật toán đã được sửa đổi để giảm thiểu sự tự tin của phát hiện, xử lý các khu vực có sự tự tin cao như các khu vực có ‘chi phí’ cao hơn. Sự thích nghi này cho phép thuật toán xác định các đường đi đi qua các điểm mù hoặc các khu vực có khả năng phát hiện thấp, hiệu quả hướng dẫn người đi bộ dọc theo các đường đi có giảm khả năng hiển thị với các hệ thống giám sát.

Một hình ảnh thể hiện sự chuyển đổi của bản đồ nhiệt của cảnh từ một ma trận dựa trên pixel thành một biểu diễn dựa trên đồ thị.
Các nhà nghiên cứu đã đánh giá tác động của hệ thống L-BAT đối với việc phát hiện người đi bộ bằng cách sử dụng một tập dữ liệu được xây dựng từ các bản ghi bốn giờ của lưu lượng người đi bộ công cộng. Để tạo ra tập dữ liệu, một khung hình đã được xử lý mỗi hai giây bằng cách sử dụng một phát hiện đối tượng SSD.
Từ mỗi khung hình, một hộp giới hạn đã được chọn chứa một người được phát hiện làm mẫu tích cực, và một khu vực ngẫu nhiên khác không có người được phát hiện được sử dụng làm mẫu tiêu cực. Các mẫu đôi này tạo thành một tập dữ liệu để đánh giá hai mô hình Faster R-CNN – một với L-BAT được áp dụng, và một không.
Hiệu suất của các mô hình đã được đánh giá bằng cách kiểm tra xem chúng xác định các mẫu tích cực và tiêu cực chính xác như thế nào: một hộp giới hạn chồng lấp một mẫu tích cực được coi là một kết quả tích cực thực, trong khi một hộp giới hạn chồng lấp một mẫu tiêu cực được dán nhãn là một kết quả tích cực giả.
Các chỉ số được sử dụng để xác định độ tin cậy của phát hiện L-BAT bao gồm Diện tích dưới đường cong (AUC); tỷ lệ phát hiện thực (TPR); tỷ lệ phát hiện giả (FPR); và sự tự tin trung bình của phát hiện thực. Các nhà nghiên cứu khẳng định rằng việc sử dụng L-BAT đã tăng cường sự tự tin của phát hiện trong khi duy trì một tỷ lệ phát hiện thực cao (mặc dù với một sự tăng nhẹ trong các phát hiện giả).
Cuối cùng, các tác giả lưu ý rằng phương pháp này có một số hạn chế. Một trong số đó là bản đồ nhiệt được tạo ra bởi phương pháp của họ cụ thể cho một thời điểm nhất định trong ngày. Mặc dù họ không giải thích rõ, điều này sẽ chỉ ra rằng một phương pháp nhiều tầng hơn sẽ cần được áp dụng để tính đến thời gian trong ngày trong một triển khai linh hoạt hơn.
Họ cũng quan sát thấy rằng các bản đồ nhiệt sẽ không chuyển sang các kiến trúc mô hình khác, và bị ràng buộc với một mô hình phát hiện đối tượng cụ thể. Vì công việc được đề xuất về cơ bản là một概念 chứng minh, các kiến trúc tinh tế hơn cũng có thể được phát triển để khắc phục các khoản nợ kỹ thuật này.
Kết Luận
Bất kỳ phương pháp tấn công mới nào mà giải pháp là ‘trả tiền cho các camera giám sát mới’ có một số lợi thế, vì việc mở rộng mạng lưới camera dân sự ở các khu vực được giám sát chặt chẽ có thể là thách thức chính trị, cũng như đại diện cho một khoản chi tiêu dân sự đáng kể sẽ thường cần một cuộc bỏ phiếu của cử tri.
Có lẽ câu hỏi lớn nhất được đặt ra bởi công việc này là ‘Liệu các hệ thống giám sát mã nguồn đóng có sử dụng các khung phát hiện đối tượng mã nguồn mở như YOLO không?’. Đây, tất nhiên, là điều không thể biết, vì các nhà sản xuất các hệ thống độc quyền cung cấp năng lượng cho nhiều mạng camera nhà nước và dân sự (ít nhất là ở Mỹ) sẽ lập luận rằng việc tiết lộ việc sử dụng như vậy có thể mở ra cho họ các cuộc tấn công.
Tuy nhiên, việc di chuyển công nghệ thông tin của chính phủ và mã độc quyền sang mã nguồn mở toàn cầu sẽ gợi ý rằng bất kỳ ai kiểm tra tuyên bố của các tác giả với (ví dụ) YOLO có thể sẽ ngay lập tức đạt được thành công.
* Tôi thường bao gồm kết quả bảng liên quan khi chúng được cung cấp trong bài báo, nhưng trong trường hợp này, sự phức tạp của các bảng trong bài báo làm cho chúng không mang tính启发 cho người đọc thông thường, và một bản tóm tắt là hữu ích hơn.
Được xuất bản lần đầu vào Thứ Ba, ngày 28 tháng 1 năm 2025








