Connect with us

CSET: Trung Quốc dẫn đầu thế giới trong nghiên cứu giám sát tầm nhìn máy tính

Giám sát

CSET: Trung Quốc dẫn đầu thế giới trong nghiên cứu giám sát tầm nhìn máy tính

mm

Một báo cáo mới từ Trung tâm An ninh và Công nghệ Tiếp sinh (CSET) đã phát hiện ra rằng lĩnh vực nghiên cứu của Trung Quốc sản xuất ‘một tỷ lệ không cân xứng’ của nghiên cứu về ba công nghệ giám sát liên quan đến trí tuệ nhân tạo, và rằng đóng góp chung của Đảng Cộng sản Trung Quốc cho các công nghệ tầm nhìn máy tính đang tăng với tốc độ tương tự, và đáng chú ý là vượt qua tốc độ xuất bản của phương Tây.

Sự dẫn đầu rõ ràng của Trung Quốc trong các sáng kiến nghiên cứu vào các phân đoạn phụ của nghiên cứu tầm nhìn máy tính, chủ yếu liên quan đến giám sát. Source: https://cset.georgetown.edu/wp-content/uploads/Surveillance-in-the-CV-Literature.pdf

Sự dẫn đầu rõ ràng của Trung Quốc trong các sáng kiến nghiên cứu vào các phân đoạn phụ của nghiên cứu tầm nhìn máy tính, chủ yếu liên quan đến giám sát. Source: https://cset.georgetown.edu/wp-content/uploads/Surveillance-in-the-CV-Literature.pdf

Ba lĩnh vực chính mà Trung Quốc có lợi thế lớn là nhận dạng lại người (REID), đếm đám đông và phát hiện giả mạo (tức là các công nghệ nhằm mục đích lộ rõ các nỗ lực để phá hoại công nghệ nhận dạng).

Ngoài ra, như được chỉ ra trong biểu đồ trên, cộng đồng nghiên cứu của Trung Quốc xuất bản một tỷ lệ phần trăm đáng kể các bài báo về nhiệm vụ tầm nhìn máy tính hướng tới con người, những nhiệm vụ này, theo bài báo, đại diện cho các công nghệ hỗ trợ cho các giải pháp giám sát rộng hơn sử dụng học máy. Các nhiệm vụ này bao gồm nhận dạng cảm xúc, nhận dạng khuôn mặt và nhận dạng hành động.

Các tác giả nhận xét:

‘Các thuật toán này thường được áp dụng cho các mục đích thương mại lành tính, chẳng hạn như gắn thẻ cá nhân trong ảnh trên mạng xã hội. Nhưng tiến bộ trong tầm nhìn máy tính cũng có thể trao quyền cho một số chính phủ sử dụng công nghệ giám sát cho các mục đích đàn áp.’

Trên một lưu ý ít đáng sợ hơn, các tác giả đã tìm thấy rằng các bài báo liên quan đến giám sát hình ảnh chiếm dưới 10% tổng số nghiên cứu về tầm nhìn máy tính được thực hiện trong giai đoạn nghiên cứu, và rằng phần nghiên cứu rộng lớn hơn được phân bố khá đồng đều trên các quốc gia.

Tuy nhiên, sự thống trị của Trung Quốc là rõ ràng, các nhà nghiên cứu cho rằng*:

‘Các nhà nghiên cứu có liên kết với các tổ chức Trung Quốc chịu trách nhiệm cho hơn một phần ba số xuất bản trong cả nghiên cứu tầm nhìn máy tính và giám sát hình ảnh.

‘Điều này làm cho Trung Quốc trở thành quốc gia phong phú nhất trong cả hai lĩnh vực. Phần trăm của các nhà nghiên cứu Trung Quốc trong nghiên cứu giám sát hình ảnh toàn cầu đang tăng với tốc độ tương tự như phần trăm của họ trong nghiên cứu tầm nhìn máy tính.’

Báo cáo mới report, có tiêu đề Xu hướng nghiên cứu trí tuệ nhân tạo cho giám sát hình ảnh của dân số, đại diện cho việc áp dụng các phương pháp Xử lý Ngôn ngữ Tự nhiên (NLP) vào một tập dữ liệu các bài báo được xuất bản bao gồm các năm 2015-2019, và được viết bởi Ashwin Acharya, Max Langenkamp và James Dunham.

Thiên vị ngôn ngữ tiếng Anh

Các tác giả của bài báo quan sát thấy rằng nghiên cứu của họ chỉ chạm vào các bài báo khoa học bằng tiếng Anh, và rằng việc mở rộng nó sang các xuất bản không sử dụng tiếng Anh có thể tiết lộ một tảng băng trôi sâu hơn của nỗ lực học thuật từ Trung Quốc trong các lĩnh vực này. Hơn nữa, các nhà nghiên cứu tin rằng việc tăng cường dữ liệu với thông tin phụ trợ, chẳng hạn như dữ liệu bằng sáng chế, triển khai camera và các chính sách chính phủ liên quan, có thể tăng cường lợi thế thống kê này.

Tự nhiên, bài báo thừa nhận, việc phân tích các bài báo công khai và được xuất bản không thể tính đến nghiên cứu tư nhân hoặc nhà nước, và nghiên cứu được phân loại, nhưng nó là một chỉ số hoạt động của lĩnh vực trong sự vắng mặt của những điểm dữ liệu ẩn này.

Cấu trúc và Dữ liệu

Các tác giả đã suy dẫn dữ liệu cốt lõi bằng cách đào tạo một SciREX mô hình trích xuất thông tin cấp tài liệu trên dữ liệu từ Papers With Code, với khuôn khổ suy dẫn sự liên quan của các bài báo bằng cách xác định các tham chiếu đến các nhiệm vụ liên quan đến tầm nhìn máy tính, và đặc biệt là các dự án và sáng kiến giám sát.

Mô hình sau đó được áp dụng cho một tập hợp CSET của văn học học thuật chứa hơn 100 triệu xuất bản cá nhân trên sáu tập dữ liệu học thuật. Các nền tảng xuất bản liên quan là Dimensions, Web of Science, Microsoft Academic Graph, Cơ sở Tri thức Quốc gia Trung Quốc, arXiv, và Papers With Code.

Được đào tạo trên các bản thảo trước của Arxiv, một SciBERT phân loại器 sau đó được giao nhiệm vụ xác định các bài báo về tầm nhìn máy tính trên toàn bộ tập dữ liệu.

Việc thực tế rằng SciREX và SciBERT được đào tạo trên tài liệu tiếng Anh đã ngăn cản các nhà nghiên cứu mở rộng phạm vi nghiên cứu của họ vượt ra ngoài tiếng Anh. Về điều này, các nhà nghiên cứu nhận xét: ‘Điều này có nghĩa là trong các so sánh quốc gia, nó đánh giá thấp đầu ra nghiên cứu không phải tiếng Anh, và đặc biệt là nó có thể đại diện thấp cho tỷ lệ nghiên cứu của Trung Quốc trên toàn thế giới.’

Phát hiện

Trong lĩnh vực giám sát hình ảnh, nghiên cứu tìm thấy rằng nhận dạng khuôn mặt là nhiệm vụ thường xuyên nhất, xuất hiện trong hơn một nghìn bài báo cho năm 2019. Tuy nhiên, các tác giả lưu ý rằng đếm đám đông và nhận dạng khuôn mặt giả là ‘lĩnh vực phát triển nhanh’.

Từ bài báo, các nhiệm vụ thường xuyên nhất được xác định cho các năm được nghiên cứu. Cited source là 'CSET merged corpus. Results generated July 22, 2021'

Từ bài báo, các nhiệm vụ thường xuyên nhất được xác định cho các năm được nghiên cứu. Cited source là ‘CSET merged corpus. Results generated July 22, 2021’

Các tác giả của bài báo cho rằng thậm chí các nhiệm vụ tầm nhìn máy tính dường như ‘trung lập’ và ít gây tranh cãi hơn liên quan đến giám sát cũng có thể đóng góp vào các hệ thống kiểm soát đàn áp. Đối với ‘Nhận dạng hành động’, họ quan sát rằng nó có thể được sử dụng để xác định ‘hành vi bất thường’ trong không gian công cộng đông đúc; đối với nhận dạng khuôn mặt giả, họ nhận xét ‘Mặc dù đôi khi được sử dụng trong các hệ thống đăng nhập sinh trắc học hoặc để ngăn chặn gian lận, nó cũng có thể ngăn chặn các nhà báo và nhà hoạt động che giấu danh tính của họ’; và liên quan đến nhận dạng cảm xúc, bài báo nhận xét rằng ‘Ngoài các mục đích thương mại và phi an ninh, một số nhà nghiên cứu, công ty và cơ quan chính phủ đề xuất áp dụng nhận dạng cảm xúc để xác định các mối đe dọa an ninh trong các khu vực công cộng đông đúc’.

Nói chung, các phát hiện dường như cho thấy rằng Trung Quốc quan tâm hơn mức trung bình đến nghiên cứu tầm nhìn máy tính, so với trung bình toàn cầu.

Các tác giả kết luận:

‘[Phần trăm] của cả tầm nhìn máy tính và giám sát hình ảnh từ Trung Quốc tăng theo thời gian. Hoa Kỳ, cùng với các đồng minh và đối tác của nó, đã xuất bản một lượng nghiên cứu tương tự trong các lĩnh vực này như Trung Quốc đã xuất bản một mình. Tuy nhiên, phần trăm của các khu vực khác trong nghiên cứu giám sát toàn cầu là ổn định hoặc giảm trong khi Trung Quốc tăng.’

 

*Sự nhấn mạnh của các tác giả.

Được xuất bản lần đầu tiên vào ngày 6 tháng 1 năm 2022.

Nhà văn về học máy, chuyên gia lĩnh vực tổng hợp hình ảnh con người. Cựu trưởng nhóm nội dung nghiên cứu tại Metaphysic.ai.
Trang cá nhân: martinanderson.ai
Liên hệ: [email protected]