Connect with us

Trí tuệ nhân tạo

Một ‘Thám tử’ AI Có Thể Xác Định Những Người Không rõ Từ Nhiều Nguồn

mm

Các nhà nghiên cứu tại Đại học Oxford đã phát triển một hệ thống được hỗ trợ bởi AI có thể xác định toàn diện những người trong các video bằng cách thực hiện các cuộc điều tra giống như thám tử, đa lĩnh vực về việc họ có thể là ai, từ ngữ cảnh và từ nhiều nguồn phụ thứ cấp công khai có sẵn, bao gồm cả việc kết hợp các nguồn âm thanh với tài liệu trực quan từ internet.

Mặc dù nghiên cứu tập trung vào việc xác định các nhân vật công chúng, chẳng hạn như những người xuất hiện trong các chương trình truyền hình và phim, nguyên tắc suy luận danh tính từ ngữ cảnh về mặt lý thuyết có thể áp dụng cho bất kỳ ai có khuôn mặt, giọng nói hoặc tên xuất hiện trong các nguồn trực tuyến.

Thực tế, định nghĩa về sự nổi tiếng của bài báo không giới hạn ở những người làm việc trong ngành giải trí, với các nhà nghiên cứu tuyên bố ‘Chúng tôi gọi những người có nhiều hình ảnh của chính họ trực tuyến là nổi tiếng‘.

Trực Tiếp Từ Video

Các nhà nghiên cứu, từ Nhóm Hình học Thị giác của Oxford tại Khoa Khoa học Kỹ thuật, phác thảo cách tiếp cận điều tra kiểu con người đã truyền cảm hứng cho công việc:

‘Hãy tưởng tượng bạn đang xem một video và gặp một người mới. Để xác định chắc chắn họ là ai, bạn sẽ tìm kiếm các manh mối về tên của họ trong video, chẳng hạn như văn bản trên màn hình, tên của họ được đề cập trong lời nói, hoặc trong danh sách các thành viên trong một kho lưu trữ internet. Bạn có thể tìm thấy một số bằng chứng để xác minh rằng tên này là chính xác, bằng cách tìm kiếm người đó trực tuyến.’

Phương pháp được đề xuất bởi bài báo này hoàn toàn tự động và loại bỏ tất cả các nhãn thủ công bổ sung (không tính bất kỳ nhãn nào được thực hiện bởi các nhà cung cấp nguồn trực tuyến). Hệ thống cũng được chứng minh là hoạt động tốt trên ba tập dữ liệu không liên quan mà không cần điều chỉnh lĩnh vực.

Khi thảo luận về ứng dụng của công việc, các nhà nghiên cứu lưu ý sự tăng trưởng theo cấp số nhân của dữ liệu video không được gắn nhãn, không rõ ràng và nhu cầu về các hệ thống mới có thể suy luận thông tin danh tính từ chúng mà không cần chú thích thủ công tốn kém:

‘[Sự] tăng trưởng theo cấp số nhân của dữ liệu, cùng với sự thiếu hụt siêu dữ liệu liên quan, khiến việc lập chỉ mục, phân tích và điều hướng nội dung này trở thành một nhiệm vụ ngày càng khó khăn. Việc dựa vào chú thích thủ công bổ sung không còn khả thi và nếu không có cách hiệu quả để điều hướng các video này, kho kiến thức này hầu như không thể tiếp cận.’

Một công cụ lập chỉ mục như vậy mở ra khả năng cho các kết quả tìm kiếm siêu liên kết đến trực tiếp một điểm trong video nơi chủ thể tìm kiếm xuất hiện, như được chứng minh trong tìm kiếm web概念 được cung cấp bởi dự án.

Hệ thống Oxford cho phép tìm kiếm các trường hợp của một người được xác định. Kết quả tìm kiếm đưa người xem trực tiếp đến điểm trong video nơi người được xác định xuất hiện và video có thể được phát từ điểm đó.

Hệ thống Oxford cho phép tìm kiếm các trường hợp của một người được xác định. Kết quả tìm kiếm đưa người xem trực tiếp đến điểm trong video nơi người được xác định xuất hiện và video có thể được phát từ điểm đó. Source: https://www.robots.ox.ac.uk/~vgg/research/person_id_in_video/

Một trong những cách hệ thống xác định ‘những người không rõ’ là thông qua ngữ cảnh của sự liên kết của họ với những người khác. Do đó, công cụ tìm kiếm được trang bị tốt để tìm kiếm nhiều danh tính xuất hiện trong cùng một video:

Cá Lớn Và Cá Nhỏ

Hệ thống ban đầu giải quyết ‘trái cây dễ hái’ – những người có khuôn mặt được lập chỉ mục rất tốt trong các tài nguyên mạng công khai mà việc xác định họ tương đối đơn giản, bằng cách kết hợp siêu dữ liệu hoặc văn bản OCR trong video với các tài nguyên dữ liệu công khai như danh sách IMDB. Văn bản được giải thích bởi AI trong chú thích video, tín dụng và các hình thức văn bản raster khác trong video cũng được tận dụng để thực hiện việc xác định.

Các tên ứng viên cho tìm kiếm có thể được tự động khám phá bởi hệ thống, dựa trên nhận dạng ký tự quang học (OCR) của văn bản raster hoặc của văn bản thực trong các nguồn khác. Do đó, người có thể được lập chỉ mục tự động mà không cần bất kỳ truy vấn trước nào được chạy chống lại tên của họ bởi người dùng cuối.

Các tên ứng viên cho tìm kiếm có thể được tự động khám phá bởi hệ thống, dựa trên nhận dạng ký tự quang học (OCR) của văn bản raster hoặc của văn bản thực trong các nguồn khác, chẳng hạn như danh sách diễn viên. Do đó, người có thể được lập chỉ mục tự động mà không cần bất kỳ truy vấn trước nào được chạy chống lại tên của họ bởi người dùng cuối và mà không cần tham gia trước vào mạng xã hội được hỗ trợ bởi AI. Source: https://www.robots.ox.ac.uk/~vgg/publications/2021/Brown21/brown21.pdf

Khi hình ảnh và video trên mạng xác nhận danh tính của người đó, cuộc điều tra khẳng định một danh tính. Nhưng khi người đó ít được biết đến hơn, các phương pháp khác được sử dụng, bao gồm âm thanh lấy từ các bản âm thanh, có thể được sử dụng làm xác nhận hỗ trợ cho một danh tính. Mặc dù không được đề cập trong công việc, logic không có gì ngăn cản một khuôn khổ như vậy cũng sử dụng các nguồn âm thanh thuần túy cũng như các thành phần âm thanh trong video.

Một Panopticon Danh Tính Tự Phát

Ngoài việc tạo ra các tên ứng viên từ văn bản raster hoặc văn bản thuần túy, công nghệ nhận dạng giọng nói được sử dụng trong dự án Oxford để nhận ra các tên được nói trong nội dung âm thanh. Do đó, một danh tính có thể được khởi tạo bởi một hoặc hai người chỉ đơn giản là đề cập đến một người thứ ba không có mặt.

Biện pháp bảo vệ mà dự án Oxford giới thiệu là ứng viên phải xuất hiện trong cơ sở dữ liệu IMDB, nhưng việc loại bỏ điều kiện tùy ý này mở rộng đáng kể phạm vi khả năng của hệ thống, vì nó phụ thuộc hoàn toàn vào các tài nguyên có thể thu thập được từ web.

Do đó, với sự kết hợp của các nguồn bao gồm tên được suy dẫn từ văn bản raster, văn bản thực, đề cập dựa trên lời nói và tài liệu trực quan rất hạn chế, nó trở nên có thể xác định các cá nhân có sự hiện diện mạng thấp.

Về mặt kỹ thuật, cũng có thể xây dựng một hồ sơ của một cá nhân mà không có hình ảnh hoặc video nào được liên kết, nhưng đến đó, một hình ảnh hoặc video có thể được gắn vào khi các yếu tố khác tương quan với một nguồn video mới được nhập.

Tập Dữ Liệu Kiểm Tra

Các nhà nghiên cứu đã sử dụng ba tập dữ liệu để đánh giá hiệu quả của hệ thống: MediaEval, có tính năng tài nguyên hình ảnh và video xã hội được lấy từ Creative Commons (bao gồm Wikipedia và Flickr) được chụp từ năm 2010-2015; tập dữ liệu Sherlock năm 2017 của nhóm Oxford, có tính năng dữ liệu video được chú thích từ phiên bản hiện đại của nhân vật Conan Doyle trên BBC; và một tập dữ liệu video BBC mới được tạo riêng cho dự án, sử dụng các đoạn phim tin tức được chú thích khác nhau từ BBC.

Hệ thống thành công trên nhiều môi trường tập dữ liệu, bao gồm cả trường hợp khuôn mặt bị che khuất bởi phản xạ hoặc bóng tối.

Hệ thống thành công trên nhiều môi trường tập dữ liệu, bao gồm cả trường hợp khuôn mặt bị che khuất bởi phản xạ hoặc bóng tối.

Quá trình cũng sử dụng xếp hạng tìm kiếm hình ảnh trực tiếp.

Kết quả cho hệ thống tạo ra độ chính xác cao trên cả ba mô hình. Trong trường hợp của tập dữ liệu Sherlock, các nhà nghiên cứu ngạc nhiên khi thấy rằng hệ thống mới cải thiện 3-6% so với một phương pháp trước đó sử dụng máy vector hỗ trợ (SVM) trong một phân loại đa chiều, mặc dù phân loại gần nhất được sử dụng trong công việc mới là một công cụ ít mạnh mẽ hơn.

Ảnh Hưởng

Hầu hết các hạn chế về đạo đức hoặc thực tế trong dự án Oxford đều được tự áp đặt bởi các nhà nghiên cứu, chẳng hạn như định nghĩa ‘nổi tiếng’ bằng yêu cầu rằng các danh tính được phát hiện phải có mặt trong IMDB, và bằng cách kiểm tra hệ thống chỉ chống lại các tập dữ liệu học thuật đã được thiết lập tôn trọng giấy phép Creative Commons.

Tuy nhiên, kiến trúc cơ bản của dự án mô tả một phương pháp chung để không chỉ xác định ‘những người không rõ’ có sự hiện diện trực tuyến thấp hoặc không có, mà còn tạo ra một ma trận các cá nhân được thúc đẩy bởi sự tò mò cơ học và tự phát, thay vì bởi nhu cầu hoặc bởi sự hiện diện rõ ràng của dữ liệu được gắn nhãn (chẳng hạn như tải lên ảnh mạng xã hội có chứa siêu dữ liệu PII).

Dự án không sử dụng dữ liệu vị trí địa lý hoặc các hình thức siêu dữ liệu khác có thể được tìm thấy trong các tài liệu xác nhận, chẳng hạn như thông tin vị trí địa lý được nhúng vào các tải lên mạng xã hội (trong đó những thông tin này không bị xóa như một tùy chọn người dùng). Tuy nhiên, không có chướng ngại vật rõ ràng nào để sử dụng các chiều dữ liệu bổ sung này để tăng cường quá trình xác nhận.

Trong khi dự án Oxford loại bỏ các ngoại lệ (các danh tính có sự hiện diện gần như không tồn tại, ngoài việc không được liệt kê trong IMDB) theo cách phổ biến trong các dự án học máy, thông tin tối thiểu như vậy có thể hiệu quả hơn trong việc xác định một người không xác định so với khi có nhiều thông tin đại diện về họ.

Sẵn Có

Các nhà nghiên cứu Oxford đã đóng gói chức năng của dự án vào một công cụ tìm kiếm giống Google có thể được tải xuống và cài đặt trên một máy cục bộ thông qua Docker (mặc dù hướng dẫn cài đặt cho bài báo tháng 5 năm 2021 hiện chứa thông tin lỗi thời về yêu cầu Công cụ Docker, điều này có thể cản trở quá trình).

Dường như không có phiên bản trực tuyến nào triển khai dự án trên cả ba tập dữ liệu, mặc dù kết quả cho tập dữ liệu video BBC có thể được truy vấn miễn phí tại http://zeus.robots.ox.ac.uk/bbc_search/.

Nhà văn về học máy, chuyên gia lĩnh vực tổng hợp hình ảnh con người. Cựu trưởng nhóm nội dung nghiên cứu tại Metaphysic.ai.
Trang cá nhân: martinanderson.ai
Liên hệ: [email protected]