Trí tuệ nhân tạo

Dữ liệu tổng hợp: Thu hẹp khoảng cách loại trừ với Grand Theft Auto

cập nhật on 9 Tháng mười hai, 2022

Các nhà nghiên cứu tại Đại học Illinois đã tạo ra một bộ dữ liệu thị giác máy tính mới sử dụng hình ảnh tổng hợp do công cụ trò chơi Grand Theft Auto tạo ra để giúp giải quyết một trong những trở ngại gai góc nhất trong phân đoạn ngữ nghĩa – nhận dạng các đối tượng chỉ hiển thị một phần trong hình ảnh và video nguồn.

Để đạt được điều này, như được mô tả trong giấy, các nhà nghiên cứu đã sử dụng công cụ trò chơi video GTA-V để tạo ra một bộ dữ liệu tổng hợp không chỉ có số lượng trường hợp tắc nhiều kỷ lục mà còn có tính năng phân đoạn và ghi nhãn ngữ nghĩa hoàn hảo, đồng thời giải thích thông tin tạm thời theo cách không được giải quyết bằng các bộ dữ liệu mã nguồn mở tương tự.

Hoàn thành sự hiểu biết về cảnh

Video dưới đây, được xuất bản dưới dạng tài liệu hỗ trợ cho nghiên cứu, minh họa những lợi ích của việc hiểu 3D hoàn chỉnh về cảnh, trong đó các đối tượng bị che khuất được xác định và hiển thị trong cảnh trong mọi trường hợp, cho phép hệ thống đánh giá học cách liên kết các chế độ xem bị che khuất một phần với toàn bộ đối tượng (được dán nhãn).

Nguồn: http://sailvos.web.illinois.edu/_site/index.html

Tập dữ liệu kết quả, được gọi là SAIL-VOS 3D, được các tác giả tuyên bố là tập dữ liệu lưới video tổng hợp đầu tiên có chú thích theo từng khung hình, phân đoạn cấp phiên bản, độ sâu thực tế cơ bản cho chế độ xem cảnh và chú thích 2D được mô tả bằng các hộp giới hạn.

nguồn (Click vào để phóng to)

Các chú thích của SAIL-VOS 3D bao gồm độ sâu, phương thức cấp phiên bản và vô thức phân đoạn, nhãn ngữ nghĩa và lưới 3D. Dữ liệu bao gồm 484 video với tổng số 237,611 khung hình ở độ phân giải 1280×800, bao gồm cả chuyển cảnh quay.

Ở trên, các khung CGI ban đầu; hàng thứ hai, phân đoạn cấp phiên bản; hàng thứ ba, phân đoạn theo phương thức, minh họa độ sâu của sự hiểu biết về bối cảnh và tính minh bạch có sẵn trong dữ liệu. nguồn (Click vào để phóng to)

Bộ này được chia thành 6,807 clip với trung bình 34.6 khung hình mỗi clip và dữ liệu được chú thích với 3,460,213 phiên bản đối tượng có nguồn gốc từ 3,576 mô hình lưới trong công cụ trò chơi GTA-V. Chúng được gán cho tổng số 178 loại ngữ nghĩa.

Tái thiết lưới và dán nhãn tự động

Vì nghiên cứu tập dữ liệu sau này có thể xảy ra trên hình ảnh trong thế giới thực nên các mắt lưới trong SAIL-VOS 3D được tạo bởi khung học máy chứ không phải bắt nguồn từ công cụ GTA-V.

Với sự hiểu biết có lập trình và về cơ bản là 'hình ảnh ba chiều' về toàn bộ biểu diễn cảnh, hình ảnh SAIL-VOS 3D có thể tổng hợp các biểu diễn của các đối tượng thường bị che khuất bởi các vật thể che khuất, chẳng hạn như cánh tay hướng về phía xa của nhân vật quay quanh đây, theo cách khác phụ thuộc vào nhiều trường hợp đại diện trong cảnh quay trong thế giới thực. (Nhấp để phóng to) Nguồn: https://arxiv.org/pdf/2105.08612.pdf

Vì mỗi đối tượng trong thế giới GTA-V chứa một ID duy nhất, SAIL-VOS truy xuất chúng từ công cụ kết xuất bằng thư viện hook tập lệnh GTA-V. Điều này giải quyết vấn đề yêu cầu lại đối tượng nếu nó tạm thời rời khỏi trường xem, vì việc gắn nhãn là liên tục và đáng tin cậy. Có 162 đối tượng có sẵn trong môi trường mà các nhà nghiên cứu đã ánh xạ tới một số lớp tương ứng.

Một loạt các cảnh và đối tượng

Nhiều đối tượng trong công cụ GTA-V có bản chất phổ biến và do đó kho SAIL-VOS may mắn chứa 60% các lớp có trong phiên bản 2014 được sử dụng thường xuyên của Microsoft Bộ dữ liệu MS-COCO.

Bộ dữ liệu SAIL-VOS bao gồm nhiều cảnh bên trong và bên ngoài trong các điều kiện thời tiết khác nhau, với các nhân vật mặc quần áo đa dạng. (Click vào để phóng to)

Khả năng áp dụng

Để đảm bảo khả năng tương thích với hoạt động nghiên cứu chung trong lĩnh vực này và để xác nhận rằng phương pháp tổng hợp này có thể mang lại lợi ích cho các dự án phi tổng hợp, các nhà nghiên cứu đã đánh giá bộ dữ liệu bằng cách sử dụng phương pháp phát hiện dựa trên khung được sử dụng cho MS-COCO và 2012 Thử thách Lớp đối tượng trực quan PASCAL (VOC), với độ chính xác trung bình là số liệu.

Các nhà nghiên cứu nhận thấy rằng việc đào tạo trước trên bộ dữ liệu SAIL-VOS giúp cải thiện hiệu suất của Giao lộ trên Liên minh (IOU) tăng 19%, với sự cải thiện tương ứng trong VideoTrận đấu hiệu suất, từ 55% đến 74% trên dữ liệu không nhìn thấy.

Tuy nhiên, trong những trường hợp bị che khuất quá mức, có những lúc tất cả các phương pháp cũ vẫn không thể xác định được một đối tượng hoặc người, mặc dù các nhà nghiên cứu dự báo rằng điều này có thể được khắc phục trong tương lai bằng cách kiểm tra các khung liền kề để thiết lập lý do cho mặt nạ amodal .

Trong hai hình ảnh bên phải, các thuật toán phân đoạn truyền thống đã thất bại trong việc xác định nhân vật nữ từ phần rất hạn chế có thể nhìn thấy trên đầu của cô ấy. Những đổi mới sau này với đánh giá dòng quang có thể cải thiện những kết quả này. (Click vào để phóng to)