sơ khai Đánh giá độ chính xác lịch sử của ImageNet - Unite.AI
Kết nối với chúng tôi

Trí tuệ nhân tạo

Đánh giá độ chính xác lịch sử của ImageNet

mm
cập nhật on

Một nghiên cứu mới từ Google Research và UC Berkeley cho biết thêm những lời chỉ trích lâu dài liên quan đến sự phụ thuộc của ngành nghiên cứu thị giác máy tính (CV) vào người đáng kính IMAGEnet tập dữ liệu và nhiều dẫn xuất của nó. Sau rất nhiều đánh giá thủ công tốn nhiều công sức, các tác giả kết luận rằng gần 50% các lỗi được cho là mà các mô hình tốt nhất mắc phải khi đánh giá tập hợp con nhiều nhãn của ImageNet (trong đó các mô hình hoạt động hàng đầu hiện tại đạt được hơn 97% đánh giá hàng đầu). 1) không thực sự có lỗi.

Từ tờ giấy:

'Phân tích của chúng tôi cho thấy rằng gần một nửa số lỗi được cho là hoàn toàn không phải là lỗi và chúng tôi phát hiện ra nhiều nhãn hiệu hợp lệ mới, chứng minh rằng nếu không xem xét cẩn thận, chúng tôi đang đánh giá thấp hiệu suất của các mô hình này một cách đáng kể.

'Mặt khác, chúng tôi cũng nhận thấy rằng các mô hình tốt nhất hiện nay vẫn mắc một số lỗi đáng kể (40%) mà rõ ràng là sai đối với người đánh giá.'

Mức độ dán nhãn sai của các bộ dữ liệu - đặc biệt là bởi nhân viên nguồn cộng đồng không có kỹ năng – có thể làm sai lệch lĩnh vực này, được tiết lộ bởi cách tiếp cận tỉ mỉ của nghiên cứu để đánh giá các cặp hình ảnh/văn bản trên một vùng rộng lớn của lịch sử ImageNet.

Ở hàng trên cùng, các ví dụ về Mức độ nghiêm trọng của Sai lầm: trong hai ví dụ đầu tiên ở đây, mô hình mới chỉ đơn giản là nhận sai nhãn dự đoán; trong ví dụ thứ ba, mô hình mới xác định nhiều nhãn bị thiếu trước đó (nhãn giải quyết một phân loại mới của hình ảnh); trong hình ảnh cuối cùng ở hàng trên cùng, dự đoán của mô hình là mơ hồ, bởi vì hình ảnh là một con ong bay chứ không phải một con ruồi. Tuy nhiên, con ong trung bình thuộc bộ côn trùng Diptera, và vì vậy ngoại lệ này hầu như không thể phát hiện ra, ngay cả đối với một chuyên gia chú thích. Trong hàng dưới đây là bốn loại sai lầm, với các ví dụ. Nguồn: https://arxiv.org/pdf/2205.04596.pdf

Ở hàng trên cùng, các ví dụ về Mức độ nghiêm trọng của Sai lầm: trong hai ví dụ đầu tiên ở đây, mô hình mới chỉ đơn giản là nhận sai nhãn dự đoán; trong ví dụ thứ ba, mô hình mới xác định nhiều nhãn bị thiếu trước đó (nhãn giải quyết một phân loại mới của hình ảnh); trong hình ảnh cuối cùng ở hàng trên cùng, dự đoán của mô hình là mơ hồ, bởi vì hình ảnh là một con ong bay chứ không phải một con ruồi. Tuy nhiên, con ong trung bình thuộc bộ côn trùng Diptera, và vì vậy ngoại lệ này hầu như không thể phát hiện ra, ngay cả đối với một chuyên gia chú thích. Trong hàng dưới đây là bốn loại sai lầm, với các ví dụ.  Nguồn: https://arxiv.org/pdf/2205.04596.pdf

Các nhà nghiên cứu đã sử dụng một số ít người đánh giá chuyên dụng để xem xét kỹ lưỡng các bản ghi lỗi lịch sử trong quá trình đánh giá bộ dữ liệu ImageNet, nhận thấy rằng rất nhiều đánh giá lỗi là do chính họ mắc lỗi – một phát hiện có khả năng sửa đổi một số điểm kém mà nhiều dự án đã đạt được trên Điểm chuẩn của ImageNet trong những năm qua.

Khi ImageNet cố thủ trong văn hóa CV, các nhà nghiên cứu cho rằng những cải tiến về độ chính xác được cho là mang lại lợi nhuận giảm dần và các mô hình mới vượt quá độ chính xác của nhãn đã thiết lập và gợi ý rằng các nhãn mới (tức là bổ sung) có thể bị trừng phạt, về cơ bản, vì không -sự phù hợp.

'Ví dụ,' các tác giả quan sát. 'Chúng ta có nên trừng phạt người mẫu vì là người đầu tiên dự đoán rằng bánh mì tròn nướng sẵn có thể là bánh mì tròn, vì một trong những người mẫu mà chúng tôi đánh giá trong công việc này đã dự đoán đúng không?'

Từ bài báo, một mô hình mới hơn bất chấp dự đoán trước đó rằng vật thể trong ảnh là bột nhào và gợi ý rằng vật thể này thực sự đã là một chiếc bánh mì tròn).

Từ bài báo, một mô hình mới hơn bất chấp dự đoán trước đó rằng vật thể trong ảnh là bột nhào và gợi ý rằng vật thể này thực sự đã là một chiếc bánh mì tròn).

Từ quan điểm của một nhân viên sử dụng nguồn lực cộng đồng được giao nhiệm vụ xác định một đối tượng như vậy, đây là một tình huống khó khăn về mặt ngữ nghĩa và thậm chí cả triết học chỉ có thể được giải quyết bằng cách gắn nhãn đa nhãn (thường xảy ra trong các tập hợp con sau này và các lần lặp lại tiếp theo của ImageNet); trong trường hợp trên, đối tượng thực sự là cả bột nhào và ít nhất là một chiếc bánh mì tròn non trẻ.

Các lỗi chính (ở trên) và lỗi nhỏ (ở dưới) xuất hiện khi thử nghiệm các mô hình tùy chỉnh trong nghiên cứu. Nhãn ImageNet gốc là những hình ảnh đầu tiên bên trái.

Các lỗi chính (ở trên) và lỗi nhỏ (ở dưới) xuất hiện khi thử nghiệm các mô hình tùy chỉnh trong nghiên cứu. Nhãn ImageNet gốc là những hình ảnh đầu tiên bên trái.

Hai giải pháp rõ ràng là chỉ định nhiều tài nguyên hơn cho việc ghi nhãn (đây là một thách thức, trong giới hạn ngân sách của hầu hết các dự án nghiên cứu thị giác máy tính); và, như các tác giả đã nhấn mạnh, để thường xuyên cập nhật các bộ dữ liệu và các tập hợp con đánh giá nhãn (trong số những trở ngại khác, có nguy cơ phá vỡ tính liên tục lịch sử 'thích vì thích' của điểm chuẩn và làm xáo trộn các tài liệu nghiên cứu mới về trình độ và tuyên bố từ chối trách nhiệm về tính tương đương) .

Là một bước để khắc phục tình trạng này, các nhà nghiên cứu đã phát triển một bộ dữ liệu phụ mới của ImageNet có tên là ImageNet-Major (ImageNet-M), mà họ mô tả là '68 ví dụ về "lỗi lớn" về những sai lầm rõ ràng mà các người mẫu hàng đầu hiện nay mắc phải—một phần mà các người mẫu lẽ ra phải đạt được mức độ gần như hoàn hảo, nhưng ngày nay còn lâu mới đạt được như vậy.'

Sản phẩm giấy có tiêu đề Khi nào bột trở thành bánh mì tròn? Phân tích các lỗi còn tồn tại trên ImageNetvà được viết bởi bốn tác giả từ Google Research, cùng với Sara Fridovich-Keil của UC Berkeley.

Nợ kỹ thuật

Các phát hiện này rất quan trọng vì các lỗi còn lại được xác định (hoặc xác định sai) trong ImageNet, trong 16 năm kể từ khi thành lập, nghiên cứu trung tâm của nghiên cứu, có thể thể hiện sự khác biệt giữa mô hình có thể triển khai và mô hình dễ bị lỗi đến mức nó có thể' không được thả lỏng trên dữ liệu trực tiếp. Như mọi khi, các dặm cuối cùng là rất quan trọng.

Lĩnh vực nghiên cứu tổng hợp hình ảnh và thị giác máy tính đã ImageNet 'được chọn tự động' một cách hiệu quả làm thước đo điểm chuẩn, vì một số lý do — đặc biệt là do sự vội vàng của những người dùng đầu tiên, tại thời điểm mà các bộ dữ liệu có khối lượng lớn và được dán nhãn tốt hiếm hơn so với hiện tại, đã tạo ra rất nhiều sáng kiến ​​nghiên cứu đến nỗi thử nghiệm với ImageNet nhanh chóng trở thành 'tiêu chuẩn' lịch sử duy nhất được áp dụng rộng rãi để đánh giá các khung mới.

Phương pháp

Tìm kiếm 'những lỗi còn lại' trong ImageNet, các nhà nghiên cứu đã sử dụng một tiêu chuẩn ViT mô hình (có khả năng đạt độ chính xác 89.5%) với 3 tỷ tham số, Vit-3B, được đào tạo trước JFT-3B và tinh chỉnh trên ImageNet-1K.

Sử dụng ImageNet2012_multilabel bộ dữ liệu, các nhà nghiên cứu đã ghi lại độ chính xác đa nhãn (MLA) ban đầu của ViT-3B là 96.3%, trong đó mô hình mắc 676 lỗi rõ ràng. Chính những sai lầm này (và cả những sai lầm do mô hình Greedy Soups tạo ra) mà các tác giả đã tìm cách điều tra.

Để đánh giá 676 lỗi còn lại, các tác giả đã tránh những người làm việc theo đám đông, quan sát thấy rằng những lỗi kiểu này có thể được khó khăn để những người chú thích trung bình phát hiện ra, nhưng đã tập hợp một nhóm gồm năm chuyên gia đánh giá và tạo một công cụ chuyên dụng để cho phép mỗi người đánh giá xem nhanh lớp dự đoán; tỷ số dự đoán; chân đế nhãn; và hình ảnh của chính nó.

Giao diện người dùng được xây dựng cho dự án.

Giao diện người dùng được xây dựng cho dự án.

Trong một số trường hợp, cần phải nghiên cứu thêm để giải quyết tranh chấp giữa các hội đồng và tìm kiếm Hình ảnh của Google được sử dụng như một công cụ hỗ trợ.

'[Trong] một trường hợp thú vị nhưng không phải cá biệt, dự đoán về một chiếc taxi (không có chỉ báo taxi rõ ràng ngoài màu vàng) đã xuất hiện trong hình ảnh; chúng tôi đã xác định dự đoán chính xác là một chiếc taxi chứ không chỉ là một phương tiện tiêu chuẩn bằng cách xác định một cây cầu mang tính bước ngoặt trong nền để bản địa hóa thành phố và tìm kiếm hình ảnh sau đó cho các xe taxi trong thành phố đó mang lại hình ảnh của cùng một kiểu xe taxi và thiết kế biển số xe, xác thực dự đoán thực sự chính xác của mô hình.'

Sau khi xem xét ban đầu các sai lầm được tìm thấy trong một số giai đoạn nghiên cứu, các tác giả đã đưa ra bốn loại sai lầm mới: lỗi chi tiết, trong đó lớp dự đoán tương tự như nhãn sự thật cơ bản; chi tiết với out-of-vocabulary (OOV), trong đó mô hình xác định một đối tượng có lớp đúng nhưng không có trong ImageNet; tương quan giả, trong đó nhãn dự đoán được đọc ngoài ngữ cảnh của hình ảnh; Và phi nguyên mẫu, trong đó đối tượng sự thật cơ bản là một ví dụ đặc biệt của lớp tương tự như nhãn dự đoán.

Trong một số trường hợp, sự thật cơ bản không phải là 'sự thật':

'Sau khi xem xét 676 lỗi ban đầu [tìm thấy trong ImageNet], chúng tôi thấy rằng 298 lỗi đúng hoặc không rõ ràng hoặc xác định sự thật cơ bản ban đầu không chính xác hoặc có vấn đề.'

Sau một vòng thử nghiệm toàn diện và phức tạp trên một loạt các bộ dữ liệu, tập hợp con và bộ xác thực, các tác giả nhận thấy rằng hai mô hình đang nghiên cứu thực sự được coi là đúng (bởi những người đánh giá con người) đối với một nửa số 'lỗi' mà họ đã mắc phải theo các kỹ thuật thông thường .

Bài báo kết luận:

'Trong bài báo này, chúng tôi đã phân tích mọi lỗi còn lại mà các mô hình ViT-3B và Greedy Soups mắc phải trên bộ xác thực đa nhãn ImageNet.

'Nhìn chung, chúng tôi nhận thấy rằng: 1) khi một mô hình lớn, có độ chính xác cao đưa ra một dự đoán mới lạ mà các mô hình khác không đưa ra, thì nó sẽ trở thành một đa nhãn mới chính xác trong gần một nửa thời gian; 2) các mô hình có độ chính xác cao hơn không thể hiện một khuôn mẫu rõ ràng trong các danh mục và mức độ nghiêm trọng của các lỗi mà chúng giải quyết; 3) Các mô hình SOTA ngày nay phần lớn phù hợp hoặc đánh bại hiệu suất của chuyên gia giỏi nhất trên tập hợp con đa nhãn do con người đánh giá; 4) dữ liệu huấn luyện nhiễu và các lớp không được chỉ định có thể là yếu tố hạn chế việc đo lường hiệu quả các cải tiến trong phân loại hình ảnh.'

 

Xuất bản lần đầu vào ngày 15 tháng 2022 năm XNUMX.