Góc của Anderson
Ảo tưởng 'Tải xuống nhiều nhãn hơn!' trong nghiên cứu AI

Một quan điểm chung trong nghiên cứu học máy hiện nay là bản thân học máy có thể được sử dụng để cải thiện chất lượng chú thích tập dữ liệu AI – đặc biệt là chú thích hình ảnh dùng trong các mô hình ngôn ngữ thị giác (VLM). Dòng suy nghĩ này được thúc đẩy bởi giá cao của chú thích của con người, và gánh nặng thêm của giám sát hiệu suất chú thích.
Có thể nói đây là AI tương đương với đầu những năm 2000 meme 'tải thêm RAM', chế giễu quan điểm cho rằng hạn chế về phần cứng có thể được giải quyết bằng giải pháp phần mềm.
Đây cũng là một vấn đề ít được quan tâm; trong khi các mô hình AI mới thu hút sự chú ý rộng rãi trong cả lĩnh vực công cộng và thương mại, chú thích thường có vẻ là một chi tiết tầm thường trong quy trình học máy, bị lu mờ bởi sự phấn khích xung quanh các khuôn khổ rộng hơn.
Trên thực tế, khả năng của các hệ thống máy học trong việc nhận dạng và tái tạo các mẫu (trường hợp sử dụng trung tâm của hầu hết các hệ thống AI) là phụ thuộc về chất lượng và tính nhất quán của các chú thích trong thế giới thực – các nhãn và cụm từ được tạo ra hoặc đánh giá bởi những người thực, thường đưa ra các đánh giá chủ quan về các điểm dữ liệu riêng lẻ trong hoàn cảnh không lý tưởng.
Không thể tránh khỏi, các hệ thống tìm cách quan sát và tái tạo các mô hình trong hành vi của người chú thích (và do đó thay thế người chú thích và tạo điều kiện cho việc dán nhãn chính xác ở quy mô lớn) không thể hy vọng hoạt động tốt trên dữ liệu không chứa trong các ví dụ lấy từ người quan sát. Không có gì 'tương tự' là hoàn toàn giống nhau, và tính tương đương giữa các miền vẫn là một theo đuổi có vấn đề trong tầm nhìn máy tính.
'Dữ liệu ngược dòng' phải dừng lại ở đâu đó, và trong trường hợp này, đó chính xác là nơi nó dừng lại – với tiểu não của con người đưa ra một số loại phân biệt chủ quan để mã hóa dữ liệu cho một hệ thống nhân tạo.
Thương mại RAG
Cho đến gần đây, sự không chính xác phát sinh từ chú thích tập dữ liệu không được quản lý chặt chẽ có lẽ được coi là thiệt hại có thể chấp nhận được trong bối cảnh kết quả thu được từ các hệ thống AI tạo sinh chưa hoàn hảo nhưng vẫn có thể tiếp thị được.
Thật vậy, chỉ trong năm nay một nghiên cứu từ Singapore kết luận việc này ảo giác – tức là, những trường hợp hệ thống AI phát minh ra những thứ làm suy yếu ý định của chúng ta – là điều không thể tránh khỏi và gắn liền với kiến trúc khái niệm của các hệ thống như vậy.
Để chống lại điều này, Các tác nhân dựa trên RAG – có thể 'xác minh' sự thật thông qua tìm kiếm trên internet – đang trở nên phổ biến trong nghiên cứu và các giải pháp thương mại ứng dụng. Tuy nhiên, chúng làm tăng chi phí tài nguyên và độ trễ trong các truy vấn; ngoài ra, thông tin mới được áp dụng cho một mô hình đã được đào tạo không thể cạnh tranh với các kết nối phức tạp và đan xen sâu sắc hơn vốn là đặc trưng của các lớp gốc trong một mô hình đã được đào tạo.
Do đó, sẽ tốt hơn nếu dữ liệu chú thích cung cấp thông tin cho các mô hình này ít sai sót hơn ngay từ đầu, ngay cả khi nó không thể hoàn hảo (đặc biệt là vì hoạt động này xâm phạm vào phạm vi chủ quan của con người).
Tái tạo POPE
Một bài báo mới từ Đức nêu bật các vấn đề phát sinh từ việc dựa vào các tập dữ liệu cũ, được sử dụng rộng rãi, đặc biệt tập trung vào độ chính xác và độ tin cậy của chú thích hình ảnh. Phát hiện của các nhà nghiên cứu cho thấy lỗi nhãn trong các chuẩn mực có thể che giấu hoặc trình bày sai ảo giác trong các mô hình ngôn ngữ thị giác.

Bài báo mới đưa ra một số ví dụ về việc chú thích gốc không nhận dạng chính xác các đối tượng trong tập dữ liệu hình ảnh MSCOCO. Việc các nhà nghiên cứu chỉnh sửa thủ công tập dữ liệu chuẩn POPE đã khắc phục những thiếu sót này, chứng minh chi phí tiết kiệm cho việc quản lý chú thích. Nguồn: https://arxiv.org/pdf/2504.15707
Hãy tưởng tượng một người mẫu được cho xem hình ảnh một cảnh đường phố và được hỏi liệu có xe đạp trong đó không. Người mẫu trả lời Vâng. Nếu tập dữ liệu chuẩn cho biết không có xe đạp, mô hình được đánh dấu sai. Nhưng nếu một chiếc xe đạp là có thể nhìn thấy rõ ràng trong hình ảnh và chỉ đơn giản là bị bỏ sót trong quá trình chú thích, thì câu trả lời của mô hình là đúng và điểm chuẩn đã không thành công. Các lỗi như thế này có thể tích tụ trên toàn bộ tập dữ liệu, tạo ra hình ảnh méo mó về mô hình nào chính xác và mô hình nào dễ gây ảo giác.
Do đó, khi các chú thích không chính xác hoặc mơ hồ được coi là sự thật cơ bản, các mô hình có thể có vẻ như ảo giác khi chúng đúng, hoặc có vẻ chính xác khi chúng không đúng, làm sai lệch cả phép đo ảo giác và thứ hạng hiệu suất của mô hình, và làm cho việc chẩn đoán hoặc giải quyết vấn đề một cách chắc chắn trở nên khó khăn hơn.
Bài báo mới xem xét lại một chuẩn mực được sử dụng rộng rãi gọi là Đánh giá thăm dò đối tượng dựa trên thăm dò (POPE), kiểm tra xem các mô hình ngôn ngữ thị giác có thể diễn đạt chính xác những gì có hoặc không có trong hình ảnh hay không.
POPE dựa trên các nhãn hiệu có ảnh hưởng Microsoft COCO: Các đối tượng phổ biến trong ngữ cảnh (MSCOCO) tập hợp các hình ảnh có chú thích từ lâu đã được coi là cung cấp mức độ chính xác chú thích tốt.
POPE đánh giá ảo giác đối tượng trong các mô hình ngôn ngữ thị giác lớn bằng cách định hình lại vấn đề như một nhiệm vụ phân loại nhị phân. Thay vì phân tích các chú thích được tạo ra, hệ thống đặt ra các có không các câu hỏi cho mô hình về việc liệu các đối tượng cụ thể có hiện diện trong hình ảnh hay không, bằng cách sử dụng các mẫu như 'Có một trong hình ảnh?'.

Ví dụ về ảo giác đối tượng trong các mô hình ngôn ngữ thị giác. Nhãn in đậm chỉ ra các đối tượng được đánh dấu là có trong chú thích gốc, trong khi nhãn màu đỏ chỉ ra các đối tượng bị ảo giác bởi các mô hình. Ví dụ bên trái phản ánh đánh giá dựa trên hướng dẫn truyền thống, trong khi ba ví dụ bên phải được rút ra từ các biến thể chuẩn POPE khác nhau. Nguồn: https://aclanthology.org/2023.emnlp-main.20.pdf
Đối tượng thực tế (trả lời: Có) được ghép nối với các đối tượng không tồn tại được lấy mẫu (trả lời: Không), được chọn ngẫu nhiên, thường xuyên (phổ biến), hoặc dựa trên sự đồng hiện diện (đối thủ) các chiến lược. Thiết lập này cho phép đánh giá ảo giác ổn định hơn, không nhạy cảm với thời gian mà không cần dựa vào phân tích chú thích dựa trên quy tắc phức tạp.
Các tác giả của giấy mới - có tiêu đề RePOPE: Tác động của lỗi chú thích lên chuẩn mực POPE – thách thức độ chính xác được cho là của POPE bằng cách kiểm tra lại các nhãn trên hình ảnh chuẩn (ví dụ: MSCOCO) – và phát hiện ra rằng một số lượng đáng ngạc nhiên là sai hoặc không rõ ràng.

Ví dụ từ bộ dữ liệu MSCOCO năm 2014. Nguồn: https://arxiv.org/pdf/1405.0312
Những lỗi này làm thay đổi cách xếp hạng các mô hình, một số mô hình ban đầu hoạt động tốt nhưng sau đó tụt hạng khi đánh giá dựa trên các nhãn đã hiệu chỉnh.
Trong các thử nghiệm, các tác giả đã đánh giá một loạt các mô hình ngôn ngữ thị giác có trọng số mở trên cả chuẩn POPE ban đầu và chuẩn được dán nhãn lại của chúng Tái tạo POPE phiên bản.
Theo bài báo, các chú thích đã hiệu chỉnh dẫn đến những thay đổi đáng chú ý trong bảng xếp hạng mô hình, đặc biệt là trong F1 điểm số, với một số mô hình hiệu suất cao trong POPE tụt hạng trong RePOPE.
Các tác giả cho rằng sự thay đổi này minh họa mức độ mà các lỗi chú thích có thể che khuất hành vi ảo giác thực tế của các mô hình và họ trình bày RePOPE như một công cụ đáng tin cậy hơn để đánh giá mức độ dễ bị ảo giác.

Trong một ví dụ khác từ bài báo mới, chúng ta thấy chú thích gốc của POPE không phân biệt được các vật thể tinh tế, chẳng hạn như một người ngồi cạnh cabin xe điện trong bức ảnh ngoài cùng bên phải, hoặc chiếc ghế bị người chơi quần vợt che khuất trong bức ảnh thứ hai từ bên trái.
Phương pháp và Kiểm tra
Các nhà nghiên cứu đã dán nhãn lại tất cả các chú thích trong tập dữ liệu MSCOCO ban đầu, với hai người dán nhãn được chỉ định cho mỗi trường hợp dữ liệu. Khi có sự mơ hồ về chất lượng của các nhãn gốc (như trong các ví dụ bên dưới), những kết quả này đã được loại khỏi vòng thử nghiệm.

Các trường hợp mơ hồ, trong đó sự không nhất quán về nhãn mác trong POPE phản ánh ranh giới phân loại không rõ ràng. Ví dụ, một con gấu bông được dán nhãn là gấu, một chiếc xe máy được dán nhãn là xe đạp, hoặc các phương tiện sân bay được dán nhãn là ô tô. Những trường hợp này đã bị loại khỏi RePOPE do tính chất chủ quan của các phân loại như vậy, cũng như sự không nhất quán trong các nhãn gốc của MSCOCO.
Bài báo viết:
'Những người chú thích ban đầu đã bỏ sót những người ở phía sau hoặc phía sau tấm kính, người chơi quần vợt che khuất 'những chiếc ghế' ở phía sau và món salad bắp cải chỉ có một sọc nhỏ của củ cà rốt.
'Đối với một số đối tượng, chú thích COCO rất không nhất quán, có thể là do định nghĩa khác nhau về các đối tượng được sử dụng bởi những người chú thích ban đầu. Việc phân loại 'gấu bông' là 'gấu', xe máy là 'xe đạp' có gắn động cơ, hay phương tiện sân bay là 'ô tô' phụ thuộc vào các định nghĩa cụ thể, dẫn đến sự không nhất quán trong chú thích thực địa POPE. Do đó, chúng tôi chú thích các cặp hình ảnh-câu hỏi tương ứng là 'mơ hồ'.'

Kết quả chú thích lại: các câu hỏi tích cực được chia sẻ trên cả ba biến thể POPE. Trong số các câu hỏi được dán nhãn "Có" trong POPE, 9.3% được phát hiện là sai và 13.8% được phân loại là mơ hồ. Đối với các câu hỏi "Không", 1.7% bị dán nhãn sai và 4.3% là mơ hồ.
Các tác giả đã đánh giá một loạt các mô hình trọng lượng mở trên POPE và trên RePOPE, trên nhiều kiến trúc và kích thước mô hình khác nhau. Các mô hình được chọn bao gồm một số kiến trúc hàng đầu trên MởVLM bảng xếp hạng: Thực tập sinhVL2.5 (8B/26B/38B/78B and 8B-MPO/26B-MPO); LLaVA-NeXT; Vicuna; Mistral 7b; Loài đà mã ở nam mỹ; LLaVA-OneVision; Ovis2 (1B/2B/4B/8B); Pali Gemma-3B; Và PaliGemma2 (3B/10B).

Kết quả ban đầu: tỷ lệ lỗi cao trong các nhãn dương tính ban đầu dẫn đến sự sụt giảm mạnh trong các kết quả dương tính thực trên tất cả các mô hình. Các kết quả dương tính giả thay đổi giữa các tập hợp con, gần như tăng gấp đôi trên tập hợp con ngẫu nhiên, nhưng vẫn không thay đổi nhiều trên tập hợp con phổ biến và cho thấy sự sụt giảm nhẹ trên tập hợp con đối nghịch. Việc dán nhãn lại có tác động lớn đến thứ hạng dựa trên F1. Các mô hình như Ovis2-4B và Ovis2-8B, hoạt động tốt trên các phân chia phổ biến và đối nghịch trong POPE, cũng tăng lên đầu trên tập hợp con ngẫu nhiên theo RePOPE. Vui lòng tham khảo PDF nguồn để có độ phân giải tốt hơn.
Biểu đồ kết quả ở trên minh họa cách số lượng kết quả dương tính thật và dương tính giả thay đổi sau khi hiệu chỉnh nhãn trong chuẩn mực.
Kết quả dương tính thực sự giảm trên tất cả các mô hình, cho thấy chúng thường được ghi nhận cho các câu trả lời đúng khi các câu trả lời đó chỉ đúng dưới các nhãn lỗi, trong khi các kết quả dương tính giả tuân theo một mô hình đa dạng hơn.
Trên phiên bản 'ngẫu nhiên' của POPE, các kết quả dương tính giả gần như tăng gấp đôi đối với nhiều mô hình, cho thấy rằng một số lượng đáng kể các đối tượng được đánh dấu là ảo giác thực sự có trong hình ảnh nhưng đã bị bỏ sót trong các chú thích gốc. Trong trường hợp này, nhiều lỗi mô hình được cho là thực chất là lỗi ghi nhãn tập dữ liệu.
Đối với phiên bản "đối kháng" của POPE, trong đó các câu hỏi dựa trên các đối tượng thường xuyên xuất hiện cùng nhau, tỷ lệ dương tính giả đã giảm. Điều này có thể phản ánh khả năng cao hơn rằng đối tượng được cho là vắng mặt đã được phát hiện. thực sự trong hình ảnh nhưng đã rời đi không dán nhãn.
Mặc dù những thay đổi này ảnh hưởng đến độ chính xác và khả năng thu hồi, thứ hạng mô hình vẫn tương đối ổn định đối với cả hai số liệu.
Điểm F1 – thước đo đánh giá chính của POPE – nhạy cảm hơn nhiều với các hiệu chỉnh nhãn. Trên tập hợp con ngẫu nhiên, các mô hình xếp hạng gần đầu theo nhãn gốc, chẳng hạn như InternVL2.5-8B và -26B, tụt xuống cuối khi được chấm điểm bằng RePOPE. Các mô hình khác, chẳng hạn như Ovis2-4B và -8B, vươn lên đầu.
Một mô hình tương tự xuất hiện trong điểm số về độ chính xác, mặc dù các tác giả lưu ý rằng chúng hiện có thể bị sai lệch, vì tập dữ liệu đã hiệu chỉnh có chứa số lượng ví dụ tích cực và tiêu cực không đều nhau.
Các tác giả cho rằng tác động mạnh mẽ của lỗi chú thích lên kết quả chuẩn mực nhấn mạnh nhu cầu về dữ liệu chất lượng cao. Để hỗ trợ đánh giá đáng tin cậy hơn về ảo giác đối tượng, họ đã phát hành nhãn đã sửa tại GitHub.
Tuy nhiên, họ lưu ý rằng việc dán nhãn lại này không giải quyết hoàn toàn tình trạng bão hòa của chuẩn mực, vì nhiều mô hình vẫn đạt được tỷ lệ dương tính thực và âm tính thực trên 90%. Họ đề xuất rằng các chuẩn mực bổ sung, chẳng hạn như DASH-B, sử dụng một tập hợp các ví dụ tiêu cực mang tính thách thức hơn, nên được sử dụng cùng với RePOPE.
Kết luận
Thí nghiệm cụ thể này khả thi vì quy mô tập dữ liệu liên quan rất nhỏ. Việc chứng minh cùng một giả thuyết trên các tập dữ liệu siêu quy mô sẽ liên quan đến việc xử lý các phần dữ liệu rất hạn chế; trong các tập dữ liệu lớn có tính đa dạng cao, việc phân lập các nhóm có tính đại diện thống kê và nhất quán về mặt ngữ nghĩa có thể gần như không thể - có khả năng làm sai lệch kết quả.
Kể cả nếu có thể, thì biện pháp khắc phục nào sẽ có trong tình trạng hiện tại? Lập luận này chắc chắn sẽ quay trở lại nhu cầu chú thích của con người tốt hơn và phong phú hơn.
Về mặt này, "tốt hơn" và "phong phú hơn" tồn tại như những vấn đề riêng biệt, vì người ta có thể có được khối lượng chú thích lớn hơn thông qua các nền kinh tế chạy đua xuống đáy như Amazon Mechanical Turk (AMT). Rõ ràng, điều này có khả năng khai thác tiểu kinh tế thường xuyên dẫn đến kết quả kém hơn.
Ngoài ra, người ta có thể giao nhiệm vụ chú thích cho các vùng kinh tế nơi cùng một khoản chi tiêu sẽ tạo ra số lượng chú thích lớn hơn. Tuy nhiên, người chú thích càng xa trường hợp sử dụng dự định của mô hình mà nhãn của họ sẽ định hình thì khả năng mô hình kết quả sẽ phù hợp với nhu cầu hoặc kỳ vọng của miền mục tiêu càng thấp.
Do đó, đây vẫn là một trong những thách thức dai dẳng và chưa được giải quyết nhất trong nền kinh tế phát triển máy học.
Lần đầu tiên xuất bản vào thứ tư, ngày 23 tháng 2025 năm XNUMX










