Góc nhìn Anderson
ảo tưởng ‘Tải thêm nhãn!’ trong nghiên cứu AI

Một quan điểm phổ biến trong nghiên cứu học máy hiện tại là học máy bản thân có thể được sử dụng để cải thiện chất lượng chú thích dữ liệu AI – đặc biệt là chú thích hình ảnh dành cho sử dụng trong mô hình ngôn ngữ tầm nhìn (VLMs). Đường lối suy nghĩ này được thúc đẩy bởi chi phí cao của chú thích con người, và gánh nặng thêm của giám sát hiệu suất của người chú thích.
Có thể lập luận rằng đây là tương đương AI của meme “tải thêm RAM” vào đầu những năm 2000, meme này đã chế giễu quan niệm rằng một hạn chế phần cứng có thể được giải quyết bằng một bản sửa lỗi dựa trên phần mềm.
Đây cũng là một vấn đề bị coi nhẹ; trong khi các mô hình AI mới thu hút sự chú ý rộng rãi trong cả lĩnh vực công cộng và thương mại, chú thích thường xuất hiện như một chi tiết nhỏ trong các đường ống học máy, bị che khuất bởi sự phấn khích xung quanh các khuôn khổ rộng lớn hơn.
Thực tế, khả năng của các hệ thống học máy trong việc nhận ra và tái tạo mẫu (trường hợp sử dụng trung tâm của gần như tất cả các hệ thống AI) là phụ thuộc vào chất lượng và tính nhất quán của chú thích thế giới thực – nhãn và cụm từ được tạo hoặc phân quyết bởi con người thực, thường đưa ra các phán quyết chủ quan về các điểm dữ liệu riêng lẻ trong điều kiện không lý tưởng.
Tất yếu, các hệ thống tìm cách quan sát và tái tạo mẫu trong hành vi của người chú thích (và do đó thay thế người chú thích và tạo điều kiện cho việc dán nhãn chính xác ở quy mô lớn) không thể hy vọng hoạt động tốt trên dữ liệu không chứa trong các ví dụ được lấy từ người quan sát. Không có gì ‘tương tự’ là hoàn toàn giống nhau, và sự tương đương giữa các lĩnh vực vẫn còn là một sự theo đuổi đầy vấn đề trong tầm nhìn máy tính.
Đồng tiền dữ liệu ‘upstream’ phải dừng lại ở một nơi nào đó, và trong trường hợp này, đó chính xác là nơi nó dừng lại – với một bộ não con người đưa ra một số loại phân biệt chủ quan để mã hóa dữ liệu cho một hệ thống nhân tạo.
Nghề may vá
Cho đến gần đây, những sai sót phát sinh từ việc chú thích dữ liệu không được chăm sóc kỹ lưỡng được coi là thiệt hại phụ chấp nhận được trong bối cảnh kết quả không hoàn hảo nhưng vẫn có thể bán được từ các hệ thống AI tạo sinh.
Thực tế, chỉ trong năm nay, một nghiên cứu từ Singapore kết luận rằng ảo giác – tức là những lần hệ thống AI tưởng tượng ra những thứ làm suy yếu ý định của chúng ta – là không thể tránh khỏi, và gắn liền với kiến trúc khái niệm của các hệ thống như vậy.
Để đối phó với điều này, các đại lý dựa trên RAG – những đại lý có thể ‘xác minh’ các sự kiện thông qua tìm kiếm trên internet – đang trở nên phổ biến trong nghiên cứu và các giải pháp thương mại được áp dụng. Tuy nhiên, chúng thêm vào chi phí tài nguyên và độ trễ trong các truy vấn; ngoài ra, thông tin mới được áp dụng cho một mô hình đã được đào tạo không thể cạnh tranh với các kết nối phức tạp và sâu sắc hơn đặc trưng cho các lớp bản địa trong một mô hình đã được đào tạo.
Sẽ tốt hơn nếu dữ liệu chú thích thông tin cho các mô hình này ít khiếm khuyết hơn ngay từ đầu, ngay cả khi nó không thể hoàn hảo (ít nhất vì hoạt động này xâm phạm vào lĩnh vực chủ quan của con người).
RePOPE
Một bài báo mới từ Đức nhấn mạnh các vấn đề phát sinh từ việc dựa vào các tập dữ liệu cũ, được sử dụng rộng rãi, tập trung đặc biệt vào độ chính xác và độ tin cậy của các chú thích hình ảnh. Các phát hiện của các nhà nghiên cứu cho thấy rằng lỗi nhãn trong các điểm chuẩn có thể che giấu hoặc làm sai lệch ảo giác trong các mô hình ngôn ngữ tầm nhìn.

Từ bài báo mới, một số ví dụ nơi các chú thích ban đầu không thể xác định chính xác các đối tượng trong tập dữ liệu hình ảnh MSCOCO. Sự sửa đổi thủ công của các nhà nghiên cứu đối với tập dữ liệu điểm chuẩn POPE giải quyết những khiếm khuyết này, chứng tỏ chi phí của việc tiết kiệm tiền cho việc chăm sóc chú thích. Nguồn: https://arxiv.org/pdf/2504.15707
Hãy tưởng tượng một mô hình được hiển thị một hình ảnh của một cảnh đường phố và được hỏi liệu có một chiếc xe đạp trong đó. Mô hình trả lời đúng. Nếu tập dữ liệu điểm chuẩn cho biết không có xe đạp, mô hình được đánh dấu sai. Nhưng nếu một chiếc xe đạp được nhìn thấy rõ ràng trong hình ảnh, và chỉ đơn giản là bị bỏ qua trong quá trình chú thích, thì câu trả lời của mô hình là chính xác, và điểm chuẩn đã thất bại. Những sai lầm như thế này có thể tích lũy trên toàn bộ tập dữ liệu, tạo ra một bức tranh sai lệch về những mô hình nào chính xác và những mô hình nào dễ bị ảo giác.
Do đó, khi các chú thích không chính xác hoặc mơ hồ được coi là chân lý, mô hình có thể xuất hiện như thể chúng đang ảo giác khi chúng chính xác, hoặc có vẻ chính xác khi chúng không chính xác, làm sai lệch cả việc đo lường ảo giác và xếp hạng hiệu suất của mô hình, và khiến việc chẩn đoán hoặc giải quyết vấn đề trở nên khó khăn hơn.
Bài báo mới này tái đánh giá một điểm chuẩn được sử dụng rộng rãi gọi là Đánh giá thăm dò dựa trên đối tượng (POPE), kiểm tra xem các mô hình ngôn ngữ tầm nhìn có thể xác định chính xác những gì có hoặc không có trong một hình ảnh.
POPE dựa trên các nhãn từ tập dữ liệu có ảnh hưởng Microsoft COCO: Đối tượng chung trong ngữ cảnh (MSCOCO), một tập hợp các hình ảnh được chú thích đã được coi là cung cấp một mức độ chính xác của chú thích.
POPE đánh giá ảo giác đối tượng trong các mô hình ngôn ngữ tầm nhìn lớn bằng cách định lại vấn đề như một nhiệm vụ phân loại nhị phân. Thay vì phân tích các chú thích được tạo, hệ thống đặt câu hỏi có/không đơn giản cho mô hình về việc liệu các đối tượng cụ thể có trong hình ảnh hay không, sử dụng các mẫu như ‘Có một <đối tượng> trong hình ảnh không?’.

Ví dụ về ảo giác đối tượng trong các mô hình ngôn ngữ tầm nhìn. Các nhãn in đậm chỉ ra các đối tượng được đánh dấu là có mặt trong các chú thích ban đầu, trong khi các nhãn màu đỏ chỉ ra các đối tượng được mô hình ảo giác. Ví dụ bên trái phản ánh một đánh giá dựa trên hướng dẫn truyền thống, trong khi ba ví dụ bên phải được vẽ từ các biến thể điểm chuẩn POPE khác nhau. Nguồn: https://aclanthology.org/2023.emnlp-main.20.pdf
Các đối tượng thực (đáp án: Đúng) được ghép nối với các đối tượng không tồn tại được lấy mẫu (đáp án: Không), được chọn thông qua các chiến lược ngẫu nhiên, phổ biến (phổ biến) hoặc dựa trên sự đồng diễn (đối thủ). Thiết lập này cho phép đánh giá ổn định và không nhạy cảm với lời nhắc về ảo giác mà không dựa vào phân tích chú thích phức tạp dựa trên quy tắc.
Các tác giả của bài báo mới – có tiêu đề RePOPE: Tác động của lỗi chú thích lên điểm chuẩn POPE – thách thức độ chính xác được cho là của POPE bằng cách kiểm tra lại các nhãn trên hình ảnh của điểm chuẩn (tức là MSCOCO) – và phát hiện ra rằng một số lượng đáng ngạc nhiên là sai hoặc không rõ ràng.

Ví dụ từ tập dữ liệu MSCOCO năm 2014. Nguồn: https://arxiv.org/pdf/1405.0312
Những sai lầm này thay đổi cách các mô hình được xếp hạng, với một số mô hình ban đầu hoạt động tốt rơi xuống sau khi được đánh giá lại với các nhãn đã sửa.
Trong các thử nghiệm, các tác giả đã đánh giá một loạt các mô hình ngôn ngữ tầm nhìn mở trên cả điểm chuẩn POPE ban đầu và phiên bản RePOPE đã được chỉnh sửa lại của họ.
Theo bài báo, các chú thích đã sửa lại dẫn đến những thay đổi đáng kể trong xếp hạng mô hình, đặc biệt là trong điểm F1, với một số mô hình hoạt động cao trong POPE giảm xuống khi được đánh giá lại với RePOPE.
Các tác giả cho rằng sự thay đổi này minh họa mức độ mà lỗi chú thích có thể che giấu hành vi ảo giác thực sự của mô hình, và họ trình bày RePOPE như một công cụ đáng tin cậy hơn để đánh giá sự dễ bị ảo giác.

Trong một ví dụ khác từ bài báo mới, chúng ta thấy cách các chú thích POPE ban đầu không thể phân biệt các đối tượng tinh vi, chẳng hạn như một người ngồi bên cạnh cabin của một xe điện trong ảnh bên phải, hoặc ghế bị che khuất bởi người chơi tennis trong ảnh thứ hai từ trái.
Phương pháp và Thử nghiệm
Các nhà nghiên cứu đã chú thích lại tất cả các chú thích trong tập dữ liệu MSCOCO ban đầu, với hai người chú thích được chỉ định cho mỗi trường hợp dữ liệu. Khi sự mơ hồ về chất lượng của các nhãn ban đầu phát sinh (như trong các ví dụ dưới đây), những kết quả này đã được đặt sang một bên từ vòng thử nghiệm.

Các trường hợp mơ hồ, nơi sự không nhất quán trong việc chú thích POPE phản ánh ranh giới phân loại không rõ ràng. Ví dụ, một con gấu bông được dán nhãn là một con gấu, một chiếc mô tô được dán nhãn là một chiếc xe đạp, hoặc các phương tiện sân bay được dán nhãn là ô tô. Những trường hợp này được loại trừ khỏi RePOPE do bản chất chủ quan của những phân loại như vậy, cũng như sự không nhất quán trong các nhãn ban đầu của MSCOCO.
Bài báo tuyên bố:
‘Các người chú thích ban đầu đã bỏ qua những người ở hậu cảnh hoặc đằng sau kính, người chơi tennis che khuất ‘ghế’ ở hậu cảnh và món salad bắp cải chỉ chứa một dải sọc nhỏ của một củ cà rốt.
‘Đối với một số đối tượng, các chú thích COCO không nhất quán, có khả năng là do các định nghĩa khác nhau về những đối tượng đó được sử dụng bởi các người chú thích ban đầu. Việc phân loại một ‘con gấu bông’ là một ‘con gấu’, một chiếc mô tô là một chiếc ‘xe đạp’ động cơ, hoặc một phương tiện sân bay là một ‘ô tô’ phụ thuộc vào các định nghĩa cụ thể, dẫn đến sự không nhất quán trong các chú thích thực sự của POPE. Do đó, chúng tôi dán nhãn các cặp hình ảnh-câu hỏi tương ứng là ‘mơ hồ’.’

Kết quả của việc chú thích lại: các câu hỏi tích cực được chia sẻ trên tất cả các biến thể POPE. Trong số những câu được dán nhãn ‘Có’ trong POPE, 9,3% được phát hiện là không chính xác và 13,8% được phân loại là mơ hồ. Đối với các câu ‘Không’, 1,7% được dán nhãn sai và 4,3% được phân loại là mơ hồ.
Các tác giả đã đánh giá một loạt các mô hình mở trên POPE và trên RePOPE, trên nhiều kiến trúc và kích thước mô hình khác nhau. Các mô hình được chọn bao gồm một số kiến trúc hàng đầu trên bảng xếp hạng OpenVLM: InternVL2.5 (8B/26B/38B/78B và 8B-MPO/26B-MPO); LLaVA-NeXT; Vicuna; Mistral 7b; Llama; LLaVA-OneVision; Ovis2 (1B/2B/4B/8B); PaliGemma-3B; và PaliGemma2 (3B/10B).

Kết quả ban đầu: tốc độ lỗi cao trong các nhãn tích cực ban đầu dẫn đến sự giảm mạnh trong các kết quả đúng trên tất cả các mô hình. Các kết quả sai lệch thay đổi trên các tập con, gần như tăng gấp đôi trên tập con ngẫu nhiên, nhưng vẫn không thay đổi nhiều trên tập con phổ biến và cho thấy sự giảm nhẹ trên tập con đối thủ. Việc dán nhãn lại có tác động lớn đến xếp hạng dựa trên điểm F1. Các mô hình như Ovis2-4B và Ovis2-8B, những mô hình hoạt động tốt trên các tập con phổ biến và đối thủ trong POPE, cũng vươn lên vị trí top trên tập con ngẫu nhiên dưới RePOPE. Vui lòng tham khảo tệp PDF nguồn để có độ phân giải tốt hơn.
Các đồ thị kết quả trên minh họa cách số lượng kết quả đúng và sai lệch thay đổi sau khi sửa lại các nhãn trong điểm chuẩn.
Các kết quả đúng giảm trên tất cả các mô hình, cho thấy rằng chúng thường được ghi nhận cho các câu trả lời chính xác khi những câu trả lời đó chỉ chính xác dưới các nhãn bị lỗi, trong khi các kết quả sai lệch theo một mẫu thay đổi hơn.
Trên phiên bản ‘ngẫu nhiên’ của POPE, các kết quả sai lệch gần như tăng gấp đôi đối với nhiều mô hình, cho thấy rằng một số lượng đáng kể các đối tượng được gắn nhãn là ảo giác thực sự có mặt trong hình ảnh nhưng đã bị bỏ qua trong các chú thích ban đầu. Trong trường hợp này, nhiều lỗi mô hình được cho là thực sự là lỗi chú thích dữ liệu.
Đối với phiên bản ‘đối thủ’ của POPE, nơi các câu hỏi dựa trên các đối tượng thường đồng diễn, các kết quả sai lệch giảm. Điều này có khả năng phản ánh sự tăng cao hơn về khả năng đối tượng bị cho là vắng mặt thực sự có trong hình ảnh nhưng không được dán nhãn.
Mặc dù những thay đổi này ảnh hưởng đến độ chính xác và độ hồi tưởng, xếp hạng mô hình vẫn tương đối ổn định đối với cả hai thước đo.
Điểm F1 – thước đo đánh giá chính của POPE – nhạy cảm hơn nhiều với việc sửa lại nhãn. Trên tập con ngẫu nhiên, các mô hình xếp gần đầu dưới các nhãn ban đầu, như InternVL2.5-8B và -26B, giảm xuống vị trí cuối khi được chấm với RePOPE. Những mô hình khác, như Ovis2-4B và -8B, vươn lên vị trí top.
Một mẫu tương tự xuất hiện trong các điểm số chính xác, mặc dù các tác giả lưu ý rằng những điểm số này có thể bị thiên vị, vì tập dữ liệu đã sửa lại chứa một số lượng không đồng đều các ví dụ tích cực và tiêu cực.
Các tác giả cho rằng tác động mạnh của lỗi chú thích lên kết quả điểm chuẩn nhấn mạnh nhu cầu về dữ liệu chất lượng cao. Để hỗ trợ đánh giá đáng tin cậy hơn về ảo giác đối tượng, họ đã phát hành các nhãn đã sửa lại trên GitHub.
Tuy nhiên, họ lưu ý rằng việc dán nhãn lại này không giải quyết hoàn toàn vấn đề bão hòa của điểm chuẩn, vì nhiều mô hình vẫn đạt được tỷ lệ đúng và sai trên 90%. Họ đề xuất rằng các điểm chuẩn bổ sung, như DASH-B, sử dụng một tập hợp ví dụ tiêu cực đầy thách thức hơn, nên được sử dụng cùng với RePOPE.
Kết luận
Thử nghiệm cụ thể này có thể thực hiện được vì quy mô rất nhỏ của tập dữ liệu liên quan. Việc chứng minh cùng một giả thuyết trên các tập dữ liệu siêu lớn sẽ liên quan đến việc làm việc trên các đoạn dữ liệu rất hạn chế; trong các tập dữ liệu lớn và đa dạng, nó có thể chứng minh gần như không thể để phân lập các nhóm đại diện thống kê và ngữ nghĩa nhất quán – có khả năng làm sai lệch kết quả.
Ngay cả khi nó có thể, liệu có giải pháp nào dưới trạng thái hiện tại của nghệ thuật? Luận điểm chuyển trở lại không thể tránh khỏi về nhu cầu về chú thích con người tốt hơn và dồi dào hơn.
Trong khía cạnh này, ‘tốt hơn’ và ‘dồi dào hơn’ tồn tại như những vấn đề riêng biệt, vì người ta có thể có được một lượng lớn hơn các chú thích thông qua các nền kinh tế theo hướng đua đến đáy như Amazon Mechanical Turk (AMT). Đương nhiên, nền kinh tế phụ này có khả năng bóc lột thường dẫn đến kết quả kém.
Hoặc, người ta có thể giao nhiệm vụ chú thích cho các khu vực kinh tế nơi cùng một khoản chi tiêu sẽ mang lại một lượng lớn hơn các chú thích. Tuy nhiên, càng xa người chú thích khỏi trường hợp sử dụng dự kiến của mô hình mà các nhãn của họ sẽ định hình, càng ít có khả năng mô hình kết quả sẽ phù hợp với nhu cầu hoặc kỳ vọng của lĩnh vực mục tiêu.
Vì vậy, đây vẫn là một trong những thách thức dai dẳng và chưa được giải quyết nhất trong kinh tế học của phát triển học máy.
Được xuất bản lần đầu vào thứ Tư, ngày 23 tháng 4 năm 2025












