Trí tuệ nhân tạo

Những Thiếu Sót Của Amazon Mechanical Turk Có Thể Đe Dọa Hệ Thống Tạo Ngôn Ngữ Tự Nhiên

Published September 16, 2021

Updated April 28, 2026

Martin Anderson

Một nghiên cứu mới từ Đại học Massachusetts Amherst đã so sánh giáo viên tiếng Anh với công nhân được tuyển dụng từ Amazon Mechanical Turk trong việc đánh giá đầu ra của Hệ Thống Tạo Ngôn Ngữ Tự Nhiên (NLG), kết luận rằng các tiêu chuẩn lỏng lẻo và ‘trò chơi’ của các nhiệm vụ được đánh giá cao среди công nhân AMT có thể cản trở sự phát triển của lĩnh vực này.

Báo cáo này đưa ra một số kết luận đáng kinh ngạc về mức độ mà việc thuê ngoài với giá rẻ các nhiệm vụ đánh giá NLG mở có thể dẫn đến kết quả và thuật toán kém chất lượng trong lĩnh vực này.

Các nhà nghiên cứu cũng đã biên soạn một danh sách 45 bài báo về tạo văn bản mở nơi nghiên cứu đã sử dụng AMT, và phát hiện ra rằng ‘đa số’ không báo cáo các chi tiết quan trọng về việc sử dụng dịch vụ đám đông của Amazon, khiến cho việc tái tạo kết quả của các bài báo trở nên khó khăn.

Lao Động Giá Rẻ

Báo cáo chỉ trích cả bản chất lao động giá rẻ của Amazon Mechanical Turk và các dự án học thuật (có khả năng bị hạn chế bởi ngân sách) đang cho AMT thêm uy tín bằng cách sử dụng (và trích dẫn) nó như một nguồn tài nguyên nghiên cứu hợp lệ và nhất quán. Các tác giả lưu ý:

‘Trong khi AMT là một giải pháp tiện lợi và tiết kiệm, chúng tôi quan sát thấy rằng sự biến động cao giữa các công nhân, hiệu chuẩn kém và các nhiệm vụ đòi hỏi nhận thức cao có thể dẫn các nhà nghiên cứu đến các kết luận khoa học sai lầm (ví dụ, rằng văn bản viết bằng tay là “kém” hơn GPT-2’s).’

Báo cáo đổ lỗi cho hệ thống chứ không phải người chơi, với các nhà nghiên cứu quan sát:

‘[Công nhân đám đông] thường bị underpaid cho lao động của họ, điều này gây hại cho cả chất lượng nghiên cứu và quan trọng hơn, khả năng của những công nhân đám đông này để kiếm thu nhập đủ sống.’

Bài báo bài báo, với tiêu đề Những Nguy Cơ Của Việc Sử Dụng Mechanical Turk Để Đánh Giá Tạo Văn Bản Mở, kết luận thêm rằng ‘người đánh giá chuyên gia’ như giáo viên ngôn ngữ và nhà ngôn ngữ học nên được sử dụng để đánh giá nội dung NLG mở, ngay cả khi AMT rẻ hơn.

Nhiệm Vụ Kiểm Tra

Khi so sánh hiệu suất của AMT với các độc giả chuyên nghiệp ít bị giới hạn thời gian, các nhà nghiên cứu đã chi 144 đô la cho dịch vụ AMT thực sự được sử dụng trong các thử nghiệm so sánh (mặc dù nhiều hơn đã được chi cho ‘kết quả không thể sử dụng’ – xem dưới đây), yêu cầu các ‘Turks’ ngẫu nhiên đánh giá một trong 200 văn bản, chia đều giữa nội dung văn bản do con người tạo và văn bản được tạo tự động.

Việc yêu cầu giáo viên chuyên nghiệp thực hiện công việc tương tự chi phí 187,50 đô la, và xác nhận hiệu suất vượt trội của họ (so với công nhân AMT) bằng cách thuê các nhà thầu tự do trên Upwork để sao chép các nhiệm vụ với chi phí thêm 262,50 đô la.

Mỗi nhiệm vụ bao gồm bốn tiêu chí đánh giá: ngữ pháp (‘Văn bản của mảnh chuyện có chính xác về mặt ngữ pháp không?’); sự mạch lạc (‘Các câu trong mảnh chuyện có phù hợp với nhau không?’); khả năng thích hợp (‘Bạn thích mảnh chuyện đến mức nào?’); và sự liên quan (‘Mảnh chuyện có liên quan đến lời nhắc không?’).

Tạo Văn Bản

Để có được tài liệu NLG cho các thử nghiệm, các nhà nghiên cứu đã sử dụng bộ dữ liệu Tạo Câu Chuyện Hierarchy Neural năm 2018 của Facebook AI Research, bao gồm 303.358 câu chuyện tiếng Anh được người dùng tại subreddit r/WritingPrompts phổ biến (15 triệu+ người dùng) tạo ra, nơi các câu chuyện của người đăng ký được ‘gieo’ bởi các ‘lời nhắc’ một câu trong một cách tương tự như các phương pháp hiện tại trong tạo hình ảnh từ văn bản – và, tất nhiên, trong các hệ thống NLG mở.

200 lời nhắc từ bộ dữ liệu đã được chọn ngẫu nhiên và truyền qua một mô hình GPT-2 cỡ trung sử dụng thư viện Hugging-Face Transformers. Do đó, hai tập kết quả đã được thu được từ cùng một lời nhắc: các bài luận dài do người viết tạo ra từ người dùng Reddit, và văn bản được tạo tự động bởi GPT-2.

Để ngăn chặn các công nhân AMT cùng đánh giá cùng một câu chuyện nhiều lần, ba phán quyết của công nhân AMT đã được yêu cầu cho mỗi ví dụ. Cùng với các thí nghiệm liên quan đến khả năng ngôn ngữ tiếng Anh của công nhân (xem cuối bài) và loại bỏ kết quả từ công nhân có nỗ lực thấp (xem ‘Thời Gian Ngắn’ dưới đây), điều này đã tăng tổng chi phí cho AMT lên khoảng 1.500 đô la Mỹ.

Để tạo ra một sân chơi công bằng, tất cả các thử nghiệm đều được thực hiện vào các ngày trong tuần từ 11:00-11:30 sáng theo giờ PST.

Kết Quả Và Kết Luận

Nghiên cứu rộng lớn này bao gồm nhiều chủ đề, nhưng các điểm chính như sau:

Thời Gian Ngắn

Bài báo phát hiện ra rằng thời gian nhiệm vụ trung bình được Amazon báo cáo là 360 giây thực tế đã giảm xuống còn 22 giây, và thời gian làm việc trung vị chỉ là 13 giây – một phần tư thời gian của giáo viên tiếng Anh nhanh nhất sao chép nhiệm vụ.

Từ Ngày 2 của nghiên cứu: các công nhân cá nhân (màu cam) đã dành ít thời gian hơn để đánh giá mỗi nhiệm vụ so với giáo viên được trả lương tốt hơn, và (sau đó) các nhà thầu Upwork được trả lương tốt hơn. Nguồn: https://arxiv.org/pdf/2109.06835.pdf

Vì AMT không áp dụng giới hạn về số lượng Nhiệm Vụ Trí Tuệ Con Người (HITs) mà một công nhân có thể thực hiện, các ‘người chơi lớn’ của AMT đã xuất hiện, với (lợi nhuận) danh tiếng cho việc hoàn thành số lượng nhiệm vụ cao trong mỗi thí nghiệm. Để bù đắp cho các HIT được chấp nhận bởi cùng một công nhân, các nhà nghiên cứu đã đo thời gian giữa các HIT được gửi liên tiếp, so sánh thời gian bắt đầu và kết thúc của mỗi HIT. Theo cách này, sự thiếu hụt giữa WorkTimeInSeconds được báo cáo của AMT và thời gian thực tế dành cho nhiệm vụ đã được làm rõ.

Vì công việc như vậy không thể được thực hiện trong các khung thời gian giảm này, các nhà nghiên cứu đã phải bù đắp cho điều này:

‘Vì không thể đọc cẩn thận một đoạn văn và đánh giá tất cả bốn thuộc tính trong thời gian ngắn như 13 giây, chúng tôi đo lường tác động đến xếp hạng trung bình khi lọc ra các công nhân dành quá ít thời gian cho mỗi HIT… Cụ thể, chúng tôi loại bỏ các đánh giá từ các công nhân có thời gian trung vị dưới 40 giây (đây là một tiêu chuẩn thấp), và tìm thấy rằng trung bình khoảng 42% xếp hạng của chúng tôi đã bị lọc ra (dao động từ 20%-72% trên tất cả các thí nghiệm).’

Bài báo cho rằng thời gian làm việc thực tế bị báo cáo sai trong AMT là ‘một vấn đề lớn’ thường bị các nhà nghiên cứu sử dụng dịch vụ này bỏ qua.

Cần Hướng Dẫn

Các phát hiện tiếp theo cho thấy rằng công nhân AMT không thể phân biệt đáng tin cậy giữa văn bản được viết bởi con người và văn bản được viết bởi máy, trừ khi họ nhìn thấy cả hai văn bản cùng nhau, điều này sẽ làm tổn thương một kịch bản đánh giá điển hình (trong đó người đọc nên có thể đưa ra phán quyết dựa trên một mẫu văn bản duy nhất, ‘thật’ hoặc được tạo tự động).

Chấp Nhận Tự Nhiên Văn Bản Nhân Tạo Chất Lượng Thấp

Công nhân AMT nhất quán đánh giá văn bản nhân tạo chất lượng thấp dựa trên GPT trên cùng một mức với văn bản chất lượng cao, mạch lạc được viết bởi con người, trái ngược với giáo viên tiếng Anh, những người có thể dễ dàng phân biệt sự khác biệt về chất lượng.

Không Có Thời Gian Chuẩn Bị, Không Có Context

Đầu vào đúng tâm trạng cho một nhiệm vụ trừu tượng như đánh giá tính xác thực không đến tự nhiên; giáo viên tiếng Anh cần 20 nhiệm vụ để hiệu chỉnh cảm nhận của họ với môi trường đánh giá, trong khi công nhân AMT thường không có ‘thời gian định hướng’ nào cả, làm giảm chất lượng đầu vào của họ.

Trò Chơi Hệ Thống

Báo cáo duy trì rằng tổng thời gian công nhân AMT dành cho các nhiệm vụ cá nhân bị lạm phát bởi các công nhân chấp nhận nhiều nhiệm vụ cùng một lúc và chạy qua các nhiệm vụ trong các tab khác nhau trên trình duyệt của họ, thay vì tập trung vào một nhiệm vụ cho thời gian nhiệm vụ được ghi lại.

Quốc Gia Xuất Xứ Là Quan Trọng

Cài đặt mặc định của AMT không lọc công nhân theo quốc gia xuất xứ, và báo cáo lưu ý công việc trước cho thấy rằng công nhân AMT sử dụng VPN để làm việc xung quanh các hạn chế địa lý, cho phép người nói không bản địa xuất hiện như người nói bản địa (trong một hệ thống mà, có lẽ khá ngây thơ, đồng nhất ngôn ngữ mẹ đẻ của một công nhân với vị trí địa lý dựa trên IP của họ).

Do đó, các nhà nghiên cứu đã chạy lại các thử nghiệm đánh giá trên AMT với các bộ lọc hạn chế người tham gia tiềm năng chỉ đến không-quốc gia nói tiếng Anh, và tìm thấy rằng ‘công nhân từ các quốc gia không nói tiếng Anh đã đánh giá sự mạch lạc, sự liên quan và ngữ pháp… thấp hơn đáng kể so với công nhân có cùng trình độ từ các quốc gia nói tiếng Anh’.

Báo cáo kết luận:

‘[Đánh giá] chuyên gia như nhà ngôn ngữ học hoặc giáo viên ngôn ngữ nên được sử dụng bất cứ khi nào có thể vì họ đã được đào tạo để đánh giá văn bản viết, và điều đó không tốn kém hơn nhiều…’

Được Xuất Bản 16 Tháng 9 Năm 2021 – Được Cập Nhật 18 Tháng 12 Năm 2021: Thêm thẻ