Trí tuệ nhân tạo
‘Invisible’, Thường Không Hạnh Phúc Lực Lượng Lao Động Quyết Định Tương lai của Trí tuệ Nhân tạo

Hai báo cáo mới, bao gồm một bài báo do Google Research dẫn đầu, thể hiện mối quan ngại rằng xu hướng hiện tại là dựa vào một nhóm công nhân tự do giá rẻ và thường bị tước quyền trên toàn cầu để tạo ra sự thật cơ bản cho các hệ thống học máy có thể có những tác động lớn về hạ lưu đối với Trí tuệ Nhân tạo.
Trong số nhiều kết luận, nghiên cứu của Google cho thấy rằng những thành kiến của chính những công nhân đông đảo có thể sẽ được nhúng vào các hệ thống Trí tuệ Nhân tạo mà sự thật cơ bản của chúng sẽ dựa trên phản hồi của họ; rằng những hành vi lao động không công bằng rộng rãi (bao gồm cả ở Mỹ) trên các nền tảng lao động đông đảo có thể làm giảm chất lượng phản hồi; và rằng hệ thống “đồng thuận” (tương tự như một “cuộc bầu cử nhỏ” cho một số phần của sự thật cơ bản sẽ ảnh hưởng đến các hệ thống Trí tuệ Nhân tạo hạ lưu) hiện đang giải quyết các tranh chấp có thể thực sự bỏ qua những phản hồi tốt nhất và/hoặc thông tin nhất.
Đó là tin xấu; tin worse là hầu như tất cả các biện pháp khắc phục đều tốn kém, tốn thời gian, hoặc cả hai.
Bất an, Từ chối Ngẫu nhiên, và Cảm xúc Tiêu cực
Báo cáo đầu tiên bài báo, từ năm nhà nghiên cứu của Google, có tên Ai là Sự thật Cơ bản? Kế toán cho Các Định danh Cá nhân và Tập thể Dưới dạng Ghi chú Dữ liệu; báo cáo thứ hai, từ hai nhà nghiên cứu tại Đại học Syracuse ở New York, có tên Nguồn gốc và Giá trị của Sự không đồng ý Giữa các Người ghi nhãn Dữ liệu: Một Nghiên cứu Trường hợp về Sự khác biệt Cá nhân trong Ghi chú Phát ngôn Ghét bỏ.
Báo cáo của Google lưu ý rằng những công nhân đông đảo – những đánh giá của họ thường hình thành cơ sở xác định của các hệ thống học máy có thể cuối cùng ảnh hưởng đến cuộc sống của chúng ta – thường hoạt động dưới một loạt các hạn chế có thể ảnh hưởng đến cách họ phản hồi các nhiệm vụ thí nghiệm.
Ví dụ, các chính sách hiện tại của Amazon Mechanical Turk cho phép người yêu cầu (những người đưa ra nhiệm vụ) từ chối công việc của người ghi chú mà không có trách nhiệm*:
‘[Một] đa số lớn của công nhân đông đảo (94%) đã có công việc bị từ chối hoặc không được trả lương. Tuy nhiên, người yêu cầu vẫn giữ toàn quyền đối với dữ liệu họ nhận được bất kể họ có chấp nhận hoặc từ chối nó; Roberts (2016) mô tả hệ thống này là một hệ thống “cho phép đánh cắp lương”.’
‘Hơn nữa, việc từ chối công việc và giữ lại tiền lương rất đau đớn vì việc từ chối thường được gây ra bởi các hướng dẫn không rõ ràng và thiếu các kênh phản hồi có ý nghĩa; nhiều công nhân đông đảo báo cáo rằng giao tiếp kém ảnh hưởng tiêu cực đến công việc của họ.’
Các tác giả khuyến nghị rằng các nhà nghiên cứu sử dụng dịch vụ ngoài để phát triển dữ liệu nên xem xét cách một nền tảng lao động đông đảo đối xử với công nhân của họ. Họ cũng lưu ý rằng ở Hoa Kỳ, công nhân đông đảo được phân loại là ‘nhân viên độc lập’, với công việc do đó không được quản lý, và không được bảo vệ bởi lương tối thiểu theo Đạo luật Tiêu chuẩn Lao động Công bằng.
Context Matters
Báo cáo cũng chỉ trích việc sử dụng ad hoc lao động toàn cầu cho các nhiệm vụ ghi chú, mà không xem xét nền tảng của người ghi chú.
Khi ngân sách cho phép, điều phổ biến đối với các nhà nghiên cứu sử dụng AMT và các nền tảng lao động đông đảo tương tự là đưa cùng một nhiệm vụ cho bốn người ghi chú, và tuân theo ‘quy tắc đa số’ về kết quả.
Kinh nghiệm theo ngữ cảnh, báo cáo cho rằng, là đáng chú ý dưới đánh giá. Ví dụ, nếu một câu hỏi liên quan đến phân biệt giới tính được phân phối ngẫu nhiên giữa ba người đàn ông đồng ý tuổi từ 18-57 và một người phụ nữ không đồng ý tuổi 29, thì phán quyết của người đàn ông sẽ thắng, trừ khi trong những trường hợp hiếm hoi khi các nhà nghiên cứu chú ý đến trình độ của người ghi chú.
Tương tự, nếu một câu hỏi về hành vi băng đảng ở Chicago được phân phối giữa một người phụ nữ nông thôn ở Mỹ tuổi 36, một người đàn ông cư trú ở Chicago tuổi 42, và hai người ghi chú từ Bangalore và Đan Mạch, thì người có khả năng bị ảnh hưởng nhiều nhất bởi vấn đề (người đàn ông Chicago) chỉ nắm giữ một phần tư cổ phần trong kết quả, trong một cấu hình ngoài nguồn tiêu chuẩn.
Các nhà nghiên cứu tuyên bố:
‘[Khái niệm] “một sự thật” trong phản hồi của đám đông là một huyền thoại; sự không đồng ý giữa người ghi chú, thường được coi là tiêu cực, thực sự có thể cung cấp một tín hiệu có giá trị. Thứ hai, vì nhiều nhóm người ghi chú đông đảo bị thiên vị về mặt xã hội – dân số, có những ý nghĩa đối với dân số được đại diện trong dữ liệu cũng như dân số đối mặt với những thách thức của [lao động đông đảo]. ‘
‘Kế toán cho sự thiên vị trong nhân khẩu học của người ghi chú là điều quan trọng để ngữ cảnh hóa dữ liệu và đảm bảo sử dụng hạ lưu có trách nhiệm. Tóm lại, có giá trị trong việc công nhận và kế toán cho nền tảng xã hội – văn hóa của công nhân — cả từ quan điểm chất lượng dữ liệu và tác động xã hội.’
Không có ‘Ý kiến Trung lập’ về Chủ đề Nóng
Ngay cả khi ý kiến của bốn người ghi chú không bị thiên vị, về mặt nhân khẩu học hoặc theo một số chỉ số khác, báo cáo của Google thể hiện mối quan ngại rằng các nhà nghiên cứu không tính đến kinh nghiệm cuộc sống hoặc quan điểm triết học của người ghi chú:
‘Trong khi một số nhiệm vụ có xu hướng đặt ra các câu hỏi khách quan với một câu trả lời đúng (có một khuôn mặt người trong hình ảnh?), thường thì các tập dữ liệu nhằm mục đích thu thập phán quyết về các nhiệm vụ chủ quan với không có câu trả lời đúng phổ quát (liệu văn bản này có xúc phạm?). Điều quan trọng là phải có chủ đích về việc liệu có dựa vào các phán quyết chủ quan của người ghi chú hay không.’
Về phạm vi cụ thể của nó để giải quyết các vấn đề trong việc ghi nhãn phát ngôn ghét bỏ, báo cáo của Syracuse lưu ý rằng các câu hỏi mang tính chất hơn như Có một con mèo trong bức ảnh này không? là đáng chú ý khác với việc hỏi một người ghi chú liệu một cụm từ có ‘độc hại’ hay không:
‘Hãy tính đến sự phức tạp của thực tế xã hội, nhận thức của mọi người về độc tính thay đổi đáng kể. Các nhãn của họ về nội dung độc tính dựa trên nhận thức của riêng họ.’
Phát hiện ra rằng tính cách và tuổi tác có ‘ảnh hưởng đáng kể’ đến việc ghi nhãn chiều của phát ngôn ghét bỏ, các nhà nghiên cứu của Syracuse kết luận:
‘Những phát hiện này cho thấy rằng nỗ lực để có được sự nhất quán trong việc ghi nhãn giữa các người ghi nhãn có nền tảng và tính cách khác nhau đối với phát ngôn ghét bỏ có thể không bao giờ thành công hoàn toàn.’
Thẩm phán Cũng Có thể Là Thiên vị
Sự thiếu khách quan này có khả năng lặp lại lên trên, theo báo cáo của Syracuse, cho rằng sự can thiệp thủ công (hoặc chính sách tự động, cũng được quyết định bởi con người) quyết định ‘người chiến thắng’ của cuộc bỏ phiếu đồng thuận cũng nên được xem xét.
So sánh quá trình này với việc điều tiết diễn đàn, các tác giả tuyên bố*:
‘[Một] người điều tiết cộng đồng có thể quyết định số phận của cả bài đăng và người dùng trong cộng đồng của họ bằng cách quảng cáo hoặc ẩn bài đăng, cũng như vinh danh, làm nhục hoặc cấm người dùng. Các quyết định của người điều tiết ảnh hưởng đến nội dung được giao cho các thành viên và khán giả của cộng đồng và theo cách mở rộng cũng ảnh hưởng đến kinh nghiệm của cộng đồng về cuộc thảo luận. ‘
‘Giả sử rằng một người điều tiết con người là một thành viên của cộng đồng có đồng nhất về mặt dân số với các thành viên cộng đồng khác, dường như có khả năng rằng lược đồ tinh thần mà họ sử dụng để đánh giá nội dung sẽ phù hợp với các thành viên cộng đồng khác.’
Điều này cung cấp một manh mối về lý do tại sao các nhà nghiên cứu của Syracuse đã đi đến một kết luận bi quan như vậy về tương lai của việc ghi nhãn phát ngôn ghét bỏ; ý nghĩa là các chính sách và quyết định về ý kiến không đồng ý của công việc đông đảo không thể chỉ được áp dụng một cách ngẫu nhiên theo các nguyên tắc ‘chấp nhận được’ không được quy định ở bất kỳ nơi nào (hoặc không thể quy约 thành một lược đồ áp dụng được, ngay cả khi chúng tồn tại).
Những người đưa ra quyết định (công nhân đông đảo) bị thiên vị, và sẽ vô ích cho những nhiệm vụ như vậy nếu họ không bị thiên vị, vì nhiệm vụ là cung cấp một phán quyết giá trị; những người quyết định về tranh chấp trong kết quả công việc đông đảo cũng đưa ra phán quyết giá trị khi thiết lập chính sách cho tranh chấp.
Có thể có hàng trăm chính sách trong chỉ một khuôn khổ phát hiện phát ngôn ghét bỏ, và trừ khi mỗi và mọi chính sách được đưa trở lại Tòa án Tối cao, nơi ‘đồng thuận có thẩm quyền’ có thể bắt nguồn?
Các nhà nghiên cứu của Google đề xuất rằng ‘[sự không đồng ý giữa người ghi chú có thể nhúng các sắc thái quý giá về nhiệm vụ’. Báo cáo đề xuất việc sử dụng siêu dữ liệu trong các tập dữ liệu phản ánh và ngữ cảnh hóa các tranh chấp.
Tuy nhiên, điều khó khăn là làm thế nào một lớp dữ liệu ngữ cảnh cụ thể như vậy có thể dẫn đến các chỉ số tương tự, thích ứng với nhu cầu của các bài kiểm tra tiêu chuẩn được thiết lập, hoặc hỗ trợ bất kỳ kết quả quyết định — ngoại trừ trong kịch bản không thực tế là áp dụng cùng một nhóm nhà nghiên cứu trên các công việc tiếp theo.
Chăm sóc nhóm Người ghi chú
Tất cả điều này giả định rằng có ngân sách trong một dự án nghiên cứu cho nhiều ghi chú sẽ dẫn đến một cuộc bỏ phiếu đồng thuận. Trong nhiều trường hợp, các nhà nghiên cứu cố gắng ‘chăm sóc’ nhóm người ghi chú đông đảo với chi phí thấp hơn bằng cách chỉ định các đặc điểm mà công nhân nên có, chẳng hạn như vị trí địa lý, giới tính hoặc các yếu tố văn hóa khác, trao đổi sự đa dạng cho sự cụ thể.
Báo cáo của Google cho rằng con đường đi tiếp từ những thách thức này có thể là thiết lập các khuôn khổ giao tiếp mở rộng với người ghi chú, tương tự như giao tiếp tối thiểu mà ứng dụng Uber tạo điều kiện giữa một tài xế và một hành khách.
Sự xem xét cẩn thận như vậy đối với người ghi chú sẽ, tự nhiên, là một chướng ngại vật đối với việc ghi chú ngoài nguồn với quy mô siêu lớn, dẫn đến các tập dữ liệu hạn chế và có dung lượng thấp hơn có lý do tốt hơn cho kết quả của chúng, hoặc một ‘đánh giá’ vội vàng về người ghi chú tham gia, thu được thông tin hạn chế về họ và mô tả họ là ‘phù hợp với nhiệm vụ’ dựa trên quá ít thông tin.
Đó là nếu người ghi chú đang thành thật.
‘Những Người Làm Cho Người Khác Hạnh Phúc’ trong Ghi nhãn Dữ liệu Ngoài nguồn
Với lực lượng lao động có sẵn đang thiếu trả lương, dưới sự cạnh tranh gay gắt cho các nhiệm vụ có sẵn, và bị ảnh hưởng bởi sự thiếu triển vọng nghề nghiệp, người ghi chú được мотив hóa để nhanh chóng cung cấp ‘câu trả lời đúng’ và chuyển sang nhiệm vụ nhỏ tiếp theo.
Nếu ‘câu trả lời đúng’ là bất cứ điều gì phức tạp hơn Has cat/No cat, báo cáo của Syracuse cho rằng công nhân có khả năng sẽ cố gắng suy luận một ‘câu trả lời chấp nhận được’ dựa trên nội dung và ngữ cảnh của câu hỏi*:
‘Cả sự phổ biến của các khái niệm thay thế và việc sử dụng rộng rãi các phương pháp ghi chú đơn giản có thể cản trở tiến bộ của nghiên cứu về phát ngôn ghét bỏ trực tuyến. Ví dụ, Ross và cộng sự phát hiện rằng việc hiển thị định nghĩa của Twitter về hành vi căm thù cho người ghi chú đã khiến họ phần nào phù hợp với quan điểm của mình với định nghĩa. Sự sắp xếp lại này dẫn đến độ tin cậy liên quan rất thấp của các ghi chú.’
* Sự chuyển đổi của tôi các trích dẫn nội tuyến của bài báo thành siêu liên kết.
Được xuất bản ngày 13 tháng 12 năm 2021 – Cập nhật ngày 18 tháng 12 năm 2021: Thêm thẻ












