Kecerdasan buatan

‘Invisible’, Seringkali Tenaga Kerja yang Tidak Bahagia yang Menentukan Masa Depan AI

Published December 13, 2021

Updated April 28, 2026

Martin Anderson

Dua laporan baru, termasuk makalah yang dipimpin oleh Google Research, mengungkapkan kekhawatiran bahwa tren saat ini untuk mengandalkan kolam pekerja lepas global yang murah dan seringkali tidak berdaya untuk membuat kebenaran dasar untuk sistem pembelajaran mesin dapat memiliki implikasi besar bagi AI.

Di antara berbagai kesimpulan, studi Google menemukan bahwa bias pekerja kerumunan sendiri kemungkinan akan terintegrasi ke dalam sistem AI yang kebenaran dasarnya akan didasarkan pada respons mereka; bahwa praktik kerja yang tidak adil yang meluas (termasuk di AS) pada platform kerja kerumunan kemungkinan akan menurunkan kualitas respons; dan bahwa sistem ‘konsensus’ (secara efektif ‘pemilihan mini’ untuk beberapa kebenaran dasar yang akan mempengaruhi sistem AI hilir) yang saat ini menyelesaikan sengketa sebenarnya dapat membuang respons terbaik dan/atau paling berpengetahuan.

Itu adalah kabar buruk; kabar yang lebih buruk adalah bahwa hampir semua obat adalah mahal, memakan waktu, atau keduanya.

Ketidakamanan, Penolakan Acak, dan Kebencian

Makalah pertama paper, dari lima peneliti Google, berjudul Siapa Kebenaran? Menghitung Identitas Individu dan Kolektif yang Mendasari Anotasi Dataset; yang kedua, dari dua peneliti di Syracuse University di New York, berjudul Asal dan Nilai Perbedaan di Antara Pemberi Label Data: Studi Kasus Perbedaan Individu dalam Anotasi Ucapannya yang Dibenci.

Makalah Google mencatat bahwa pekerja kerumunan – yang evaluasi sering membentuk dasar penentuan sistem pembelajaran mesin yang mungkin akhirnya mempengaruhi kehidupan kita – sering beroperasi di bawah berbagai kendala yang mungkin mempengaruhi cara mereka merespons tugas eksperimental.

Misalnya, kebijakan saat ini Amazon Mechanical Turk memungkinkan pemberi tugas (mereka yang memberikan tugas) untuk menolak pekerjaan anotator tanpa pertanggungjawaban*:

‘[S]ebagian besar pekerja kerumunan (94%) telah memiliki pekerjaan yang ditolak atau untuk yang mereka tidak dibayar. Namun, pemberi tugas tetap mempertahankan hak penuh atas data yang mereka terima terlepas dari apakah mereka menerima atau menolaknya; Roberts (2016) menggambarkan sistem ini sebagai satu yang “memungkinkan pencurian upah”.

‘Selain itu, menolak pekerjaan dan menahan gaji menyakitkan karena penolakan sering disebabkan oleh instruksi yang tidak jelas dan kurangnya saluran umpan balik yang berarti; banyak pekerja kerumunan melaporkan bahwa komunikasi yang buruk mempengaruhi pekerjaan mereka secara negatif.’

Penulis merekomendasikan bahwa peneliti yang menggunakan layanan outsourcing untuk mengembangkan dataset harus mempertimbangkan bagaimana platform kerja kerumunan memperlakukan pekerjanya. Mereka lebih lanjut mencatat bahwa di Amerika Serikat, pekerja kerumunan diklasifikasikan sebagai ‘kontraktor independen’, dengan pekerjaan tersebut tidak diatur, dan tidak tercakup dalam upah minimum yang ditetapkan oleh Fair Labor Standards Act.

Konteks Penting

Makalah tersebut juga mengkritik penggunaan ad hoc tenaga kerja global untuk tugas anotasi, tanpa mempertimbangkan latar belakang anotator.

Di mana anggaran memungkinkan, umum untuk peneliti menggunakan AMT dan platform kerja kerumunan serupa untuk memberikan tugas yang sama kepada empat anotator, dan mematuhi ‘aturan mayoritas’ pada hasilnya.

Pengalaman kontekstual, makalah tersebut berpendapat, secara mencolok diabaikan. Misalnya, jika pertanyaan tugas terkait seksisme didistribusikan secara acak di antara tiga pria yang setuju berusia 18-57 dan satu perempuan yang tidak setuju berusia 29, vonis pria memenangkan, kecuali dalam kasus yang relatif jarang di mana peneliti memperhatikan kualifikasi anotator mereka.

Demikian pula, jika pertanyaan tentang perilaku geng di Chicago didistribusikan di antara seorang wanita pedesaan AS berusia 36, seorang pria penduduk Chicago berusia 42, dan dua anotator dari Bangalore dan Denmark, orang yang paling terkena dampak masalah (pria Chicago) hanya memegang saham seperempat dalam hasil, dalam konfigurasi outsourcing standar.

Peneliti menyatakan:

‘[K]onsep “satu kebenaran” dalam respons kerumunan adalah mitos; perbedaan antara anotator, yang sering dianggap negatif, sebenarnya dapat memberikan sinyal yang berharga. Kedua, karena banyak kolam anotator kerumunan yang miring secara sosio-demografi, ada implikasi untuk populasi mana yang diwakili dalam dataset serta populasi mana yang menghadapi tantangan kerja kerumunan.

‘Menghitung miring dalam demografi anotator sangat penting untuk mengkontekstualisasikan dataset dan memastikan penggunaan hilir yang bertanggung jawab. Singkatnya, ada nilai dalam mengakui, dan menghitung, latar belakang sosio-budaya pekerja — baik dari perspektif kualitas data dan dampak sosial.’

Tidak Ada ‘Pendapat Netral’ pada Topik Panas

Bahkan di mana pendapat empat anotator tidak miring, baik secara demografi atau oleh beberapa metrik lain, makalah Google mengungkapkan kekhawatiran bahwa peneliti tidak mempertimbangkan pengalaman hidup atau disposisi filosofis anotator:

‘Sementara beberapa tugas cenderung meminta pertanyaan objektif dengan jawaban yang benar (apakah ada wajah manusia dalam gambar?), seringkali dataset bertujuan untuk menangkap penilaian pada tugas subjektif dengan tidak ada jawaban yang benar secara universal (apakah teks ini ofensif?). Penting untuk disengaja tentang apakah untuk mengandalkan penilaian subjektif anotator.’

Mengenai ambang khusus untuk menangani masalah dalam pelabelan ucapannya yang dibenci, makalah Syracuse mencatat bahwa pertanyaan lebih kategoris seperti Apakah ada kucing dalam foto ini? secara mencolok berbeda dari meminta pekerja kerumunan apakah sebuah frasa ‘beracun’:

‘Dengan mempertimbangkan kekacauan kenyataan sosial, persepsi orang tentang toksisitas bervariasi secara substansial. Label mereka dari konten toksik didasarkan pada persepsi mereka sendiri.’

Menemukan bahwa kepribadian dan usia memiliki ‘pengaruh substansial’ pada pelabelan dimensional ucapannya yang dibenci, peneliti Syracuse menyimpulkan:

‘Temuan ini menunjukkan bahwa upaya untuk mendapatkan konsistensi anotasi di antara pemberi label dengan latar belakang yang berbeda dan kepribadian mungkin tidak pernah sepenuhnya berhasil.’

Hakim Juga Mungkin Bias

Kurangnya objektivitas ini kemungkinan akan berulang ke atas juga, menurut makalah Syracuse, yang berpendapat bahwa intervensi manual (atau kebijakan otomatis, juga diputuskan oleh manusia) yang menentukan ‘pemenang’ dari suara konsensus juga harus dikenakan pengawasan.

Mengibaratkan proses ini dengan moderasi forum, penulis menyatakan*:

‘[P]engawas komunitas dapat menentukan nasib postingan dan pengguna di komunitas mereka dengan mempromosikan atau menyembunyikan postingan, serta menghormati, memalukan, atau melarang pengguna. Keputusan moderator mempengaruhi konten yang disampaikan kepada anggota komunitas dan audiens dan dengan demikian juga mempengaruhi pengalaman komunitas dalam diskusi.

‘Menganggap bahwa seorang moderator manusia adalah anggota komunitas yang memiliki homogenitas demografi dengan anggota komunitas lain, tampaknya memungkinkan bahwa skema mental yang mereka gunakan untuk mengevaluasi konten akan sesuai dengan yang lain anggota komunitas.’

Ini memberikan petunjuk tentang mengapa peneliti Syracuse telah sampai pada kesimpulan yang sangat pesimis tentang masa depan anotasi ucapannya yang dibenci; implikasinya adalah bahwa kebijakan dan keputusan tentang pendapat kerja kerumunan yang tidak setuju tidak dapat hanya diterapkan secara acak sesuai dengan ‘prinsip yang dapat diterima’ yang tidak tertanam di mana pun (atau tidak dapat direduksi menjadi skema yang dapat diterapkan, bahkan jika mereka ada).

Orang-orang yang membuat keputusan (pekerja kerumunan) bias, dan akan tidak berguna untuk tugas tersebut jika mereka tidak bias, karena tugasnya adalah untuk memberikan penilaian nilai; orang-orang yang menengahi sengketa dalam hasil kerja kerumunan juga membuat penilaian nilai dalam menetapkan kebijakan untuk sengketa.

Mungkin ada ratusan kebijakan dalam satu kerangka deteksi ucapannya yang dibenci, dan kecuali jika setiap kebijakan diambil semua jalan kembali ke Mahkamah Agung, di mana ‘konsensus otoritatif’ dapat berasal?

Peneliti Google menyarankan bahwa ‘[perbedaan antara anotator mungkin menyematkan nuansa yang berharga tentang tugas’. Makalah tersebut mengusulkan penggunaan metadata dalam dataset yang mencerminkan dan mengkontekstualisasikan sengketa.

Namun, sulit untuk melihat bagaimana lapisan data konteks-spesifik seperti itu dapat pernah mengarah pada metrik yang serupa, beradaptasi dengan tuntutan tes standar yang mapan, atau mendukung hasil definitif — kecuali dalam skenario yang tidak realistis dengan mengadopsi kelompok peneliti yang sama di seluruh pekerjaan berikutnya.

Mengkurasi Kolam Anotator

Semua ini menganggap bahwa ada anggaran dalam proyek penelitian untuk anotasi multiple yang akan mengarah pada suara konsensus. Dalam banyak kasus, peneliti mencoba ‘mengkurasi’ kolam anotasi yang diserahkan dengan lebih murah dengan menentukan ciri-ciri yang harus dimiliki pekerja, seperti lokasi geografis, jenis kelamin, atau faktor budaya lainnya, menukar pluralitas untuk spesifisitas.

Makalah Google berpendapat bahwa cara maju dari tantangan ini bisa dengan membangun kerangka komunikasi yang diperluas dengan anotator, serupa dengan komunikasi minimal yang aplikasi Uber fasilitasi antara pengemudi dan penumpang.

Pertimbangan yang hati-hati terhadap anotator akan, secara alami, menjadi hambatan bagi pengeluaran anotasi hiperskala, menghasilkan baik dataset yang terbatas dan volume rendah yang memiliki rasional yang lebih baik untuk hasilnya, atau ‘evaluasi’ yang terburu-buru dari anotator yang terlibat, mendapatkan detail terbatas tentang mereka, dan menggambarkan mereka sebagai ‘cocok untuk tugas’ berdasarkan terlalu sedikit informasi.

Itu jika anotator jujur.

‘Pembuat Orang’ di Label Dataset yang Diserahkan

Dengan tenaga kerja yang tersedia yang underpaid, di bawah persaingan yang ketat untuk tugas yang tersedia, dan tertekan oleh perspektif karir yang terbatas, anotator termotivasi untuk memberikan ‘jawaban yang benar’ dengan cepat dan melanjutkan ke tugas mini berikutnya.

Jika ‘jawaban yang benar’ adalah sesuatu yang lebih rumit daripada Ada kucing/Tidak ada kucing, makalah Syracuse berpendapat bahwa pekerja akan mencoba untuk menduga ‘jawaban yang dapat diterima’ berdasarkan konten dan konteks pertanyaan*:

‘Baik proliferasi konseptualisasi alternatif dan penggunaan metode anotasi yang sederhana secara meluas secara nyata menghambat kemajuan penelitian tentang ucapannya yang dibenci online. Misalnya, Ross, et al. menemukan bahwa menampilkan definisi Twitter tentang tindakan benci kepada anotator menyebabkan mereka sebagian menyelaraskan pendapat mereka dengan definisi. Penyelarasan ini menghasilkan reliabilitas antar-penilai yang sangat rendah dari anotasi.’

* Konversi saya dari kutipan inline makalah ke tautan.

Diterbitkan 13 Desember 2021 – Diperbarui 18 Desember 2021: Tag ditambahkan