Kecerdasan buatan

Kekurangan Amazon Mechanical Turk Dapat Mengancam Sistem Generasi Bahasa Alami

Published September 16, 2021

Updated April 28, 2026

Martin Anderson

Sebuah studi baru dari Universitas Massachusetts Amherst telah membandingkan guru bahasa Inggris dengan pekerja crowdsourced di Amazon Mechanical Turk dalam menilai output dari Sistem Generasi Bahasa Alami (NLG), menyimpulkan bahwa standar yang longgar dan ‘permainan’ tugas yang dihargai di kalangan pekerja AMT dapat menghambat perkembangan sektor ini.

Laporan ini menyimpulkan beberapa kesimpulan yang menghancurkan sejauh mana ‘outsourcing murah skala industri’ dari tugas evaluasi NLG terbuka dapat menyebabkan hasil dan algoritma yang inferior di sektor ini.

Peneliti juga mengumpulkan daftar 45 makalah tentang generasi teks terbuka di mana penelitian telah menggunakan AMT, dan menemukan bahwa ‘sebagian besar’ gagal melaporkan detail kritis tentang penggunaan layanan kerumunan Amazon, membuatnya sulit untuk mereproduksi temuan makalah.

Tenaga Kerja Sweat-Shop

Laporan ini mengkritik baik sifat sweat-shop dari Amazon Mechanical Turk, dan proyek akademis (yang mungkin terbatas anggaran) yang memberikan AMT kredibilitas tambahan dengan menggunakan (dan mengutip) sebagai sumber daya penelitian yang valid dan konsisten. Penulis mencatat:

‘Sementara AMT adalah solusi yang nyaman dan terjangkau, kami mengamati bahwa varians tinggi antara pekerja, kalibrasi yang buruk, dan tugas yang menantang kognitif dapat menyebabkan peneliti menarik kesimpulan ilmiah yang menyesatkan (misalnya, bahwa teks yang ditulis oleh manusia “lebih buruk” daripada GPT-2′).’

Laporan ini menyalahkan permainan bukan pemainnya, dengan peneliti mengamati:

‘[Pekerja] kerumunan sering kali underpaid untuk pekerjaan mereka, yang merugikan kualitas penelitian, dan lebih penting, kemampuan pekerja kerumunan untuk mendapatkan penghasilan yang memadai.’

Makalah paper, berjudul Bahaya Menggunakan Mechanical Turk untuk Mengevaluasi Generasi Teks Terbuka, menyimpulkan bahwa ‘penilai ahli’ seperti guru bahasa dan ahli bahasa harus digunakan untuk menilai konten NLG buatan terbuka, bahkan jika AMT lebih murah.

Tugas Tes

Dalam membandingkan kinerja AMT dengan pembaca ahli yang kurang terbatas waktu, peneliti menghabiskan $144 untuk layanan AMT yang digunakan dalam tes perbandingan (meskipun banyak lagi yang dihabiskan untuk ‘hasil yang tidak dapat digunakan’ – lihat di bawah), meminta pekerja acak ‘Turks’ untuk menilai salah satu dari 200 teks, dibagi antara konten teks yang dibuat oleh manusia dan teks yang dihasilkan secara buatan.

Menugaskan guru profesional dengan pekerjaan yang sama biaya $187,50, dan mengkonfirmasi kinerja yang unggul (dibandingkan dengan pekerja AMT) dengan merekrut kontraktor Upwork untuk mengulangi tugas biaya tambahan $262,50.

Setiap tugas terdiri dari empat kriteria evaluatif: tata bahasa (‘Seberapa benar tata bahasa teks cerita?’); kohesi (‘Seberapa baik kalimat dalam cerita cocok bersama?’); kemudahan (‘Seberapa menyenangkan Anda menemukan cerita?’); dan relevansi (‘Seberapa relevan cerita dengan prompt?’).

Menghasilkan Teks

Untuk mendapatkan materi NLG untuk tes, peneliti menggunakan dataset Hierarchical Neural Story Generation Facebook AI Research 2018 dataset, yang terdiri dari 303.358 cerita bahasa Inggris yang disusun oleh pengguna di subreddit r/writingprompts yang sangat populer (15m+ pengguna), di mana cerita pengguna ‘dibuat’ oleh kalimat ‘prompt’ tunggal dalam cara yang sama dengan praktik saat ini dalam generasi teks-ke-gambar – dan, tentu saja, dalam sistem NLG terbuka.

200 prompt dari dataset dipilih secara acak dan dilewatkan melalui model GPT-2 ukuran sedang menggunakan perpustakaan Hugging-Face Transformers. Dengan demikian, dua set hasil diperoleh dari prompt yang sama: esai diskursif yang ditulis oleh manusia dari pengguna Reddit, dan teks yang dihasilkan oleh GPT-2.

Untuk mencegah pekerja AMT yang sama menilai cerita yang sama beberapa kali, tiga penilaian pekerja AMT diminta per contoh. Bersama dengan eksperimen tentang kemampuan bahasa Inggris pekerja (lihat akhir artikel) dan menghilangkan hasil dari pekerja dengan upaya rendah (lihat ‘Waktu Singkat’ di bawah), ini meningkatkan total pengeluaran untuk AMT menjadi sekitar $1.500 USD.

Untuk membuat lapangan yang adil, semua tes dilakukan pada hari kerja antara pukul 11.00-11.30 pagi PST.

Hasil dan Kesimpulan

Studi yang luas ini mencakup banyak hal, tetapi poin kunci adalah sebagai berikut:

Waktu Singkat

Makalah ini menemukan bahwa waktu tugas rata-rata yang dilaporkan Amazon sebesar 360 detik sebenarnya adalah waktu kerja nyata sebesar 22 detik, dan waktu kerja median sebesar hanya 13 detik – seperempat waktu yang dihabiskan oleh guru bahasa Inggris tercepat yang mengulangi tugas.

Dari Hari 2 studi: pekerja individu (berwarna oranye) menghabiskan waktu yang jauh lebih sedikit untuk menilai setiap tugas daripada guru yang lebih terbayar, dan (kemudian) kontraktor Upwork yang lebih terbayar. Sumber: https://arxiv.org/pdf/2109.06835.pdf

Karena AMT tidak membatasi jumlah Tugas Intelijen Manusia (HIT) yang dapat diambil oleh seorang pekerja, ‘pemain besar’ AMT telah muncul, dengan reputasi yang menguntungkan untuk menyelesaikan jumlah tugas yang tinggi per eksperimen. Untuk mengkompensasi tugas yang diterima oleh pekerja yang sama, peneliti mengukur waktu antara HIT yang dikirimkan secara berturut-turut, membandingkan waktu mulai dan akhir dari setiap HIT. Dengan cara ini, kekurangan antara WorkTimeInSeconds yang dilaporkan AMT dan waktu yang sebenarnya dihabiskan untuk tugas menjadi fokus.

Karena pekerjaan seperti ini tidak dapat diselesaikan dalam kerangka waktu yang dikurangi, peneliti harus mengkompensasi ini:

‘Karena mustahil untuk membaca dengan hati-hati sebuah cerita setingkat paragraf dan menilai semua empat sifat dalam waktu sebanyak 13 detik, kami mengukur dampak pada peringkat rata-rata ketika menyaring pekerja yang menghabiskan waktu terlalu sedikit per HIT…Secara khusus, kami menghilangkan penilaian dari pekerja yang waktu median di bawah 40s (yang merupakan batang bawah), dan menemukan bahwa rata-rata sekitar 42% dari peringkat kami disaring (berkisar dari 20%-72% di semua eksperimen).’

Makalah ini berpendapat bahwa waktu kerja yang sebenarnya yang dilaporkan AMT adalah ‘masalah besar’ yang biasanya diabaikan oleh peneliti yang menggunakan layanan ini.

Panduan yang Diperlukan

Temuan lebih lanjut menunjukkan bahwa pekerja AMT tidak dapat secara andal membedakan antara teks yang ditulis oleh manusia dan teks yang ditulis oleh mesin, kecuali jika mereka melihat kedua teks secara berdampingan, yang pada dasarnya akan mengompromikan skenario evaluasi yang khas (di mana pembaca harus dapat membuat penilaian berdasarkan sampel teks tunggal, ‘nyata’ atau dihasilkan secara buatan).

Penerimaan Kasual dari Teks Buatan yang Berkualitas Rendah

Pekerja AMT secara konsisten menilai teks buatan yang berkualitas rendah yang dihasilkan oleh GPT sebanding dengan teks yang lebih berkualitas dan kohesif yang ditulis oleh manusia, berbeda dengan guru bahasa Inggris, yang dengan mudah dapat membedakan perbedaan kualitas.

Tanpa Waktu Persiapan, Tanpa Konteks

Memasuki mindset yang tepat untuk tugas abstrak seperti evaluasi otentikasi tidak datang secara alami; guru bahasa Inggris memerlukan 20 tugas untuk mengkalibrasi sensibilitas mereka terhadap lingkungan evaluatif, sementara pekerja AMT biasanya tidak mendapatkan ‘waktu orientasi’ sama sekali, yang menurunkan kualitas input mereka.

Memainkan Sistem

Laporan ini menyatakan bahwa waktu total yang dihabiskan pekerja AMT untuk tugas individu diperbesar oleh pekerja yang menerima beberapa tugas secara bersamaan, dan menjalankan tugas dalam tab yang berbeda di browser mereka, bukan fokus pada satu tugas untuk durasi tugas yang dicatat.

Negara Asal Penting

Pengaturan default AMT tidak menyaring pekerja berdasarkan negara asal, dan laporan mencatat pekerjaan sebelumnya yang menunjukkan bahwa pekerja AMT menggunakan VPN untuk menghindari pembatasan geografis, memungkinkan penutur non-asli untuk menyajikan diri sebagai penutur asli bahasa Inggris (dalam sistem yang, mungkin agak naif, mengidentifikasi bahasa ibu pekerja dengan lokasi geografis berdasarkan IP).

Oleh karena itu, peneliti mengulangi tes evaluasi di AMT dengan filter yang membatasi calon penerima menjadi non-penutur bahasa Inggris, menemukan bahwa ‘pekerja dari negara non-penutur bahasa Inggris menilai kohesi, relevansi, dan tata bahasa…lebih rendah daripada pekerja yang sama-sama memenuhi syarat dari negara penutur bahasa Inggris’.

Laporan ini menyimpulkan:

‘[Pengulas] ahli seperti ahli bahasa atau guru bahasa harus digunakan kapan pun memungkinkan karena mereka telah dilatih untuk menilai teks tertulis, dan itu tidak terlalu mahal…’

Diterbitkan 16 September 2021 – Diperbarui 18 Desember 2021: Menambahkan tag