Kecerdasan buatan

Membuat Mechanical Turks Buatan Dengan Model Bahasa Pra-Dilatih

Published December 30, 2021

Updated April 26, 2026

Martin Anderson

Sebagian besar pengembangan sistem pembelajaran mesin bergantung pada pelabelan data, di mana ratusan, bahkan ribuan pertanyaan (seperti Apakah ini gambar kucing? dan Apakah teks ini ofensif?) harus diselesaikan untuk mengembangkan dataset otoritatif yang akan digunakan untuk melatih sistem AI.

Meskipun kita semua berkontribusi pada proses ini pada suatu titik, sebagian besar tugas pelabelan ini dilakukan untuk uang oleh pekerja manusia di kerangka seperti Amazon Mechanical Turk, di mana annotator menyelesaikan tugas klasifikasi kecil dalam ekonomi pekerjaan.

Pengembangan model akan lebih murah jika model bahasa pra-dilatih (PLMs) dapat melakukan beberapa tugas Human Intelligence (HIT) dasar yang saat ini sedang dikembangkan di AMT dan platform serupa.

Penelitian terbaru dari Jerman dan Huawei mengusulkan hal ini, dalam makalah LMTurk: Few-Shot Learners sebagai Pekerja Crowdsourcing.

Model Bahasa Melakukan Pembelajaran Few-Shot

Penulis menyarankan bahwa strata tugas yang lebih sederhana yang biasanya ditujukan untuk pekerja Turk manusia analog dengan pembelajaran few-shot, di mana kerangka otomatis harus memutuskan tugas mini berdasarkan beberapa contoh yang diberikan.

Mereka oleh karena itu mengusulkan bahwa sistem AI dapat belajar secara efektif dari PLMs yang awalnya dilatih oleh pekerja crowdsourcing – bahwa pengetahuan inti yang diberikan dari manusia ke mesin telah diselesaikan sebelumnya, dan bahwa di mana pengetahuan tersebut relatif tidak berubah atau empiris dalam beberapa cara, kerangka model bahasa otomatis dapat melakukan tugas-tugas ini sendiri.

‘Gagasan dasar kami adalah bahwa, untuk tugas NLP T, kami memperlakukan few-shot learners sebagai pekerja non-ahli, menyerupai pekerja crowdsourcing yang mengannotasi sumber daya untuk teknologi bahasa manusia. Kami terinspirasi oleh kenyataan bahwa kami dapat melihat pekerja crowdsourcing sebagai jenis few-shot learner.’

Implikasinya termasuk kemungkinan bahwa banyak kebenaran yang sistem AI di masa depan bergantung akan berasal dari manusia beberapa tahun sebelumnya, kemudian dianggap sebagai informasi yang telah divalidasi sebelumnya dan dapat dieksploitasi yang tidak lagi memerlukan intervensi manusia.

Pekerjaan untuk Model Bahasa Mid-Range, Semi-Performant

Selain motivasi untuk mengurangi biaya manusia-dalam-loop, peneliti menyarankan bahwa menggunakan ‘mid-range’ PLMs sebagai benar-benar Mechanical Turks menyediakan pekerjaan yang berguna untuk sistem ini, yang semakin banyak digantikan oleh model bahasa hyperscale dan mahal seperti GPT-3, yang terlalu mahal dan overspek untuk tugas-tugas tersebut.

‘Tujuan kami dalam makalah ini adalah untuk merancang metode yang membuat penggunaan lebih efektif dari few-shot learners saat ini. Ini sangat penting karena jumlah few-shot learners raksasa yang dilatih; bagaimana menggunakan mereka secara efektif adalah pertanyaan penting. Secara khusus, kami ingin alternatif untuk model besar yang sulit diterapkan.’

‘Pada saat yang sama, kami ingin memanfaatkan kekuatan PLMs: Kemampuan mereka yang luas memastikan kemampuan yang luas di berbagai tugas; pengetahuan mereka yang luas tentang bahasa dan dunia (yang dipelajari dalam pelatihan sebelumnya) termanifestasi dalam efisiensi data few-shot learners, mengurangi konsumsi tenaga kerja dan waktu dalam anotasi data.’

Sampai saat ini, penulis berargumentasi, few-shot learners dalam NLP telah dianggap sebagai tahap interstitial yang dapat dibuang pada jalan menuju sistem bahasa alami tingkat tinggi yang lebih intensif sumber daya, dan bahwa pekerjaan tersebut telah dilakukan secara abstrak dan tanpa mempertimbangkan utilitas sistem tersebut.

Metode

Penulis menawarkan LMTurk (Model Bahasa sebagai Mechanical Turk), dalam alur kerja di mana input dari HIT otomatis ini menyediakan label untuk model NLP mid-level.

Konsep dasar model untuk LMTurk. Sumber: https://arxiv.org/pdf/2112.07522.pdf

Iterasi pertama ini bergantung pada data ’emas’ yang diberi label oleh manusia, di mana pekerja Turk manusia telah mengannotasi label untuk sejumlah terbatas tugas, dan label tersebut telah dinilai dengan baik, baik melalui pengawasan langsung manusia atau melalui voting konsensus. Implikasi untuk skema ini adalah bahwa cabang atau pengembangan dari titik awal yang diberi label oleh manusia ini mungkin tidak memerlukan input manusia tambahan di masa depan.

Meskipun penulis menyarankan eksperimen lebih lanjut dengan model hibrida kemudian (di mana input manusia akan hadir, tetapi sangat berkurang), mereka tidak, untuk tujuan penelitian mereka, membandingkan model LMTurk dengan hasil yang setara dari pekerja HIT manusia, dengan alasan bahwa data yang diberi label emas itu sendiri adalah ‘input manusia’.

PLM yang dirancang untuk melakukan operasi Turk disesuaikan untuk tugas oleh P-Tuning, metode yang dipublikasikan oleh peneliti dari Cina pada 2021, yang mengusulkan prompt embeddings kontinu yang dapat dilatih untuk meningkatkan kinerja model GPT-3-style pada tugas NLU.

P-Tuning mencoba memperdalam kekuatan prediktif model GPT-style, dan penampilan pemahaman konseptual bahasa, dengan menggabungkan pseudo-prompt yang tertanam. Dalam kasus ini, query awal adalah ‘Ibukota Inggris adalah [x]’. Sumber: https://arxiv.org/pdf/2103.10385.pdf

Data dan Arsitektur

LMTurk dievaluasi pada lima dataset: dua dari Stanford Sentiment Treebank; AG’s News Corpus; Recognizing Textual Entailment (RTE); dan Corpus of Linguistic Acceptability (CoLA).

Untuk model yang lebih besar, LMTurk menggunakan PLMs yang tersedia secara publik ALBERT-XXLarge-v2 (AXLV2) sebagai model sumber untuk diubah menjadi Turk otomatis. Model ini memiliki 223 juta parameter (dibandingkan dengan 175 miliar parameter di GPT-3). AXLV2, penulis catat, telah terbukti mampu mengungguli model skala yang lebih tinggi seperti 334M BERT-Large.

Untuk model yang lebih ramping, ringan, dan dapat diterapkan di edge, proyek ini menggunakan TinyBERT-General-4L-312D (TBG), yang memiliki 14,5 juta parameter dengan kinerja yang setara dengan BERT-base (yang memiliki 110 juta parameter).

Pelatihan prompt yang diaktifkan berlangsung pada PyTorch dan HuggingFace untuk AXLV2 selama 100 langkah batch dengan ukuran batch 13, pada tingkat pembelajaran 5e-4, menggunakan penurunan linier. Setiap eksperimen dimulai dengan tiga biji acak yang berbeda.

Hasil

Proyek LMTurk menjalankan model yang beragam melawan banyak sub-sektor NLP yang spesifik sehingga hasil eksperimen peneliti yang kompleks tidak mudah untuk dikurangi menjadi bukti empiris bahwa LMTurk menawarkan pendekatan yang layak untuk penggunaan kembali skenario few shot learning HIT-style yang berasal dari manusia.

Namun, untuk tujuan evaluasi, penulis membandingkan metode mereka dengan dua karya sebelumnya: Menggunakan Pertanyaan Cloze untuk Klasifikasi Teks dan Inferensi Bahasa Alami oleh peneliti Jerman Timo Schick dan Hinrich Schutze; dan hasil dari Prompt-Based Auto, yang ditampilkan dalam Membuat Model Bahasa Pra-Dilatih Lebih Baik sebagai Pembelajar Few-Shot oleh Gao, Chen, dan Fisch (masing-masing dari Princeton dan MIT).

Hasil dari eksperimen LMTurk, dengan peneliti melaporkan ‘kinerja yang setara’.

Singkatnya, LMTurk menawarkan garis penyelidikan yang relatif menjanjikan bagi peneliti yang mencari untuk memasukkan dan mengabadikan data yang diberi label emas asal manusia ke dalam model bahasa yang berkembang, mid-kompleksitas di mana sistem otomatis menggantikan input manusia.

Seperti dengan jumlah pekerjaan sebelumnya yang relatif kecil dalam bidang ini, konsep sentral bergantung pada ketidakberubahan data manusia asli, dan asumsi bahwa faktor temporal – yang dapat mewakili hambatan signifikan bagi pengembangan NLP – tidak akan memerlukan intervensi manusia lebih lanjut karena garis keturunan mesin-only berkembang.

Aslinya diterbitkan 30 Desember 2022