ปัญญาประดิษฐ์

ข้อบกพร่องของ Amazon Mechanical Turk อาจก่อให้เกิดความเสี่ยงต่อระบบการสร้างภาษา自然

Published September 16, 2021

Updated April 28, 2026

Martin Anderson

การศึกษาใหม่จาก University of Massachusetts Amherst ได้ทำการทดสอบระหว่างครูสอนภาษาอังกฤษและคนงานที่ได้รับการว่าจ้างจาก Amazon Mechanical Turk ในการประเมินผลลัพธ์ของระบบการสร้างภาษา自然 (NLG) โดยสรุปว่ามาตรฐานที่ไม่เข้มงวดและ ‘การหลอกลวง’ ของงานที่ได้รับการประเมินสูงในหมู่คนงาน AMT อาจเป็นอุปสรรคต่อการพัฒนาของภาคส่วนนี้

รายงานนี้ได้ข้อสรุปที่น่าผิดหวังหลายประการเกี่ยวกับระดับที่การอัปโหลดงาน NLG แบบเปิดที่มีราคาถูกในระดับอุตสาหกรรมอาจนำไปสู่ผลลัพธ์และอัลกอริทึมที่ด้อยกว่าในภาคส่วนนี้

นักวิจัยยังได้รวบรวมรายการ 45 บทความเกี่ยวกับการสร้างข้อความแบบเปิดที่ใช้ AMT และพบว่า ‘ส่วนใหญ่’ ไม่ได้รายงานรายละเอียดที่สำคัญเกี่ยวกับการใช้บริการฝูงชนของ Amazon ทำให้ยากต่อการทำซ้ำผลการค้นพบของบทความ

การทำงานในโรงงาน

รายงานนี้วิพากษ์วิจารณ์ทั้งลักษณะการทำงานในโรงงานของ Amazon Mechanical Turk และโครงการวิจัยทางวิชาการที่มีงบประมาณจำกัดที่ให้ความน่าเชื่อถือเพิ่มเติมแก่ AMT โดยใช้และอ้างอิงถึงมันเป็นทรัพยากรวิจัยที่ถูกต้องและสม่ำเสมอ ผู้เขียนระบุ:

‘ในขณะที่ AMT เป็นวิธีแก้ปัญหาที่สะดวกและราคาไม่แพง เราพบว่าการเปลี่ยนแปลงที่สูงระหว่างคนงาน การปรับให้เหมาะสมที่ไม่ดี และงานที่ต้องใช้ความสามารถในการคิดสามารถนำไปสู่ข้อสรุปทางวิทยาศาสตร์ที่ทำให้เข้าใจผิด (เช่น ว่าข้อความที่เขียนโดยมนุษย์ “แย่” กว่า GPT-2)

รายงานนี้กล่าวโทษเกมมากกว่าผู้เล่น โดยนักวิจัยสังเกตเห็นว่า:

‘คนงานฝูงชนมักถูกจ่ายค่าจ้างต่ำสำหรับการทำงาน ซึ่งทำลายทั้งคุณภาพของการวิจัยและความสามารถของคนงานฝูงชนในการมีรายได้ที่เพียงพอ’

บทความ บทความ ที่มีชื่อเรื่อง อันตรายของการใช้ Mechanical Turk เพื่อประเมินการสร้างข้อความแบบเปิด สรุปว่า ‘ผู้ให้คะแนนผู้เชี่ยวชาญ’ เช่น ครูสอนภาษาและนักภาษาศาสตร์ควรใช้ในการประเมินเนื้อหาที่สร้างโดย NLG แบบเปิด แม้ว่า AMT จะถูกกว่าก็ตาม

งานทดสอบ

ในการเปรียบเทียบประสิทธิภาพของ AMT กับผู้อ่านผู้เชี่ยวชาญที่ไม่มีข้อจำกัดด้านเวลา นักวิจัยใช้จ่าย $144 สำหรับบริการ AMT ที่ใช้ในการทดสอบ (แม้ว่าจะมีการใช้จ่ายมากกว่านั้นสำหรับ ‘ผลลัพธ์ที่ไม่สามารถใช้ได้’ – ดูรายละเอียดด้านล่าง) โดยต้องการให้ ‘Turks’ ที่สุ่มมาประเมินข้อความ 1 ใน 200 ข้อความ ซึ่งแบ่งออกเป็นเนื้อหาที่สร้างโดยมนุษย์และเนื้อหาที่สร้างโดยเครื่องจักร

การให้ครูสอนภาษาทำงานเดียวกันใช้เวลา $187.50 และยืนยันประสิทธิภาพที่เหนือกว่า (เมื่อเทียบกับคนงาน AMT) โดยการจ้างฟรีแลนซ์จาก Upwork เพื่อทำซ้ำงานใช้เวลาเพิ่มเติม $262.50

แต่ละงานประกอบด้วยเกณฑ์การประเมิน 4 ประการ: ไวยากรณ์ (‘ข้อความเรื่องราวมีไวยากรณ์ที่ถูกต้องหรือไม่?’); การเชื่อมต่อ (‘ประโยคในเรื่องราวเชื่อมต่อกันอย่างไร?’); ความน่าชอบ (‘คุณพบว่าเรื่องราวนี้น่าสนใจหรือไม่?’); และความเกี่ยวข้อง (‘เรื่องราวนี้เกี่ยวข้องกับคำสั่งหรือไม่?’)

การสร้างข้อความ

เพื่อให้ได้เนื้อหาที่สร้างโดย NLG สำหรับการทดสอบ นักวิจัยใช้ข้อมูลจาก Facebook AI Research ในปี 2018 การสร้างเรื่องราวแบบลำดับ ข้อมูล ซึ่งประกอบด้วยเรื่องราวภาษาอังกฤษ 303,358 เรื่อง ที่เขียนโดยผู้ใช้มากกว่า 15 ล้านคนใน r/writingprompts subreddit ซึ่งเรื่องราวของสมาชิกถูก ‘ปลูก’ โดยประโยค ‘คำสั่ง’ เดียว ในลักษณะเดียวกับการปฏิบัติปัจจุบันในการสร้างข้อความจากภาพ – และแน่นอนว่าในระบบ NLG แบบเปิด
200 คำสั่งจากข้อมูลถูกเลือกโดยการสุ่มและผ่านโมเดล GPT-2 ขนาดกลางโดยใช้ไลบรารี Hugging-Face Transformers ไลบรารี ดังนั้นจึงได้ผลลัพธ์ 2 ชุดจากคำสั่งเดียวกัน: เรื่องราวที่เขียนโดยมนุษย์จากผู้ใช้ Reddit และข้อความที่สร้างโดย GPT-2

เพื่อป้องกันไม่ให้คนงาน AMT เดียวกันประเมินเรื่องราวเดียวกันหลายครั้ง นักวิจัยขอคำตัดสินจากคนงาน AMT 3 คนสำหรับตัวอย่างแต่ละตัวอย่าง ร่วมกับการทดลองเกี่ยวกับความสามารถภาษาอังกฤษของคนงาน (ดูส่วนท้ายของบทความ) และการไม่นับผลลัพธ์จากคนงานที่ใช้ความพยายามต่ำ (ดู ‘ระยะเวลาสั้น’ ด้านล่าง) ทำให้การใช้จ่ายทั้งหมดใน AMT เพิ่มขึ้นประมาณ 1,500 ดอลลาร์สหรัฐฯ

เพื่อสร้างสนามแข่งขันที่เท่าเทียมกัน การทดสอบทั้งหมดได้รับการดำเนินการในวันจันทร์เวลา 11.00-11:30 น. ตามเวลา Pacific

ผลลัพธ์และข้อสรุป

การศึกษานี้ครอบคลุมหลายด้าน แต่จุดสำคัญคือ:

ระยะเวลาสั้น

บทความนี้พบว่าเวลาทำงานเฉลี่ยที่รายงานโดย Amazon คือ 360 วินาที แต่เวลาทำงานจริงคือเพียง 22 วินาที และเวลาทำงานเฉลี่ยคือ เพียง 13 วินาที – หนึ่งในสี่ของเวลาที่ครูสอนภาษาที่เร็วที่สุดใช้ในการทำซ้ำงาน

จากวันที่ 2 ของการศึกษา: คนงานแต่ละคน (สีส้ม) ใช้เวลาน้อยกว่าครูสอนภาษาและผู้รับจ้าง Upwork ที่ได้รับค่าจ้างดีกว่า Source: https://arxiv.org/pdf/2109.06835.pdf

เนื่องจาก AMT ไม่มีข้อจำกัดในการทำงานที่คนงานแต่ละคนสามารถรับได้ ‘คนงานที่มีผลงานสูง’ จึงเกิดขึ้น โดยมีชื่อเสียงในการทำงานหลายอย่างในแต่ละการทดลอง ในการชดเชยการยอมรับงานจากคนงานเดียวกัน นักวิจัยวัดเวลาระหว่างงานที่ส่งมอบติดต่อกัน โดยเปรียบเทียบเวลาที่เริ่มต้นและเวลาสิ้นสุดของแต่ละงาน ดังนั้นจึงทำให้ความแตกต่างระหว่าง WorkTimeInSeconds ที่รายงานโดย AMT และเวลาที่ใช้จริงในการทำงานชัดเจนขึ้น

เนื่องจากงานไม่สามารถทำเสร็จได้ภายในกรอบเวลาที่ลดลง นักวิจัยจึงต้องชดเชย:

‘เนื่องจากไม่สามารถอ่านเรื่องราวที่มีความยาวของ段落และประเมินคุณสมบัติทั้ง 4 ประการในเวลาเพียง 13 วินาที เราจึงวัดผลกระทบต่อคะแนนเฉลี่ยเมื่อกรองคนงานที่ใช้เวลาต่องานน้อยเกินไป…โดยเฉพาะ เราไม่นับคำตัดสินจากคนงานที่ใช้เวลาน้อยกว่า 40 วินาที (ซึ่งเป็นมาตรฐานที่ต่ำ) และพบว่าคะแนนของเรามีประมาณ 42% ที่ถูกกรองออก (ตั้งแต่ 20%-72% ทั่วทั้งการทดลอง)

บทความนี้ยืนยันว่าการรายงานเวลาทำงานที่ไม่ถูกต้องใน AMT เป็น ‘ปัญหาหลัก’ ที่นักวิจัยที่ใช้บริการนี้มักจะเพิกเฉย

การชี้แนะที่จำเป็น

ผลการวิจัยยังชี้ให้เห็นว่าคนงาน AMT ไม่สามารถแยกแยะระหว่างข้อความที่เขียนโดยมนุษย์และข้อความที่เขียนโดยเครื่องจักรได้ เว้นแต่จะเห็นทั้งสองข้อความพร้อมกัน ซึ่งจะบ่อนทำลายสถานการณ์การประเมินแบบปกติ (ที่ผู้อ่านควรจะสามารถตัดสินได้จากตัวอย่างข้อความเดียว ‘จริง’ หรือสร้างโดยเครื่องจักร)

การยอมรับข้อความเทียมที่มีคุณภาพต่ำ

คนงาน AMT มักจะให้คะแนนข้อความเทียมที่มีคุณภาพต่ำที่สร้างโดย GPT-2 เท่ากับข้อความที่มีคุณภาพสูงและเป็นระเบียบที่เขียนโดยมนุษย์ ซึ่งตรงกันข้ามกับครูสอนภาษาที่สามารถแยกแยะความแตกต่างในคุณภาพได้อย่างง่ายดาย

ไม่มีเวลาเตรียมตัว ไม่มีบริบท

การเข้าสู่สภาวะที่ถูกต้องสำหรับงานที่เป็นนามธรรม เช่น การประเมินความถูกต้อง ไม่ได้มาเป็นธรรมชาติ; ครูสอนภาษาต้องการ 20 งานเพื่อปรับให้เหมาะสมกับสภาพแวดล้อมในการประเมิน ในขณะที่คนงาน AMT มักไม่ได้รับ ‘เวลาเตรียมตัว’ เลย

การหลอกลวงระบบ

รายงานยืนยันว่าเวลาทำงานทั้งหมดที่คนงาน AMT ใช้ในการทำงานแต่ละงานถูกบิดเบือนโดยคนงานที่รับงานหลายอย่างพร้อมกัน และทำงานผ่านแท็บต่างๆ ในเบราว์เซอร์ แทนที่จะเน้นไปที่งานเดียวในระยะเวลาที่บันทึกไว้

ประเทศต้นทางมีความสำคัญ

การตั้งค่าเริ่มต้นของ AMT ไม่ได้กรองคนงานตามประเทศต้นทาง และรายงานระบุ งานก่อนหน้านี้ ที่บ่งชี้ว่าคนงาน AMT ใช้ VPN เพื่อหลีกเลี่ยงข้อจำกัดทางภูมิศาสตร์ ทำให้ผู้ที่ไม่ใช่ผู้พูดภาษาอังกฤษโดยกำเนิดสามารถแสดงตัวเป็นผู้พูดภาษาอังกฤษโดยกำเนิด (ในระบบที่เทียบภาษาแม่ของคนงานกับตำแหน่งทางภูมิศาสตร์ตาม IP)

ดังนั้น นักวิจัยจึงทดสอบการประเมินใหม่ใน AMT โดยใช้ฟิลเตอร์ที่จำกัดผู้รับงานให้เฉพาะ ‘ประเทศที่ไม่ใช่ประเทศที่พูดภาษาอังกฤษ’ และพบว่า ‘คนงานจากประเทศที่ไม่ใช่ประเทศที่พูดภาษาอังกฤษให้คะแนนความสอดคล้อง ความเกี่ยวข้อง และไวยากรณ์…ต่ำกว่าคนงานที่มีคุณสมบัติเท่ากันจากประเทศที่พูดภาษาอังกฤษ’
รายงานสรุปว่า:

‘ผู้ให้คะแนนผู้เชี่ยวชาญ เช่น นักภาษาศาสตร์หรือครูสอนภาษา ควรใช้เมื่อใดก็ตามที่เป็นไปได้ เนื่องจากพวกเขาได้รับการฝึกอบรมในการประเมินข้อความที่เขียนแล้ว และไม่แพงมาก…’

เผยแพร่เมื่อวันที่ 16 กันยายน 2021 – อัปเดตเมื่อวันที่ 18 ธันวาคม 2021: เพิ่มแท็ก