ต้นขั้ว ข้อบกพร่องของ Amazon Mechanical Turk อาจคุกคามระบบการสร้างภาษาธรรมชาติ - Unite.AI
เชื่อมต่อกับเรา

ปัญญาประดิษฐ์

ข้อบกพร่องของ Amazon Mechanical Turk อาจคุกคามระบบการสร้างภาษาธรรมชาติ

mm
วันที่อัพเดท on

การศึกษาใหม่จากมหาวิทยาลัยแมสซาชูเซตส์แอมเฮิสต์ได้ทดสอบครูสอนภาษาอังกฤษกับคนงานที่มีฝูงชนจำนวนมาก อังคารเครื่องกลเติร์ก ในการประเมินผลลัพธ์ของการสร้างภาษาธรรมชาติ (NLG) ระบบ โดยสรุปว่ามาตรฐานที่หละหลวมและ 'เกม' งานที่ได้รับรางวัลในหมู่พนักงาน AMT อาจขัดขวางการพัฒนาภาคส่วนนี้

รายงานดังกล่าวมีข้อสรุปที่น่าสยดสยองหลายประการเกี่ยวกับขอบเขตที่การว่าจ้างบุคคลภายนอกในการประเมิน NLG แบบปลายเปิดราคาถูก 'ระดับอุตสาหกรรม' อาจนำไปสู่ผลลัพธ์และอัลกอริทึมที่ด้อยกว่าในภาคส่วนนี้

นักวิจัยยังได้รวบรวมรายชื่อเอกสาร 45 ฉบับเกี่ยวกับการสร้างข้อความแบบปลายเปิดที่การวิจัยใช้ประโยชน์จาก AMT และพบว่า 'ส่วนใหญ่' ไม่สามารถรายงานรายละเอียดที่สำคัญเกี่ยวกับการใช้บริการฝูงชนของ Amazon ทำให้ยากที่จะทำซ้ำ การค้นพบของเอกสาร

แรงงานร้านค้าเหงื่อ

รายงานระดับการวิพากษ์วิจารณ์ทั้งในลักษณะร้านขายเหงื่อของ Amazon Mechanical Turk และโครงการทางวิชาการ (ที่มีแนวโน้มว่าจะถูกจำกัดด้วยงบประมาณ) ที่ให้ยืม AMT เพิ่มความน่าเชื่อถือโดยใช้ (และอ้างถึง) เป็นแหล่งข้อมูลการวิจัยที่ถูกต้องและสอดคล้องกัน ผู้เขียนทราบ:

'ในขณะที่ AMT เป็นโซลูชันที่สะดวกและราคาไม่แพง เราสังเกตว่าความแปรปรวนสูงระหว่างผู้ปฏิบัติงาน การสอบเทียบที่ไม่ดี และงานที่ต้องใช้ความรู้ความเข้าใจอาจทำให้นักวิจัยได้ข้อสรุปทางวิทยาศาสตร์ที่ทำให้เข้าใจผิด (เช่น ข้อความที่มนุษย์เขียนนั้น "แย่กว่า" ของ GPT-2 ).'

รายงานกล่าวโทษเกมมากกว่าผู้เล่น โดยนักวิจัยตั้งข้อสังเกตว่า:

'คนงาน [Crowd] มักได้รับค่าจ้างต่ำกว่าเกณฑ์ ซึ่งส่งผลเสียต่อทั้งคุณภาพของการวิจัย และที่สำคัญกว่านั้น ความสามารถของกลุ่มคนทำงานเหล่านี้ในการหาเลี้ยงชีพอย่างเพียงพอ'

พื้นที่ กระดาษ, ชื่อ อันตรายของการใช้เครื่องกล Turk เพื่อประเมินการสร้างข้อความปลายเปิดสรุปเพิ่มเติมว่าควรใช้ 'ผู้ประเมินผู้เชี่ยวชาญ' เช่น ครูสอนภาษาและนักภาษาศาสตร์ในการประเมินเนื้อหา NLG เทียมแบบปลายเปิด แม้ว่า AMT จะมีราคาถูกกว่าก็ตาม

งานทดสอบ

ในการเปรียบเทียบประสิทธิภาพของ AMT กับผู้อ่านที่เชี่ยวชาญซึ่งมีเวลาจำกัด นักวิจัยใช้เงิน 144 ดอลลาร์ไปกับบริการ AMT ที่ใช้จริงในการทดสอบเปรียบเทียบ (แม้ว่าจะใช้ไปมากกว่านั้นกับผลลัพธ์ที่ เพื่อประเมินหนึ่งใน 200 ข้อความ โดยแยกระหว่างเนื้อหาข้อความที่มนุษย์สร้างขึ้นและข้อความที่ประดิษฐ์ขึ้น

การจ้างครูมืออาชีพด้วยงานเดียวกันมีค่าใช้จ่าย 187.50 ดอลลาร์ และการยืนยันประสิทธิภาพที่เหนือกว่า (เมื่อเทียบกับพนักงาน AMT) โดยการจ้างฟรีแลนซ์ Upwork เพื่อทำซ้ำงานนั้นมีค่าใช้จ่ายเพิ่มเติม 262.50 ดอลลาร์

แต่ละงานประกอบด้วยเกณฑ์การประเมิน XNUMX เกณฑ์ ได้แก่ ไวยากรณ์ ('ข้อความในส่วนของเรื่องราวถูกต้องตามหลักไวยากรณ์เพียงใด'); การเชื่อมโยงกัน ('ประโยคในส่วนย่อยของเรื่องเข้ากันได้ดีแค่ไหน'); ความชอบ ('คุณพบว่าชิ้นส่วนของเรื่องราวสนุกแค่ไหน'); และความเกี่ยวข้อง ('ส่วนเนื้อเรื่องมีความเกี่ยวข้องอย่างไรกับข้อความแจ้ง').

การสร้างข้อความ

ในการรับวัสดุ NLG สำหรับการทดสอบ นักวิจัยใช้ Facebook AI Research's 2018 การสร้างเรื่องราวประสาทตามลำดับชั้น ชุดซึ่งประกอบด้วยเรื่องราวภาษาอังกฤษ 303,358 เรื่องที่แต่งโดยผู้ใช้ที่ได้รับความนิยมอย่างมาก (ผู้ใช้ 15 ล้านคนขึ้นไป) r/writeprompts subreddit ที่ซึ่งเรื่องราวของสมาชิกถูก 'เพาะ' โดย 'ข้อความแจ้ง' ประโยคเดียวในลักษณะที่คล้ายคลึงกับแนวทางปฏิบัติปัจจุบันใน การสร้างข้อความเป็นรูปภาพ – และแน่นอน ในการสร้างภาษาธรรมชาติแบบปลายเปิด ระบบ.

200 พรอมต์จากชุดข้อมูลถูกสุ่มเลือกและส่งผ่านโมเดล GPT-2 ขนาดกลางโดยใช้ Hugging-Face Transformers ห้องสมุด. ดังนั้นผลลัพธ์สองชุดจึงได้รับจากข้อความแจ้งเดียวกัน: เรียงความเชิงอภิปรายที่เขียนโดยมนุษย์จากผู้ใช้ Reddit และข้อความที่สร้างโดย GPT-2

เพื่อป้องกันไม่ให้พนักงาน AMT คนเดียวกันตัดสินเรื่องเดียวกันหลายครั้ง ยกตัวอย่างการตัดสินของพนักงาน AMT สามคน เมื่อรวมกับการทดลองเกี่ยวกับความสามารถด้านภาษาอังกฤษของพนักงาน (ดูท้ายบทความ) และส่วนลดผลลัพธ์จากพนักงานที่ใช้ความพยายามน้อย (ดู 'เวลาสั้น' ด้านล่าง) สิ่งนี้ทำให้ค่าใช้จ่ายรวมใน AMT เพิ่มขึ้นเป็นประมาณ 1,500 ดอลลาร์สหรัฐฯ

เพื่อสร้างสนามแข่งขันที่เท่าเทียมกัน การทดสอบทั้งหมดดำเนินการในวันธรรมดาระหว่างเวลา 11.00-11 น. PST

ผลลัพธ์และข้อสรุป

การศึกษาที่แผ่กิ่งก้านสาขาครอบคลุมพื้นที่มากมาย แต่ประเด็นสำคัญมีดังนี้:

ระยะเวลาอันสั้น

เอกสารดังกล่าวพบว่าเวลาทำงานเฉลี่ยที่รายงานอย่างเป็นทางการของ Amazon ที่ 360 วินาทีลดลงเหลือเวลาทำงานจริงเพียง 22 วินาที และเวลาทำงานเฉลี่ยที่ 13 วินาทีเท่านั้น – หนึ่งในสี่ของเวลาที่ใช้โดย ที่เร็วที่สุด ครูสอนภาษาอังกฤษทำซ้ำงาน

จากวันที่ 2 ของการศึกษา: พนักงานแต่ละคน (สีส้ม) ใช้เวลาในการประเมินแต่ละงานน้อยกว่าครูที่มีรายได้ดีกว่า และ (ภายหลัง) ผู้รับเหมา Upwork ที่มีรายได้ดีกว่า ที่มา: https://arxiv.org/pdf/2109.06835.pdf

จากวันที่ 2 ของการศึกษา: พนักงานแต่ละคน (สีส้ม) ใช้เวลาในการประเมินแต่ละงานน้อยกว่าครูที่มีรายได้ดีกว่า และ (ภายหลัง) ผู้รับเหมา Upwork ที่มีรายได้ดีกว่า ที่มา: https://arxiv.org/pdf/2109.06835.pdf

เนื่องจาก AMT ไม่จำกัดงานข่าวกรองมนุษย์ (HITs) ที่พนักงานแต่ละคนสามารถดำเนินการได้ AMT 'นักตีตัวยง' จึงถือกำเนิดขึ้นโดยมีชื่อเสียง (มีกำไร) ในการทำภารกิจจำนวนมากให้สำเร็จต่อการทดสอบ เพื่อชดเชยการเข้าชมที่ยอมรับโดยคนงานคนเดียวกัน นักวิจัยวัดเวลาระหว่าง HIT ที่ส่งติดต่อกัน โดยเปรียบเทียบเวลาเริ่มต้นและเวลาสิ้นสุดของ HIT แต่ละรายการ ด้วยวิธีนี้ การขาดแคลนระหว่างรายงานของ AMT เวลาทำงานเป็นวินาที และเวลาจริงที่ใช้ไปกับงาน

เนื่องจากงานดังกล่าวไม่สามารถทำได้ในกรอบเวลาที่ลดลง นักวิจัยจึงต้องชดเชยสิ่งนี้:

'เนื่องจากเป็นไปไม่ได้ที่จะอ่านเรื่องราวความยาวหนึ่งย่อหน้าอย่างละเอียดและประเมินคุณสมบัติทั้งสี่ในเวลาเพียง 13 วินาที เราจึงวัดผลกระทบจากการให้คะแนนเฉลี่ยเมื่อกรองพนักงานที่ใช้เวลาน้อยเกินไปต่อ HIT ออก...โดยเฉพาะอย่างยิ่ง เราลบการตัดสินออกจาก ผู้ปฏิบัติงานที่มีเวลามัธยฐานต่ำกว่า 40 วินาที (ซึ่งเป็นแถบต่ำ) และพบว่าโดยเฉลี่ยประมาณ 42% ของการให้คะแนนของเราถูกกรองออก (ตั้งแต่ 20%-72% จากการทดสอบทั้งหมด)'

เอกสารยืนยันว่าการรายงานเวลาทำงานจริงที่ผิดพลาดใน AMT เป็น 'ประเด็นสำคัญ' ที่นักวิจัยมักมองข้ามโดยใช้บริการ

มือถือที่จำเป็น

ข้อค้นพบเพิ่มเติมชี้ให้เห็นว่าพนักงานของ AMT ไม่สามารถแยกความแตกต่างระหว่างข้อความที่เขียนโดยมนุษย์และข้อความที่เขียนโดยเครื่องจักรได้อย่างน่าเชื่อถือ เว้นแต่ว่าพวกเขาจะเห็นข้อความทั้งสองแบบเคียงข้างกัน ซึ่งจะทำให้สถานการณ์การประเมินโดยทั่วไปมีประสิทธิผล (ซึ่งผู้อ่านควรจะสามารถ ตัดสินจากตัวอย่างข้อความ 'จริง' หรือสร้างขึ้นเทียม)

การยอมรับอย่างไม่เป็นทางการของข้อความเทียมคุณภาพต่ำ

พนักงานของ AMT ให้คะแนนข้อความเทียมที่ใช้ GPT คุณภาพต่ำเสมอกับคุณภาพที่สูงกว่า ข้อความที่สอดคล้องกันซึ่งเขียนโดยมนุษย์ ตรงกันข้ามกับครูสอนภาษาอังกฤษที่สามารถแยกแยะความแตกต่างของคุณภาพได้อย่างง่ายดาย

ไม่มีเวลาเตรียมการ ไม่มีบริบท

การเข้าสู่ความคิดที่ถูกต้องสำหรับงานที่เป็นนามธรรมเช่นการประเมินความถูกต้องไม่ได้เกิดขึ้นตามธรรมชาติ ครูสอนภาษาอังกฤษต้องการงาน 20 งานเพื่อสอบเทียบความรู้สึกไวต่อสภาพแวดล้อมการประเมิน ในขณะที่พนักงาน AMT โดยทั่วไปจะไม่ได้รับ 'เวลาปฐมนิเทศ' เลย ทำให้คุณภาพของข้อมูลที่ได้รับลดลง

การเล่นเกมระบบ

รายงานยืนยันว่าเวลารวมที่พนักงาน AMT ใช้ในงานแต่ละงานนั้นสูงเกินจริงโดยพนักงานที่รับงานหลายงานพร้อมกัน และทำงานผ่านแท็บต่างๆ บนเบราว์เซอร์ แทนที่จะจดจ่อกับงานเดียวตามระยะเวลางานที่บันทึกไว้

ประเทศต้นกำเนิดเป็นสิ่งสำคัญ

การตั้งค่าเริ่มต้นของ AMT จะไม่กรองผู้ปฏิบัติงานตามประเทศต้นทาง และบันทึกรายงาน งานก่อนหน้า ระบุว่าพนักงาน AMT ใช้ VPN เพื่อแก้ไขข้อจำกัดทางภูมิศาสตร์ ทำให้ผู้ที่ไม่ใช่เจ้าของภาษาสามารถนำเสนอในฐานะเจ้าของภาษาอังกฤษได้ (ในระบบที่ค่อนข้างไร้เดียงสา คือเทียบภาษาแม่ของคนงานกับตำแหน่งทางภูมิศาสตร์ตาม IP ของพวกเขา)

ดังนั้น นักวิจัยจึงทำการทดสอบประเมินผล AMT อีกครั้งด้วยตัวกรองที่จำกัดผู้มีโอกาสเป็นผู้รับ ไม่- ประเทศที่พูดภาษาอังกฤษพบว่า 'พนักงานจากประเทศที่ไม่พูดภาษาอังกฤษให้คะแนนความสอดคล้อง ความเกี่ยวข้อง และไวยากรณ์...ต่ำกว่าพนักงานที่มีคุณสมบัติเหมือนกันจากประเทศที่ใช้ภาษาอังกฤษอย่างมาก'.

รายงานสรุป:

'ควรใช้ผู้ประเมิน [ผู้เชี่ยวชาญ] เช่น นักภาษาศาสตร์หรือครูสอนภาษาเมื่อใดก็ตามที่เป็นไปได้ เนื่องจากพวกเขาได้รับการฝึกฝนให้ประเมินข้อความที่เขียนแล้ว และไม่แพงมากไปกว่านั้น...'.

 

เผยแพร่เมื่อวันที่ 16 กันยายน 2021 - อัปเดต 18 ธันวาคม 2021: เพิ่มแท็ก