ปัญญาประดิษฐ์

'คนล่องหน' ที่มักไม่มีความสุขที่กำลังตัดสินอนาคตของ AI

วันที่อัพเดท on December 9, 2022

รายงานใหม่สองฉบับ รวมถึงบทความที่นำโดย Google Research แสดงความกังวลว่าแนวโน้มในปัจจุบันที่ต้องพึ่งพากลุ่มคนงานขนาดใหญ่ทั่วโลกที่มีราคาถูกและมักจะถูกตัดสิทธิ์เพื่อสร้างความจริงภาคพื้นดินสำหรับระบบการเรียนรู้ของเครื่องอาจมีผลกระทบที่สำคัญต่อ AI

จากข้อสรุปหลายประการ การศึกษาของ Google พบว่าอคติของกลุ่มคนทำงานมีแนวโน้มที่จะถูกฝังอยู่ในระบบ AI ซึ่งความจริงพื้นฐานจะขึ้นอยู่กับการตอบสนองของพวกเขา แนวทางการทำงานที่ไม่เป็นธรรมที่แพร่หลาย (รวมถึงในสหรัฐอเมริกา) บนแพลตฟอร์มการทำงานแบบฝูงชนมีแนวโน้มที่จะทำให้คุณภาพของการตอบกลับลดลง และระบบ 'ฉันทามติ' (อย่างมีประสิทธิภาพคือ 'การเลือกตั้งขนาดเล็ก' สำหรับความจริงพื้นฐานบางส่วนที่จะมีอิทธิพลต่อระบบ AI ปลายน้ำ) ซึ่งปัจจุบันสามารถแก้ไขข้อพิพาทได้จริง ทิ้งไป คำตอบที่ดีที่สุดและ/หรือมีข้อมูลมากที่สุด

นั่นคือข่าวร้าย ข่าวร้ายกว่านั้นคือการรักษาเกือบทั้งหมดมีราคาแพง ใช้เวลานาน หรือทั้งสองอย่าง

ความไม่มั่นคง การปฏิเสธแบบสุ่ม และความเคียดแค้น

ครั้งแรก กระดาษจากนักวิจัยของ Google ห้าคน เรียกว่า ความจริงพื้นของใคร? การบัญชีสำหรับตัวตนส่วนบุคคลและส่วนรวมภายใต้คำอธิบายประกอบชุดข้อมูล; ที่สองจากนักวิจัยสองคนที่มหาวิทยาลัยซีราคิวส์ในนิวยอร์กเรียกว่า ที่มาและคุณค่าของความไม่ลงรอยกันระหว่างผู้ติดฉลากข้อมูล: กรณีศึกษาความแตกต่างระหว่างบุคคลในคำอธิบายประกอบคำพูดแสดงความเกลียดชัง.

เอกสารของ Google ตั้งข้อสังเกตว่ากลุ่มคนทำงานซึ่งการประเมินมักจะเป็นพื้นฐานที่กำหนดระบบการเรียนรู้ด้วยเครื่องที่อาจส่งผลกระทบต่อชีวิตของเรา มักจะทำงานภายใต้ข้อจำกัดต่างๆ ที่อาจส่งผลต่อวิธีที่พวกเขาตอบสนองต่องานที่ได้รับมอบหมายในการทดลอง

ตัวอย่างเช่น นโยบายปัจจุบันของ Amazon Mechanical Turk อนุญาตให้ผู้ร้องขอ (ผู้ที่มอบหมายงาน) ปฏิเสธงานของผู้ทำหมายเหตุประกอบโดยไม่มีความรับผิดชอบ*:

'[A] ฝูงชนส่วนใหญ่ (94% ) มีงานที่ถูกปฏิเสธหรือไม่ได้รับค่าจ้าง อย่างไรก็ตาม ผู้ร้องขอยังคงมีสิทธิ์เต็มที่ในข้อมูลที่ได้รับ ไม่ว่าพวกเขาจะยอมรับหรือปฏิเสธก็ตาม โรเบิร์ตส์ (2016) อธิบายระบบนี้ว่าเป็นระบบที่ "เปิดใช้งานการขโมยค่าจ้าง"

'ยิ่งไปกว่านั้น การปฏิเสธงานและการหักเงินค่าจ้างเป็นเรื่องที่เจ็บปวด เพราะการปฏิเสธมักเกิดจากคำแนะนำที่ไม่ชัดเจนและการขาดช่องทางข้อเสนอแนะที่มีความหมาย ฝูงชนจำนวนมากรายงานว่าการสื่อสารที่ไม่ดีส่งผลเสียต่องานของพวกเขา'

ผู้เขียนแนะนำว่านักวิจัยที่ใช้บริการจากภายนอกเพื่อพัฒนาชุดข้อมูลควรพิจารณาว่าแพลตฟอร์มการทำงานแบบฝูงชนปฏิบัติต่อพนักงานของตนอย่างไร พวกเขาทราบเพิ่มเติมว่าในสหรัฐอเมริกาฝูงชนจัดอยู่ในประเภท 'ผู้รับจ้างอิสระ' ดังนั้นงานจึงไม่มีการควบคุมและไม่ได้รับการคุ้มครองโดยค่าจ้างขั้นต่ำที่กำหนดโดยกฎหมายมาตรฐานแรงงานที่เป็นธรรม

เรื่องบริบท

กระดาษยังวิพากษ์วิจารณ์การใช้ เฉพาะกิจ แรงงานทั่วโลกสำหรับงานคำอธิบายประกอบ โดยไม่คำนึงถึงภูมิหลังของผู้ทำคำอธิบายประกอบ

ในที่ที่งบประมาณเอื้ออำนวย เป็นเรื่องปกติที่นักวิจัยที่ใช้ AMT และแพลตฟอร์มฝูงชนที่คล้ายกันจะมอบงานเดียวกันให้กับผู้ทำหมายเหตุประกอบ XNUMX คน และปฏิบัติตาม 'กฎเสียงข้างมาก' ในผลลัพธ์

บทความระบุว่าประสบการณ์ตามบริบทถือว่าต่ำกว่าความเป็นจริง ตัวอย่างเช่น หากคำถามเกี่ยวกับงานเกี่ยวกับ การรังเกียจผู้หญิง สุ่มแจกระหว่างชายที่เห็นด้วยสามคนอายุระหว่าง 18-57 ปี และหญิงที่ไม่เห็นด้วยหนึ่งคนอายุ 29 ปี คำตัดสินของผู้ชายจะชนะ ยกเว้นในกรณีที่ค่อนข้างหายากที่นักวิจัยให้ความสนใจกับคุณสมบัติของผู้ทำคำอธิบายประกอบ

ในทำนองเดียวกันหากมีคำถามเกี่ยวกับ พฤติกรรมของแก๊งในชิคาโก ถูกแจกจ่ายระหว่างหญิงในชนบทของสหรัฐฯ อายุ 36 ปี ชายที่อาศัยอยู่ในชิคาโกอายุ 42 ปี และผู้ทำหมายเหตุประกอบสองคนตามลำดับจากบังกาลอร์และเดนมาร์ก บุคคลที่น่าจะได้รับผลกระทบจากปัญหามากที่สุด (ชายชาวชิคาโก) ถือหุ้นเพียงหนึ่งในสี่ของผลลัพธ์ ใน a การกำหนดค่าเอาท์ซอร์สมาตรฐาน

รัฐนักวิจัย:

'[The] แนวคิดเรื่อง "ความจริงหนึ่งเดียว" ในการตอบสนองต่อฝูงชนเป็นเรื่องโกหก ความไม่ลงรอยกันระหว่างผู้เขียนคำอธิบายประกอบซึ่งมักถูกมองว่าเป็นแง่ลบ แท้จริงแล้วสามารถให้สัญญาณที่มีค่าได้ ประการที่สอง เนื่องจากกลุ่มผู้ทำหมายเหตุประกอบที่มาจากฝูงชนจำนวนมากมีความเบ้ทางสังคมและประชากรศาสตร์ จึงมีความหมายโดยนัยว่ากลุ่มใดที่เป็นตัวแทนในชุดข้อมูล เช่นเดียวกับกลุ่มประชากรที่เผชิญกับความท้าทายของ [ฝูงชน]

'การบัญชีสำหรับการเอียงในข้อมูลประชากรของ annotator เป็นสิ่งสำคัญสำหรับชุดข้อมูลตามบริบทและรับประกันการใช้งานดาวน์สตรีมอย่างมีความรับผิดชอบ กล่าวโดยย่อ การยอมรับและการคำนึงถึงภูมิหลังทางสังคมและวัฒนธรรมของพนักงานนั้นมีคุณค่า ทั้งจากมุมมองของคุณภาพข้อมูลและผลกระทบทางสังคม”

ไม่มีความคิดเห็น 'เป็นกลาง' ในหัวข้อยอดนิยม

แม้ว่าความคิดเห็นของผู้เขียนคำอธิบายประกอบทั้งสี่คนจะไม่บิดเบี้ยว ไม่ว่าจะในแง่ข้อมูลประชากรหรือตามเมตริกอื่นๆ บทความของ Google ก็แสดงความกังวลว่านักวิจัยไม่ได้คำนึงถึงประสบการณ์ชีวิตหรือพฤติกรรมทางปรัชญาของผู้เขียนคำอธิบายประกอบ:

'ในขณะที่งานบางอย่างมักจะตั้งคำถามที่เป็นกลางพร้อมคำตอบที่ถูกต้อง (ในรูปมีหน้าคนไหม?) บ่อยครั้งที่ชุดข้อมูลมีเป้าหมายเพื่อจับการตัดสินเกี่ยวกับงานที่ค่อนข้างเป็นอัตนัยโดยไม่มีคำตอบที่ถูกต้องในระดับสากล (ข้อความชิ้นนี้เป็นที่น่ารังเกียจหรือไม่?). สิ่งสำคัญคือต้องตั้งใจว่าจะพึ่งพาการตัดสินเชิงอัตวิสัยของผู้อธิบายหรือไม่'

เกี่ยวกับขอบเขตที่เฉพาะเจาะจงในการแก้ไขปัญหาในการติดฉลากคำพูดแสดงความเกลียดชัง เอกสารของ Syracuse ตั้งข้อสังเกตว่าคำถามที่เป็นหมวดหมู่มากขึ้นเช่น มีแมวอยู่ในรูปนี้หรือไม่? แตกต่างจากการถามฝูงชนว่าวลีนั้น 'เป็นพิษ' หรือไม่:

'โดยคำนึงถึงความยุ่งเหยิงของความเป็นจริงทางสังคม การรับรู้ของผู้คนเกี่ยวกับความเป็นพิษนั้นแตกต่างกันไปอย่างมาก ป้ายกำกับเนื้อหาที่เป็นพิษขึ้นอยู่กับการรับรู้ของพวกเขาเอง'

การค้นพบว่าบุคลิกภาพและอายุมี 'อิทธิพลอย่างมาก' ในการติดฉลากมิติของคำพูดแสดงความเกลียดชัง นักวิจัยของซีราคิวส์สรุปว่า:

'การค้นพบนี้ชี้ให้เห็นว่าความพยายามเพื่อให้ได้มาซึ่งความสอดคล้องกันของคำอธิบายประกอบของผู้ติดฉลากที่มีภูมิหลังและบุคลิกที่แตกต่างกันสำหรับคำพูดแสดงความเกลียดชังอาจไม่มีทางประสบความสำเร็จได้อย่างเต็มที่'

ผู้พิพากษาอาจลำเอียงเกินไป

การขาดความเที่ยงธรรมนี้มีแนวโน้มที่จะทำซ้ำขึ้นไปอีกเช่นกัน ตามรายงานของ Syracuse ซึ่งระบุว่าการแทรกแซงด้วยตนเอง (หรือนโยบายอัตโนมัติซึ่งตัดสินใจโดยมนุษย์ด้วย) ซึ่งกำหนด 'ผู้ชนะ' ในการลงคะแนนเสียงฉันทามติควรได้รับการตรวจสอบข้อเท็จจริงด้วย .

เมื่อเปรียบกระบวนการกับการกลั่นกรองฟอรัม ผู้เขียนระบุว่า*:

'[A] ผู้ดูแลชุมชนสามารถตัดสินชะตากรรมของทั้งโพสต์และผู้ใช้ในชุมชนของตนโดยส่งเสริมหรือซ่อนโพสต์ เช่นเดียวกับการให้เกียรติ ทำให้อับอาย หรือแบนผู้ใช้ การตัดสินใจของผู้ดูแลมีอิทธิพลต่อเนื้อหาที่ส่งไป สมาชิกในชุมชนและผู้ชม และขยายอิทธิพลต่อประสบการณ์ของชุมชนในการอภิปราย

'สมมติว่าผู้ดูแลที่เป็นมนุษย์คือสมาชิกชุมชนที่มีความเหมือนกันทางประชากรศาสตร์กับสมาชิกชุมชนคนอื่นๆ ดูเหมือนว่าเป็นไปได้ที่สคีมาทางจิตที่พวกเขาใช้ในการประเมินเนื้อหาจะตรงกับของสมาชิกชุมชนคนอื่นๆ'

สิ่งนี้ให้เงื่อนงำว่าทำไมนักวิจัยของซีราคิวส์จึงได้ข้อสรุปที่น่าสลดใจเกี่ยวกับอนาคตของคำอธิบายประกอบคำพูดแสดงความเกลียดชัง ความหมายก็คือว่านโยบายและการเรียกร้องการตัดสินเกี่ยวกับความคิดเห็นของฝูงชนที่ไม่เห็นด้วยนั้นไม่สามารถนำไปใช้แบบสุ่มตามหลักการที่ 'ยอมรับได้' ซึ่งไม่ได้ประดิษฐานอยู่ที่ใด

คนที่ตัดสินใจ (กลุ่มคนทำงาน) มีอคติ และจะไร้ประโยชน์สำหรับงานดังกล่าวหากพวกเขาเป็น ไม่ ลำเอียง เนื่องจากงานคือการตัดสินคุณค่า ผู้คนที่ตัดสินข้อพิพาทในผลงานฝูงชนกำลังใช้วิจารณญาณในการกำหนดนโยบายสำหรับข้อพิพาท

อาจมีนโยบายหลายร้อยรายการในกรอบการตรวจจับคำพูดแสดงความเกลียดชังเพียงกรอบเดียว และเว้นแต่นโยบายแต่ละข้อจะถูกนำขึ้นสู่ศาลสูงสุดแล้ว ฉันทามติ 'เผด็จการ' จะเกิดขึ้นได้จากที่ใด

นักวิจัยของ Google แนะนำว่า '[the] ความไม่ลงรอยกันระหว่างผู้อธิบายประกอบอาจฝังความแตกต่างอันมีค่าเกี่ยวกับงาน'. บทความนี้เสนอการใช้ข้อมูลเมตาในชุดข้อมูลที่สะท้อนและกำหนดบริบทของข้อพิพาท

อย่างไรก็ตาม เป็นการยากที่จะดูว่าชั้นข้อมูลเฉพาะบริบทดังกล่าวสามารถนำไปสู่เมตริกที่คล้ายกัน ปรับให้เข้ากับความต้องการของการทดสอบมาตรฐานหรือการสนับสนุนที่กำหนดไว้ได้อย่างไร ใด ผลลัพธ์ขั้นสุดท้าย – ยกเว้นในสถานการณ์ที่ไม่สมจริงของการนำนักวิจัยกลุ่มเดียวกันมาใช้ในงานที่ตามมา

การดูแลจัดการพูล Annotator

ทั้งหมดนี้ถือว่ามีงบประมาณในโครงการวิจัยสำหรับคำอธิบายประกอบหลายรายการที่จะนำไปสู่การลงมติเป็นเอกฉันท์ ในหลายกรณี นักวิจัยพยายาม 'ดูแล' กลุ่มคำอธิบายประกอบที่จ้างจากภายนอกให้ถูกกว่าโดยระบุลักษณะที่ผู้ปฏิบัติงานควรมี เช่น ที่ตั้งทางภูมิศาสตร์ เพศ หรือปัจจัยทางวัฒนธรรมอื่นๆ

เอกสารของ Google เชื่อว่าหนทางข้างหน้าจากความท้าทายเหล่านี้อาจทำได้โดยการสร้างกรอบการสื่อสารแบบขยายพร้อมคำอธิบายประกอบ คล้ายกับการสื่อสารขั้นต่ำที่แอพ Uber อำนวยความสะดวกระหว่างคนขับและผู้โดยสาร

การพิจารณาคำอธิบายประกอบอย่างรอบคอบเช่นนี้ย่อมเป็นอุปสรรคต่อการจัดหาคำอธิบายประกอบแบบไฮเปอร์สเกล ซึ่งส่งผลให้ชุดข้อมูลมีปริมาณจำกัดมากขึ้นและมีปริมาณน้อยซึ่งมีเหตุผลที่ดีกว่าสำหรับผลลัพธ์ หรือการประเมิน "อย่างรวดเร็ว" ของคำอธิบายประกอบที่เกี่ยวข้อง ทำให้ได้รับรายละเอียดอย่างจำกัด เกี่ยวกับพวกเขาและกำหนดลักษณะว่า 'เหมาะสมกับงาน' โดยอิงจากข้อมูลที่น้อยเกินไป

นั่นคือถ้าผู้อธิบายมีความซื่อสัตย์

'คนโปรด' ในการติดฉลากชุดข้อมูลภายนอก

ด้วยพนักงานที่มีอยู่นั่นคือ ได้รับค่าจ้างน้อยไปภายใต้ การแข่งขันที่รุนแรง สำหรับงานที่มีอยู่และตกต่ำโดย โอกาสทางอาชีพที่ขาดแคลนผู้เขียนคำอธิบายประกอบได้รับการกระตุ้นให้ระบุคำตอบที่ 'ถูกต้อง' อย่างรวดเร็วและไปยังการมอบหมายย่อยถัดไป

หาก 'คำตอบที่ถูกต้อง' เป็นอะไรที่ซับซ้อนกว่า มีแมว/ไม่มีแมวเอกสาร Syracuse เชื่อว่าผู้ปฏิบัติงานมีแนวโน้มที่จะพยายามอนุมานคำตอบที่ 'ยอมรับได้' ตามเนื้อหาและบริบทของคำถาม*:

'ทั้งการเพิ่มจำนวนของแนวคิดทางเลือกและการใช้วิธีอธิบายประกอบอย่างง่ายอย่างแพร่หลายกำลังขัดขวางความก้าวหน้าของการวิจัยเกี่ยวกับคำพูดแสดงความเกลียดชังทางออนไลน์ ตัวอย่างเช่น Ross และคณะ พบ การแสดงคำจำกัดความของ Twitter เกี่ยวกับการกระทำที่แสดงความเกลียดชังต่อผู้ทำหมายเหตุประกอบทำให้พวกเขาจัดแนวความคิดเห็นของตนเองบางส่วนกับคำจำกัดความ การปรับเปลี่ยนนี้ส่งผลให้ผู้ตรวจสอบมีความน่าเชื่อถือของคำอธิบายประกอบต่ำมาก'

* การแปลงการอ้างอิงแบบอินไลน์ของกระดาษเป็นไฮเปอร์ลิงก์

เผยแพร่เมื่อวันที่ 13 ธันวาคม 2021 – อัปเดต 18 ธันวาคม 2021: เพิ่มแท็กแล้ว

หัวข้อที่เกี่ยวข้อง:เติร์กเชิงกล การประมวลผลภาษาธรรมชาติ NLP การวิจัย

ต่อไป

โจมตีระบบประมวลผลด้วยภาษาธรรมชาติด้วยตัวอย่างของฝ่ายตรงข้าม

อย่าพลาด

AI ใช้การเรียนรู้การเสริมแรงเพื่อนำทางมหาสมุทร

Martin Anderson

นักเขียนเกี่ยวกับการเรียนรู้ของเครื่อง ปัญญาประดิษฐ์ และข้อมูลขนาดใหญ่
เว็บไซต์ส่วนตัว: martinanderson.ai
ติดต่อ: [ป้องกันอีเมล]
ทวิตเตอร์: @manders_ai