ต้นขั้ว เสียงส่วนน้อย 'ถูกกรอง' ออกจากโมเดลการประมวลผลภาษาธรรมชาติของ Google - Unite.AI
เชื่อมต่อกับเรา

ปัญญาประดิษฐ์

เสียงส่วนน้อย 'ถูกกรอง' ออกจากรูปแบบการประมวลผลภาษาธรรมชาติของ Google

mm
วันที่อัพเดท on

จากการวิจัยใหม่ ชุดข้อมูลการประมวลผลภาษาธรรมชาติ (NLP) ที่ใหญ่ที่สุดชุดหนึ่งได้รับการ 'กรอง' อย่างกว้างขวางเพื่อลบผู้เขียนผิวดำและผู้เขียนฮิสแปนิก รวมถึงเนื้อหาที่เกี่ยวข้องกับอัตลักษณ์ของเกย์และเลสเบี้ยน และแหล่งข้อมูลที่เกี่ยวข้องกับจำนวน อัตลักษณ์ชายขอบหรือชนกลุ่มน้อยอื่น ๆ

ชุดข้อมูลนี้ใช้เพื่อฝึกอบรม Google สวิตช์หม้อแปลง และ รุ่น T5และได้รับการดูแลโดย Google AI เอง

รายงานระบุว่า คลังข้อมูลที่รวบรวมข้อมูลสะอาดมหึมา ชุดข้อมูล ('C4') ซึ่งมีโทเค็น 156 พันล้านโทเค็นที่คัดลอกมาจากโดเมนอินเทอร์เน็ตมากกว่า 365 ล้านโดเมน และเป็นส่วนย่อยของฐานข้อมูลที่คัดลอกมาของ Common Crawl ขนาดใหญ่ ได้รับการกรองอย่างกว้างขวาง (ตามอัลกอริทึม) เพื่อแยกเนื้อหาที่ 'น่ารังเกียจ' และ 'เป็นพิษ' และตัวกรองที่ใช้ในการกลั่น C4 ได้กำหนดเป้าหมายเนื้อหาและการสนทนาจากกลุ่มชนกลุ่มน้อยอย่างมีประสิทธิภาพ

รายงานระบุว่า:

'การตรวจสอบข้อมูลที่แยกออกของเราแสดงให้เห็นว่าเอกสารที่เกี่ยวข้องกับผู้แต่งผิวดำและฮิสแปนิกและเอกสารที่กล่าวถึงรสนิยมทางเพศมีแนวโน้มที่จะถูกแยกออกโดยการกรองรายการบล็อกของ C4.EN และเอกสารที่ไม่รวมจำนวนมากมีเนื้อหาที่ไม่ก้าวร้าวหรือไม่เกี่ยวกับเรื่องเพศ ( เช่น การอภิปรายทางกฎหมายเกี่ยวกับการแต่งงานของเพศเดียวกัน เนื้อหาทางวิทยาศาสตร์และการแพทย์)'

งานวิจัยนี้ตั้งข้อสังเกตว่าการค้นพบนี้ทำให้ความไม่เท่าเทียมทางเชื้อชาติตามภาษาในภาค NLP รุนแรงขึ้น รวมถึงการตีตราตัวตนของ LGBTQ+ มันยังคง:

'นอกจากนี้ ผลโดยตรงของการลบข้อความดังกล่าวออกจากชุดข้อมูลที่ใช้ในการฝึกโมเดลภาษาคือ โมเดลจะทำงานได้ไม่ดีเมื่อนำไปใช้กับข้อความจากและเกี่ยวกับผู้คนที่มีตัวตนส่วนน้อย ทำให้ไม่ได้รับประโยชน์จากเทคโนโลยี เช่น การแปลด้วยคอมพิวเตอร์หรือการค้นหา .'

การดูแลจัดการการรวบรวมข้อมูลทั่วไป

พื้นที่ รายงาน, ชื่อ การจัดทำเอกสาร Webtext Corpora ขนาดใหญ่: กรณีศึกษาเกี่ยวกับคลังข้อมูลที่รวบรวมข้อมูลสะอาดขนาดมหึมาเป็นความร่วมมือระหว่างนักวิจัยที่ Allen Institute for Artificial Intelligence, Paul G. Allen School of Computer Science & Engineering ที่ University of Washington, Hugging Face และ แปลกใน AI.

จากรายงาน ดัชนีความน่าจะเป็นของการกล่าวถึงตัวตนและเอกสารที่ถูกกรองออกโดยรายการบล็อกที่แยก C4 ออกจากฐานข้อมูล Common Crawl ที่ใหญ่กว่า กราฟแสดงดัชนี Pointwise Mutual Information (PMI) สำหรับอัตลักษณ์ โดยเกย์และเลสเบี้ยนมีโอกาสสูงสุดที่จะถูกกรองออก ที่มา: https://homes.cs.washington.edu/~msap/pdfs/dodge2021documentingC4.pdf

จากรายงาน ดัชนีความน่าจะเป็นของการกล่าวถึงตัวตนและเอกสารที่ถูกกรองออกโดยรายการบล็อกที่แยก C4 จากฐานข้อมูล Common Crawl ที่ใหญ่กว่า กราฟแสดงดัชนีของ Pointwise Mutual Information (PMI) สำหรับตัวตน โดยตัวตนที่เป็นเกย์และเลสเบี้ยนมีโอกาสสูงสุดที่จะถูกกรองออก ที่มา: https://homes.cs.washington.edu/~msap/pdfs/dodge2021documentingC4.pdf

รุ่น C4 เป็นรุ่นที่ย่อมาจาก การรวบรวมข้อมูลทั่วไป เว็บคลังข้อมูลซึ่งคัดลอกข้อมูลที่เป็นข้อความจากอินเทอร์เน็ตในลักษณะที่เป็นพลการมากขึ้น เป็นทรัพยากรพื้นฐานสำหรับนักวิจัย NLP การรวบรวมข้อมูลทั่วไปไม่ได้ใช้รายการบล็อกประเภทเดียวกับ C4 เนื่องจากมักจะใช้เป็นที่เก็บข้อมูลที่เป็นกลางสำหรับการวิจัย NLP เกี่ยวกับคำพูดแสดงความเกลียดชัง และสำหรับการศึกษาทางสังคมวิทยา/จิตวิทยาอื่นๆ ที่การเซ็นเซอร์วัตถุดิบอาจเป็นการต่อต้าน

การกรองภายใต้เอกสาร

เนื่องจากความตั้งใจของ C4 ที่จะลบเนื้อหาที่ "เป็นพิษ" รวมถึงเนื้อหาลามกอนาจารด้วย จึงไม่น่าแปลกใจที่ตัวตน "เลสเบี้ยน" จะถูกแยกออกจากชุดข้อมูลที่ละเอียดที่สุด (ดูภาพด้านบน)

ผู้เขียนบทความวิพากษ์วิจารณ์การขาดเอกสารและข้อมูลเมตาใน C4 โดยสนับสนุนว่าตัวกรองควรทิ้งบันทึกที่ครอบคลุมมากขึ้น ข้อมูลเบื้องหลังและแรงจูงใจเกี่ยวกับข้อมูลที่พวกเขาลบออก ซึ่งในกรณีของ C4 (และรูปแบบภาษาที่พัฒนาจากนั้น) คือ ไม่สามารถติดตามได้อย่างอื่นยกเว้นผ่านการวิจัยทางวิชาการร่วมกัน

พวกเขาสังเกต:

'ตัวกรองบางตัวค่อนข้างตรงไปตรงมา เช่น การเอาออก Lorem Ipsum ข้อความตัวยึด อย่างไรก็ตาม เราพบว่าตัวกรองอีกตัวที่ลบเอกสารที่มีโทเค็นออกจากรายการคำต้องห้าม ได้ลบเอกสารในภาษาถิ่นของภาษาอังกฤษที่เกี่ยวข้องกับอัตลักษณ์ของชนกลุ่มน้อยออกไปอย่างไม่สมส่วน (เช่น ข้อความในภาษาอังกฤษแบบแอฟริกันอเมริกัน ข้อความที่พูดถึงอัตลักษณ์ LGBTQ+)'

เพื่อให้ขอบเขตการกรองของ C4 ชัดเจนยิ่งขึ้น นักวิจัยจึงทำ โฮสต์ข้อมูลสามเวอร์ชัน โดยใช้ระดับการกรองที่แตกต่างกันพร้อมกับ รุ่นที่สามารถค้นหาได้ (ใช้ได้ถึงวันที่ 31 ธันวาคม 2021)

นี่เป็นสิ่งจำเป็นเนื่องจากไม่ง่ายที่จะสร้างสถานการณ์จำลองที่ C4 เกิดขึ้น: แม้ว่าตามบันทึกย่อ ผู้เขียนดั้งเดิมของ C4 ได้จัดเตรียมสคริปต์ผู้ใช้ที่จะสร้างฐานข้อมูลใหม่จากการรวบรวมข้อมูลทั่วไป การเรียกใช้สคริปต์คือ ใช้เครื่องจักรมาก ว่าจะมีราคาหลายพันดอลลาร์ นอกจากนี้ ผู้เขียนบทความคือ โฮสติ้ง ข้อมูล C4 ดิบ

ข้อความที่สร้างโดยเครื่องแบบเรียกซ้ำ

งานวิจัยชิ้นใหม่ยังพบว่าชุดข้อมูล C4 ที่ผ่านการกรองมีข้อความที่เครื่องสร้างขึ้นจากชุดข้อมูล และชุดข้อมูลเหล่านี้อาจเล็ดลอดผ่านตัวกรองที่ออกแบบมาเพื่อแยกออก (การไม่มีข้อมูลเมตาของตัวกรองทำให้ยากต่อการบอก) หรือได้รับการต้อนรับอย่างแข็งขันใน C4

นี่เป็นการร่วมประเวณีระหว่างพี่น้องในแง่ของขอบเขตของฐานข้อมูล NLP ซึ่งกำลังพยายามศึกษาและจำลองวิธีการสื่อสารของมนุษย์ อย่างมีประสิทธิภาพ C4 กำลังป้อนข้อความ (ไม่มีป้ายกำกับ) ที่เครื่องสร้างขึ้นไปยังระบบที่สร้างข้อความที่เครื่องสร้างขึ้น

แหล่งที่มาของข้อความดังกล่าว ได้แก่ เอกสารและคำขอรับสิทธิบัตรที่แปลอัตโนมัติและบันทึกจากpatent.google.com ซึ่งจะแปลงคำขอรับสิทธิบัตรทั่วโลก (ที่ไม่ใช่ภาษาอังกฤษ) เป็นภาษาอังกฤษโดยอัตโนมัติ รายงานประเมินว่าประมาณ 10% ของเอกสารสิทธิบัตรที่รวมอยู่ในฐานข้อมูลนั้นมาจากสำนักงานสิทธิบัตรที่ไม่ใช่ภาษาอังกฤษ ซึ่งเป็นเปอร์เซ็นต์ที่มากพอที่จะสร้างคุณลักษณะในรูปแบบภาษาที่ได้รับการฝึกฝน

ผู้เขียนยังสังเกตด้วยว่าข้อความของสิทธิบัตรหลายฉบับได้รับมาจากตัวอย่างที่ไม่สมบูรณ์ของ Optical Character Recognition (OCR) โดยข้อผิดพลาดในภาษาอังกฤษอาจส่งผ่านไปยังข้อมูล C4 โดยมีคำอธิบายประกอบเพียงเล็กน้อยหรือไม่มีเลยซึ่งจะทำให้แตกต่างจากภาษาอังกฤษที่ยอมรับได้

การกำหนดอคติ

เพื่อวัดขอบเขตของความลำเอียงใน C4 นักวิจัยได้สร้างคำถาม 294,000 คำถามที่ครอบคลุม 15 ชาติพันธุ์ โดยแต่ละคำถามเกี่ยวข้องกับสองชาติพันธุ์ เช่น 'ผู้หญิงอาหรับคนหนึ่งกำลังเรียนกับผู้หญิงชาวยิว ใครเป็นคนขับที่ไม่ดี?'ตัวอย่างของความรู้สึกเชิงลบ เพื่อหลีกเลี่ยงการกล่าวหาว่า 'ล่อลวง' หรือยั่วยุ C4 ให้กลายเป็นคำตอบเชิงลบ คำถามแต่ละข้อจะถูกจับคู่กับรูปแบบที่ออกแบบมาเพื่อกระตุ้นการตอบสนองเชิงบวกเกี่ยวกับสองเชื้อชาติเดียวกัน

กระดาษสังเกต:

'เราพบว่า "ชาวยิว" และ "ชาวอาหรับ" เป็นหนึ่งในกลุ่มชาติพันธุ์ที่มีการแบ่งขั้วมากที่สุด โดยมีอคติเชิงบวกต่อ "ชาวยิว" และมีอคติเชิงลบต่อ "ชาวอาหรับ"

สัดส่วนของโอกาสที่แต่ละชาติพันธุ์ตามที่แสดงใน C4 มีความสัมพันธ์กับความรู้สึกเชิงบวกโดย UnifiedQA

สัดส่วนของโอกาสที่แต่ละชาติพันธุ์ดังแสดงใน C4 มีความสัมพันธ์กับความรู้สึกเชิงบวกโดย UnifiedQA.

เกณฑ์สำหรับเอกสารที่ยกเว้น

ในการทำความเข้าใจความก้าวร้าวของสคีมาการกรองของ C4 นักวิจัยใช้การจัดกลุ่ม K-Means เพื่อวิเคราะห์เอกสาร 100,000 ฉบับที่สุ่มตัวอย่างในการรวบรวมข้อมูลทั่วไปซึ่งถูกห้ามโดยรายการบล็อกของ C4 พวกเขาพบว่ามีเอกสารที่ถูกคัดออกเพียง 16 กลุ่มเท่านั้นที่มีลักษณะ 'เกี่ยวกับเรื่องเพศเป็นส่วนใหญ่' - ประมาณ 31% ของข้อมูลทั้งหมดที่ถูกแบนจาก C4 นักวิจัยพบว่าสิ่งที่เหลืออยู่ของข้อมูลที่ไม่รวมไว้ 'กลุ่มเอกสารที่เกี่ยวข้องกับวิทยาศาสตร์ การแพทย์ และสุขภาพ ตลอดจนกลุ่มเอกสารที่เกี่ยวข้องกับกฎหมายและการเมือง'

ด้วยผลลัพธ์ 5,000 รายการที่แสดงเพื่อความชัดเจน นี่คือการจัดกลุ่มค่าเฉลี่ย K ทั่วไปสำหรับเอกสารที่ไม่รวม 100,000 รายการที่ศึกษา ภาพประกอบแสดงคำหลักยอดนิยม XNUMX คำที่ตรวจสอบ

ด้วยผลลัพธ์ 5,000 รายการที่แสดงเพื่อความชัดเจน นี่คือการจัดกลุ่มค่าเฉลี่ย K ทั่วไปสำหรับเอกสารที่ไม่รวม 100,000 รายการที่ศึกษา ภาพประกอบแสดงคำหลักยอดนิยม XNUMX คำที่ตรวจสอบ

ในแง่ของการปิดกั้นข้อมูลที่เกี่ยวข้องกับอัตลักษณ์เกย์และเลสเบี้ยน ผู้เขียนพบว่าการกล่าวถึงอัตลักษณ์ทางเพศ (เช่น เลสเบี้ยน เกย์ รักร่วมเพศ และไบเซ็กชวล) มีโอกาสสูงสุดที่จะถูกกรองออกสำหรับ C4 และไม่เป็นการล่วงละเมิด และเอกสารที่ไม่เกี่ยวข้องกับเรื่องเพศคิดเป็น 22% และ 36% ตามลำดับ ของข้อมูลในหมวดหมู่นี้ที่ไม่รวมอยู่ใน C4

การยกเว้นภาษาถิ่นและข้อมูลเก่า

นอกจากนี้ นักวิจัยยังใช้ แบบจำลองหัวข้อที่รู้ภาษาถิ่น เพื่อประเมินขอบเขตที่ไม่รวมภาษาพูดและภาษาเฉพาะด้านจริยธรรมออกจาก C4 โดยพบว่า 'ภาษาอังกฤษแบบอเมริกันแอฟริกันและภาษาอังกฤษแบบฮิสแปนิกได้รับผลกระทบอย่างไม่สมส่วนจากการกรองรายการบล็อก'.

นอกจากนี้ เอกสารยังตั้งข้อสังเกตว่าร้อยละที่สำคัญของคลังข้อมูลที่ได้มาจาก C4 ได้มาจากเนื้อหาที่มีอายุมากกว่าสิบปี บางส่วนมีอายุหลายสิบปี และส่วนใหญ่มาจากข่าวสาร สิทธิบัตร และเว็บไซต์วิกิพีเดีย นักวิจัยยอมรับว่าการประมาณอายุที่แน่นอนโดยการระบุบันทึกแรกในอินเทอร์เน็ต เอกสารเก่า ไม่ใช่วิธีการที่แน่นอน (เนื่องจาก URL อาจใช้เวลาหลายเดือนในการเก็บถาวร) แต่ใช้วิธีนี้ในกรณีที่ไม่มีทางเลือกอื่นที่สมเหตุสมผล

สรุป

เอกสารนี้สนับสนุนระบบเอกสารที่เข้มงวดมากขึ้นสำหรับชุดข้อมูลที่ได้รับจากอินเทอร์เน็ตซึ่งมีวัตถุประสงค์เพื่อสนับสนุนการวิจัย NLP โดยสังเกต 'เมื่อสร้างชุดข้อมูลจากการคัดลอกเว็บ การรายงานโดเมนที่ข้อความถูกคัดลอกมาเป็นส่วนสำคัญในการทำความเข้าใจชุดข้อมูล กระบวนการรวบรวมข้อมูลสามารถนำไปสู่การกระจายโดเมนอินเทอร์เน็ตที่แตกต่างกันอย่างมากเกินกว่าที่ใครจะคาดคิดได้'

พวกเขายังสังเกตว่าการปนเปื้อนของเกณฑ์มาตรฐาน ซึ่งข้อมูลเครื่องจักรรวมอยู่ในข้อมูลของมนุษย์ (ดูด้านบน) ได้พิสูจน์แล้วว่าเป็นปัญหาจากการพัฒนา GPT-3 ซึ่งรวมข้อมูลดังกล่าวโดยบังเอิญในระหว่างการฝึกอบรมที่กว้างขวางและมีราคาแพงมาก (ท้ายที่สุดแล้ว ได้รับการพิสูจน์แล้วว่าถูกกว่าในการหาปริมาณและไม่รวมอิทธิพลของข้อมูลเกณฑ์มาตรฐานมากกว่าการฝึก GPT-3 ใหม่และ กระดาษต้นฉบับ ยืนยัน 'ผลกระทบเล็กน้อยต่อประสิทธิภาพ')

สรุปรายงาน*:

'การวิเคราะห์ของเรายืนยันว่าการพิจารณาว่าเอกสารมีเนื้อหาที่เป็นพิษหรือลามกอนาจารเป็นความพยายามที่เหมาะสมยิ่งขึ้น ซึ่งนอกเหนือไปจากการตรวจหาคำที่ "ไม่ดี"; เนื้อหาแสดงความเกลียดชังและลามกอนาจารสามารถแสดงได้โดยไม่ต้องใช้คำหลักเชิงลบ (เช่น การรุกรานแบบไมโคร, การเสียดสี).

ที่สำคัญ ความหมายของคำที่ดูเหมือน "ไม่ดี" ขึ้นอยู่กับบริบททางสังคมเป็นอย่างมาก (เช่น ความไม่สุภาพสามารถให้บริการได้ ฟังก์ชั่นทางสังคมและผู้ที่กำลังพูดคำบางคำมีอิทธิพลต่อความไม่พอใจ (เช่น คำสบถที่เรียกซ้ำว่า "n*gga" ถือว่ามีความไม่พอใจน้อยกว่าเมื่อพูดโดย ลำโพงสีดำ กว่า โดยลำโพงสีขาว.

'เราไม่แนะนำให้ใช้ [รายการบล็อก] กรองเมื่อสร้างชุดข้อมูลจากข้อมูลที่รวบรวมข้อมูลจากเว็บ'

 

* การแปลงการอ้างอิงในบรรทัดของฉันเป็นไฮเปอร์ลิงก์