ผู้นำทางความคิด
เลเยอร์ที่ถูกลืม: อคติทาง AI ที่ซ่อนอยู่แอบแฝงอยู่ในแนวทางการอธิบายชุดข้อมูลได้อย่างไร

ระบบ AI พึ่งพาชุดข้อมูลจำนวนมากที่ผ่านการคัดสรรมาอย่างพิถีพิถันเพื่อการฝึกอบรมและการปรับให้เหมาะสม ประสิทธิภาพของโมเดล AI นั้นเชื่อมโยงอย่างซับซ้อนกับคุณภาพ ความเป็นตัวแทน และความสมบูรณ์ของข้อมูลที่ใช้ในการฝึกอบรม อย่างไรก็ตาม มีปัจจัยที่มักถูกประเมินต่ำเกินไปซึ่งส่งผลกระทบอย่างลึกซึ้งต่อผลลัพธ์ของ AI นั่นก็คือคำอธิบายประกอบชุดข้อมูล
แนวทางการใส่คำอธิบายประกอบ หากไม่สม่ำเสมอหรือลำเอียง อาจทำให้เกิดอคติที่แพร่หลายและมักจะไม่ชัดเจนในโมเดล AI ส่งผลให้กระบวนการตัดสินใจเบี่ยงเบนและส่งผลเสียในบางครั้ง ซึ่งส่งผลกระทบต่อกลุ่มผู้ใช้ที่หลากหลาย อคติ AI ที่เกิดจากมนุษย์ซึ่งมักถูกมองข้ามซึ่งมีอยู่ในวิธีการใส่คำอธิบายประกอบ มักส่งผลที่มองไม่เห็นแต่ร้ายแรง
คำอธิบายชุดข้อมูล: พื้นฐานและข้อบกพร่อง
การใส่คำอธิบายชุดข้อมูลเป็นกระบวนการสำคัญในการใส่ป้ายกำกับชุดข้อมูลอย่างเป็นระบบเพื่อให้โมเดลการเรียนรู้ของเครื่องสามารถตีความและแยกรูปแบบจากแหล่งข้อมูลที่หลากหลายได้อย่างแม่นยำ ซึ่งครอบคลุมงานต่างๆ เช่น การตรวจจับวัตถุในภาพ การจำแนกประเภทความรู้สึกในเนื้อหาข้อความและการจดจำเอนทิตีที่มีชื่อระหว่างโดเมนที่หลากหลาย
คำอธิบายประกอบทำหน้าที่เป็นชั้นพื้นฐานที่แปลงข้อมูลดิบที่ไม่มีโครงสร้างให้เป็นรูปแบบที่มีโครงสร้างที่โมเดลสามารถใช้เพื่อแยกแยะรูปแบบและความสัมพันธ์ที่ซับซ้อน ไม่ว่าจะเป็นระหว่างอินพุตและเอาต์พุตหรือชุดข้อมูลใหม่กับข้อมูลฝึกอบรมที่มีอยู่
อย่างไรก็ตาม แม้ว่าการอธิบายชุดข้อมูลจะมีบทบาทสำคัญ มีแนวโน้มที่จะเกิดข้อผิดพลาดและอคติจากมนุษย์โดยธรรมชาติความท้าทายที่สำคัญอยู่ที่ความจริงที่ว่าอคติของมนุษย์ทั้งที่รู้ตัวและไม่รู้ตัว มักจะแทรกซึมเข้าสู่กระบวนการการอธิบายประกอบการฝังอคติโดยตรงในระดับข้อมูลแม้กระทั่งก่อนที่โมเดลจะเริ่มการฝึกอบรม อคติดังกล่าวเกิดขึ้นเนื่องจากการขาดความหลากหลายในหมู่ผู้ให้คำอธิบาย แนวทางการอธิบายที่ออกแบบมาไม่ดี หรือสมมติฐานทางสังคมและวัฒนธรรมที่หยั่งรากลึก ซึ่งทั้งหมดนี้สามารถทำให้ข้อมูลเบี่ยงเบนไปในทางพื้นฐานได้ และทำให้ความยุติธรรมและความถูกต้องของโมเดลลดลง
โดยเฉพาะอย่างยิ่ง การระบุและแยกพฤติกรรมเฉพาะวัฒนธรรมเป็นขั้นตอนการเตรียมการที่สำคัญที่ช่วยให้มั่นใจได้ว่าความแตกต่างเล็กน้อยของบริบททางวัฒนธรรมจะได้รับการเข้าใจและคำนึงถึงอย่างครบถ้วนก่อนที่ผู้ให้คำอธิบายมนุษย์จะเริ่มทำงาน ซึ่งรวมถึง การระบุการแสดงออก ท่าทาง หรือขนบธรรมเนียมทางสังคมที่ผูกติดกับวัฒนธรรมซึ่งอาจตีความผิดได้ หรือมีการติดป้ายอย่างไม่สอดคล้องกัน การวิเคราะห์ทางวัฒนธรรมก่อนการใส่คำอธิบายดังกล่าวช่วยสร้างฐานข้อมูลที่สามารถลดข้อผิดพลาดในการตีความและอคติได้ จึงช่วยเพิ่มความเที่ยงตรงและความเป็นตัวแทนของข้อมูลที่มีคำอธิบาย แนวทางที่มีโครงสร้างในการแยกพฤติกรรมเหล่านี้ออกจะช่วยให้มั่นใจได้ว่าความละเอียดอ่อนทางวัฒนธรรมจะไม่นำไปสู่ความไม่สอดคล้องกันของข้อมูลโดยไม่ได้ตั้งใจ ซึ่งอาจส่งผลต่อประสิทธิภาพการทำงานในภายหลังของโมเดล AI
อคติ AI ที่ซ่อนอยู่ในแนวทางปฏิบัติด้านคำอธิบายประกอบ
การอธิบายชุดข้อมูลซึ่งเป็นความพยายามที่ขับเคลื่อนโดยมนุษย์นั้นได้รับอิทธิพลโดยพื้นฐานจากภูมิหลังส่วนบุคคล บริบททางวัฒนธรรม และประสบการณ์ส่วนตัวของผู้อธิบาย ทั้งหมดนี้กำหนดวิธีการตีความและการติดฉลากข้อมูลเลเยอร์เชิงอัตนัยนี้ทำให้เกิดความไม่สอดคล้องกัน ซึ่งโมเดลการเรียนรู้ของเครื่องจะรวบรวมเป็นความจริงพื้นฐานในภายหลัง ปัญหาจะยิ่งเด่นชัดมากขึ้นเมื่ออคติที่เหมือนกันระหว่างผู้ให้คำอธิบายถูกฝังอย่างสม่ำเสมอทั่วทั้งชุดข้อมูล การสร้างอคติแฝงในระบบพฤติกรรมของโมเดล AIตัวอย่างเช่น อคติทางวัฒนธรรมสามารถส่งอิทธิพลต่อการติดฉลากความรู้สึกในข้อมูลข้อความหรือการกำหนดลักษณะเฉพาะในชุดข้อมูลภาพ ส่งผลให้การแสดงข้อมูลที่เบี่ยงเบนและไม่สมดุล
ตัวอย่างที่โดดเด่นในเรื่องนี้คืออคติทางเชื้อชาติในชุดข้อมูลการจดจำใบหน้า ส่วนใหญ่เกิดจากการรวมตัวของกลุ่มเป็นเนื้อเดียวกันกรณีที่มีการบันทึกไว้เป็นอย่างดีแสดงให้เห็นว่าอคติ เกิดจากการขาดความหลากหลายของผู้ให้คำอธิบาย ส่งผลให้โมเดล AI ไม่สามารถประมวลผลใบหน้าของบุคคลที่ไม่ใช่คนผิวขาวได้อย่างแม่นยำ ในความเป็นจริง การศึกษาวิจัยครั้งหนึ่งของ NIST พบว่ากลุ่มคนบางกลุ่ม บางครั้งมีโอกาสถูกระบุผิดโดยอัลกอริทึมมากถึง 100 เท่าสิ่งนี้ไม่เพียงแต่ลดประสิทธิภาพของโมเดลเท่านั้น แต่ยังก่อให้เกิดความท้าทายทางจริยธรรมที่สำคัญอีกด้วย เนื่องจากความไม่แม่นยำเหล่านี้มักส่งผลให้เกิดผลลัพธ์ที่เลือกปฏิบัติเมื่อนำแอปพลิเคชัน AI ไปใช้งานในโดเมนที่ละเอียดอ่อน เช่น การบังคับใช้กฎหมายและบริการสังคม
นอกจากนี้ แนวทางการใส่คำอธิบายประกอบที่จัดทำขึ้นสำหรับผู้ใส่คำอธิบายประกอบยังมีอิทธิพลอย่างมากต่อวิธีการใส่คำอธิบายประกอบข้อมูล หากแนวทางเหล่านี้คลุมเครือหรือส่งเสริมให้เกิดอคติ ชุดข้อมูลที่มีป้ายกำกับดังกล่าวจะทำให้เกิดอคติเหล่านี้อย่างหลีกเลี่ยงไม่ได้ "อคติต่อแนวทาง" ประเภทนี้เกิดขึ้นเมื่อผู้ใส่คำอธิบายประกอบ ถูกบังคับให้ตัดสินใจเกี่ยวกับความเกี่ยวข้องของข้อมูลโดยอัตวิสัยซึ่งสามารถเข้ารหัสอคติทางวัฒนธรรมหรือสังคมที่แพร่หลายลงในข้อมูลได้ อคติดังกล่าวจะขยายใหญ่ขึ้นในระหว่างกระบวนการฝึกอบรม AI โดยสร้างแบบจำลองที่สร้างอคติที่แฝงอยู่ภายในป้ายข้อมูลเริ่มต้นขึ้นมาใหม่
ตัวอย่างเช่น ลองพิจารณาแนวทางการอธิบายประกอบที่สั่งให้ผู้ให้คำอธิบายประกอบจำแนกตำแหน่งงานหรือเพศด้วยอคติแฝงที่ให้ความสำคัญกับบทบาทที่เกี่ยวข้องกับผู้ชายสำหรับอาชีพต่างๆ เช่น “วิศวกร” หรือ “นักวิทยาศาสตร์” ข้อมูลนี้ได้รับการใส่คำอธิบายไว้ และใช้เป็นชุดข้อมูลฝึกอบรมก็สายเกินไปแล้ว แนวทางที่ล้าสมัยและมีอคติทางวัฒนธรรมทำให้การแสดงข้อมูลไม่สมดุล การเข้ารหัสอคติทางเพศอย่างมีประสิทธิภาพลงในระบบ AI ซึ่งจะถูกนำไปใช้ในสภาพแวดล้อมโลกแห่งความเป็นจริงในภายหลัง โดยจำลองและปรับขนาดรูปแบบการเลือกปฏิบัติเหล่านี้
ผลที่ตามมาในโลกแห่งความเป็นจริงจากอคติในการอธิบายประกอบ
แบบจำลองการวิเคราะห์ความรู้สึกมักถูกเน้นย้ำถึงผลลัพธ์ที่ลำเอียง โดยที่ความรู้สึกที่แสดงออกโดยกลุ่มที่ถูกละเลยจะถูกระบุในเชิงลบมากขึ้น สิ่งนี้เชื่อมโยงกับข้อมูลการฝึกอบรมที่ผู้ให้คำอธิบายประกอบ ซึ่งมักมาจากกลุ่มวัฒนธรรมที่โดดเด่น ตีความหรือระบุคำกล่าวผิดเนื่องจากไม่คุ้นเคยกับบริบททางวัฒนธรรมหรือคำแสลง ตัวอย่างเช่น สำนวนภาษาอังกฤษพื้นเมืองของคนอเมริกันเชื้อสายแอฟริกัน (AAVE) มักถูกตีความผิดว่าเป็นเชิงลบหรือก้าวร้าวซึ่งนำไปสู่โมเดลที่จัดประเภทความรู้สึกของกลุ่มนี้ไม่ถูกต้องอย่างสม่ำเสมอ
สิ่งนี้ไม่เพียงแต่ส่งผลให้ประสิทธิภาพของโมเดลลดลงเท่านั้น แต่ยังสะท้อนถึงปัญหาในระบบที่กว้างขึ้นอีกด้วย ซึ่งก็คือ โมเดลไม่เหมาะกับการให้บริการกลุ่มประชากรที่หลากหลาย ส่งผลให้การเลือกปฏิบัติในแพลตฟอร์มที่ใช้โมเดลดังกล่าวสำหรับการตัดสินใจอัตโนมัติเพิ่มมากขึ้น
การจดจำใบหน้าเป็นอีกพื้นที่หนึ่งที่อคติในการใส่คำอธิบายมีผลกระทบร้ายแรง ผู้ใส่คำอธิบายที่เกี่ยวข้องกับการติดฉลากชุดข้อมูลอาจนำอคติที่ไม่ได้ตั้งใจเกี่ยวกับเชื้อชาติมาซึ่งส่งผลให้มีอัตราความแม่นยำที่ไม่สมดุลกันในกลุ่มประชากรที่แตกต่างกัน ตัวอย่างเช่น ชุดข้อมูลการจดจำใบหน้าจำนวนมากมีใบหน้าของคนผิวขาวจำนวนมาก ส่งผลให้ประสิทธิภาพลดลงอย่างมากสำหรับผู้ที่เป็นคนผิวสี ผลที่ตามมาอาจเลวร้าย ตั้งแต่การจับกุมโดยผิดกฎหมายไปจนถึงการถูกปฏิเสธการเข้าถึงบริการที่จำเป็น
ในปี 2020 มีเหตุการณ์ที่ได้รับการเผยแพร่อย่างกว้างขวางเกี่ยวกับชายผิวสีที่ถูกจับกุมอย่างผิดกฎหมายในดีทรอยต์ เนื่องจากซอฟต์แวร์จดจำใบหน้าไม่ตรงกับใบหน้าของเขาข้อผิดพลาดนี้เกิดจากอคติในข้อมูลที่มีคำอธิบายประกอบซึ่งซอฟต์แวร์ได้รับการฝึกฝนมา ซึ่งเป็นตัวอย่างของอคติจากขั้นตอนการใส่คำอธิบายประกอบที่สามารถขยายตัวจนกลายเป็นผลที่ตามมาในชีวิตจริงที่สำคัญได้
ในขณะเดียวกัน การพยายามแก้ไขปัญหามากเกินไปอาจส่งผลเสียได้ ดังที่เห็นได้จากเหตุการณ์ Gemini ของ Google ในเดือนกุมภาพันธ์ของปีนี้ เมื่อ LLM จะไม่สร้างภาพลักษณ์ของบุคคลผิวขาวการเน้นหนักมากเกินไปในการแก้ไขความไม่สมดุลทางประวัติศาสตร์ อาจทำให้โมเดลต่างๆ เบี่ยงเบนไปในทิศทางตรงกันข้ามมากเกินไป ส่งผลให้กลุ่มประชากรอื่นๆ ถูกแยกออกไป และก่อให้เกิดข้อโต้แย้งใหม่ๆ มากขึ้น
การแก้ไขอคติที่ซ่อนอยู่ในคำอธิบายชุดข้อมูล
กลยุทธ์พื้นฐานในการลดอคติในการใส่คำอธิบายประกอบควรเริ่มจากการทำให้กลุ่มผู้ใส่คำอธิบายประกอบมีความหลากหลายมากขึ้น การรวมบุคคลจากภูมิหลังที่หลากหลาย เช่น เชื้อชาติ เพศ ภูมิหลังการศึกษา ความสามารถทางภาษา และอายุ จะทำให้กระบวนการใส่คำอธิบายประกอบข้อมูลบูรณาการมุมมองต่างๆ ได้ ลดความเสี่ยงที่กลุ่มใดกลุ่มหนึ่งจะมีอคติจนส่งผลต่อชุดข้อมูลอย่างไม่สมส่วนความหลากหลายในกลุ่มผู้ให้คำอธิบายช่วยให้ชุดข้อมูลมีความสมดุล ละเอียดอ่อน และเป็นตัวแทนมากขึ้น
ในทำนองเดียวกัน ควรมีจำนวนการป้องกันความล้มเหลวที่เพียงพอเพื่อให้แน่ใจว่ามีการสำรองข้อมูลหากผู้ให้คำอธิบายไม่สามารถควบคุมอคติของตนได้ ซึ่งหมายความว่าต้องมีการกำกับดูแลที่เพียงพอ การสำรองข้อมูลไว้ภายนอก และใช้ทีมเพิ่มเติมเพื่อการวิเคราะห์ อย่างไรก็ตาม เป้าหมายนี้ยังต้องบรรลุในบริบทของความหลากหลายด้วยเช่นกัน
หลักเกณฑ์คำอธิบายประกอบ จะต้องผ่านการตรวจสอบอย่างเข้มงวดและปรับปรุงอย่างต่อเนื่อง เพื่อลดความคิดเห็นส่วนตัวให้เหลือน้อยที่สุด การพัฒนาเกณฑ์มาตรฐานที่เป็นกลางสำหรับการติดฉลากข้อมูลช่วยให้มั่นใจได้ว่าอคติส่วนบุคคลจะส่งผลต่อผลลัพธ์ของคำอธิบายประกอบน้อยที่สุด แนวทางควรจัดทำขึ้นโดยใช้คำจำกัดความที่ชัดเจนและผ่านการตรวจสอบตามประสบการณ์ และควรมีตัวอย่างที่สะท้อนถึงบริบทและความแตกต่างทางวัฒนธรรมที่หลากหลาย
การรวมลูปข้อเสนอแนะเข้าไว้ในเวิร์กโฟลว์คำอธิบายประกอบ ซึ่งผู้ให้คำอธิบายประกอบสามารถแสดงความกังวลหรือความคลุมเครือเกี่ยวกับแนวทางปฏิบัติได้นั้นถือเป็นสิ่งสำคัญ ข้อเสนอแนะแบบวนซ้ำดังกล่าวจะช่วยปรับปรุงคำแนะนำอย่างต่อเนื่องและแก้ไขอคติแฝงที่อาจเกิดขึ้นระหว่างกระบวนการคำอธิบายประกอบ นอกจากนี้ การใช้ประโยชน์จากการวิเคราะห์ข้อผิดพลาดจากผลลัพธ์ของแบบจำลองสามารถชี้แจงจุดอ่อนของแนวทางปฏิบัติได้ ซึ่งจะช่วยให้มีพื้นฐานที่ขับเคลื่อนด้วยข้อมูลสำหรับการปรับปรุงแนวทางปฏิบัติ
การเรียนรู้แบบ Active Learning—โดยที่โมเดล AI ช่วยเหลือผู้ให้คำอธิบายโดยให้คำแนะนำฉลากที่มีความมั่นใจสูง—สามารถเป็นเครื่องมือที่มีค่าสำหรับการปรับปรุงประสิทธิภาพและความสอดคล้องของคำอธิบายประกอบ อย่างไรก็ตาม การเรียนรู้เชิงรุกจะต้องดำเนินการภายใต้การดูแลของมนุษย์ที่เข้มงวดเพื่อป้องกันการแพร่กระจายของอคติของแบบจำลองที่มีอยู่ก่อน ผู้ให้คำอธิบายประกอบต้องประเมินข้อเสนอแนะที่สร้างโดย AI อย่างมีวิจารณญาณ โดยเฉพาะอย่างยิ่งข้อเสนอแนะที่แตกต่างไปจากสัญชาตญาณของมนุษย์ โดยใช้กรณีเหล่านี้เป็นโอกาสในการปรับเทียบความเข้าใจของมนุษย์และแบบจำลองใหม่
บทสรุปและสิ่งที่จะเกิดขึ้นต่อไป
อคติที่ฝังอยู่ในคำอธิบายชุดข้อมูลถือเป็นพื้นฐาน โดยมักส่งผลต่อทุกเลเยอร์ของการพัฒนาโมเดล AI ในภายหลัง หากไม่สามารถระบุและบรรเทาอคติดังกล่าวได้ในระหว่างขั้นตอนการติดฉลากข้อมูล โมเดล AI ที่เกิดขึ้นจะยังคงสะท้อนอคติดังกล่าวต่อไป ซึ่งท้ายที่สุดจะนำไปสู่การใช้งานจริงในโลกแห่งความเป็นจริงที่มีข้อบกพร่องและบางครั้งอาจก่อให้เกิดอันตรายได้
เพื่อลดความเสี่ยงเหล่านี้ ผู้ปฏิบัติงานด้าน AI จะต้องตรวจสอบแนวทางการใส่คำอธิบายประกอบอย่างเข้มงวดเท่ากับด้านอื่นๆ ของการพัฒนา AI การนำความหลากหลายมาใช้ การปรับปรุงแนวทางปฏิบัติ และการสร้างสภาพแวดล้อมการทำงานที่ดีขึ้นสำหรับผู้ใส่คำอธิบายประกอบถือเป็นขั้นตอนสำคัญในการบรรเทาอคติที่ซ่อนเร้นเหล่านี้
เส้นทางสู่โมเดล AI ที่ไม่ลำเอียงอย่างแท้จริงต้องอาศัยการยอมรับและแก้ไข "ชั้นต่างๆ ที่ถูกลืม" เหล่านี้ด้วยการเข้าใจอย่างเต็มที่ว่าแม้แต่อคติเล็กๆ น้อยๆ ในระดับพื้นฐานก็สามารถนำไปสู่ผลกระทบที่ใหญ่โตไม่สมส่วนได้
การใส่คำอธิบายอาจดูเหมือนเป็นงานทางเทคนิค แต่เป็นงานที่ต้องใช้ความคิดสร้างสรรค์ของมนุษย์อย่างแท้จริง ดังนั้นจึงมีข้อบกพร่องในตัว การรับรู้และแก้ไขอคติของมนุษย์ที่แทรกซึมเข้าไปในชุดข้อมูลอย่างหลีกเลี่ยงไม่ได้ จะช่วยให้ระบบ AI มีความยุติธรรมและมีประสิทธิภาพมากขึ้น