Connect with us

เมื่อ AI Benchmarks สอนโมเดลให้โกหก

ปัญญาประดิษฐ์

เมื่อ AI Benchmarks สอนโมเดลให้โกหก

mm

การหลอกลวงของ AI — เมื่อระบบสร้างคำตอบที่ดูถูกต้อง แต่จริงๆ แล้วไม่ถูกต้อง — ยังคงเป็นหนึ่งในความท้าทายที่ยากที่สุดในด้านปัญญาประดิษฐ์ แม้แต่โมเดลที่ทันสมัยที่สุดในปัจจุบัน เช่น DeepSeek-V3, Llama, และโมเดล ใหม่ล่าสุด ของ OpenAI ยังคงสร้างข้อมูลที่ไม่ถูกต้องด้วยความมั่นใจสูง ในด้านต่างๆ เช่น การดูแลสุขภาพหรือกฎหมาย ความผิดพลาดดังกล่าวอาจนำไปสู่ผลกระทบร้ายแรง

โดยทั่วไป การหลอกลวงถูกมองว่าเป็น ผลพลอยได้ จากวิธีการฝึกอบรมโมเดลภาษาขนาดใหญ่: พวกมันเรียนรู้เพื่อคาดการณ์คำถัดไปที่เป็นไปได้มากที่สุดโดยไม่ยืนยันว่าข้อมูลนั้นเป็นจริงหรือไม่ แต่การวิจัยใหม่ๆ แสดงให้เห็นว่าปัญหานี้อาจไม่หยุดอยู่ที่การฝึกอบรม การทดสอบที่ใช้เพื่อทดสอบและเปรียบเทียบประสิทธิภาพของ AI อาจเสริมสร้างพฤติกรรมที่ทำให้เข้าใจผิด โดยให้รางวัลคำตอบที่ดูเชื่อถือได้มากกว่าคำตอบที่ถูกต้อง

การเปลี่ยนแปลงในมุมมองนี้ทำให้ปัญหาใหม่เกิดขึ้น หากโมเดลถูกฝึกให้เพื่อความพึงพอใจในการทดสอบมากกว่าการบอกความจริง การหลอกลวงไม่ใช่ข้อบกพร่องโดยไม่เจตนา แต่เป็นกลยุทธ์ที่ได้รับการเรียนรู้ เพื่อดูว่าทำไมจึงเกิดขึ้น เราต้องดูว่าทำไมโมเดล AI จึงเลือกที่จะเดาแทนที่จะยอมรับว่าไม่รู้

ทำไมโมเดล AI จึงเดา

เพื่อดูว่าทำไมโมเดล AI มักจะเดาแทนที่จะยอมรับว่าไม่รู้ ให้พิจารณานักเรียนที่เผชิญกับคำถามที่ยากในแบบทดสอบ นักเรียนมีตัวเลือกสองทาง: ทิ้งคำตอบว่างและได้ 0 คะแนน หรือเดาโดยมีโอกาสที่จะถูกต้องเล็กน้อย การเดาเหมือนเป็นตัวเลือกที่ดีกว่าเพราะมีโอกาสที่จะถูกต้อง

โมเดล AI เผชิญกับสถานการณ์ที่คล้ายกันระหว่างการประเมิน มาตรฐานส่วนใหญ่ใช้ระบบการให้คะแนนที่เป็นแบบไบนารี: คำตอบที่ถูกต้องจะได้คะแนน ในขณะที่คำตอบที่ไม่ถูกต้องหรือไม่มั่นใจจะได้ 0 คะแนน หากโมเดลถูกถาม “วันเกิดของนักวิจัยคือเมื่อไหร่” และไม่ทราบจริงๆ การตอบว่า “ไม่รู้” จะถือเป็นความล้มเหลว การคิดวันเกิดที่ไม่ถูกต้องมีโอกาสที่จะถูกต้อง — และแม้ว่าจะผิด ก็ไม่มีการลงโทษการเดาที่มั่นใจมากกว่าการเงียบ

การเปลี่ยนแปลงนี้อธิบายว่าทำไมการหลอกลวงจึงยังคงอยู่แม้จะมีการวิจัยอย่างกว้างขวางเพื่อกำจัดมัน โมเดลไม่ได้พฤติกรรมที่ไม่ดี แต่กำลังปฏิบัติตามแรงจูงใจที่สร้างขึ้นในการประเมิน พวกมันเรียนรู้ว่าการดูเหมือนมั่นใจเป็นวิธีที่ดีที่สุดในการเพิ่มคะแนน แม้ว่าคำตอบจะผิดก็ตาม ดังนั้น แทนที่จะแสดงความไม่มั่นใจ โมเดลจึงถูกผลักดันให้ให้คำตอบที่มีอำนาจ — ถูกหรือผิด

รากฐานทางคณิตศาสตร์ของความไม่ซื่อสัตย์ของ AI

การวิจัยแสดงให้เห็นว่าการหลอกลวงเกิดจากพื้นฐานทางคณิตศาสตร์ของวิธีการที่โมเดลภาษาเรียนรู้ แม้ว่าโมเดลจะถูกฝึกอบรมจากข้อมูลที่ถูกต้องสมบูรณ์ วัตถุประสงค์ทางสถิติก็ยังคงนำไปสู่ข้อผิดพลาด นั่นเป็นเพราะการสร้างคำตอบที่ถูกต้องเป็นเรื่องที่ยากกว่าการรู้ว่าคำตอบนั้นถูกต้องหรือไม่

สิ่งนี้ช่วยอธิบายว่าทำไมโมเดลจึงล้มเหลวในเรื่องข้อเท็จจริงที่ไม่มีรูปแบบที่ชัดเจน เช่น วันเกิดหรือรายละเอียดอื่นๆ ที่ไม่ซ้ำกัน การวิเคราะห์ทางคณิตศาสตร์แนะนำว่าอัตราการหลอกลวงในกรณีเหล่านี้จะสูง至少เท่ากับส่วนแบ่งของข้อเท็จจริงที่ปรากฏเพียงครั้งเดียวในข้อมูลฝึกอบรม ในอีกคำหนึ่ง ข้อมูลที่หายากยิ่ง โมเดลมีโอกาสที่จะดิ้นรนมากขึ้น

ปัญหาไม่จำกัดอยู่แค่ข้อเท็จจริงที่หายาก การจำกัดโครงสร้าง เช่น ความจุโมเดลที่จำกัดหรือการออกแบบสถาปัตยกรรม ก็สร้างข้อผิดพลาดแบบระบบได้ เช่น โมเดลเก่าๆ ที่มีหน้าต่างบริบทที่สั้นมากล้มเหลวอย่างต่อเนื่องในงานที่ต้องใช้เหตุผลระยะไกล ข้อผิดพลาดเหล่านี้ไม่ใช่ข้อผิดพลาดแบบสุ่ม แต่เป็นผลลัพธ์ที่คาดการณ์ได้จากโครงสร้างทางคณิตศาสตร์ของโมเดล

ทำไมการฝึกหลังการฝึกอบรมไม่สามารถแก้ปัญหาได้

เมื่อโมเดล AI ถูกฝึกอบรมจากชุดข้อมูลข้อความขนาดใหญ่ มันจะผ่านการฝึกอบรมที่ละเอียดเพื่อให้ผลลัพธ์ที่มีประโยชน์มากกว่าและไม่เป็นอันตราย แต่กระบวนการนี้เผชิญกับปัญหาเดียวกับที่ทำให้เกิดการหลอกลวงในตอนแรก: วิธีการประเมินโมเดล

วิธีการฝึกอบรมที่พบบ่อยที่สุด เช่น การเรียนรู้แบบเสริมจากข้อเสนอแนะของมนุษย์ ยังคงพึ่งพามาตรฐานที่ใช้การให้คะแนนแบบไบนารี มาตรฐานเหล่านี้ให้รางวัลโมเดลสำหรับการให้คำตอบที่มั่นใจ ในขณะที่ไม่ได้ให้คะแนนเมื่อโมเดลยอมรับว่าไม่รู้ ดังนั้น ระบบที่ตอบด้วยความมั่นใจเสมอ แม้ว่าจะผิดก็ตาม สามารถเอาชนะระบบที่ตอบด้วยความซื่อสัตย์เกี่ยวกับความไม่มั่นใจ
นักวิจัยเรียกปัญหานี้ว่า “การลงโทษความไม่มั่นใจ” เทคนิคที่ซับซ้อนในการตรวจจับหรือลดการหลอกลวงยังคงดิ้นรนเมื่อมาตรฐานการประเมินยังคงให้ความสำคัญกับการเดาที่มั่นใจมากกว่าความซื่อสัตย์ ในอีกคำหนึ่ง ไม่ว่าเทคนิคการแก้ไขจะซับซ้อนแค่ไหน ตราบใดที่ระบบการประเมินยังคงให้รางวัลการเดาที่มั่นใจ โมเดลจะถูกบิดเบือนไปสู่คำตอบที่ผิดแต่มั่นใจมากกว่าการยอมรับข้อเท็จจริงที่ไม่แน่นอน

ภาพลวงของความก้าวหน้า

ตารางคะแนน ซึ่งถูกแบ่งปันอย่างกว้างขวางในชุมชน AI ทำให้ปัญหานี้รุนแรงขึ้น มาตรฐานการประเมิน เช่น MMLU, GPQA, และ SWE-bench เป็นตัวกำหนดในงานวิจัยและประกาศผลิตภัณฑ์ บริษัทต่างๆ เน้นย้ำคะแนนของตนเพื่อแสดงความก้าวหน้าอย่างรวดเร็ว อย่างไรก็ตาม ตามที่รายงาน มาตรฐานเหล่านี้เองที่ส่งเสริมการหลอกลวง

โมเดลที่บอกว่า “ไม่รู้” อาจเป็นโมเดลที่ปลอดภัยกว่าในสถานการณ์จริง แต่จะอยู่ในอันดับที่ต่ำกว่าในตารางคะแนน ในทางกลับกัน โมเดลที่สร้างคำตอบที่น่าเชื่อถือแต่ผิดจะทำคะแนนได้ดีกว่า เมื่อการนำไปใช้ การให้ทุน และเกียรติยศขึ้นอยู่กับการจัดอันดับในตารางคะแนน ทิศทางของความก้าวหน้าจะบิดเบือนไป สาธารณชนเห็นเรื่องราวของความก้าวหน้าอย่างต่อเนื่อง แต่ด้านล่าง โมเดลกำลังถูกฝึกให้หลอกลวง

ทำไมความไม่มั่นใจที่ซื่อสัตย์จึงมีความสำคัญใน AI

การหลอกลวงไม่ใช่แค่ความท้าทายในด้านการวิจัย แต่มีผลกระทบจริงๆ ในด้านการดูแลสุขภาพ โมเดลที่สร้างการโต้ตอบยาที่ไม่ถูกต้องอาจทำให้แพทย์เข้าใจผิด ในด้านการศึกษา โมเดลที่คิดค้นข้อเท็จจริงทางประวัติศาสตร์อาจทำให้นักเรียนเข้าใจผิด ในด้านสื่อสารมวลชน โมเดลที่สร้างคำพูดที่น่าเชื่อถือแต่ผิดอาจแพร่กระจายข้อมูลที่ไม่ถูกต้อง ความเสี่ยงเหล่านี้ปรากฏอยู่แล้ว ดัชนี AI ของ Stanford 2025 รายงานว่ามาตรฐานที่ออกแบบมาเพื่อวัดการหลอกลวง “ดิ้นรนในการได้รับการยอมรับ” แม้ว่าการนำ AI ไปใช้จะเร่งตัวขึ้น ในขณะที่มาตรฐานที่ครอบงำตารางคะแนนและให้รางวัลคำตอบที่มั่นใจแต่ไม่น่าเชื่อถือยังคงกำหนดทิศทางของความก้าวหน้า

การค้นพบเหล่านี้เน้นย้ำทั้งความท้าทายและโอกาส โดยการตรวจสอบรากฐานทางคณิตศาสตร์ของการหลอกลวง นักวิจัยได้ระบุ 方向ที่ชัดเจนสำหรับการสร้างระบบ AI ที่น่าเชื่อถือมากขึ้น กุญแจสำคัญคือการหยุดพิจารณาความไม่มั่นใจว่าเป็นข้อบกพร่อง และตระหนักว่ามันเป็นความสามารถที่จำเป็นที่ควรได้รับการวัดและให้รางวัล

การเปลี่ยนแปลงในมุมมองนี้มีผลกระทบมากกว่าการลดการหลอกลวง ระบบ AI ที่สามารถประเมินและแสดงข้อจำกัดความรู้ของตนได้อย่างถูกต้องจะมีความเหมาะสมมากกว่าสำหรับการใช้งานที่มีความเสี่ยงสูงซึ่งความมั่นใจมากเกินไปอาจมีผลกระทบร้ายแรง การวินิจฉัยทางการแพทย์ การวิเคราะห์ทางกฎหมาย และการวิจัยทางวิทยาศาสตร์ ต้องการความสามารถในการแยกความแตกต่างระหว่างความรู้ที่มั่นใจและข้อเสนอแนะที่มีข้อมูล

การคิดใหม่เกี่ยวกับการประเมินสำหรับ AI ที่ซื่อสัตย์

การค้นพบเหล่านี้เน้นย้ำว่าการสร้างระบบ AI ที่น่าเชื่อถือต้องมีการคิดใหม่เกี่ยวกับวิธีการวัดความสามารถของ AI แทนที่จะพึ่งพาการให้คะแนนแบบง่ายๆ ที่ถูกหรือผิด ระบบการประเมินควรให้รางวัลโมเดลสำหรับการแสดงความไม่มั่นใจที่เหมาะสม ซึ่งหมายความว่าให้คำแนะนำที่ชัดเจนเกี่ยวกับเกณฑ์ความมั่นใจและระบบการให้คะแนนที่สอดคล้องกันในคำแนะนำมาตรฐาน

วิธีการที่มีแนวโน้มหนึ่งคือการสร้างเป้าหมายความมั่นใจที่ชัดเจน ซึ่งระบุว่าเมื่อใดที่โมเดลควรตอบและเมื่อใดที่ควรละเว้น ตัวอย่างเช่น คำแนะนำอาจระบุว่าคำตอบควรให้เฉพาะเมื่อความมั่นใจเกินเกณฑ์หนึ่งๆ โดยมีการปรับระบบการให้คะแนนตามนั้น ในการกำหนดค่านี้ ความไม่มั่นใจไม่ใช่จุดอ่อน แต่เป็นส่วนสำคัญของพฤติกรรมที่รับผิดชอบ

กุญแจสำคัญคือการทำให้ข้อกำหนดความมั่นใจเป็นเรื่องชัดเจนมากกว่าแบบแอบแฝง มาตรฐานปัจจุบันสร้างการลงโทษความไม่มั่นใจที่ซ่อนอยู่ซึ่งโมเดลเรียนรู้ที่จะหลีกเลี่ยง การกำหนดเป้าหมายความมั่นใจที่ชัดเจนจะทำให้โมเดลสามารถปรับให้เหมาะสมกับพฤติกรรมที่ต้องการจริงๆ: คำตอบที่ถูกต้องเมื่อมั่นใจ และการยอมรับความไม่แน่นอนที่ซื่อสัตย์เมื่อขาดความรู้

สรุป

การหลอกลวงของ AI ไม่ใช่ข้อบกพร่องโดยไม่เจตนา — มันถูกเสริมโดยมาตรฐานการประเมินที่ใช้เพื่อวัดความก้าวหน้า โดยการให้รางวัลการเดาที่มั่นใจมากกว่าความซื่อสัตย์ ระบบการประเมินปัจจุบันผลักดันโมเดลไปสู่การหลอกลวงมากกว่าการให้ความน่าเชื่อถือ หากเราต้องการ AI ที่สามารถเชื่อถือได้ในด้านที่มีความเสี่ยงสูง เช่น การดูแลสุขภาพ กฎหมาย และวิทยาศาสตร์ เราต้องคิดใหม่เกี่ยวกับวิธีการทดสอบและให้รางวัลพวกมัน ความก้าวหน้าควรจะวัดไม่ใช่แค่ความถูกต้อง แต่ยังรวมถึงความสามารถในการรู้และยอมรับสิ่งที่โมเดลไม่ทราบด้วย

ดร. Tehseen Zia เป็น Professor ที่ COMSATS University Islamabad โดยได้รับ PhD ใน AI จาก Vienna University of Technology, Austria มีเชี่ยวชาญด้าน Artificial Intelligence, Machine Learning, Data Science, และ Computer Vision โดยมีส่วนร่วมที่สำคัญด้วยการเผยแพร่ในวารสารวิทยาศาสตร์ที่มีชื่อเสียง ดร. Tehseen ยังได้ดำเนินโครงการอุตสาหกรรมต่างๆ ในฐานะ Principal Investigator และให้บริการเป็นที่ปรึกษาด้าน AI