ปัญญาประดิษฐ์
เมื่อ AI Benchmarks สอนโมเดลให้โกหก

การหลอกลวงของ AI — เมื่อระบบสร้างคำตอบที่ดูถูกต้อง แต่จริงๆ แล้วไม่ถูกต้อง — ยังคงเป็นหนึ่งในความท้าทายที่ยากที่สุดในด้านปัญญาประดิษฐ์ แม้แต่โมเดลที่ทันสมัยที่สุดในปัจจุบัน เช่น DeepSeek-V3, Llama, และโมเดล ใหม่ล่าสุด ของ OpenAI ยังคงสร้างข้อมูลที่ไม่ถูกต้องด้วยความมั่นใจสูง ในด้านต่างๆ เช่น การดูแลสุขภาพหรือกฎหมาย ความผิดพลาดดังกล่าวอาจนำไปสู่ผลกระทบร้ายแรง
โดยทั่วไป การหลอกลวงถูกมองว่าเป็น ผลพลอยได้ จากวิธีการฝึกอบรมโมเดลภาษาขนาดใหญ่: พวกมันเรียนรู้เพื่อคาดการณ์คำถัดไปที่เป็นไปได้มากที่สุดโดยไม่ยืนยันว่าข้อมูลนั้นเป็นจริงหรือไม่ แต่การวิจัยใหม่ๆ แสดงให้เห็นว่าปัญหานี้อาจไม่หยุดอยู่ที่การฝึกอบรม การทดสอบที่ใช้เพื่อทดสอบและเปรียบเทียบประสิทธิภาพของ AI อาจเสริมสร้างพฤติกรรมที่ทำให้เข้าใจผิด โดยให้รางวัลคำตอบที่ดูเชื่อถือได้มากกว่าคำตอบที่ถูกต้อง
การเปลี่ยนแปลงในมุมมองนี้ทำให้ปัญหาใหม่เกิดขึ้น หากโมเดลถูกฝึกให้เพื่อความพึงพอใจในการทดสอบมากกว่าการบอกความจริง การหลอกลวงไม่ใช่ข้อบกพร่องโดยไม่เจตนา แต่เป็นกลยุทธ์ที่ได้รับการเรียนรู้ เพื่อดูว่าทำไมจึงเกิดขึ้น เราต้องดูว่าทำไมโมเดล AI จึงเลือกที่จะเดาแทนที่จะยอมรับว่าไม่รู้
ทำไมโมเดล AI จึงเดา
เพื่อดูว่าทำไมโมเดล AI มักจะเดาแทนที่จะยอมรับว่าไม่รู้ ให้พิจารณานักเรียนที่เผชิญกับคำถามที่ยากในแบบทดสอบ นักเรียนมีตัวเลือกสองทาง: ทิ้งคำตอบว่างและได้ 0 คะแนน หรือเดาโดยมีโอกาสที่จะถูกต้องเล็กน้อย การเดาเหมือนเป็นตัวเลือกที่ดีกว่าเพราะมีโอกาสที่จะถูกต้อง
โมเดล AI เผชิญกับสถานการณ์ที่คล้ายกันระหว่างการประเมิน มาตรฐานส่วนใหญ่ใช้ระบบการให้คะแนนที่เป็นแบบไบนารี: คำตอบที่ถูกต้องจะได้คะแนน ในขณะที่คำตอบที่ไม่ถูกต้องหรือไม่มั่นใจจะได้ 0 คะแนน หากโมเดลถูกถาม “วันเกิดของนักวิจัยคือเมื่อไหร่” และไม่ทราบจริงๆ การตอบว่า “ไม่รู้” จะถือเป็นความล้มเหลว การคิดวันเกิดที่ไม่ถูกต้องมีโอกาสที่จะถูกต้อง — และแม้ว่าจะผิด ก็ไม่มีการลงโทษการเดาที่มั่นใจมากกว่าการเงียบ
การเปลี่ยนแปลงนี้อธิบายว่าทำไมการหลอกลวงจึงยังคงอยู่แม้จะมีการวิจัยอย่างกว้างขวางเพื่อกำจัดมัน โมเดลไม่ได้พฤติกรรมที่ไม่ดี แต่กำลังปฏิบัติตามแรงจูงใจที่สร้างขึ้นในการประเมิน พวกมันเรียนรู้ว่าการดูเหมือนมั่นใจเป็นวิธีที่ดีที่สุดในการเพิ่มคะแนน แม้ว่าคำตอบจะผิดก็ตาม ดังนั้น แทนที่จะแสดงความไม่มั่นใจ โมเดลจึงถูกผลักดันให้ให้คำตอบที่มีอำนาจ — ถูกหรือผิด
รากฐานทางคณิตศาสตร์ของความไม่ซื่อสัตย์ของ AI
การวิจัยแสดงให้เห็นว่าการหลอกลวงเกิดจากพื้นฐานทางคณิตศาสตร์ของวิธีการที่โมเดลภาษาเรียนรู้ แม้ว่าโมเดลจะถูกฝึกอบรมจากข้อมูลที่ถูกต้องสมบูรณ์ วัตถุประสงค์ทางสถิติก็ยังคงนำไปสู่ข้อผิดพลาด นั่นเป็นเพราะการสร้างคำตอบที่ถูกต้องเป็นเรื่องที่ยากกว่าการรู้ว่าคำตอบนั้นถูกต้องหรือไม่
สิ่งนี้ช่วยอธิบายว่าทำไมโมเดลจึงล้มเหลวในเรื่องข้อเท็จจริงที่ไม่มีรูปแบบที่ชัดเจน เช่น วันเกิดหรือรายละเอียดอื่นๆ ที่ไม่ซ้ำกัน การวิเคราะห์ทางคณิตศาสตร์แนะนำว่าอัตราการหลอกลวงในกรณีเหล่านี้จะสูง至少เท่ากับส่วนแบ่งของข้อเท็จจริงที่ปรากฏเพียงครั้งเดียวในข้อมูลฝึกอบรม ในอีกคำหนึ่ง ข้อมูลที่หายากยิ่ง โมเดลมีโอกาสที่จะดิ้นรนมากขึ้น
ปัญหาไม่จำกัดอยู่แค่ข้อเท็จจริงที่หายาก การจำกัดโครงสร้าง เช่น ความจุโมเดลที่จำกัดหรือการออกแบบสถาปัตยกรรม ก็สร้างข้อผิดพลาดแบบระบบได้ เช่น โมเดลเก่าๆ ที่มีหน้าต่างบริบทที่สั้นมากล้มเหลวอย่างต่อเนื่องในงานที่ต้องใช้เหตุผลระยะไกล ข้อผิดพลาดเหล่านี้ไม่ใช่ข้อผิดพลาดแบบสุ่ม แต่เป็นผลลัพธ์ที่คาดการณ์ได้จากโครงสร้างทางคณิตศาสตร์ของโมเดล
ทำไมการฝึกหลังการฝึกอบรมไม่สามารถแก้ปัญหาได้
เมื่อโมเดล AI ถูกฝึกอบรมจากชุดข้อมูลข้อความขนาดใหญ่ มันจะผ่านการฝึกอบรมที่ละเอียดเพื่อให้ผลลัพธ์ที่มีประโยชน์มากกว่าและไม่เป็นอันตราย แต่กระบวนการนี้เผชิญกับปัญหาเดียวกับที่ทำให้เกิดการหลอกลวงในตอนแรก: วิธีการประเมินโมเดล
วิธีการฝึกอบรมที่พบบ่อยที่สุด เช่น การเรียนรู้แบบเสริมจากข้อเสนอแนะของมนุษย์ ยังคงพึ่งพามาตรฐานที่ใช้การให้คะแนนแบบไบนารี มาตรฐานเหล่านี้ให้รางวัลโมเดลสำหรับการให้คำตอบที่มั่นใจ ในขณะที่ไม่ได้ให้คะแนนเมื่อโมเดลยอมรับว่าไม่รู้ ดังนั้น ระบบที่ตอบด้วยความมั่นใจเสมอ แม้ว่าจะผิดก็ตาม สามารถเอาชนะระบบที่ตอบด้วยความซื่อสัตย์เกี่ยวกับความไม่มั่นใจ
นักวิจัยเรียกปัญหานี้ว่า “การลงโทษความไม่มั่นใจ” เทคนิคที่ซับซ้อนในการตรวจจับหรือลดการหลอกลวงยังคงดิ้นรนเมื่อมาตรฐานการประเมินยังคงให้ความสำคัญกับการเดาที่มั่นใจมากกว่าความซื่อสัตย์ ในอีกคำหนึ่ง ไม่ว่าเทคนิคการแก้ไขจะซับซ้อนแค่ไหน ตราบใดที่ระบบการประเมินยังคงให้รางวัลการเดาที่มั่นใจ โมเดลจะถูกบิดเบือนไปสู่คำตอบที่ผิดแต่มั่นใจมากกว่าการยอมรับข้อเท็จจริงที่ไม่แน่นอน
ภาพลวงของความก้าวหน้า
ตารางคะแนน ซึ่งถูกแบ่งปันอย่างกว้างขวางในชุมชน AI ทำให้ปัญหานี้รุนแรงขึ้น มาตรฐานการประเมิน เช่น MMLU, GPQA, และ SWE-bench เป็นตัวกำหนดในงานวิจัยและประกาศผลิตภัณฑ์ บริษัทต่างๆ เน้นย้ำคะแนนของตนเพื่อแสดงความก้าวหน้าอย่างรวดเร็ว อย่างไรก็ตาม ตามที่รายงาน มาตรฐานเหล่านี้เองที่ส่งเสริมการหลอกลวง
โมเดลที่บอกว่า “ไม่รู้” อาจเป็นโมเดลที่ปลอดภัยกว่าในสถานการณ์จริง แต่จะอยู่ในอันดับที่ต่ำกว่าในตารางคะแนน ในทางกลับกัน โมเดลที่สร้างคำตอบที่น่าเชื่อถือแต่ผิดจะทำคะแนนได้ดีกว่า เมื่อการนำไปใช้ การให้ทุน และเกียรติยศขึ้นอยู่กับการจัดอันดับในตารางคะแนน ทิศทางของความก้าวหน้าจะบิดเบือนไป สาธารณชนเห็นเรื่องราวของความก้าวหน้าอย่างต่อเนื่อง แต่ด้านล่าง โมเดลกำลังถูกฝึกให้หลอกลวง
ทำไมความไม่มั่นใจที่ซื่อสัตย์จึงมีความสำคัญใน AI
การหลอกลวงไม่ใช่แค่ความท้าทายในด้านการวิจัย แต่มีผลกระทบจริงๆ ในด้านการดูแลสุขภาพ โมเดลที่สร้างการโต้ตอบยาที่ไม่ถูกต้องอาจทำให้แพทย์เข้าใจผิด ในด้านการศึกษา โมเดลที่คิดค้นข้อเท็จจริงทางประวัติศาสตร์อาจทำให้นักเรียนเข้าใจผิด ในด้านสื่อสารมวลชน โมเดลที่สร้างคำพูดที่น่าเชื่อถือแต่ผิดอาจแพร่กระจายข้อมูลที่ไม่ถูกต้อง ความเสี่ยงเหล่านี้ปรากฏอยู่แล้ว ดัชนี AI ของ Stanford 2025 รายงานว่ามาตรฐานที่ออกแบบมาเพื่อวัดการหลอกลวง “ดิ้นรนในการได้รับการยอมรับ” แม้ว่าการนำ AI ไปใช้จะเร่งตัวขึ้น ในขณะที่มาตรฐานที่ครอบงำตารางคะแนนและให้รางวัลคำตอบที่มั่นใจแต่ไม่น่าเชื่อถือยังคงกำหนดทิศทางของความก้าวหน้า
การค้นพบเหล่านี้เน้นย้ำทั้งความท้าทายและโอกาส โดยการตรวจสอบรากฐานทางคณิตศาสตร์ของการหลอกลวง นักวิจัยได้ระบุ 方向ที่ชัดเจนสำหรับการสร้างระบบ AI ที่น่าเชื่อถือมากขึ้น กุญแจสำคัญคือการหยุดพิจารณาความไม่มั่นใจว่าเป็นข้อบกพร่อง และตระหนักว่ามันเป็นความสามารถที่จำเป็นที่ควรได้รับการวัดและให้รางวัล
การเปลี่ยนแปลงในมุมมองนี้มีผลกระทบมากกว่าการลดการหลอกลวง ระบบ AI ที่สามารถประเมินและแสดงข้อจำกัดความรู้ของตนได้อย่างถูกต้องจะมีความเหมาะสมมากกว่าสำหรับการใช้งานที่มีความเสี่ยงสูงซึ่งความมั่นใจมากเกินไปอาจมีผลกระทบร้ายแรง การวินิจฉัยทางการแพทย์ การวิเคราะห์ทางกฎหมาย และการวิจัยทางวิทยาศาสตร์ ต้องการความสามารถในการแยกความแตกต่างระหว่างความรู้ที่มั่นใจและข้อเสนอแนะที่มีข้อมูล
การคิดใหม่เกี่ยวกับการประเมินสำหรับ AI ที่ซื่อสัตย์
การค้นพบเหล่านี้เน้นย้ำว่าการสร้างระบบ AI ที่น่าเชื่อถือต้องมีการคิดใหม่เกี่ยวกับวิธีการวัดความสามารถของ AI แทนที่จะพึ่งพาการให้คะแนนแบบง่ายๆ ที่ถูกหรือผิด ระบบการประเมินควรให้รางวัลโมเดลสำหรับการแสดงความไม่มั่นใจที่เหมาะสม ซึ่งหมายความว่าให้คำแนะนำที่ชัดเจนเกี่ยวกับเกณฑ์ความมั่นใจและระบบการให้คะแนนที่สอดคล้องกันในคำแนะนำมาตรฐาน
วิธีการที่มีแนวโน้มหนึ่งคือการสร้างเป้าหมายความมั่นใจที่ชัดเจน ซึ่งระบุว่าเมื่อใดที่โมเดลควรตอบและเมื่อใดที่ควรละเว้น ตัวอย่างเช่น คำแนะนำอาจระบุว่าคำตอบควรให้เฉพาะเมื่อความมั่นใจเกินเกณฑ์หนึ่งๆ โดยมีการปรับระบบการให้คะแนนตามนั้น ในการกำหนดค่านี้ ความไม่มั่นใจไม่ใช่จุดอ่อน แต่เป็นส่วนสำคัญของพฤติกรรมที่รับผิดชอบ
กุญแจสำคัญคือการทำให้ข้อกำหนดความมั่นใจเป็นเรื่องชัดเจนมากกว่าแบบแอบแฝง มาตรฐานปัจจุบันสร้างการลงโทษความไม่มั่นใจที่ซ่อนอยู่ซึ่งโมเดลเรียนรู้ที่จะหลีกเลี่ยง การกำหนดเป้าหมายความมั่นใจที่ชัดเจนจะทำให้โมเดลสามารถปรับให้เหมาะสมกับพฤติกรรมที่ต้องการจริงๆ: คำตอบที่ถูกต้องเมื่อมั่นใจ และการยอมรับความไม่แน่นอนที่ซื่อสัตย์เมื่อขาดความรู้
สรุป
การหลอกลวงของ AI ไม่ใช่ข้อบกพร่องโดยไม่เจตนา — มันถูกเสริมโดยมาตรฐานการประเมินที่ใช้เพื่อวัดความก้าวหน้า โดยการให้รางวัลการเดาที่มั่นใจมากกว่าความซื่อสัตย์ ระบบการประเมินปัจจุบันผลักดันโมเดลไปสู่การหลอกลวงมากกว่าการให้ความน่าเชื่อถือ หากเราต้องการ AI ที่สามารถเชื่อถือได้ในด้านที่มีความเสี่ยงสูง เช่น การดูแลสุขภาพ กฎหมาย และวิทยาศาสตร์ เราต้องคิดใหม่เกี่ยวกับวิธีการทดสอบและให้รางวัลพวกมัน ความก้าวหน้าควรจะวัดไม่ใช่แค่ความถูกต้อง แต่ยังรวมถึงความสามารถในการรู้และยอมรับสิ่งที่โมเดลไม่ทราบด้วย












