มุมมองของ Anderson
โค้ด AI มักจะป่วยด้วยอาการ Dunning-Kruger Effect

การวิจัยใหม่แสดงให้เห็นว่า โค้ด AI เช่น ChatGPT ป่วยด้วยอาการ Dunning-Kruger Effect ซึ่งมักจะแสดงความมั่นใจสูงสุดเมื่อพวกมันไม่มีความสามารถ เมื่อเผชิญกับภาษาโปรแกรมมิ่งที่ไม่คุ้นเคยหรือหายาก พวกมันจะอ้างว่ามีความมั่นใจสูงแม้ว่าคำตอบของพวกมันจะไม่ถูกต้องก็ตาม การศึกษานี้เชื่อมโยงความมั่นใจที่มากเกินไปของโมเดลกับการทำงานที่ไม่ดีและขาดข้อมูลการฝึกอบรม ซึ่งทำให้เกิดความกังวลใหม่เกี่ยวกับความรู้ที่แท้จริงของระบบเหล่านี้เกี่ยวกับสิ่งที่พวกมัน ไม่รู้
ผู้ที่ใช้เวลาอยู่กับ Large Language Models เพื่อหารือเกี่ยวกับเรื่องจริงจะรู้แล้วว่า LLMs มักจะให้คำตอบที่ มั่นใจผิด ต่อคำถามของผู้ใช้
นอกเหนือจากอาการ hallucination ที่เห็นได้ชัดเจน สาเหตุของการอ้างว่ามีความมั่นใจนี้ไม่ชัดเจน 100% การวิจัยที่เผยแพร่ในช่วงฤดูร้อนชี้ว่าโมเดลให้คำตอบที่มั่นใจ แม้ว่าพวกมันจะรู้ว่าพวกมันผิด ตัวอย่างเช่น แม้ว่าทฤษฎีอื่นๆ จะให้เหตุผลว่าความมั่นใจที่มากเกินไปนั้นมาจาก การออกแบบสถาปัตยกรรม เป็นต้น
สิ่งที่ผู้ใช้ปลายทางสามารถมั่นใจได้คือประสบการณ์นั้นเป็นเรื่องที่น่าหงุดหงิดมาก เนื่องจากเรามีการเข้ารหัสที่จะวางใจใน การประมาณการของคน ของความสามารถของตนเอง (ไม่น้อยเพราะในกรณีเหล่านั้นจะมีผลทางกฎหมายและอื่นๆ ต่อการให้คำมั่นสัญญาและไม่สามารถทำตามคำมั่นสัญญาได้) และการถ่ายโอนแบบมานุษยวิทยาทำให้เรามีแนวโน้มที่จะทำซ้ำพฤติกรรมนี้กับระบบ AI ที่มีการสนทนา
แต่ LLM เป็นหน่วยงานที่ไม่มีการรับผิดชอบซึ่งสามารถและจะกลับมาพร้อมกับ ‘อ๊ะ! โอ้ไม่…’ หลังจากที่ช่วยให้ผู้ใช้ ทำลายสิ่งที่สำคัญโดยไม่ตั้งใจ หรือ至少เสียเวลาหนึ่งวันของพวกเขา โดยสมมติว่าพวกมันจะ รับความรับผิดชอบทั้งหมด
สิ่งที่เลวร้ายกว่านั้นคือการขาดการตรวจสอบอย่างรอบคอบนี้ดูเหมือนจะไม่สามารถกระตุ้นให้เปลี่ยนแปลงได้ ใน ChatGPT ซึ่งจะให้การรับรองอย่างมากแก่ผู้ใช้เกี่ยวกับผลประโยชน์ของคำแนะนำของตน และอธิบายข้อบกพร่องในการคิดของตนเองเพียงหลังจากที่ความเสียหายเกิดขึ้นแล้ว การอัปเดต ความจำที่คงอยู่ ของระบบ หรือการใช้คำสั่งซ้ำไม่ดูเหมือนจะมีผลกระทบต่อปัญหา
ผู้คนสามารถมีความ頑固และหลอกลวงตนเองได้เช่นกัน – แม้ว่าใครก็ตามที่ผิดพลาดอย่างลึกซึ้งและบ่อยครั้งอาจถูกไล่ออกเร็วๆ นี้ ผู้ที่ป่วยด้วยอาการ Dunning Kruger effect โดยที่บุคคล มองข้าม ความสามารถในการทำงานของตนเองอย่างมาก
ต้นทุนของการอ่อนค่านิยม
การศึกษใหม่จาก Microsoft ตรวจสอบคุณค่าของ Dunning-Kruger effect ในความสัมพันธ์กับการทำงานที่มีประสิทธิภาพของโครงสร้างการเขียนโค้ด AI (เช่น Copilot ของ Redmond) ในความพยายามในการวิจัยที่เป็นครั้งแรกที่กล่าวถึงส่วนย่อยของ LLMs นี้
งานวิจัยวิเคราะห์ว่าโค้ด AI เหล่านี้ให้การประมาณการความมั่นใจของตนเองเทียบกับการทำงานที่แท้จริงของพวกมัน โดยที่พวกมันให้คำตอบที่ถูกต้องบ่อยเพียงใด – และความมั่นใจที่พวกมัน เชื่อ ว่าพวกมันทำได้ดี
การเปรียบเทียบสองตัวนี้ทำให้นักวิจัยเห็นได้ชัดเจนว่าความมั่นใจและความสามารถแตกต่างกัน
ผลการวิจัยแสดงให้เห็นว่าเมื่อโมเดลมีความสามารถน้อยที่สุด พวกมันก็มีความมั่นใจมากที่สุด
ผลการวิจัยยังชี้ให้เห็นว่าโมเดลที่มีความสามารถน้อยกว่าจะแสดงความมั่นใจที่สูงกว่าเมื่อทำงานในภาษาโปรแกรมมิ่งที่หายากหรือไม่คุ้นเคย
ผลการวิจัยยังแสดงให้เห็นว่าโมเดลที่มีความสามารถมากที่สุดอาจมีความมั่นใจที่น้อยกว่าความสามารถที่แท้จริงของพวกมัน
นักวิจัยสรุปว่า:
‘โดยการวิเคราะห์ความมั่นใจของโมเดลและผลการทำงานที่หลากหลายของภาษาโปรแกรมมิ่ง เราแสดงให้เห็นว่าโมเดล AI สะท้อนรูปแบบของความมั่นใจที่มากเกินไปของมนุษย์ โดยเฉพาะอย่างยิ่งในโดเมนที่ไม่คุ้นเคยหรือมีทรัพยากรน้อย
‘การทดลองของเราทำให้เห็นว่าโมเดลที่มีความสามารถน้อยกว่าและโมเดลที่ทำงานในภาษาโปรแกรมมิ่งที่หายากจะแสดงความลำเอียงของ DKE ที่เข้มข้นกว่า ซึ่งบ่งชี้ว่าความเข้มข้นของความลำเอียงนั้นเป็นสัดส่วนกับความสามารถของโมเดล
ผลการวิจัยเหล่านี้ชี้ให้เห็นว่าโมเดล AI ที่มีความสามารถน้อยกว่าจะมีความมั่นใจที่สูงกว่าเมื่อทำงานในภาษาโปรแกรมมิ่งที่หายากหรือไม่คุ้นเคย
ผลการวิจัยยังชี้ให้เห็นว่าโมเดล AI ที่มีความสามารถมากที่สุดอาจมีความมั่นใจที่น้อยกว่าความสามารถที่แท้จริงของพวกมัน
วิธีการ
การศึกษานี้ทดสอบความสามารถของโค้ด AI ในการประมาณการความมั่นใจของตนเองโดยให้พวกมันคำถามการเขียนโค้ดหลายพันคำถาม โดยแต่ละคำถามเป็นของโดเมนภาษาโปรแกรมมิ่งที่เฉพาะเจาะจง
ผลการวิจัยแสดงให้เห็นว่าโมเดล AI ที่มีความสามารถน้อยกว่าจะมีความมั่นใจที่สูงกว่าเมื่อทำงานในภาษาโปรแกรมมิ่งที่หายากหรือไม่คุ้นเคย
ผลการวิจัยยังชี้ให้เห็นว่าโมเดล AI ที่มีความสามารถมากที่สุดอาจมีความมั่ใจที่น้อยกว่าความสามารถที่แท้จริงของพวกมัน
ผลลัพธ์
ผลการวิจัยแสดงให้เห็นว่าโมเดล AI ที่มีความสามารถน้อยกว่าจะมีความมั่นใจที่สูงกว่าเมื่อทำงานในภาษาโปรแกรมมิ่งที่หายากหรือไม่คุ้นเคย
ผลการวิจัยยังชี้ให้เห็นว่าโมเดล AI ที่มีความสามารถมากที่สุดอาจมีความมั่นใจที่น้อยกว่าความสามารถที่แท้จริงของพวกมัน
ผลการวิจัยเหล่านี้ชี้ให้เห็นว่าโมเดล AI ที่มีความสามารถน้อยกว่าจะมีความมั่นใจที่สูงกว่าเมื่อทำงานในภาษาโปรแกรมมิ่งที่หายากหรือไม่คุ้นเคย
สรุป
แม้ว่า Dunning-Kruger effect จะเป็นอาการที่พบได้ทั่วไปในมนุษย์ แต่การวิจัยนี้แสดงให้เห็นว่าโค้ด AI ก็มีอาการนี้เช่นกัน
ผลการวิจัยเหล่านี้ชี้ให้เห็นว่าโมเดล AI ที่มีความสามารถน้อยกว่าจะมีความมั่นใจที่สูงกว่าเมื่อทำงานในภาษาโปรแกรมมิ่งที่หายากหรือไม่คุ้นเคย
ผลการวิจัยยังชี้ให้เห็นว่าโมเดล AI ที่มีความสามารถมากที่สุดอาจมีความมั่นใจที่น้อยกว่าความสามารถที่แท้จริงของพวกมัน
ผลการวิจัยเหล่านี้มีผลกระทบต่อการออกแบบและพัฒนาโมเดล AI ในอนาคต
* ภาษาโปรแกรมมิ่งที่ใช้ในการศึกษานี้คือ Ada, Bash, C, C#, C++, COBOL, Ceylon, Clojure, D, Dart, Dash, Elixir, Erland, F#, Fortran, Go, Haskell, Java, JavaScript, Julia, Lisp, Kotlin, Lua, OCaml, Objective-C, PHP, Pascal, Perl, Prolog, Python, Racket, Ruby, Rust, Scala, Swift, TypeScript และ Visual Basic.
เผยแพร่ครั้งแรกวันพุธที่ 8 ตุลาคม 2025












