Connect with us

โค้ด AI มักจะป่วยด้วยอาการ Dunning-Kruger Effect

มุมมองของ Anderson

โค้ด AI มักจะป่วยด้วยอาการ Dunning-Kruger Effect

mm
ChatGPT-4o: 'A photorealistic panoramic image showing a small, humble robot inside a traveling funfair hall of mirrors. The robot looks at its own reflection in a warped mirror that shows a much larger, powerful version of itself. The setting includes vivid carnival lights, reflective surfaces, and a wide horizontal composition.' Plus Adobe Firefly.

การวิจัยใหม่แสดงให้เห็นว่า โค้ด AI เช่น ChatGPT ป่วยด้วยอาการ Dunning-Kruger Effect ซึ่งมักจะแสดงความมั่นใจสูงสุดเมื่อพวกมันไม่มีความสามารถ เมื่อเผชิญกับภาษาโปรแกรมมิ่งที่ไม่คุ้นเคยหรือหายาก พวกมันจะอ้างว่ามีความมั่นใจสูงแม้ว่าคำตอบของพวกมันจะไม่ถูกต้องก็ตาม การศึกษานี้เชื่อมโยงความมั่นใจที่มากเกินไปของโมเดลกับการทำงานที่ไม่ดีและขาดข้อมูลการฝึกอบรม ซึ่งทำให้เกิดความกังวลใหม่เกี่ยวกับความรู้ที่แท้จริงของระบบเหล่านี้เกี่ยวกับสิ่งที่พวกมัน ไม่รู้

 

ผู้ที่ใช้เวลาอยู่กับ Large Language Models เพื่อหารือเกี่ยวกับเรื่องจริงจะรู้แล้วว่า LLMs มักจะให้คำตอบที่ มั่นใจผิด ต่อคำถามของผู้ใช้

นอกเหนือจากอาการ hallucination ที่เห็นได้ชัดเจน สาเหตุของการอ้างว่ามีความมั่นใจนี้ไม่ชัดเจน 100% การวิจัยที่เผยแพร่ในช่วงฤดูร้อนชี้ว่าโมเดลให้คำตอบที่มั่นใจ แม้ว่าพวกมันจะรู้ว่าพวกมันผิด ตัวอย่างเช่น แม้ว่าทฤษฎีอื่นๆ จะให้เหตุผลว่าความมั่นใจที่มากเกินไปนั้นมาจาก การออกแบบสถาปัตยกรรม เป็นต้น

สิ่งที่ผู้ใช้ปลายทางสามารถมั่นใจได้คือประสบการณ์นั้นเป็นเรื่องที่น่าหงุดหงิดมาก เนื่องจากเรามีการเข้ารหัสที่จะวางใจใน การประมาณการของคน ของความสามารถของตนเอง (ไม่น้อยเพราะในกรณีเหล่านั้นจะมีผลทางกฎหมายและอื่นๆ ต่อการให้คำมั่นสัญญาและไม่สามารถทำตามคำมั่นสัญญาได้) และการถ่ายโอนแบบมานุษยวิทยาทำให้เรามีแนวโน้มที่จะทำซ้ำพฤติกรรมนี้กับระบบ AI ที่มีการสนทนา

แต่ LLM เป็นหน่วยงานที่ไม่มีการรับผิดชอบซึ่งสามารถและจะกลับมาพร้อมกับ ‘อ๊ะ! โอ้ไม่…’ หลังจากที่ช่วยให้ผู้ใช้ ทำลายสิ่งที่สำคัญโดยไม่ตั้งใจ หรือ至少เสียเวลาหนึ่งวันของพวกเขา โดยสมมติว่าพวกมันจะ รับความรับผิดชอบทั้งหมด

สิ่งที่เลวร้ายกว่านั้นคือการขาดการตรวจสอบอย่างรอบคอบนี้ดูเหมือนจะไม่สามารถกระตุ้นให้เปลี่ยนแปลงได้ ใน ChatGPT ซึ่งจะให้การรับรองอย่างมากแก่ผู้ใช้เกี่ยวกับผลประโยชน์ของคำแนะนำของตน และอธิบายข้อบกพร่องในการคิดของตนเองเพียงหลังจากที่ความเสียหายเกิดขึ้นแล้ว การอัปเดต ความจำที่คงอยู่ ของระบบ หรือการใช้คำสั่งซ้ำไม่ดูเหมือนจะมีผลกระทบต่อปัญหา

ผู้คนสามารถมีความ頑固และหลอกลวงตนเองได้เช่นกัน – แม้ว่าใครก็ตามที่ผิดพลาดอย่างลึกซึ้งและบ่อยครั้งอาจถูกไล่ออกเร็วๆ นี้ ผู้ที่ป่วยด้วยอาการ Dunning Kruger effect โดยที่บุคคล มองข้าม ความสามารถในการทำงานของตนเองอย่างมาก

ต้นทุนของการอ่อนค่านิยม

การศึกษใหม่จาก Microsoft ตรวจสอบคุณค่าของ Dunning-Kruger effect ในความสัมพันธ์กับการทำงานที่มีประสิทธิภาพของโครงสร้างการเขียนโค้ด AI (เช่น Copilot ของ Redmond) ในความพยายามในการวิจัยที่เป็นครั้งแรกที่กล่าวถึงส่วนย่อยของ LLMs นี้

งานวิจัยวิเคราะห์ว่าโค้ด AI เหล่านี้ให้การประมาณการความมั่นใจของตนเองเทียบกับการทำงานที่แท้จริงของพวกมัน โดยที่พวกมันให้คำตอบที่ถูกต้องบ่อยเพียงใด – และความมั่นใจที่พวกมัน เชื่อ ว่าพวกมันทำได้ดี

การเปรียบเทียบสองตัวนี้ทำให้นักวิจัยเห็นได้ชัดเจนว่าความมั่นใจและความสามารถแตกต่างกัน

ผลการวิจัยแสดงให้เห็นว่าเมื่อโมเดลมีความสามารถน้อยที่สุด พวกมันก็มีความมั่นใจมากที่สุด

ผลการวิจัยยังชี้ให้เห็นว่าโมเดลที่มีความสามารถน้อยกว่าจะแสดงความมั่นใจที่สูงกว่าเมื่อทำงานในภาษาโปรแกรมมิ่งที่หายากหรือไม่คุ้นเคย

ผลการวิจัยยังแสดงให้เห็นว่าโมเดลที่มีความสามารถมากที่สุดอาจมีความมั่นใจที่น้อยกว่าความสามารถที่แท้จริงของพวกมัน

นักวิจัยสรุปว่า:

‘โดยการวิเคราะห์ความมั่นใจของโมเดลและผลการทำงานที่หลากหลายของภาษาโปรแกรมมิ่ง เราแสดงให้เห็นว่าโมเดล AI สะท้อนรูปแบบของความมั่นใจที่มากเกินไปของมนุษย์ โดยเฉพาะอย่างยิ่งในโดเมนที่ไม่คุ้นเคยหรือมีทรัพยากรน้อย

‘การทดลองของเราทำให้เห็นว่าโมเดลที่มีความสามารถน้อยกว่าและโมเดลที่ทำงานในภาษาโปรแกรมมิ่งที่หายากจะแสดงความลำเอียงของ DKE ที่เข้มข้นกว่า ซึ่งบ่งชี้ว่าความเข้มข้นของความลำเอียงนั้นเป็นสัดส่วนกับความสามารถของโมเดล

ผลการวิจัยเหล่านี้ชี้ให้เห็นว่าโมเดล AI ที่มีความสามารถน้อยกว่าจะมีความมั่นใจที่สูงกว่าเมื่อทำงานในภาษาโปรแกรมมิ่งที่หายากหรือไม่คุ้นเคย

ผลการวิจัยยังชี้ให้เห็นว่าโมเดล AI ที่มีความสามารถมากที่สุดอาจมีความมั่นใจที่น้อยกว่าความสามารถที่แท้จริงของพวกมัน

วิธีการ

การศึกษานี้ทดสอบความสามารถของโค้ด AI ในการประมาณการความมั่นใจของตนเองโดยให้พวกมันคำถามการเขียนโค้ดหลายพันคำถาม โดยแต่ละคำถามเป็นของโดเมนภาษาโปรแกรมมิ่งที่เฉพาะเจาะจง

ผลการวิจัยแสดงให้เห็นว่าโมเดล AI ที่มีความสามารถน้อยกว่าจะมีความมั่นใจที่สูงกว่าเมื่อทำงานในภาษาโปรแกรมมิ่งที่หายากหรือไม่คุ้นเคย

ผลการวิจัยยังชี้ให้เห็นว่าโมเดล AI ที่มีความสามารถมากที่สุดอาจมีความมั่ใจที่น้อยกว่าความสามารถที่แท้จริงของพวกมัน

ผลลัพธ์

ผลการวิจัยแสดงให้เห็นว่าโมเดล AI ที่มีความสามารถน้อยกว่าจะมีความมั่นใจที่สูงกว่าเมื่อทำงานในภาษาโปรแกรมมิ่งที่หายากหรือไม่คุ้นเคย

ผลการวิจัยยังชี้ให้เห็นว่าโมเดล AI ที่มีความสามารถมากที่สุดอาจมีความมั่นใจที่น้อยกว่าความสามารถที่แท้จริงของพวกมัน

ผลการวิจัยเหล่านี้ชี้ให้เห็นว่าโมเดล AI ที่มีความสามารถน้อยกว่าจะมีความมั่นใจที่สูงกว่าเมื่อทำงานในภาษาโปรแกรมมิ่งที่หายากหรือไม่คุ้นเคย

สรุป

แม้ว่า Dunning-Kruger effect จะเป็นอาการที่พบได้ทั่วไปในมนุษย์ แต่การวิจัยนี้แสดงให้เห็นว่าโค้ด AI ก็มีอาการนี้เช่นกัน

ผลการวิจัยเหล่านี้ชี้ให้เห็นว่าโมเดล AI ที่มีความสามารถน้อยกว่าจะมีความมั่นใจที่สูงกว่าเมื่อทำงานในภาษาโปรแกรมมิ่งที่หายากหรือไม่คุ้นเคย

ผลการวิจัยยังชี้ให้เห็นว่าโมเดล AI ที่มีความสามารถมากที่สุดอาจมีความมั่นใจที่น้อยกว่าความสามารถที่แท้จริงของพวกมัน

ผลการวิจัยเหล่านี้มีผลกระทบต่อการออกแบบและพัฒนาโมเดล AI ในอนาคต

* ภาษาโปรแกรมมิ่งที่ใช้ในการศึกษานี้คือ Ada, Bash, C, C#, C++, COBOL, Ceylon, Clojure, D, Dart, Dash, Elixir, Erland, F#, Fortran, Go, Haskell, Java, JavaScript, Julia, Lisp, Kotlin, Lua, OCaml, Objective-C, PHP, Pascal, Perl, Prolog, Python, Racket, Ruby, Rust, Scala, Swift, TypeScript และ Visual Basic.

เผยแพร่ครั้งแรกวันพุธที่ 8 ตุลาคม 2025

นักเขียนด้านการเรียนรู้ของเครื่องจักร ผู้เชี่ยวชาญด้านสังเคราะห์ภาพมนุษย์ อดีตหัวหน้าฝ่ายวิจัยเนื้อหาที่ Metaphysic.ai