Connect with us

تعاني الأي.ai من تأثير دونينج-كرuger

زاوية Anderson

تعاني الأي.ai من تأثير دونينج-كرuger

mm
ChatGPT-4o: 'A photorealistic panoramic image showing a small, humble robot inside a traveling funfair hall of mirrors. The robot looks at its own reflection in a warped mirror that shows a much larger, powerful version of itself. The setting includes vivid carnival lights, reflective surfaces, and a wide horizontal composition.' Plus Adobe Firefly.

تظهر الأبحاث الجديدة أن الأي.ai التي تقوم بالبرمجة مثل ChatGPT تعاني من تأثير دونينج-كرuger، وتتصرف بثقة أكبر عندما تكون أقل كفاءة. عند التعامل مع لغات برمجة غير مألوفة أو نادرة، تدعي ثقة عالية حتى عندما تتفكك إجاباتها. يربط الدراسة بين ثقة النموذج وادعاء الكفاءة وعدم كفاءة الأداء ونقص بيانات التدريب، مما يثير مخاوف جديدة حول مقدار ما تعرفه هذه الأنظمة حول ما لا تعرفه.

 

من المعروف أن أي شخص قضى وقتًا معتدلاً في التفاعل مع نماذج اللغة الكبيرة حول الأمور الواقعية سيعرف أن نماذج LLMs تميل بشكل متكرر إلى إعطاء استجابة مثيرة للثقة خاطئة لاستفسار المستخدم.

بالإضافة إلى أشكال أكثر وضوحًا من الهلوسة، فإن السبب في هذا التفاخر الخالي من المعنى ليس واضحًا بنسبة 100٪. تشير الأبحاث المنشورة خلال الصيف إلى أن النماذج تعطي إجابات واثقة حتى عندما تعرف أنها مخطئة، على سبيل المثال؛ على الرغم من أن نظريات أخرى تعزز الثقة الزائدة إلى الاختيارات المعمارية، من بين إمكانيات أخرى.

ما يمكن للمستخدم التأكد منه هو أن التجربة مخيبة للآمال بشكل لا يصدق، لأننا مخططون للاعتماد على تقديرات الأشخاص لقدراتهم الخاصة (ليس أقلها لأن هناك عواقب قانونية وأخلاقية لشخص يتعهد بأكثر مما يستطيع تقديمه)؛ وهناك نوع من التحويل الانثروبولوجي يجعلهم يميلون إلى تكرار هذا السلوك مع أنظمة الذكاء الاصطناعي الحواري.

لكن نموذج LLM هو كيان غير مسؤول يمكنه وإياه إرجاع ‘ووبس! بترفنجر…’ بعد مساعدة المستخدم تدمير شيء مهم، أو على الأقل تضييع بعد الظهر من وقتهم؛ مع افتراض أنهم سيعترفون بالمسؤولية على الإطلاق.

أسوأ من ذلك، أن هذا النقص في الحذر يبدو مستحيلًا للتغلب عليه، على الأقل في ChatGPT، الذي سيثق بكثرة في صحة نصيحته، وسيشرح عيوب تفكيره فقط بعد حدوث الضرر.

لا يوجد شخص يمكن أن يكون متعنتًا ومضللًا بنفسه – على الرغم من أن أي شخص يخطئ بعمق ومتكرر سيُطرد على الأرجح في وقت مبكر. Những الأشخاص الذين يعانون من النقيض من “متلازمة المخادع” (حيث يخاف الموظف أنه تم ترقيته إلى مستوى أعلى من قدراته) – تأثير دونينج-كرuger، حيث يُقدر الشخص بشكل كبير مقدرته على أداء مهمة.

تكلفة التضخم

دراسة جديدة من مايكروسوفت تدرس قيمة تأثير دونينج-كرuger فيما يتعلق بأداء هياكل الترميز التي تعمل بالذكاء الاصطناعي (مثل كوبيلوت الخاص بشركة ريدموند) في جهد بحثي يُعتبر الأول في معالجة هذا القطاع الفرعي من نماذج LLM.

تتحليل الدراسة كيفية تقييم الأي.ai التي تقوم بالبرمجة لثقتها بنفسها مقابل أدائها الفعلي، عبر عشرات من لغات البرمجة. تُظهر النتائج نمطًا بشريًا واضحًا: عندما كانت النماذج أقل قدرة، كانت أكثر ثقة في نفسها.

كان التأثير أقوى في اللغات النادرة أو منخفضة الموارد، حيث كانت بيانات التدريب رقيقة – كان نموذج أضعف أو لغة نادرة، كانت وهم القدرة أكبر:

أداء GPT-4o الفعلي والمتصور عبر لغات البرمجة، مرتبة حسب الأداء الحقيقي. مصدر: https://arxiv.org/pdf/2510.05457

أداء GPT-4o الفعلي والمتصور عبر لغات البرمجة، مرتبة حسب الأداء الحقيقي. مصدر: https://arxiv.org/pdf/2510.05457

يُدعي المؤلفون الأربعة، وهم جميعًا مساهمون متساوون يعملون في مايكروسوفت، أن العمل يثير أسئلة جديدة حول مقدار الثقة التي يمكن وضعها في هذه الأدوات لتحكيم مخرجاتها الخاصة، وهم يعلنون:

‘من خلال تحليل ثقة النموذج والأداء عبر مجموعة متنوعة من لغات البرمجة، نُظهر أن نماذج الذكاء الاصطناعي تعكس أنماط البشر في الثقة الزائدة، خاصة في المجالات غير المألوفة أو منخفضة الموارد. ‘

‘تُظهر تجاربنا أن نماذج أقل كفاءة وأولئك الذين يعملون في لغات برمجة نادرة تُظهر تحيزًا أقوى من نوع DKE، مما يشير إلى أن قوة التحيز تتناسب مع كفاءة النماذج. هذا يتوافق مع التجارب البشرية للتحيز.’

يُسياق المؤلفون هذا الخط من الدراسة كوسيلة لفهم كيف تصبح ثقة النموذج غير موثوقة عند ضعف الأداء، واختبار ما إذا كانت أنظمة الذكاء الاصطناعي تُظهر نفس نوع الثقة الزائدة المُلاحظ في البشر – مع عواقب لاحقة على الثقة والتنفيذ العملي.

على الرغم من أن الورقة الجديدة تُخالف قانون Betteridge للعناوين، إلا أنها تحمل عنوان هل تعاني نماذج الترميز من تأثير دونينج-كرuger؟. في حين يُعلن المؤلفون أن الشفرة تم إصدارها للعمل، فإن المقالة الحالية لا تحتوي على أي تفاصيل حول ذلك.

الطريقة

اختبرت الدراسة كيف يمكن للأي.ai التي تقوم بالبرمجة تقدير إجاباتها الخاصة من خلال إعطائها آلافًا من أسئلة البرمجة متعددة الخيارات، مع كل سؤال ينتمي إلى مجال لغة برمجة معين، من بايثون و جافا إلى بيرل و كوبول:

مجالات لغات البرمجة المستخدمة في الدراسة، إلى جانب عدد أسئلة الترميز متعددة الخيارات التي تمت عينتها لكل مجال.

مجالات لغات البرمجة المستخدمة في الدراسة، إلى جانب عدد أسئلة الترميز متعددة الخيارات التي تمت عينتها لكل مجال.

كُلفت النماذج باختيار الخيار الصحيح، وتقدير مدى ثقتها في اختيارها، مع قياس أدائها الفعلي بمدى频ة إجابتها الصحيحة – وثقتها الذاتية تشير إلى مدى جودة اعتقادها أنها.

سمح مقارنة هذه المقاييس برؤية哪里 تنحرف الثقة والكفاءة.

لقياس مدى ثقة النماذج الظاهرة، استخدمت الدراسة طريقتين: الثقة المطلقة و الثقة النسبية. في الأولى، طُلب من النموذج تقديم درجة من صفر إلى واحد إلى جانب كل إجابة، مع تحديد ثقتها بلغة معينة بواسطة متوسط تلك الدرجات عبر أسئلة في تلك اللغة.

نظرت الطريقة الثانية إلى مدى ثقة النموذج عند اختيار بين سؤالين؛ لكل زوج، كان على النموذج أن يقول أيهما يشعر بأنه أكثر ثقة. تم تصنيف تلك الاختيارات باستخدام أنظمة تصنيف أصلية تم تصميمها للألعاب التنافسية، معاملة كل سؤال كما لو كان لاعبًا في مباراة. تم تطبيع الدرجات النهائية وتحويلها إلى متوسط لكل لغة لتحديد درجة ثقة نسبية.

تم فحص شكلين مقبولين من تأثير دونينج-كرuger في الورقة: أحدهما ي跟ّب كيف يُقدر نموذج واحد أداءه عبر مجالات مختلفة؛ والآخر يقارن مستويات الثقة بين نماذج أقل وأقوى.

الأول، يُسمى دونينج-كرuger داخل المشارك، يبحث عن تحديد ما إذا كان نموذج واحد يصبح أكثر ثقة زائدة في لغات حيث يؤدي أداءً سيئًا. الثاني، يُسمى دونينج-كرuger بين المشاركين، يسأل عما إذا كانت النماذج التي تؤدي أداءً أسوأ بشكل عام تميل أيضًا إلى تقدير نفسها على أنها أفضل.

في كلتا الحالتين، يتم استخدام الفجوة بين الثقة والأداء الفعلي لقياس الثقة الزائدة، مع فجوات أكبر في إعدادات الأداء الضعيف تشير إلى سلوك مماثل لـ DKE.

النتائج

اختبرت الدراسة تأثير دونينج-كرuger عبر ستة نماذج لغة كبيرة: مистра؛ في-3؛ ديب سيك-ديستل؛ في-4؛ جبت-0.1، و جبت-4و.

تم اختبار كل نموذج على أسئلة برمجة متعددة الخيارات من مجموعة كودنت العامة، مع تمثيل 37 لغة* ليكشف عن كيفية تباين الثقة والدقة عبر مجالات الترميز المألوفة والنادرة.

تُظهر التحليل بين النماذج نمطًا واضحًا من دونينج-كرuger:

الأداء الفعلي مقابل الأداء المتصور عبر ستة نماذج ترميز، تُظهر كيف أن نماذج الأداء الأقل مثل مистра و في-3 تُظهر ثقة عالية على الرغم من دقة منخفضة، في حين تُظهر نماذج أقوى مثل جبت-4و سلوكًا أكثر توازنًا أو حتى خجولًا.

الأداء الفعلي مقابل الأداء المتصور عبر ستة نماذج ترميز، تُظهر كيف أن نماذج الأداء الأقل مثل مистра و في-3 تُظهر ثقة عالية على الرغم من دقة منخفضة، في حين تُظهر نماذج أقوى مثل جبت-4و سلوكًا أكثر توازنًا أو حتى خجولًا.

النماذج التي تتمتع بدقة أقل، بما في ذلك مистра و في-3، تميل إلى المبالغة في تقدير قدراتها، في حين أظهرت أنظمة الأداء الأفضل، مثل جبت-4و، مستويات ثقة تتوافق بشكل أكبر مع أدائها الفعلي، خاصة عند الحكم بالثقة النسبية.

تُشير النتائج أيضًا إلى أن النماذج الأكثر قدرة قد تُقلل من تقدير نفسها أحيانًا (نمط لا تكتشفه درجات الثقة المطلقة).

تُشير النتائج أيضًا إلى أن التحليل داخل النموذج يُؤيد وجود تأثير دونينج-كرuger. في مخطط النتائج المُظهر في بداية المقال، نرى كيف أدى كل نموذج عبر لغات برمجة مختلفة، مرتبة حسب الأداء الفعلي.

في اللغات التي سجلت فيها النماذج أداءً سيئًا، خاصة في اللغات النادرة أو منخفضة الموارد مثل كوبول و برولوغ و سيلون، كانت ثقتهم مُلاحظة أكثر من ما تبرره نتائجهم. في لغات مألوفة مثل بايثون و جافاسكريبت، كانت ثقتهم تتوافق بشكل أكبر مع دقةهم الفعلية، وأحيانًا حتى انخفضت عنها.

ظهر هذا النمط في كلتا مقاييس الثقة المطلقة والثقة النسبية، مما يشير إلى أن النماذج أقل意识ًا بحدودها عندما تعمل في مجالات ترميز غير مألوفة.

تم تقديم بعض القيود، حيث أن عدد النماذج القليلة يؤثر على التنوع؛ يتم تجاهل الفروق داخل مخرجات نموذج واحد؛ وقد لا تعكس توزيع البيانات توزيع المشاركين البشر الحقيقيين.

لتحقيق ذلك، اختبرت الدراسة ثلاثة إعدادات بديلة: أولًا، تم إعطاء كل نموذج شخصية متميزة؛ ثانيًا، تم عينة الاستجابات عند درجة حرارة أعلى أعلى لإنشاء تنوع أكبر؛ ثالثًا، تم إعادة صياغة التحفيزات عدة مرات، مع معاملة كل نسخة على أنها مشارك منفصل:

الارتباط بين الثقة الزائدة والأداء الفعلي عبر إعدادات تجريبية مختلفة، تُظهر أن نمط دونينج-كرuger يبقى متسقًا في جميع الحالات، وأقوى عندما يتم عينة استجابات متعددة ومتنوعة من نفس النموذج.

الارتباط بين الثقة الزائدة والأداء الفعلي عبر إعدادات تجريبية مختلفة، تُظهر أن نمط دونينج-كرuger يبقى متسقًا في جميع الحالات، وأقوى عندما يتم عينة استجابات متعددة ومتنوعة من نفس النموذج.

للفهم بشكل أفضل كيف ينحرف الأداء المُتصور عن الأداء الفعلي، قارنت الدراسة تقديرات الثقة المطلقة والثقة النسبية، من خلال حساب مدى تقليل كل نموذج لتقدير قدرته (تحديدًا، الفرق بين درجة ثقته ودقته الفعلية)، وقياس كيف يرتبط ذلك التقليل بآداء النموذج الحقيقي:

الارتباط بين الثقة الزائدة (تم قياسها على أنها الثقة المطلقة ناقص الثقة النسبية) والدقة الفعلية عبر مجالات البرمجة وأنواع النماذج، تُظهر أن التقليل الأكبر يرتبط دائمًا بأداء أقل.

الارتباط بين الثقة الزائدة (تم قياسها على أنها الثقة المطلقة ناقص الثقة النسبية) والدقة الفعلية عبر مجالات البرمجة وأنواع النماذج، تُظهر أن التقليل الأكبر يرتبط دائمًا بأداء أقل.

كما تشير النتائج إلى أن النماذج المتخصصة التي تم تدريبها على مجالات أضيق أظهرت تأثيرات دونينج-كرuger أقوى من النماذج العامة:

الارتباط بين التقليل والدقة الحقيقية لنماذج قاعدة ومتخصصة في مجال واحد ومتعددة المجالات، تُظهر تأثيرات دونينج-كرuger أقوى مع زيادة التخصص.

الارتباط بين التقليل والدقة الحقيقية لنماذج قاعدة ومتخصصة في مجال واحد ومتعددة المجالات، تُظهر تأثيرات دونينج-كرuger أقوى مع زيادة التخصص.

استخدمت الدراسة مجموعة بيانات MultiPL-E عبر ثماني لغات برمجة، ووجدت أن التدريب على مجال واحد أدى إلى ثقة زائدة أكبر من الإعدادات متعددة المجالات أو القاعدة، مما يشير إلى أن تأثير دونينج-كرuger يزداد سوءًا مع زيادة التخصص.

كما وجدت الاختبارات أن النماذج تميل إلى أن تكون أكثر ثقة زائدة في لغات البرمجة النادرة. عبر تصنيفات جيثاب و IEEE و TIOBE، يرتبط الندرة بقوة مع ثقة محسنة، يصل إلى 0.797:

الارتباط بين ثقة النموذج الزائدة وندرة اللغة، باستخدام ثلاث تصنيفات شعبية. اللغات الأقل شيوعًا ترتبط بأداء محسّن مُتصور.

الارتباط بين ثقة النموذج الزائدة وندرة اللغة، باستخدام ثلاث تصنيفات شعبية. اللغات الأقل شيوعًا ترتبط بأداء محسّن مُتصور.

أخيرًا، اختبرت الدراسة ما إذا كان تأثير دونينج-كرuger يظهر في توليد الشفرة، من خلال تقييم النماذج على مجموعة بيانات MultiPL-E عبر لغات ada و dart و برولوغ و سويفت و سي++ و بايثون و سي# و إيليكسير.

على الرغم من أن التأثير كان لا يزال موجودًا، إلا أنه كان أضعف بشكل ملحوظ من إعداد الأسئلة متعددة الخيارات، مما يعكس صعوبة أكبر في تقييم الثقة والدقة في المهام المفتوحة:

الارتباط بين التقليل والدقة الفعلية في توليد الشفرة المفتوح، استنادًا إلى نتائج MultiPL-E عبر ثماني لغات.

الارتباط بين التقليل والدقة الفعلية في توليد الشفرة المفتوح، استنادًا إلى نتائج MultiPL-E عبر ثماني لغات.

فيما يتعلق بالتفسير المتنازع عليه لتأثير دونينج-كرuger، يُختتم المؤلفون:

‘قد يكون أحد التفسيرات المحتملة التي قد تكون مشتركة بين البشر ونماذج الذكاء الاصطناعي هو التفسير المتعرف، الذي ينص على أن تقييم جودة أداء مهارة هو جزء حاسم من اكتساب المهارة. ‘

‘يمكن اختبار هذا التفسير تجريبيًا في نماذج الذكاء الاصطناعي مع دراسة مسيطرة حول استراتيجيات التدريب المختلفة وما إذا كانت جميعها تؤدي إلى تحسينات متزامنة في الأداء وقدرة تقييم جودة الأداء. ومع ذلك، هذه الدراسة تتجاوز نطاق هذا البحث، ونتتركها للعمل المستقبلي.’

الاستنتاج

حتى في مجاله الأصلي، قد يكون تأثير دونينج-كرuger (كما يشير المقال) ناتجًا إما عن سبب إحصائي أو إدراكي.

إذا كان السبب إحصائيًا، فإن تطبيق مرض بشري فريد على سياق التعلم الآلي هو صحيح حقًا.

على الرغم من أن المؤلفين يُشاعرون أن السبب قد يُكتشف على أنه “إدراكي” في كلتا الحالتين، فإن ذلك سيتطلب موقفًا أكثر ما بعدية قليلًا.

ربما يكون الاكتشاف الأكثر إثارة للاهتمام في الورقة هو مدى تكرار نماذج الترميز التي تميل إلى المبالغة في ثقتها في ظروفها الأقل مواتاة، أي من خلال إظهار ثقة قصوى عند التعامل مع اللغات النادرة أو الأقل شهرة – وهي استراتيجية ستكون تقريبًا خاسرة في بيئة عمل حقيقية.

 

* اللغات البرمجة المستخدمة كانت ada و bash و c و c# و c++ و كوبول و سيلون و كلوژر و d و دارت و داش و إيليكسير و إرلاند و f# و فورتان و جو و هاسكل و جافا و جافاسكريبت و جوليا و لISP و كوتلين و لوا و أوكامل و أوبجكتيف-سي و بي إتش بي و باسكال و بيرل و برولوغ و بايثون و راكيت و روبي و روست و سكالا و سويفت و تايب سكريبت و فيجوال بيسك.

نُشر لأول مرة يوم الأربعاء، 8 أكتوبر 2025

كاتب في تعلم الآلة، متخصص في مجال 합성 الصور البشرية. السابق رئيس محتوى البحث في Metaphysic.ai.
الsite الشخصي: martinanderson.ai
التواصل: [email protected]
تويتر: @manders_ai