زاوية أندرسون

أثبت الاستدلال التسلسلي أنه "زخرفي" في نماذج اللغة الرئيسية

تم النشر 25 آذار، 2026

مارتن أندرسون

صورة مولدة بالذكاء الاصطناعي (GPT1.5) تصور روبوتًا يغش في امتحان باستخدام هاتف ذكي.

يقدم بحث جديد طريقة سهلة لتحديد أن الشروحات المصقولة خطوة بخطوة لجميع نماذج اللغة الرائدة الحالية للذكاء الاصطناعي - بما في ذلك ChatGPT و Claude - ليست سوى "زخرفية"، وعادة ما تكون مختلقة. بعد لقد قرر الذكاء الاصطناعي ما هي الإجابة.

في العام الماضي، نُشرت سلسلة من الدراسات البارزة من شركات متخصصة في الذكاء الاصطناعي، بما في ذلك أنثروبي و ابلأشارت الدراسات إلى أن ما يسمى بـ "الذكاء الاصطناعي الاستدلالي" غالباً ما ينتج تفسيرات خطوة بخطوة لا تعكس ما أثر فعلياً على إجاباتهم.

ولأسباب مختلفة، سرعان ما تحول النقاش إلى ردود سريعة و تفسيرات متنوعة (بما فيها على هذا الموقع)، تاركاً السؤال دون إجابة حول ما إذا كان تسلسل الأفكار (سرير نقال) إن التفكير المنطقي ليس سوى زينة تجميلية مصممة لطمأنة المستخدمين النهائيين، أو دليل على عملية تفكير منطقي حقيقية.

يُظهر ChatGPT "عمله" - ولكن هل قرر بالفعل ما الذي سيجيب عليه؟

اعرض وتكلم

الآن، تقدم ورقة بحثية جديدة مثيرة للاهتمام من الهند طريقة رخيصة وسهلة التكرار لتقييم ما إذا كانت "رسوم الاستدلال المتحركة" الرائعة في واجهات ChatGPT ونماذج اللغة الكبيرة الأخرى تشير حقًا إلى أن الذكاء الاصطناعي يعمل من خلال الخطوات للوصول إلى استنتاج.

استخدم بحث جديد يأتي هذا البحث من باحثين اثنين في المعهد الهندي لتكنولوجيا المعلومات في الله أباد (IIITA) في الله أباد، والمعهد الوطني للإلكترونيات وتكنولوجيا المعلومات (NIELIT) في دلهي.

وجد المؤلفون أنه في جميع الحالات تقريبًا، عبر نطاق واسع من برامج إدارة التعلم الاحتكارية والمفتوحة المصدر، فإن تسلسل التفكير المقدم للمستخدمين هو "زخرفي" ومُختلق. بعد توصل الذكاء الاصطناعي إلى الإجابة التي سيقدمها.

من خلال اختبار نماذج مثل ChatGPT5.4 و Claude Opus 4.6-R و DeepSeek-V3.2، وجد المؤلفون أن إزالة أي خطوة واحدة من مؤشرات CoT العشرة إلى الخمسة عشر المعروضة قد غيرت الإجابة بالفعل أقل من 17% من الوقتوأن أي خطوة واحدة، بمفردها، كانت كافية لاستعادة الإجابة الصحيحة.

يذكر المؤلفون *:

تتطلب الأطر التنظيمية للذكاء الاصطناعي في مجالات الرعاية الصحية والتمويل والقانون بشكل متزايد [الأنظمة] "القابلة للتفسير"تشير نتائجنا إلى أن النهج القياسي - مطالبة النموذج بإظهار عمله - يوفر وهمًا بالشفافية.

"إن التفسيرات سلسة ومناسبة للمجال، وخاطئة بطريقة دقيقة: فهي تصف التفكير الذي لم يقم به النموذج."

إنّ الذكاء الاصطناعي الطبي الذي يكتب "يشير ارتفاع عدد الحمضات إلى عملية انصمامية" لم يأخذ بالضرورة ارتفاع عدد الحمضات في الاعتبار على الإطلاق. ربما يكون قد قام بمطابقة الأنماط من نص السؤال إلى الإجابة، ثم اختلق المنطق لاحقًا.

بموجب قانون الذكاء الاصطناعي للاتحاد الأوروبي (المادة 13)، يجب على نظام الذكاء الاصطناعي عالي المخاطر أن يقدم "معلومات ذات مغزى حول المنطق المستخدم". تشير نتائجنا إلى أن تفسيرات سلسلة التفكير من غالبية النماذج الرائدة لا تفي بهذا المعيار - "المنطق المستخدم" في الوصول إلى الإجابة ليس هو المنطق الموصوف في التفسير.

لاحظ المؤلفون أن اثنين من النماذج الأصغر التي تم اختبارها قد كسرا النمط الشائع للازدواجية، ولكن فقط في ظل ظروف معينة للغاية: ميني ماكس-M25 أظهر اعتمادًا حقيقيًا على الخطوات عند التعامل مع تحليل المشاعر، في حين كيمي-ك25 أظهرت النتائج حاجة حقيقية بنسبة 39% لمعالجة شهادات النقل - ولكن فقط عند التعامل مع تصنيف المواضيع.

في جميع الحالات الأخرى، كما هو الحال مع النماذج الأكبر والأكثر شهرة، بدت خطوات الاستدلال المعروضة وكأنها أداء بحت، حيث استخدمت النماذج بدلاً من ذلك الاختصارات.

العارضات الصغيرات يبذلن جهداً أكبر

إلى جانب نماذج API العشرة التي تم اختبارها، قام المؤلفون أيضًا بتجربة عدد من النماذج الأصغر حجمًا ذات الوزن المفتوح^†، والتي تتراوح بين 0.8 إلى 8 مليارات معلمة (وهو أمر متواضع للغاية هذه الأيام)، ووجد أن هذه الذكاءات الاصطناعية الأصغر حجماً تقوم بالتفكير بشكل حقيقي، وأن CoT التي تظهرها عادة - وإن لم يكن دائماً - ضرورية للوصول إلى استنتاجات مفيدة ودقيقة.

أظهرت النماذج الأصغر حجماً حاجة بنسبة 55% إلى الاستدلال التدريجي، في مقابل متوسط حاجة بنسبة 11% عبر النماذج الأكبر حجماً، وهو ما يؤكده المؤلفون. لقد تعلموا تجاوز التفكير متعدد الخطوات تمامًا، والوصول إلى الإجابات الصحيحة من خلال اختصارات داخلية لا يعكسها تفكيرهم المكتوب..

يفترض المؤلفون أنه كلما تحسن أداء النموذج في مهمة ما، قلّت حاجته إلى خطوات التفكير (على الرغم من أن هذا يمثل منظورًا أكثر دبلوماسية لمفهوم تجنب التحليل العقلاني لصالح الإجابة الأقوى في توزيع بيانات التدريب).^{† †}:

تعتمد النماذج الصغيرة على الرياضيات بشكل دقيق لأنها يجب—إنهم يفتقرون إلى المعرفة البارامترية اللازمة للاختصار.

لقد استوعبت نماذج الحدود أنماطًا رياضية كافية بحيث أصبح الاستدلال التسلسلي الصريح غير ضروري. لا تزال CoT تحسن الدقة (عن طريق هيكلة التوليد)، لكن الخطوات الفردية لم تعد تحمل معلومات فريدة.

الأسلوب

تعتمد الطريقة المستخدمة لاختبار النماذج على ثلاثة معايير:

ضرورة يقوم بإزالة كل خطوة من خطوات CoT بدورها، ثم يتحقق مما إذا كانت الإجابة تتغير. أي خطوة يؤدي حذفها إلى تغيير النتيجة تعتبر "ضرورية"؛ كفاية يعزل كل خطوة، ويختبر ما إذا كانت وحدها قادرة على استعادة الإجابة، مع اعتبار أي خطوة من هذا القبيل كافية؛ و حساسية الطلب يقوم بخلط الخطوات، ويلاحظ ما إذا كانت الإجابة تتغير (لأن التفكير الحقيقي يجب أن يعتمد على التسلسل بدلاً من الكلمات الرئيسية).

مجتمعة، عالية ضرورة وانخفاض كفاية يشير إلى التفكير المنطقي الحقيقي خطوة بخطوة، بينما حاجة منخفضة و كفاءة عالية أشر إلى التفسيرات التي يمكن إزالتها أو إعادة ترتيبها أو تقليلها دون التأثير على النتيجة.

ويشير المؤلفون إلى أن هذه الطريقة تلغي أي حاجة للوصول إلى نموذج الصندوق الأبيض، حيث يمكن تنفيذها مقابل بضعة دولارات فقط على نماذج مغلقة المصدر، تعتمد على واجهة برمجة التطبيقات فقط مثل ChatGPT و Claude، وبطبيعة الحال، بنفس القدر من النجاح على نماذج الأوزان المفتوحة التي يمكن تثبيتها محليًا.

ويشيرون أيضاً إلى أن الدراسات السابقة إما استخدمت نماذج ذات أوزان مفتوحة سهّلت التحليل الداخلي، أو استخدمت نماذج ثنائية أبسط نعم لا إجابات تكشف عن قدر أقل بكثير من عمليات التفكير الداخلية لنموذج واجهة برمجة التطبيقات.

الحد الأدنى من التكاليف

يُعرّف المؤلفون التفكير الحقيقي من خلال ضرورة و كفاية، مع ارتفاع ضرورة وانخفاض كفاية مما يدل على أن لكل خطوة وزنها الخاص. وعلى العكس من ذلك، فإن التفكير الزخرفي يُظهر مستوى منخفضًا. ضرورة و عالية كفايةوهذا يعني أنه يمكن حذف الخطوات أو استخدامها بمفردها دون تغيير الإجابة.

ضرورة ويقولون إن ذلك بمفرده قد يحجب هذا الأمر، نظراً لوجود مسارات صالحة متعددة. لذلك كفاية يُستخدم لاختبار ما إذا كانت أي خطوة منفردة تُشفّر النتيجة بالفعل، و حساسية الترتيب يتحقق مما إذا كان النموذج يعتمد على التسلسل بدلاً من الإشارات السطحية.

يعتمد هذا النهج على التدخل - شرح متسق إطار عمل (ICE) يتطلب فقط الوصول إلى واجهة برمجة التطبيقات (API) للنصوص المدخلة والمخرجة، وبالنسبة لسلسلة من ست خطوات، يتضمن 15 تقييمًا، بتكلفة تتراوح بين 1 و2 دولار لكل نموذج.

يصنف إطار عمل ICE سلوك النموذج بواسطة ضرورة و كفاية إلى ثلاثة أنماط: زخرفي يُظهر هذا انخفاضًا في الضرورة وارتفاعًا في الكفاية، مما يعني أن الخطوات زائدة عن الحاجة وسيتم التوصل إلى الإجابة على أي حال. وهذا ما يهيمن على معظم النماذج والمهام؛ مخلصون حقاً يُظهر ضرورة عالية وكفاية عالية، مما يعني أن كل خطوة تحمل إشارة حقيقية (وكما ذكرنا سابقًا، يظهر هذا في MiniMax-M2.5 فيما يتعلق بالمشاعر)؛ و يعتمد على السياق يُظهر ذلك ضرورة عالية وكفاية منخفضة، مما يعني خطوات يجب العمل معًا بالتسلسل (والذي يظهر في Kimi-K2.5 و MiniMax في تصنيف المواضيع، وفي النماذج الصغيرة، عند التعامل مع الرياضيات).

اختبارات

تم اختبار عشرة نماذج تعتمد بشكل أساسي على واجهة برمجة التطبيقات فقط باستخدام منهجية ICE المعدلة. الدردشة GPT-5.4; كلود أوبوس 4.6-R; برنامج DeepSeek-V3.2; GPT-OSS-120B; كيمي-ك2.5; Qwen3.5-397B; Qwen3.5-122B; ميني ماكس-M2.5; GLM-5، و نيموترون-ألترا (253 ب المعلمات).

تم اختبار كل نموذج على أربع مهام: تصنيف المشاعر (باستخدام (SST-2); مسائل كلامية رياضية (باستخدام GSM8K); تصنيف المواضيع (باستخدام ايه جي نيوزوالإجابة على الأسئلة الطبية (باستخدام (MedQA). أجريت الاختبارات الأولية على عاطفة و الرياضيات:

اختبارات لعشرة نماذج لغوية رائدة، تقيّم كيفية تعاملها مع الاستدلال التدريجي. يتتبع اختبار "الضرورة" ما إذا كان حذف خطوة ما يُغير الإجابة؛ ويتحقق اختبار "الكفاية" مما إذا كانت خطوة واحدة كافية لإنتاج الإجابة؛ ويختبر اختبار "الخلط" ما إذا كان الترتيب مهمًا. تُقدم معظم النماذج تفسيرات مقنعة ولكنها غير أساسية على مقياسي SST-2 وGSM8K، بينما يعتمد MiniMax-M2.5 بشكل أكبر على خطواته في تحليل المشاعر. يُظهر كل من MiniMax وKimi-K2.5 استدلالًا تدريجيًا أكثر دقة في تصنيف المواضيع. مصدر

ويذكر المؤلفون، من بين هذه النتائج:

"تظهر غالبية النماذج ما نسميه "التفكير الزخرفي" (الخطوات المحظوظة في تصنيف ICE) - وهو نمط تكون فيه ضرورة الخطوة أقل من 17٪ وكفاية الخطوة تتجاوز 60٪ في كل من المشاعر والرياضيات.

بعبارة أخرى: يمكنك حذف أي خطوة من خطوات الاستدلال ولن تتغير الإجابة تقريبًا، ومع ذلك فإن أي خطوة واحدة تكفي لاستعادة الإجابة.

في اختبار المشاعر SST-2، لم يعتمد GPT-5.4 تقريبًا على منطقه المكتوب، لأن حذف خطوة واحدة غيّر الإجابة. 0.1% فقط من 500 في بعض الحالات، مما يشير إلى أن التفسير أضيف بعد اتخاذ القرار بالفعل.

اعتمد كلود أوبوس 4.6-R على خطواته بشكل أكبر قليلاً، بنسبة 14.8٪، ولكن 91٪ من خطواته وحدها لا تزال قادرة على إنتاج الإجابة؛ لذلك كانت تفسيراته الأطول أكثر تفصيلاً، ولكنها لا تزال في الغالب "زخرفية".

بعد ذلك، أضاف الباحثون المجالات الأخرى وأعادوا الاختبار:

دقة وموثوقية النموذج على مستوى الخطوات عبر أربعة مجالات: SST-2؛ GSM8K؛ AG News؛ وMedQA. تظل معظم أزواج النموذج والمهمة شكلية رغم دقتها العالية، باستثناءات محدودة: يُظهر كل من MiniMax-M2.5 وKimi-K2.5 استدلالًا يعتمد على السياق أو على الخطوات بشكل حقيقي في AG News، بينما يؤكد الأداء العام أن انخفاض الموثوقية لا يُعزى إلى التخمين العشوائي.

دقة وموثوقية الخطوات عبر أربعة مجالات: SST-2؛ GSM8K؛ AG News؛ وMedQA. ظلت معظم أزواج النموذج والمهمة "زخرفية" على الرغم من الدقة العالية، باستثناءات محدودة: أظهر كل من MiniMax-M2.5 وKimi-K2.5 استدلالًا يعتمد على السياق أو يعتمد فعليًا على الخطوات في AG News، بينما أكد الأداء العام أن انخفاض الموثوقية لم يكن بسبب التخمين العشوائي.

يلاحظ المؤلفون:

تؤكد نتائج المجالات الأربعة النتيجة المركزية: أن الاستدلال التزييني هو سمة عالمية في جميع المجالات بالنسبة لنماذج الاختصار. يُظهر نموذج كلود أوبوس ضرورة بنسبة 1.7% على موقع MedQA (486 مثالاً، دقة 93.4%) - حيث يكتب النموذج سلاسل استدلال طبي مفصلة بمتوسط 5.8 خطوات، ومع ذلك فإن حذف أي خطوة لا يغير التشخيص تقريبًا.

أظهرت AG News أكبر الاختلافات بين النماذج، حيث يعتمد Kimi-K2.5 و MiniMax بشكل حقيقي على التفكير التدريجي، بينما تقدم معظم الأنظمة الأخرى تفسيرات لا تؤثر إلا قليلاً على الإجابة النهائية.

ظل برنامج DeepSeek-V3.2، الذي تم اختباره عبر جميع المهام الأربع، زخرفيًا طوال الوقت؛ فعلى الرغم من كتابة أطول التفسيرات، نادرًا ما اعتمدت إجاباته على الخطوات.

صلابة المخرجات

أشارت الاختبارات إلى وجود ظاهرة رابعة مؤثرة، أطلق عليها المؤلفون اسم صلابة الخرجبعض النماذج ببساطة لا تميل إلى إخراج عمليات الاستدلال، وذلك تبعًا للموضوع، وربما لظروف أخرى. في الأسفل، نرى الاستدلال الذي قدمه كلود أوبوس عند إجابته على سؤال حول الحالة الصحية لرجل يبلغ من العمر 61 عامًا؛ وتحته، مخرجات نموذج GPT-OSS-120B.

الإسهاب مقابل الصمت.

يشير المؤلفون إلى أن جمود المخرجات يعتمد على المهمة:

تختلف النماذج اختلافًا كبيرًا في مدى تكرار عرضها لنتائج عملها، وذلك باختلاف المهام. يقدم كل من Claude وDeepSeek تفسيرات متعددة الخطوات في كل مرة تقريبًا، بغض النظر عن المجال، على عكس Qwen3.5-397B الذي نادرًا ما يفعل ذلك. بينما تُغير نماذج أخرى سلوكها تبعًا للمهمة، حيث يُنتج بعضها سلاسل منطقية مفصلة للتصنيف، ولكن عددًا أقل بكثير منها يُقدم تفسيرات للأسئلة الطبية.

يلاحظون:

إنّ النماذج التي يُرجّح أن تتجاوز الاستدلال الداخلي هي نفسها التي يُرجّح أن تُهمل الاستدلال الخارجي. يُنتج نموذج GPT-OSS-120B استدلالًا متعدد الخطوات لـ 99% من أسئلة تحليل المشاعر و100% من أسئلة تصنيف المواضيع، ولكن لـ 38% فقط من الأسئلة الطبية. وفي 62% من الاستفسارات الطبية، يُخرج النموذج حرف إجابة فقط.

لا يبدو أن النمط عشوائي: ينتج GPT-OSS-120B تفسيرات متعددة الخطوات لجميع عناصر تصنيف المشاعر والمواضيع تقريبًا، ولكنه يتحول إلى إجابة من حرف واحد في معظم الأسئلة الطبية (حيث لا يقدم عادةً أي تبرير واضح على الإطلاق).

يفترض المؤلفون أنه نظرًا لأن الاختبارات على مستوى الخطوة تتطلب سلاسل مكتوبة للتحليل، فلا يمكن تقييم النموذج الذي يجيب برمز واحد بواسطة تلك الأساليب؛ وبالتالي فإن غياب التفكير الخارجي يمنع القياس المباشر.

وتخلص الورقة البحثية إلى أن النماذج المختارة للتطبيقات عالية المخاطر تحتاج إلى اختبارها من أجل الإخلاص وأيضا دقةوتشير النتائج إلى أن نموذجًا أقل دقة بنسبة 2%، ولكنه يقدم استنتاجات منطقية، قد يكون أفضل، لا سيما أنه يفي بلوائح الاتحاد الأوروبي وغيرها من اللوائح الناشئة المتعلقة بالذكاء الاصطناعي القابل للتفسير. في الوقت الحالي، واستنادًا إلى الأدلة التي توصلت إليها الدراسة، فإن جميع نماذج التعلم الآلي تقريبًا القادرة على تحليل سلوك المستخدم (CoT) تمارس "الغش" في معظم الأوقات.

خاتمة

هذه ورقة بحثية مثيرة للاهتمام تقدم اختبارات ومناقشات أكثر شمولاً حول الموضوع مما يتسع له المجال لتغطيته هنا، وأوصي القارئ بالرجوع إلى المصدر الأصلي.

الرسالة الأساسية، التي تنبع من جدل العام الماضي، هي أن منصات الذكاء الاصطناعي ذات المخاطر العالية قد تكون على استعداد للانحراف بشكل حاد وغير صادق، من حيث محاكاة المعايير التي لا تستطيع نماذجها تلبيتها بعد.

علاوة على ذلك، فإن الفجوة بين نطاق وقدرات الأوزان المفتوحة ونماذج واجهة برمجة التطبيقات المغلقة مثل ChatGPT كبيرة جدًا لدرجة أنه لا يمكن عادةً استنتاج تأثيرات الأوزان المغلقة بشكل معقول من عمليات تثبيت الأوزان المفتوحة، مما يزيد من غموض هذه العمليات والمعايير.

ومع ذلك، من النادر أن تظهر منهجية اختبار الصندوق الأبيض الحقيقية التي يمكنها أن تشمل النماذج مفتوحة المصدر ومغلقة المصدر؛ ولكن من المرجح أن تحدث علاجات حقيقية لـ "الحيل الرخيصة" من هذا النوع فقط عندما تهدد هيئات قوية مثل الاتحاد الأوروبي الأرباح النهائية لبوابات الذكاء الاصطناعي الرئيسية.

*تحويلي لاقتباسات المؤلفين المضمنة إلى روابط تشعبية.

^†لا تكشف الورقة عن قائمة متماسكة لهذه النماذج الأصغر، وتتضمن متغيرات إضافية لنموذج واحد، مما يجعل القائمة النهائية مسألة استنتاج.

^{† †}تأكيدات المؤلفين.

نُشرت لأول مرة يوم الأربعاء 25 مارس 2026

مارتن أندرسون

كاتب في مجال التعلم الآلي، متخصص في مجال تركيب الصور البشرية. رئيس سابق لمحتوى الأبحاث في Metaphysic.ai.
الموقع الشخصي: martinanderson.ai
اتصال: [البريد الإلكتروني محمي]
تويتر:manders_ai