الذكاء الاصطناعي

وهم التفكير الاصطناعي: دراسة أبل والنقاش حول قدرات التفكير في الذكاء الاصطناعي

mm
The Illusion of AI Reasoning: Apple’s Study and the Debate Over AI’s Thinking Abilities

الذكاء الاصطناعي (AI) هو الآن جزء من الحياة اليومية. إنه يقوم بتشغيل المساعدين الصوتيين، ويعمل على تشغيل البوتات المحادثية، ومساعد في اتخاذ القرارات الحاسمة في الصناعات مثل الرعاية الصحية والخدمات المصرفية والأعمال. والنظم المتقدمة، مثل GPT-4 من OpenAI وGemini من جوجل، غالبًا ما يُعتبر أنها قادرة على تقديم استجابات ذكية تشبه الإنسان. ويعتقد العديد من الناس أن هذه النماذج قادرة على التفكير والreasoning مثل البشر.

然而، دراسة أبل لعام 2025 ت挑战 هذه العقيدة. البحث يطرح вопросًا حول ما إذا كانت هذه النماذج الكبيرة للتفكير (LRMs) قادرة حقًا على التفكير. وخلصت الدراسة إلى أن هذه النماذج قد لا تستخدم التفكير الحقيقي ولكنها تعتمد على مطابقة الأنماط. وتحدد النماذج الأنماط وتكررها من بيانات التدريب بدلاً من إنشاء منطق جديد أو فهم.

أجرت أبل اختبارات على عدة نماذج ذكاء اصطناعي رائدة باستخدام ألعاب منطقية كلاسيكية. وكانت النتائج غير متوقعة. في المهام البسيطة، أدت النماذج القياسية أحيانًا بشكل أفضل من نماذج التفكير المتقدمة. وفي الألغاز المتوسطة الصعوبة، أظهرت نماذج LRM بعض المزايا. ولكن عندما أصبحت الألغاز أكثر تعقيدًا، فشلت كلا النوعين من النماذج. حتى عندما تم تقديم الحل الصحيح خطوة بخطوة، لم تتمكن النماذج من اتباعه بشكل موثوق.

أثارت نتائج أبل نقاشًا داخل مجتمع الذكاء الاصطناعي. ويوافق بعض الخبراء على أبل، قائلين إن هذه النماذج تمنح وهم التفكير فقط. في حين يجادل آخرون بأن الاختبارات قد لا تكتشف تمامًا قدرات الذكاء الاصطناعي، ويحتاجون إلى أساليب أكثر فعالية. والسؤال الرئيسي الآن هو: هل يمكن للذكاء الاصطناعي حقًا التفكير، أم أنه مجرد مطابقة أنماط متقدمة؟

هذا السؤال يهم الجميع. مع تصاعد استخدام الذكاء الاصطناعي، من المهم فهم ما يمكن أن تفعله هذه الأنظمة وما لا يمكنها فعله.

ما هي نماذج التفكير الكبيرة (LRMs)?

نماذج LRM هي أنظمة ذكاء اصطناعي مصممة لحل المشكلات من خلال إظهار التفكير خطوة بخطوة. على عكس النماذج اللغوية القياسية، التي تنتج إجابات بناءً على توقع الكلمة التالية، تهدف نماذج LRM إلى تقديم تفسيرات منطقية. هذا يجعلها مفيدة للمهام التي تحتاج إلى عدة خطوات من التفكير والتفكير المجرد.

نماذج LRM مدربة على مجموعات بيانات كبيرة تشمل الكتب والمقالات والمواقع الإلكترونية والمحتوى النصي الآخر. وتمكن هذه التدريبات النماذج من فهم أنماط اللغة والهياكل المنطقية الشائعة الموجودة في التفكير البشري. من خلال إظهار كيفية الوصول إلى استنتاجاتها، من المتوقع أن تقدم نماذج LRM نتائج أوضح وأكثر موثوقية.

تعد هذه النماذج واعدة لأنها يمكنها التعامل مع مهام معقدة عبر مجالات متعددة. والهدف هو تعزيز الشفافية في اتخاذ القرارات، خاصة في المجالات الحاسمة التي تعتمد على استنتاجات دقيقة ومنطقية.

然而، هناك قلق بشأن ما إذا كانت نماذج LRM حقًا تفكر. يعتقد بعضهم أن هذه النماذج قد تستخدم مطابقة الأنماط بدلاً من التفكير بطريقة تشبه الإنسان. وهذا يثير أسئلة حول الحدود الفعلية لأنظمة الذكاء الاصطناعي وما إذا كانت تقلد فقط التفكير.

دراسة أبل: اختبار التفكير الاصطناعي ووهم التفكير

لإجابة على السؤال عما إذا كانت نماذج LRM تفكر أو مجرد مطابقة أنماط متقدمة، صممت فريق أبحاث دراسة باستخدام ألعاب منطقية كلاسيكية. وشملت هذه الألغاز برج هانوي، عبور النهر، وبرج البلوك، والتي استخدمت منذ فترة طويلة لاختبار التفكير المنطقي البشري. واختار الفريق هذه الألغاز لأن تعقيدها يمكن تعديله. وهذا مكنهم من تقييم نماذج اللغة القياسية ونماذج LRM في ظل مستويات صعوبة مختلفة.

اختلفت منهجية أبل لاختبار الreasoning الاصطناعي عن المعايير التقليدية، التي تركز غالبًا على المهام الرياضية أو البرمجة. يمكن أن تتأثر هذه الاختبارات بتعرض النماذج لبيانات مماثلة أثناء التدريب. بدلاً من ذلك، استخدم فريق أبل ألغازًا سمحت لهم بالسيطرة على التعقيد مع الحفاظ على هياكل منطقية متسقة. وسمح هذا التصميم لهم بملاحظة ليس فقط الإجابات النهائية ولكن أيضًا خطوات التفكير التي اتخذتها النماذج.

كشفت الدراسة عن ثلاثة مستويات أداء متميزة:

المهام البسيطة

في المشكلات الأساسية، أدت النماذج اللغوية القياسية أحيانًا بشكل أفضل من نماذج LRM المتقدمة. كانت هذه المهام بسيطة بما يكفي لتمكن النماذج الأبسط من توليد إجابات صحيحة بشكل أكثر كفاءة.

المهام المتوسطة الصعوبة

مع زيادة تعقيد الألغاز، أظهرت نماذج LRM، التي صممت لتقديم تفكير منظم مع تفسيرات خطوة بخطوة، بعض المزايا. كانت هذه النماذج قادرة على اتباع عملية التفكير وتقديم حلول أكثر دقة من النماذج القياسية.

المهام المعقدة للغاية

عندما واجهت مشكلات أكثر صعوبة، فشلت كلا النوعين من النماذج تمامًا. على الرغم من أن النماذج لديها موارد حسابية كافية، إلا أنها لم تتمكن من حل المهام. وانخفضت دقتها إلى الصفر، مما يشير إلى أنهم لم يتمكنوا من التعامل مع مستوى التعقيد المطلوب لهذه المشكلات.

مطابقة الأنماط أو التفكير الحقيقي؟

عند تحليل أعمق، وجد الباحثون المزيد من القلق بشأن تفكير النماذج. اعتمدت الإجابات التي قدمتها النماذج بشكل كبير على كيفية تقديم المشكلات. يمكن أن تؤدي التغييرات الصغيرة، مثل تغيير الأرقام أو أسماء المتغيرات، إلى إجابات مختلفة تمامًا. وتشير هذه عدم الاتساق إلى أن النماذج تعتمد على أنماط متعلمة من بيانات التدريب بدلاً من تطبيق التفكير المنطقي.

أظهرت الدراسة أن حتى عندما تم توفير خوارزميات صريحة أو تعليمات خطوة بخطوة، فشلت النماذج غالبًا في استخدامها بشكل صحيح عندما زادت تعقيد الألغاز. وكشفت مسارات التفكير الخاصة بهم أن النماذج لم تتبع بشكل متسق القواعد أو المنطق. بدلاً من ذلك، تباينت حلولهم بناءً على التغييرات السطحية في الإدخال بدلاً من هيكل المشكلة الفعلي.

خلصت فريق أبل إلى أن ما يبدو كتفكير غالبًا ما يكون مجرد مطابقة أنماط متقدمة. على الرغم من أن هذه النماذج يمكنها تمثيل التفكير من خلال التعرف على الأنماط المألوفة، إلا أنها لا تفهم حقًا المهام ولا تطبق المنطق بطريقة تشبه الإنسان.

النقاش الجاري: هل يمكن للذكاء الاصطناعي حقًا التفكير أو مجرد محاكاة التفكير؟

أدت دراسة أبل إلى نقاش في مجتمع الذكاء الاصطناعي حول ما إذا كانت نماذج LRM قادرة حقًا على التفكير. يؤيد العديد من الخبراء الآن نتائج أبل، بحجة أن هذه النماذج تخلق وهم التفكير. وهم من وجهة النظر التي تقول إن النماذج، عند مواجهة مهام معقدة أو جديدة، ت투ق، حتى مع توفير التعليمات أو الخوارزميات الصحيحة. وهذا يشير إلى أن التفكير غالبًا ما يكون مجرد القدرة على التعرف على الأنماط وتكرارها من بيانات التدريب بدلاً من الفهم الحقيقي.

في الجانب الآخر، تعتقد شركات مثل OpenAI وبعض الباحثين أن نماذجهم قادرة على التفكير. ويشيرون إلى الأداء العالي في الاختبارات الموحدة، مثل LSAT وامتحانات الرياضيات الصعبة. على سبيل المثال، سجل GPT-4 من OpenAI في Percentile 88 بين متقدمي LSAT. ويinterpret بعضهم هذا الأداء القوي على أنه دليل على القدرة على التفكير. ويجادل مؤيدو هذا الرأي بأن هذه النتائج تظهر أن نماذج الذكاء الاصطناعي يمكنها التفكير، على الأقل في بعض الحالات.

然而، تثير دراسة أبل هذا الرأي. ويجادل الباحثون بأن النتائج العالية في الاختبارات الموحدة لا تشير بالضرورة إلى فهم أو تفكير حقيقي. والاختبارات الحالية قد لا تكتشف تمامًا مهارات التفكير، ويمكن أن تتأثر ببيانات التدريب. وفي العديد من الحالات، قد تكرر النماذج ببساطة الأنماط من بيانات التدريب بدلاً من التفكير الحقيقي من خلال مشكلات جديدة.

لهذا النقاش عواقب عملية. إذا لم تكن نماذج الذكاء الاصطناعي تفكر حقًا، فقد لا تكون موثوقة في المهام التي تتطلب اتخاذ قرارات منطقية. وهذا مهم بشكل خاص في مجالات مثل الرعاية الصحية والتمويل والقانون، حيث يمكن أن يكون الأخطاء لها عواقب خطيرة. على سبيل المثال، إذا لم تتمكن نماذج الذكاء الاصطناعي من تطبيق المنطق على الحالات الطبية الجديدة أو المعقدة، فإن الأخطاء أكثر احتمالًا. وبالمثل، قد تختار أنظمة الذكاء الاصطناعي في التمويل التي تفتقر إلى القدرة على التفكير استثمارات سيئة أو تقلل من المخاطر.

كما تحذر نتائج أبل من أن نماذج الذكاء الاصطناعي، على الرغم من فائدتها في المهام مثل توليد المحتوى وتحليل البيانات، يجب استخدامها بحذر في المجالات التي تتطلب فهمًا عميقًا أو تفكيرًا نقديًا. يرى بعض الخبراء أن عدم وجود تفكير حقيقي كlimitation كبيرة، بينما يعتقد آخرون أن التعرف على الأنماط وحده يمكن أن يكون قيمًا ل许多 تطبيقات عملية.

ماذا يأتي بعد التفكير الاصطناعي؟

مازال مستقبل التفكير الاصطناعي غير واضح. يعتقد بعض الباحثين أنه مع المزيد من التدريب وبيانات أفضل ومعماريات نموذجية محسنة، سيطور الذكاء الاصطناعي في النهاية قدرات تفكير حقيقية. بينما يعتقد آخرون أن نماذج الذكاء الاصطناعي الحالية قد تكون دائمًا محدودة بمطابقة الأنماط، أبدًا لا تشارك في التفكير البشري.

يطور الباحثون حاليًا أساليب تقييم جديدة لتقييم قدرة نماذج الذكاء الاصطناعي على التعامل مع مشكلات لم تواجهها من قبل. تهدف هذه الاختبارات إلى تقييم ما إذا كان الذكاء الاصطناعي يمكنه التفكير بشكل نقدي وشرح تفكيره بطريقة تفهمها البشر. إذا نجحت هذه الاختبارات، يمكنها تقديم فهم أكثر دقة لمدى قدرة الذكاء الاصطناعي على التفكير ومساعدة الباحثين على تطوير نماذج أفضل.

هناك أيضًا اهتمام متزايد بتطوير نماذج هجينة تجمع بين قوة التعرف على الأنماط والتفكير. ستستخدم هذه النماذج الشبكات العصبية لمطابقة الأنماط وأنظمة التفكير الرمزي لمهام أكثر تعقيدًا. وتقارير تفيد أن أبل وNVIDIA يبحثان في هذه المناهج الهجينة، والتي قد تؤدي إلى أنظمة ذكاء اصطناعي قادرة على التفكير الحقيقي.

النقطة الأساسية

أثارت دراسة أبل لعام 2025 أسئلة مهمة حول الطبيعة الحقيقية لقدرات التفكير في الذكاء الاصطناعي. على الرغم من أن نماذج الذكاء الاصطناعي مثل LRM تظهر وعدًا كبيرًا في مجالات مختلفة، تحذر الدراسة من أن هذه النماذج قد لا تملك فهمًا حقيقيًا أو تفكيرًا بشريًا. بدلاً من ذلك، تعتمد على مطابقة الأنماط، مما يحد من فعاليتها في المهام التي تتطلب عمليات إدراكية أكثر تعقيدًا.

يستمر الذكاء الاصطناعي في تشكيل المستقبل، مما يجعل من الضروري الاعتراف بقوته وقيوده. من خلال تحسين أساليب الاختبار وإدارة توقعاتنا، يمكننا استخدام الذكاء الاصطناعي بشكل مسؤول. وسيتأكد من أن الذكاء الاصطناعي يكمّل اتخاذ القرارات البشرية بدلاً من استبدالها.

الدكتور أسعد عباس، أستاذ مساعد متفرغ في جامعة كومساطس إسلام آباد، باكستان، حصل على دكتوراه من جامعة نورث داكوتا الحكومية، الولايات المتحدة الأمريكية. يركز بحثه على التكنولوجيا المتقدمة، بما في ذلك الحوسبة السحابية، وحوسبة الضباب، وحوسبة الحافة، وتحليل البيانات الكبيرة، والذكاء الاصطناعي. قدم الدكتور عباس مساهمات كبيرة من خلال المنشورات في المجلات العلمية والمؤتمرات ذات السمعة الطيبة. وهو أيضًا مؤسس MyFastingBuddy.