الذكاء الاصطناعي

وهم التفكير بالذكاء الاصطناعي: دراسة شركة آبل والنقاش حول قدرات الذكاء الاصطناعي على التفكير

تم النشر 28 يونيو، 2025

د. أسعد عباس

وهم التفكير بالذكاء الاصطناعي: دراسة شركة آبل والنقاش حول قدرات الذكاء الاصطناعي على التفكير

الذكاء الاصطناعي (AI) أصبح الذكاء الاصطناعي جزءًا لا يتجزأ من حياتنا اليومية. فهو يُشغّل المساعدين الصوتيين، ويدير روبوتات الدردشة، ويساعد في اتخاذ قرارات حاسمة في قطاعات مثل الرعاية الصحية، والخدمات المصرفية، والأعمال. غالبًا ما تُعتبر الأنظمة المتقدمة، مثل GPT-4 من OpenAI وGemini من Google، قادرة على تقديم استجابات ذكية تُشبه البشر. ويعتقد الكثيرون أن هذه النماذج قادرة على التفكير والتحليل مثل البشر.

ومع ذلك، دراسة أبل لعام 2025 يتحدى هذا الاعتقاد. يتساءل بحثهم عما إذا كانت هذه نماذج الاستدلال الكبيرة (LRMs) قادرةٌ حقًا على التفكير. خلصت الدراسة إلى أن هذه الذكاءات الاصطناعية قد لا تستخدم التفكير المنطقي، بل تعتمد على مطابقة الأنماط. تحدد النماذج الأنماط وتكررها من بيانات تدريبها بدلًا من إنشاء منطق أو فهم جديد.

اختبرت آبل العديد من نماذج الذكاء الاصطناعي الرائدة باستخدام ألغاز منطقية تقليدية. وكانت النتائج غير متوقعة. ففي المهام البسيطة، كان أداء النماذج القياسية أفضل أحيانًا من نماذج التفكير الأكثر تقدمًا. وفي الألغاز متوسطة الصعوبة، أظهرت نماذج LRM بعض المزايا. ولكن عندما أصبحت الألغاز أكثر تعقيدًا، فشل كلا النوعين من النماذج. وحتى عند تقديم الحل الصحيح خطوة بخطوة، لم تتمكن النماذج من اتباعه بشكل موثوق.

أثارت نتائج شركة آبل جدلاً واسعاً في مجتمع الذكاء الاصطناعي. يتفق بعض الخبراء مع آبل، قائلين إن هذه النماذج لا تُعطي سوى وهم التفكير. بينما يرى آخرون أن الاختبارات قد لا تُجسّد قدرات الذكاء الاصطناعي بالكامل، وأن هناك حاجة إلى أساليب أكثر فعالية. السؤال المحوري الآن هو: هل يمكن للذكاء الاصطناعي أن يفكر حقًا، أم أنه مجرد مطابقة متقدمة للأنماط؟

هذا السؤال يهمّ الجميع. مع تزايد شيوع الذكاء الاصطناعي، من الضروري فهم ما تستطيع هذه الأنظمة فعله وما لا تستطيع فعله.

ما هي نماذج الاستدلال الكبيرة (LRMs)؟

نماذج المنطق المنطقي (LRMs) هي أنظمة ذكاء اصطناعي مصممة لحل المشكلات من خلال عرض التفكير خطوة بخطوة. بخلاف نماذج اللغة القياسية، التي تُولّد إجابات بناءً على توقع الكلمة التالية، تهدف نماذج المنطق المنطقي (LRMs) إلى تقديم تفسيرات منطقية. هذا يجعلها مفيدة للمهام التي تتطلب خطوات متعددة من التفكير المنطقي والمجرد.

يتم تدريب نماذج LRMs على مجموعات بيانات ضخمة تتضمن كتبًا ومقالات ومواقع إلكترونية ومحتوى نصيًا آخر. يُمكّن هذا التدريب النماذج من فهم أنماط اللغة والهياكل المنطقية الشائعة في التفكير البشري. ومن خلال عرض كيفية توصلها إلى استنتاجاتها، يُتوقع من نماذج LRMs تقديم نتائج أكثر وضوحًا وموثوقية.

تُعد هذه النماذج واعدة لقدرتها على التعامل مع مهام معقدة في مختلف المجالات. والهدف هو تعزيز الشفافية في عملية اتخاذ القرار، لا سيما في المجالات الحساسة التي تعتمد على استنتاجات دقيقة ومنطقية.

مع ذلك، ثمة مخاوف بشأن ما إذا كانت آليات الذكاء الاصطناعي تُفكر تفكيرًا حقيقيًا. يعتقد البعض أنها قد تستخدم مطابقة الأنماط بدلًا من التفكير بطريقة بشرية. وهذا يثير تساؤلات حول الحدود الحقيقية لأنظمة الذكاء الاصطناعي، وما إذا كانت تُحاكي التفكير فقط.

دراسة آبل: اختبار التفكير بالذكاء الاصطناعي ووهم التفكير

للإجابة على سؤال ما إذا كانت ألغاز LRMs منطقية أم أنها مجرد مُطابقات أنماط متقدمة، صمم فريق بحث Apple مجموعة من التجارب باستخدام ألغاز منطقية كلاسيكية. وشملت هذه التجارب ألغاز برج هانوي، وعبور النهر، وعالم الكتل، والتي استُخدمت منذ زمن طويل لاختبار التفكير المنطقي البشري. اختار الفريق هذه الألغاز لإمكانية تعديل تعقيدها، مما مكّنهم من تقييم كل من نماذج اللغة القياسية وألغاز LRMs بمستويات صعوبة مختلفة.

نهج Apple في الاختبار استدلال الذكاء الاصطناعي اختلف هذا عن معايير الأداء التقليدية، التي غالبًا ما تُركز على المهام الرياضية أو البرمجية. يمكن أن تتأثر هذه الاختبارات بتعرض النماذج لبيانات مماثلة أثناء التدريب. بدلًا من ذلك، استخدم فريق Apple ألغازًا تُمكّنهم من التحكم في التعقيد مع الحفاظ على هياكل منطقية متسقة. سمح لهم هذا التصميم بملاحظة ليس فقط الإجابات النهائية، بل أيضًا خطوات التفكير التي اتخذتها النماذج.

كشفت الدراسة عن ثلاثة مستويات أداء متميزة:

مهام بسيطة

في المسائل الأساسية، تفوقت نماذج اللغة القياسية أحيانًا على نماذج LRMs الأكثر تقدمًا. كانت هذه المهام بسيطة بما يكفي لتمكين النماذج الأبسط من توليد إجابات صحيحة بكفاءة أكبر.

مهام معقدة إلى حد ما

مع ازدياد تعقيد الألغاز، أظهرت نماذج LRMs، المصممة لتوفير تفكير منظم مع شرح متسلسل، ميزة. فقد تمكنت هذه النماذج من متابعة عملية التفكير وتقديم حلول أكثر دقة من النماذج القياسية.

المهام المعقدة للغاية

عند مواجهة مشكلات أكثر صعوبة، فشل كلا النوعين من النماذج فشلاً ذريعاً. ورغم امتلاك النماذج موارد حسابية كافية، إلا أنها لم تتمكن من حل المهام. وانخفضت دقتها إلى الصفر، مما يشير إلى عدم قدرتها على التعامل مع مستوى التعقيد المطلوب لهذه المشكلات.

مطابقة الأنماط أم التفكير الحقيقي؟

بعد إجراء تحليلات إضافية، وجد الباحثون المزيد من الشكوك حول منطق النماذج. اعتمدت الإجابات التي قدمتها النماذج بشكل كبير على كيفية عرض المسائل. تغييرات صغيرة، مثل تغيير الأرقام أو أسماء المتغيرات، قد تؤدي إلى إجابات مختلفة تمامًا. يشير هذا التناقض إلى أن النماذج تعتمد على الأنماط المكتسبة من بيانات التدريب بدلًا من تطبيق المنطق.

أظهرت الدراسة أنه حتى مع توفير خوارزميات واضحة أو تعليمات مفصلة، غالبًا ما فشلت النماذج في استخدامها بشكل صحيح مع ازدياد تعقيد الألغاز. وكشفت آثار التفكير المنطقي أن النماذج لم تتبع القواعد أو المنطق بشكل متسق. بل تباينت حلولها بناءً على التغيرات السطحية في المدخلات، لا على البنية الفعلية للمشكلة.

خلص فريق آبل إلى أن ما بدا استدلالًا غالبًا ما كان مجرد مطابقة أنماط متقدمة. وبينما تستطيع هذه النماذج محاكاة الاستدلال من خلال التعرف على أنماط مألوفة، إلا أنها لا تفهم المهام فهمًا حقيقيًا ولا تطبق المنطق بطريقة بشرية.

النقاش المستمر: هل يمكن للذكاء الاصطناعي أن يفكر حقًا أم أنه مجرد محاكاة للتفكير؟

أثارت دراسة آبل جدلاً في مجتمع الذكاء الاصطناعي حول قدرة نماذج اللغة المعيارية على التفكير المنطقي. يدعم العديد من الخبراء الآن نتائج آبل، مجادلين بأن هذه النماذج تُوهم بالاستدلال المنطقي. ويرى هؤلاء الخبراء أنه عند مواجهة مهام معقدة أو جديدة، تُواجه نماذج اللغة المعيارية ونماذج اللغة المعيارية صعوبة في الأداء، حتى عند تزويدها بالتعليمات أو الخوارزميات الصحيحة. وهذا يُشير إلى أن التفكير المنطقي غالبًا ما يقتصر على القدرة على تمييز الأنماط وتكرارها من بيانات التدريب، وليس على الفهم الحقيقي.

من ناحية أخرى، تعتقد شركات مثل OpenAI وبعض الباحثين أن نماذجهم قادرة على التفكير المنطقي. ويشيرون إلى أداء عالٍ في الاختبارات المعيارية، مثل اختبار LSAT، وامتحانات الرياضيات الصعبة. على سبيل المثال، حقق اختبار GPT-4 من OpenAI نسبة مئوية 88 بين المتقدمين لاختبار LSAT. يفسر البعض هذا الأداء القوي كدليل على القدرة على التفكير المنطقي. ويجادل مؤيدو هذا الرأي بأن هذه النتائج تُظهر قدرة نماذج الذكاء الاصطناعي على التفكير المنطقي، على الأقل في مواقف معينة.

مع ذلك، تُشكك دراسة آبل في هذا الرأي. يُجادل الباحثون بأن الدرجات العالية في الاختبارات المعيارية لا تُشير بالضرورة إلى فهم أو استدلال دقيق. قد لا تُغطي المعايير الحالية مهارات الاستدلال بشكل كامل، وقد تتأثر بالبيانات التي دُربت عليها النماذج. في كثير من الحالات، قد تُكرر النماذج ببساطة أنماطًا من بيانات تدريبها بدلًا من التفكير بشكل حقيقي في مسائل جديدة.

لهذا النقاش عواقب عملية. إذا لم تُفكّر نماذج الذكاء الاصطناعي بصدق، فقد لا تكون موثوقة في المهام التي تتطلب اتخاذ قرارات منطقية. وهذا مهم بشكل خاص في مجالات مثل الرعاية الصحية والمالية والقانون، حيث يمكن أن تكون للأخطاء عواقب وخيمة. على سبيل المثال، إذا لم يتمكن نموذج الذكاء الاصطناعي من تطبيق المنطق على الحالات الطبية الجديدة أو المعقدة، فإن احتمالية وقوع الأخطاء تكون أكبر. وبالمثل، قد تُخطئ أنظمة الذكاء الاصطناعي في مجال التمويل، التي تفتقر إلى القدرة على التفكير المنطقي، في قرارات استثمارية أو تُسيء تقدير المخاطر.

تُحذّر نتائج شركة آبل أيضًا من أنه على الرغم من فائدة نماذج الذكاء الاصطناعي في مهام مثل إنشاء المحتوى وتحليل البيانات، إلا أنه ينبغي استخدامها بحذر في المجالات التي تتطلب فهمًا عميقًا أو تفكيرًا نقديًا. يرى بعض الخبراء أن غياب التفكير السليم يُشكّل قيدًا كبيرًا، بينما يرى آخرون أن التعرّف على الأنماط وحده يُمكن أن يكون قيّمًا للعديد من التطبيقات العملية.

ما هو التالي في مجال التفكير بالذكاء الاصطناعي؟

لا يزال مستقبل التفكير في الذكاء الاصطناعي غامضًا. يعتقد بعض الباحثين أنه مع زيادة التدريب، وتحسين البيانات، وتحسين هياكل النماذج، سيواصل الذكاء الاصطناعي تطوير قدرات التفكير الفعلية. بينما يشكك آخرون في ذلك، ويعتقدون أن نماذج الذكاء الاصطناعي الحالية قد تقتصر دائمًا على مطابقة الأنماط، دون الانخراط في التفكير البشري.

يُطوّر الباحثون حاليًا أساليب تقييم جديدة لتقييم قدرة نماذج الذكاء الاصطناعي على معالجة مشكلات لم يسبق لها مواجهتها. تهدف هذه الاختبارات إلى تقييم قدرة الذكاء الاصطناعي على التفكير النقدي وتفسير استدلالاته بطريقة مفهومة للبشر. في حال نجاحها، قد تُوفّر هذه الاختبارات فهمًا أدقّ لمدى قدرة الذكاء الاصطناعي على التفكير، وتساعد الباحثين على تطوير نماذج أفضل.

هناك أيضًا اهتمام متزايد بتطوير نماذج هجينة تجمع بين نقاط قوة التعرف على الأنماط والاستدلال. ستستخدم هذه النماذج الشبكات العصبية لمطابقة الأنماط وأنظمة الاستدلال الرمزي للمهام الأكثر تعقيدًا. وتشير التقارير إلى أن شركتي Apple وNVIDIA تستكشفان هذه الأساليب الهجينة، والتي قد تؤدي إلى أنظمة ذكاء اصطناعي قادرة على الاستدلال الحقيقي.

الخط السفلي

تُثير دراسة آبل لعام ٢٠٢٥ تساؤلاتٍ مهمة حول الطبيعة الحقيقية لقدرات الذكاء الاصطناعي على التفكير. فبينما تُظهر نماذج الذكاء الاصطناعي، مثل نماذج LRMs، إمكاناتٍ واعدة في مجالاتٍ مُختلفة، تُحذّر الدراسة من أنها قد لا تمتلك فهمًا حقيقيًا أو تفكيرًا يُشبه التفكير البشري. بل تعتمد هذه النماذج على التعرّف على الأنماط، مما يُقلّل من فعاليتها في المهام التي تتطلّب عملياتٍ معرفيةً أكثر تعقيدًا.

يواصل الذكاء الاصطناعي تشكيل المستقبل، مما يجعل من الضروري إدراك نقاط قوته وحدوده. من خلال تحسين أساليب الاختبار وإدارة توقعاتنا، يمكننا استخدام الذكاء الاصطناعي بمسؤولية. وهذا يضمن تكامله مع عملية صنع القرار البشري بدلًا من استبدالها.

د. أسعد عباس

حصل الدكتور أسعد عباس، الأستاذ المشارك الدائم في جامعة كومساتس بإسلام آباد، باكستان، على درجة الدكتوراه من جامعة ولاية داكوتا الشمالية، الولايات المتحدة الأمريكية. يركز بحثه على التقنيات المتقدمة، بما في ذلك الحوسبة السحابية، والحوسبة الضبابية، والحوسبة الطرفية، وتحليلات البيانات الضخمة، والذكاء الاصطناعي. وقدّم الدكتور عباس إسهاماتٍ جليلة من خلال منشوراته في مجلات ومؤتمرات علمية مرموقة. وهو أيضاً مؤسس ماي فاستينغ بادي.