الذكاء الاصطناعي

صعود نماذج التفكير الصغيرة: هل يمكن للذكاء الاصطناعي المدمج أن يضاهي التفكير على مستوى GPT؟

تم النشر 5 نيسان 2025

د. تحسين ضياء

في السنوات الأخيرة، انبهر مجال الذكاء الاصطناعي بنجاح نماذج اللغات الكبيرة (LLMs). صُممت هذه النماذج في البداية لمعالجة اللغات الطبيعية، ثم تطورت لتصبح أدوات استدلال قوية قادرة على معالجة المشكلات المعقدة من خلال عمليات تفكير تدريجية شبيهة بالبشر. ومع ذلك، ورغم قدراتها الاستدلالية الاستثنائية، إلا أن نماذج اللغات الكبيرة تعاني من عيوب كبيرة، منها ارتفاع تكاليف الحوسبة وبطء سرعة النشر، مما يجعلها غير عملية للاستخدام العملي في بيئات محدودة الموارد مثل الأجهزة المحمولة أو الحوسبة الطرفية. وقد أدى ذلك إلى تزايد الاهتمام بتطوير نماذج أصغر وأكثر كفاءة، قادرة على توفير قدرات استدلال مماثلة مع تقليل التكاليف واستهلاك الموارد. تستكشف هذه المقالة صعود نماذج الاستدلال الصغيرة هذه، وإمكاناتها، وتحدياتها، وآثارها على مستقبل الذكاء الاصطناعي.

تحول في المنظور

طوال معظم تاريخ الذكاء الاصطناعي الحديث، اتبع هذا المجال مبدأ "قوانين التوسع"، الذي يشير إلى أن أداء النماذج يتحسن بشكل متوقع مع زيادة البيانات وقوة الحوسبة وحجم النموذج. ورغم أن هذا النهج قد أسفر عن نماذج قوية، إلا أنه أدى أيضًا إلى تنازلات كبيرة، بما في ذلك ارتفاع تكاليف البنية التحتية، والتأثير البيئي، ومشاكل زمن الوصول. لا تتطلب جميع التطبيقات القدرات الكاملة للنماذج الضخمة التي تحتوي على مئات المليارات من المعلمات. في العديد من الحالات العملية - مثل برامج المساعدة المدمجة، والرعاية الصحية، والتعليم - يمكن للنماذج الأصغر تحقيق نتائج مماثلة، إذا استطاعت التفكير بفعالية.

فهم التفكير في الذكاء الاصطناعي

يشير الاستدلال في الذكاء الاصطناعي إلى قدرة النموذج على تتبع السلاسل المنطقية، وفهم السبب والنتيجة، واستنتاج التبعات، وتخطيط خطوات العملية، وتحديد التناقضات. بالنسبة لنماذج اللغة، غالبًا ما يعني هذا ليس فقط استرجاع المعلومات، بل أيضًا معالجتها واستنتاجها من خلال نهج منظم ومتدرج. يتحقق هذا المستوى من الاستدلال عادةً من خلال ضبط نماذج اللغة (LLMs) بدقة لإجراء استدلال متعدد الخطوات قبل التوصل إلى إجابة. على الرغم من فعالية هذه الأساليب، إلا أنها تتطلب موارد حاسوبية كبيرة، وقد يكون نشرها بطيئًا ومكلفًا، مما يثير مخاوف بشأن إمكانية الوصول إليها وتأثيرها البيئي.

فهم نماذج الاستدلال الصغيرة

تهدف نماذج الاستدلال الصغيرة إلى محاكاة قدرات الاستدلال للنماذج الكبيرة، ولكن بكفاءة أكبر من حيث القدرة الحسابية، واستخدام الذاكرة، وزمن الوصول. غالبًا ما تستخدم هذه النماذج تقنية تُسمى تقطير المعرفةحيث يتعلم نموذج أصغر (الطالب) من نموذج أكبر مُدرّب مسبقًا (المعلم). تتضمن عملية الاستخلاص تدريب النموذج الأصغر على البيانات المُولّدة من النموذج الأكبر، بهدف نقل القدرة على التفكير المنطقي. ثم يُضبط نموذج الطالب بدقة لتحسين أدائه. في بعض الحالات، تعزيز التعلم يتم تطبيق وظائف المكافأة المتخصصة الخاصة بالمجال لتعزيز قدرة النموذج على إجراء التفكير الخاص بالمهمة بشكل أكبر.

صعود وتطور نماذج التفكير الصغيرة

لقد كان إصدار نموذج الاستدلال الصغير إنجازًا بارزًا في تطوير نماذج الاستدلال الصغيرة. ديب سيك-R1على الرغم من تدريبه على مجموعة متواضعة نسبيًا من وحدات معالجة الرسومات القديمة، حقق DeepSeek-R1 أداءً يُضاهي أداء نماذج أكبر حجمًا مثل o1 من OpenAI في معايير مثل MMLU وGSM-8K. وقد أدى هذا الإنجاز إلى إعادة النظر في نهج التوسع التقليدي، الذي افترض أن النماذج الأكبر حجمًا متفوقة بطبيعتها.

يُعزى نجاح DeepSeek-R1 إلى عملية تدريبه المبتكرة، التي جمعت بين التعلم التعزيزي واسع النطاق دون الاعتماد على الضبط الدقيق المُشرف عليه في المراحل المبكرة. وقد أدى هذا الابتكار إلى إنشاء ديب سيك-R1-زيرو، وهو نموذج أظهر قدرات استدلالية مبهرة، مقارنةً بنماذج الاستدلال الكبيرة. وقد عززت التحسينات الإضافية، مثل استخدام بيانات البداية الباردة، تماسك النموذج وتنفيذه للمهام، لا سيما في مجالات مثل الرياضيات والبرمجة.

بالإضافة إلى ذلك، أثبتت تقنيات التقطير أهميتها في تطوير نماذج أصغر وأكثر كفاءة من نماذج أكبر. على سبيل المثال، أصدرت شركة DeepSeek نسخًا مُقسّمة من نماذجها، بأحجام تتراوح بين 1.5 مليار و70 مليار معلمة. باستخدام هذه النماذج، درّب الباحثون نموذجًا أصغر بكثير نسبيًا. جهاز DeepSeek-R1-Distill-Qwen-32B التي تفوقت على o1-mini من OpenAI عبر معايير مختلفة. أصبحت هذه النماذج قابلة للنشر الآن مع الأجهزة القياسية، مما يجعلها خيارًا أكثر ملاءمة لمجموعة واسعة من التطبيقات.

هل يمكن للنماذج الصغيرة أن تتطابق مع المنطق على مستوى GPT؟

لتقييم قدرة نماذج الاستدلال الصغيرة (SRMs) على مواكبة قوة الاستدلال للنماذج الكبيرة (LRMs) مثل GPT، من المهم تقييم أدائها وفقًا للمعايير القياسية. على سبيل المثال، نموذج DeepSeek-R1 وسجل حوالي 0.844 على اختبار MMLU، قابلة للمقارنة مع النماذج الأكبر مثل o1. على جي إس إم-8K مجموعة بيانات، تركز على الرياضيات في المدارس الابتدائية، نموذج DeepSeek-R1 المقطر تحقق أداء من الدرجة الأولى، متجاوزًا كلاً من o1 وo1-mini.

في مهام الترميز، مثل تلك الموجودة على برنامج LiveCodeBench و كود فورسز، نماذج DeepSeek-R1 المقطرة تنفيذ على غرار o1-mini وGPT-4o، مما يُظهر قدرات استدلالية قوية في البرمجة. ومع ذلك، لا تزال النماذج الأكبر حجمًا تتمتع بـ حافة في المهام التي تتطلب فهمًا أوسع للغة أو التعامل مع نوافذ السياق الطويلة، حيث تميل النماذج الأصغر إلى أن تكون أكثر تحديدًا للمهمة.

على الرغم من نقاط قوتها، قد تواجه النماذج الصغيرة صعوبة في مهام التفكير المطول أو عند مواجهة بيانات خارج نطاق التوزيع. على سبيل المثال، في محاكاة الشطرنج في برنامج ماجستير القانون، ارتكبت وحدة DeepSeek-R1 أخطاءً أكثر من النماذج الأكبر، مما يشير إلى محدودية قدرتها على الحفاظ على التركيز والدقة لفترات طويلة.

المقايضات والآثار العملية

تُعدّ المفاضلات بين حجم النموذج والأداء حاسمة عند مقارنة نماذج SRM بنماذج LRM بمستوى GPT. تتطلب النماذج الأصغر حجمًا ذاكرةً وقدرةً حسابيةً أقل، مما يجعلها مثاليةً لأجهزة الحافة، وتطبيقات الجوال، أو الحالات التي تتطلب الاستدلال دون اتصال بالإنترنت. تُؤدي هذه الكفاءة إلى انخفاض تكاليف التشغيل، حيث تصل كفاءة نماذج مثل DeepSeek-R1 إلى 96%. أرخص للتشغيل أكثر من النماذج الأكبر مثل o1.

ومع ذلك، تأتي هذه المكاسب في الكفاءة مع بعض التنازلات. عادةً ما تُعدّل النماذج الأصغر حجمًا لمهام محددة، مما قد يحد من تنوعها مقارنةً بالنماذج الأكبر حجمًا. على سبيل المثال، بينما يتفوق DeepSeek-R1 في الرياضيات والبرمجة، فإنه تفتقر قدرات متعددة الوسائط، مثل القدرة على تفسير الصور، والتي يمكن للنماذج الأكبر مثل GPT-4o التعامل معها.

على الرغم من هذه القيود، فإن التطبيقات العملية لنماذج الاستدلال الصغيرة واسعة النطاق. ففي مجال الرعاية الصحية، يُمكن استخدامها لتشغيل أدوات تشخيصية تُحلل البيانات الطبية على خوادم المستشفيات القياسية. وفي مجال التعليم، يُمكن استخدامها لتطوير أنظمة تعليمية مُخصصة، تُقدم تغذية راجعة خطوة بخطوة للطلاب. وفي مجال البحث العلمي، يُمكنها المساعدة في تحليل البيانات واختبار الفرضيات في مجالات مثل الرياضيات والفيزياء. كما أن طبيعة نماذج مفتوحة المصدر مثل DeepSeek-R1 تُعزز التعاون وتُتيح الوصول إلى الذكاء الاصطناعي للجميع، مما يُمكّن المؤسسات الصغيرة من الاستفادة من التقنيات المتقدمة.

الخط السفلي

يُعد تطور نماذج اللغة إلى نماذج استدلال أصغر تقدمًا كبيرًا في مجال الذكاء الاصطناعي. ورغم أن هذه النماذج قد لا تُضاهي بعدُ القدرات الواسعة لنماذج اللغة الكبيرة، إلا أنها تُقدم مزايا رئيسية في الكفاءة والفعالية من حيث التكلفة وسهولة الوصول. ومن خلال تحقيق التوازن بين قوة الاستدلال وكفاءة الموارد، من المتوقع أن تلعب النماذج الأصغر دورًا حاسمًا في مختلف التطبيقات، مما يجعل الذكاء الاصطناعي أكثر عملية واستدامة للاستخدام في العالم الحقيقي.

د. تحسين ضياء

الدكتور تحسين ضياء هو أستاذ مشارك دائم في جامعة كومساتس إسلام أباد، ويحمل درجة الدكتوراه في الذكاء الاصطناعي من جامعة فيينا للتكنولوجيا، النمسا. متخصص في الذكاء الاصطناعي، والتعلم الآلي، وعلوم البيانات، ورؤية الكمبيوتر، وقد قدم مساهمات كبيرة من خلال منشورات في المجلات العلمية ذات السمعة الطيبة. كما قاد الدكتور تحسين العديد من المشاريع الصناعية كمحقق رئيسي وعمل كمستشار في الذكاء الاصطناعي.