اتصل بنا للحصول على مزيد من المعلومات

التوسيع أثناء الاختبار: السر وراء الموجة الجديدة من نماذج الاستدلال على مستوى الدكتوراه

الذكاء الاصطناعي

التوسيع أثناء الاختبار: السر وراء الموجة الجديدة من نماذج الاستدلال على مستوى الدكتوراه

mm

وصل مجال الذكاء الاصطناعي إلى مرحلة لم يعد فيها مجرد إضافة المزيد من البيانات أو زيادة حجم النموذج هو السبيل الأمثل لجعله أكثر ذكاءً. ففي السنوات القليلة الماضية، اعتقدنا أنه إذا أنشأنا شبكات عصبية أكبر حجماً وزودناها بالمزيد من بيانات الإنترنت، فستصبح في نهاية المطاف أكثر ذكاءً. وقد أثبت هذا النهج، المعروف بقوانين التوسع، نجاحاً باهراً، إذ مكّننا من الحصول على نماذج قادرة على كتابة الشعر، وترجمة اللغات، واجتياز امتحان المحاماة. مع ذلك، غالباً ما واجهت هذه النماذج صعوبة في التعامل مع المنطق العميق، والرياضيات المعقدة، والمسائل العلمية متعددة الخطوات. فقد برعت في مطابقة الأنماط، لكنها غالباً ما فشلت في المسائل التي تتطلب استدلالاً متعدد الخطوات.

ظهر مؤخرًا اتجاه جديد يُغيّر طريقة تفكيرنا في قدرات الذكاء الاصطناعي، ويُعرف هذا الاتجاه باسم "التوسع أثناء الاختبار". فبدلًا من التركيز فقط على مدى تعلّم النموذج خلال مرحلة التدريب، يُركّز الباحثون الآن على مدى "تفكير" النموذج عند إجابته على سؤال ما. هذا التحوّل هو سرّ نجاح أحدث جيل من نماذج الاستدلال، مثل... سلسلة o1 من OpenAI، والتي تؤدي الآن على مستوى طلاب الدكتوراه في مواضيع صعبة مثل الفيزياء والكيمياء وعلم الأحياء.

التحول من توسيع نطاق التدريب إلى توسيع نطاق الاستدلال

لفهم سبب كون هذا تغييرًا جذريًا، يجب أن ننظر إلى كيفية بناء الذكاء الاصطناعي حتى الآن. تقليديًا، كان يُحدد "ذكاء" النموذج بناءً على تدريبه. تطلب ذلك إنفاق شهور وملايين الدولارات لمعالجة كميات هائلة من البيانات عبر آلاف وحدات معالجة الرسومات. بمجرد انتهاء التدريب، كان النموذج يُصبح جاهزًا للاستخدام. عند طرح سؤال عليه، كان يُقدم إجابة فورية تقريبًا بناءً على الأنماط التي تعلمها مسبقًا. هذا ما نسميه الاستدلال أو وقت الاختبار.

تكمن مشكلة هذا النهج التقليدي في أن النموذج لا يملك سوى فرصة واحدة للوصول إلى الإجابة الصحيحة. فهو يعالج المدخلات ويُنتج الرموز تباعًا دون إمكانية "التفكير" أو "التحقق" من منطقه قبل النطق. يُغيّر التوسع أثناء الاختبار هذه الديناميكية، إذ يسمح للنموذج بتخصيص المزيد من القدرة الحاسوبية خلال مرحلة الاستدلال. فكما قد يستغرق الإنسان بضع ثوانٍ للإجابة على سؤال بسيط، بينما يستغرق عدة دقائق أو ساعات لحل مسألة رياضية معقدة، تُصمّم نماذج الذكاء الاصطناعي الآن لتوسيع نطاق جهدها بناءً على صعوبة المهمة.

تعريف مفهوم قياس وقت الاختبار

قياس وقت الاختبار يشير هذا إلى التقنيات التي تُمكّن نموذج الذكاء الاصطناعي من استخدام موارد حاسوبية إضافية لمعالجة الطلب لحظة تقديمه. بعبارة أخرى، يعني ذلك منح النموذج مزيدًا من "وقت التفكير". لا يتعلق الأمر هنا بتكبير حجم النموذج، بل بجعله أكثر دقة وتأملًا. فعندما يستخدم النموذج تقنية التوسع أثناء الاختبار، فإنه لا يكتفي بإنتاج أول إجابة تخطر بباله، بل قد يستكشف مسارات مختلفة، ويتحقق من وجود أخطاء في منطق عمله، ويُحسّن استجابته قبل أن يراها المستخدم.

كثيراً ما يُقارن هذا المفهوم بطريقة عمل الدماغ البشري. ويتحدث علماء النفس كثيراً عن "النظام 1" و "النظام 2" التفكير. النظام 1 سريع، غريزي، وعاطفي. هو ما تستخدمه عندما تتعرف على وجه أو تقود سيارة على طريق مألوف. أما النظام 2 فهو أبطأ، أكثر ترويًا، ومنطقيًا. هو ما تستخدمه عندما تحل معادلة رياضية صعبة أو تخطط لمشروع معقد. حتى وقت قريب، كان معظم طلاب ماجستير القانون من مفكري النظام 1. يُعدّ التقييم أثناء الاختبار بمثابة الجسر الذي يسمح لهم بالوصول إلى تفكير النظام 2.

آليات عملية الاستدلال

هناك عدة طرق يستخدمها الباحثون لتحقيق قابلية التوسع أثناء الاختبار. إحدى أكثر الطرق شيوعًا تسمى سلسلة الأفكار (CoT)لكن في هذه النماذج الجديدة، تُدمج هذه الميزة مباشرةً في النظام بدلاً من أن يطلبها المستخدم. يُدرَّب النموذج على تقسيم المشكلة إلى خطوات أصغر وأكثر منطقية. ، يمكن للنموذج التحقق من كل جزء من الحل قبل الانتقال إلى الجزء التالي.

تتضمن تقنية أخرى مهمة خوارزميات البحث، مثل مونت كارلو تري البحثبدلاً من مجرد التنبؤ بالكلمة التالية الأكثر احتمالاً، نموذج يُنشئ النموذج مسارات متعددة محتملة للإجابة، ثم يُقيّم هذه المسارات ويُحدد المسار الأرجح للوصول إلى الحل الصحيح. إذا وصل إلى طريق مسدود أو أدرك خطأ خطوة سابقة، يُمكنه العودة وتجربة نهج مختلف. تُشبه هذه القدرة على "التنبؤ" إلى حد كبير آلية عمل مُحرك الشطرنج الذي يُقيّم آلاف النقلات المُحتملة قبل اختيار الأفضل. من خلال البحث في العديد من الاحتمالات خلال مرحلة الاستدلال، يستطيع النموذج حلّ مشاكل أكثر تعقيدًا بكثير من تلك التي يُمكن حلّها مُباشرةً باستخدام نموذج خطي لغوي قياسي.

لماذا يتطلب التفكير على مستوى الدكتوراه أكثر من مجرد الذاكرة

تكمن أهمية هذا الأمر في أن التفكير المنطقي المتقدم في العلوم والرياضيات لا يمكن حله بالاعتماد على الذاكرة وحدها. ففي امتحان الفيزياء على مستوى الدكتوراه، لا يمكنك ببساطة تكرار معلومة قرأتها في كتاب. بل عليك تطبيق مبادئ معقدة على حالة جديدة وفريدة. غالبًا ما تخطئ النماذج التقليدية في هذه السيناريوهات لأنها تحاول التنبؤ بالكلمة التالية بناءً على الاحتمالات لا المنطق.

يُمكّن التوسع أثناء الاختبار النموذج من العمل بشكل أقرب إلى الباحث، حيث يمكنه اختبار الفرضيات داخليًا. على سبيل المثال، إذا طُلب من نموذج كتابة جزء معقد من التعليمات البرمجية، فإنه يستطيع "تشغيل" المنطق في سلسلة تفكيره الخفية، وتحديد أي خطأ محتمل، وإصلاحه قبل عرض التعليمات البرمجية النهائية. هذه القدرة على التصحيح الذاتي هي ما يسمح للجيل الجديد من النماذج بتحقيق درجات عالية في معايير الأداء مثل... امتحان الرياضيات الأمريكي للدعوة (AIME) أو ال GPQA (اختبار علمي صعب صممه خبراء). إنهم لا يخمنون فحسب، بل يتحققون.

المفاضلة بين الكفاءة وتكاليف الحساب

على الرغم من قوة التوسع أثناء الاختبار، إلا أنه مكلف للغاية. في الطرق التقليدية، كان تدريب الذكاء الاصطناعي هو الجزء الأكثر تكلفة. بمجرد نشر النموذج، كان تشغيله سريعًا ورخيصًا نسبيًا. أما مع التوسع أثناء الاختبار، فتنتقل التكلفة إلى طلب المستخدم. نظرًا لأن النموذج يقوم بمهام إضافية من خلال إنشاء مسارات متعددة والتحقق من عمله، فإنه يستغرق وقتًا أطول للاستجابة ويتطلب موارد أجهزة أكثر.

يُنشئ هذا نوعًا جديدًا من اقتصاديات الذكاء الاصطناعي. فنحن نتجه نحو وضعٍ تتفاوت فيه "تكلفة الاستعلام" بشكلٍ كبير. قد يكلف سؤالٌ بسيطٌ عن الطقس جزءًا من السنت ويستغرق ثانيةً واحدة. بينما قد يكلف استعلامٌ علميٌّ معمّقٌ عدة دولارات من وقت الحوسبة وقد يستغرق ساعةً للمعالجة. هذه المفاضلة ضروريةٌ لتحقيق استدلالٍ عالي المستوى، ولكنها تعني أيضًا أنه يجب على المطورين إيجاد طرقٍ لجعل هذه النماذج فعّالةً حتى يمكن استخدامها على نطاقٍ واسعٍ في قطاعاتٍ مثل الطب والهندسة.

تأثير الذكاء الاصطناعي على مستقبله

يشير ازدياد استخدام تقنية التوسع أثناء الاختبار إلى أننا ربما ندخل حقبة جديدة في تطوير الذكاء الاصطناعي. لسنوات، كان هناك قلق من نفاد البيانات البشرية عالية الجودة اللازمة لتدريب النماذج. فإذا اقتصرت النماذج على التعلم مما كتبه البشر مسبقًا، فقد تصل إلى حد أقصى. ومع ذلك، فإن التوسع أثناء الاختبار... عروض يمكن للنماذج تحسين أدائها من خلال التفكير بشكل أعمق، وليس فقط من خلال قراءة المزيد.

يفتح هذا الباب أمام الذكاء الاصطناعي ليُحقق اكتشافاته الخاصة. فإذا استطاع نموذجٌ ما تحليل مشكلة لم يسبق له مواجهتها، فبإمكانه إيجاد حلول جديدة في علوم المواد، واكتشاف الأدوية، والطاقة المتجددة. وهذا يُحوّل الذكاء الاصطناعي من مُساعدٍ يُلخّص النصوص إلى مُتعاونٍ رقمي يُساهم في حلّ أعقد مشاكل العالم. إننا نشهد تحوّلاً من الذكاء الاصطناعي "التوليدي" إلى الذكاء الاصطناعي "الاستدلالي".

الخط السفلي

يُثبت توسيع نطاق الاختبار أنه الحلقة المفقودة في مسيرة تطوير الذكاء الاصطناعي المتقدم. فمن خلال تمكين النماذج من استخدام قدرة حاسوبية أكبر لحظة الاستدلال، تمكّنا من الوصول إلى مستوى أداء كان يُعتقد سابقًا أنه بعيد المنال لسنوات. بدأت هذه النماذج تُظهر نوعًا من المنطق أقرب بكثير إلى الذكاء البشري من مجرد التعرف على الأنماط في الماضي.

مع تقدمنا، يكمن التحدي في تحسين هذه التقنيات. نحتاج إلى جعل عملية الاستدلال أسرع وأكثر سهولة، مع إيجاد التوازن الأمثل بين التفكير "السريع" و"البطيء". لم يعد السر يكمن فقط في حجم النموذج أو كمية البيانات التي عالجها، بل في كيفية استغلال النموذج لوقته في التفكير. بالنسبة لأي شخص يتابع تطور الذكاء الاصطناعي، من الواضح أن التركيز قد تحول. لم يعد التنافس محصورًا في امتلاك أكبر نموذج، بل في امتلاك النموذج الأقدر على الاستدلال. من المرجح أن يُحدد هذا التحول ملامح العقد القادم من الابتكار في هذا المجال.

الدكتور تحسين ضياء هو أستاذ مشارك دائم في جامعة كومساتس إسلام أباد، ويحمل درجة الدكتوراه في الذكاء الاصطناعي من جامعة فيينا للتكنولوجيا، النمسا. متخصص في الذكاء الاصطناعي، والتعلم الآلي، وعلوم البيانات، ورؤية الكمبيوتر، وقد قدم مساهمات كبيرة من خلال منشورات في المجلات العلمية ذات السمعة الطيبة. كما قاد الدكتور تحسين العديد من المشاريع الصناعية كمحقق رئيسي وعمل كمستشار في الذكاء الاصطناعي.