Connect with us

جوجل تجعل تدريب الذكاء الاصطناعي أسرع بنسبة 28٪ باستخدام SLMs كأساتذة

الذكاء الاصطناعي

جوجل تجعل تدريب الذكاء الاصطناعي أسرع بنسبة 28٪ باستخدام SLMs كأساتذة

mm

أصبح تدريب النماذج اللغوية الكبيرة (LLMs) خارج متناول معظم المنظمات. مع تكاليف تصل إلى ملايين الدولارات ومتطلبات حوسبة ستجعل الحواسيب العالية الأداء تتعرق، ظل تطوير الذكاء الاصطناعي محصورًا خلف أبواب العمالقة التكنولوجية. لكن جوجل قلبت هذه القصة رأسًا على عقب بمقاربة بسيطة لدرجة أنك تتساءل لماذا لم يفكر أحد فيها من قبل: استخدام نماذج الذكاء الاصطناعي الصغيرة كأساتذة.

كيف يعمل SALT: نهج جديد لتدريب نماذج الذكاء الاصطناعي

في ورقة بحثية حديثة بعنوان “مساعدة صغيرة تذهب بعيدًا: تدريب LLM فعال من خلال الاستفادة من نماذج LMs الصغيرة،” قدمت جوجل ريسيرش وديب مايند SALT (تدريب نموذج كبير بمساعدة نموذج صغير). هذا هو النهج الجديد الذي ي挑ل النهج التقليدي لتدريب LLMs.

لماذا هذا البحث مهم؟ حاليًا، تدريب النماذج الكبيرة للغاية مثل محاولة تعليم شخص كل ما يحتاج إلى معرفته حول موضوع معين في المرة الواحدة – إنه غير فعال وغالي الثمن، وغالبًا ما يقتصر على المنظمات التي تملك موارد حوسبة ضخمة. يتبع SALT مسارًا مختلفًا، ويقدم عملية تدريب من مرحلتين هي مبدعة وعمليّة.

كيف يعمل SALT بالضبط:

المرحلة 1: تنقيح المعرفة

  • تعمل النماذج اللغوية الصغيرة (SLM) كأستاذ، تشارك فهمها مع النموذج الأكبر
  • يركز النموذج الصغير على نقل “المعرفة المكتسبة” من خلال ما يسميه الباحثون “التسميات الناعمة”
  • افكر فيها مثل مساعد تدريس يتعامل مع المفاهيم الأساسية قبل أن يتحرك الطالب إلى مواضيع متقدمة
  • تكون هذه المرحلة فعالة بشكل خاص في “مناطق سهلة” من التعلم – المناطق التي يمتلك فيها النموذج الصغير ثقة تنبؤية قوية

المرحلة 2: التعلم الذاتي الإشرافي

  • يتحرك النموذج الكبير إلى التعلم المستقل
  • يركز على إتقان الأنماط المعقدة والمهام الصعبة
  • هذا هو المكان الذي يطور فيه النموذج القدرات التي تتجاوز ما يمكن أن يقدمه “أستاذه” الصغير
  • تستخدم استراتيجيات مصممة بعناية لتحويل المراحل، بما في ذلك الانخفاض الخطي وتراجع نسبة الانخفاض الخطي لوزن خسارة التنقيح

بمعنى غير تقني، تخيل أن النموذج الذكائي الصغير مثل معلم مساعد يوجه النموذج الأكبر في مراحل التدريب الأولى. يقدم هذا المعلم معلومات إضافية جنبًا إلى جنب مع إجاباته، يشير إلى مدى ثقته في كل إجابة. تساعد هذه المعلومات الإضافية، المعروفة باسم “التسميات الناعمة”، النموذج الأكبر على التعلم بشكل أسرع وأكثر فعالية.

الآن، مع تحسن قدرات النموذج الذكائي الأكبر، يحتاج إلى الانتقال من الاعتماد على المعلم إلى التعلم بشكل مستقل. यह هو المكان الذي يأتي فيه “الانخفاض الخطي” و “تراجع النسبة الخطية” إلى اللعب.
افكر في هذه التقنيات كتقليل تأثير المعلم تدريجيًا مع مرور الوقت:
  • الانخفاض الخطي:إنه مثل خفض صوت صوت المعلم ببطء. يصبح توجيه المعلم أقل وضوحًا مع كل خطوة، مما يسمح للنموذج الأكبر بالتركيز أكثر على التعلم من البيانات الخام نفسها.
  • تراجع النسبة الخطية:هذا مثل تعديل التوازن بين نصيحة المعلم والمهمة الفعلية. مع تقدم التدريب، ينتقل التركيز أكثر نحو المهمة الأصلية، في حين يصبح مدخلات المعلم أقل سيطرة.
الهدف من كلا التقنيتين هو ضمان انتقال سلس للنموذج الذكائي الأكبر، ومنع أي تغييرات فجائية في سلوك التعلم.

النتائج ممتعة. عندما قام باحثو جوجل باختبار SALT باستخدام نموذج SLM بحجم 1.5 مليار معامل لتدريب نموذج LLM بحجم 2.8 مليار معامل على مجموعة البيانات Pile، رأوا:

  • انخفاضًا بنسبة 28٪ في وقت التدريب مقارنة بالأساليب التقليدية
  • تحسينات كبيرة في الأداء بعد التعدين الدقيق:
    • قفزت دقة حل المشكلات الرياضية إلى 34.87٪ (مقارنة بـ 31.84٪ في القاعدة)
    • Reached 67٪ دقة في فهم القراءة (مقارنة بـ 63.7٪)

لكن ما يجعل SALT حقًا مبتكرًا هو الإطار النظري له. اكتشف الباحثون أن حتى نموذج المعلم “الأضعف” يمكن أن يعزز أداء الطالب من خلال تحقيق ما يسمونه “تبادل إيجابي بين الانحياز والتباين”. بمعنى أبسط، يساعد النموذج الصغير النموذج الأكبر على التعلم الأنماط الأساسية بشكل أكثر كفاءة، مما يخلق أساسًا أقوى للتعلم المتقدم.

لماذا قد يغير SALT معادلة تطوير الذكاء الاصطناعي

تذكر عندما غير الحوسبة السحابية من يمكن أن يبدأ شركة تكنولوجية؟ قد يفعل SALT الشيء نفسه لتطوير الذكاء الاصطناعي.

لقد كنت أتابع ابتكارات تدريب الذكاء الاصطناعي لسنوات، وأغلب الابتكارات كانت تخدم بشكل رئيسي العمالقة التكنولوجية. لكن SALT مختلف.

ما قد يعنيه هذا للمستقبل:

لمنظمات الموارد المحدودة:

  • قد لا تحتاج إلى بنية تحتية حوسبية ضخمة لتطوير نماذج ذكاء اصطناعي قادرة
  • يمكن لمعاملات البحث الصغيرة والشركات تجربة تطوير نماذج مخصصة
  • ينقل الانخفاض بنسبة 28٪ في وقت التدريب مباشرة إلى تقليل التكاليف الحوسبية
  • أهم من ذلك، يمكنك البدء بموارد حوسبية متواضعة ولا تزال تحقق نتائج محترفة

لمناظير تطوير الذكاء الاصطناعي:

  • يمكن للمزيد من اللاعبين دخول الحقل، مما يؤدي إلى حلول ذكاء اصطناعي أكثر تنوعًا وتخصصًا
  • يمكن للجامعات والمؤسسات البحثية تشغيل المزيد من التجارب باستخدام الموارد الحالية
  • ينخفض حاجز الدخول إلى أبحاث الذكاء الاصطناعي بشكل كبير
  • قد نرى تطبيقات جديدة في مجالات لم تكن قادرة على تحمل تكاليف تطوير الذكاء الاصطناعي من قبل

ما يعنيه هذا للمستقبل

من خلال استخدام نماذج صغيرة كأساتذة، لا نجعل تدريب الذكاء الاصطناعي أكثر كفاءة فحسب، بل نحول أيضًا من يشارك في تطوير الذكاء الاصطناعي. التأثيرات تمتد إلى ما هو أبعد من التحسينات التقنية.

النقاط الرئيسية التي يجب وضعها في الاعتبار:

  • انخفاض وقت التدريب بنسبة 28٪ هو الفرق بين بدء مشروع ذكاء اصطناعي أو النظر إليه على أنه خارج متناول اليد
  • تحسينات الأداء (34.87٪ في الرياضيات، 67٪ في مهام القراءة) تظهر أن القابلية للوصول لا يعني بالضرورة التضحية بالجودة
  • يؤكد نهج SALT أن الحلول الأفضل أحيانًا تأتي من إعادة التفكير في الأساسيات بدلاً من إضافة المزيد من القوة الحوسبية

ما يجب مراقبته:

  1. احرص على متابعة المنظمات الصغيرة التي تبدأ في تطوير نماذج ذكاء اصطناعي مخصصة
  2. انتبه للتطبيقات الجديدة في المجالات التي لم تكن قادرة على تحمل تكاليف تطوير الذكاء الاصطناعي من قبل
  3. ابحث عن الابتكارات في كيفية استخدام النماذج الصغيرة لمهام متخصصة

تذكر: القيمة الحقيقية لـ SALT تكمن في كيفية إعادة تشكيله لمن يبتكر في الذكاء الاصطناعي. سواء كنت تقود معملًا بحثيًا أو فريقًا تقنيًا أو مجرد اهتمام بتطوير الذكاء الاصطناعي، هذا النوع من الابتكارات يمكن أن يجعل فكرتك التالية ممكنة.

ربما يجب أن تبدأ في التفكير في ذلك المشروع الذكاء الاصطناعي الذي اعتقدت أنه خارج متناول اليد. قد يكون أكثر قابليّة للتحقيق مما تتصور.

Alex McFarland هو صحفي وكاتب في مجال الذكاء الاصطناعي يستكشف أحدث التطورات في الذكاء الاصطناعي. وقد تعاون مع العديد من الشركات الناشئة في مجال الذكاء الاصطناعي والمنشورات في جميع أنحاء العالم.