الذكاء الاصطناعي
صعود مزيج الخبراء لنمذجة اللغة الكبيرة بكفاءة

By
Aayush Mittal Mittal
في عالم معالجة اللغة الطبيعية (NLP)، كانت محاولة بناء نماذج اللغة الأكبر والأكثر قدرة قوة دافعة وراء العديد من التقدمات الحديثة. ومع ذلك،随着 نمو حجم هذه النماذج، تصبح المتطلبات الحاسوبية للتدريب والاستدلال أكثر صعوبة، مما يضغط على حدود الموارد المادية المتاحة.
ادخل مزيج الخبراء (MoE)، وهو تقنية يعد بتحسين العبء الحاسوبي بينما يسمح بتدريب نماذج اللغة الأكبر والأكثر قوة. فيما يلي، سنناقش MoE، واستكشاف أصوله، وآلياته الداخلية، وتطبيقاته في نماذج اللغة القائمة على المحولات.
أصول مزيج الخبراء
يمكن تتبع مفهوم مزيج الخبراء (MoE) إلى أوائل التسعينيات عندما قام الباحثون باستكشاف فكرة الحساب الشرطي، حيث يتم تنشيط أجزاء من شبكة عصبية بشكل انتقائي بناءً على بيانات الإدخال. واحدة من الأعمال الرائدة في هذا المجال كانت ورقة “مزيج محلي من الخبراء التكيفي” بواسطة جاكوبس وآخرون في عام 1991، والتي提出了 إطارًا للتعلم الإشرافي لمجموعة من الشبكات العصبية، كل منها متخصص في منطقة مختلفة من فضاء الإدخال.
الفكرة الأساسية وراء MoE هي وجود شبكات خبيرة متعددة، كل منها مسؤول عن معالجة جزء من بيانات الإدخال. آلية التوجيه، عادةً شبكة عصبية herself، تحدد أي خبير (خبراء) يجب معالجته الإدخال. هذا النهج يسمح للنموذج بتخصيص موارده الحاسوبية بشكل أكثر كفاءة عن طريق تنشيط الخبراء ذوي الصلة فقط لكل إدخال، بدلاً من توظيف سعة النموذج الكاملة لكل إدخال.
على مر السنين، استكشف الباحثون وأوسعوا فكرة الحساب الشرطي، مما أدى إلى تطورات مثل MoE الهرمي، والتقارب المنخفض للترتيب للحساب الشرطي، وطرق لتقدير التدرجات من خلال العصبونات العشوائية ووظائف التنشيط الصلبة.
مزيج الخبراء في المحولات
في حين أن فكرة مزيج الخبراء (MoE) كانت موجودة لعدة عقود، فإن تطبيقها على نماذج اللغة القائمة على المحولات هو أمر حديث نسبيًا. المحولات، التي أصبحت المعيار الفعلي لنمذجة اللغة المتقدمة، تتكون من طبقات متعددة، كل منها يحتوي على آلية الانتباه الذاتي وشبكة عصبية تغذية إلى الأمام (FFN).
الابتكار الرئيسي في تطبيق MoE على المحولات هو استبدال طبقات FFN الكثيفة بطبقات MoE النادرة، كل منها يتكون من شبكات خبيرة متعددة وآلية توجيه. آلية التوجيه تحدد أي خبير (خبراء) يجب معالجته كل رمز إدخال، مما يسمح للنموذج بالتنشيط الانتقائي لجزء فقط من الخبراء لكل تسلسل إدخال.
واحدة من الأعمال المبكرة التي أظهرت إمكانيات MoE في المحولات كانت ورقة “الشبكات العصبية الكبيرة بشكل مفرط: طبقة مزيج الخبراء ذات البوابة النادرة” بواسطة Shazeer وآخرون في عام 2017. هذه العمل أدخل مفهوم طبقة مزيج الخبراء ذات البوابة النادرة، والتي استخدمت آلية توجيه أضافت ندرة وضجيج إلى عملية اختيار الخبير، مما يضمن تنشيط جزء فقط من الخبراء لكل إدخال.
منذ ذلك الحين، قام العديد من الأعمال الأخرى بتقدم تطبيقات MoE على المحولات، وتحديات مثل عدم استقرار التدريب، وتركيب الحمل، والاستدلال الكفء. أمثلة ملحوظة تشمل Switch Transformer (Fedus وآخرون، 2021)، ST-MoE (Zoph وآخرون، 2022)، و GLaM (Du وآخرون، 2022).
فوائد مزيج الخبراء لنمذجة اللغة
المنفعة الرئيسية لاستخدام MoE في نماذج اللغة هي القدرة على زيادة حجم النموذج مع الحفاظ على تكلفة حاسوبية متغيرة خلال الاستدلال. من خلال التنشيط الانتقائي لجزء فقط من الخبراء لكل رمز إدخال، يمكن لنمذج MoE تحقيق القوة التعبيرية لنمذج كثيفة أكبر بكثير مع الحاجة إلى كمية أقل من الحساب.
على سبيل المثال، لنفترض نموذجًا للغة يحتوي على طبقة FFN كثيفة مع 7 مليارات معامل. إذا استبدلنا هذه الطبقة بطبقة MoE تتكون من ثمانية خبراء، كل منها مع 7 مليارات معامل، يزيد العدد الإجمالي للمعاملات إلى 56 مليار. ومع ذلك، خلال الاستدلال، إذا كنا ننشط خبراء فقط لكل رمز، تكون التكلفة الحاسوبية مكافئة لنموذج كثيف مع 14 مليار معامل، حيث يتم حساب两个 ضربات مصفوفة 7 مليارات معامل.
هذه الكفاءة الحاسوبية خلال الاستدلال هي قيمة خاصة في سيناريوهات النشر حيث تكون الموارد محدودة، مثل الأجهزة المحمولة أو بيئات الحوسبة على الحافة. بالإضافة إلى ذلك، يمكن أن يؤدي تقليل المتطلبات الحاسوبية خلال التدريب إلى توفير كبير في الطاقة وخفض بصمة الكربون، مما يتوافق مع التركيز المتزايد على ممارسات الذكاء الاصطناعي المستدامة.
التحديات والاعتبارات
في حين أن نماذج MoE تقدم منافع مقنعة، فإن اعتمادها ونشرها يأتي مع عدة تحديات واعتبارات:
- عدم استقرار التدريب: نماذج MoE معروفة بأنها أكثر عرضة لعدم استقرار التدريب مقارنة بنماذجها الكثيفة. Этот vấnة تنشأ من الطبيعة النادرة والشرطية لتنشيط الخبراء، مما قد يؤدي إلى تحديات في انتشار التدرجات والتقارب. تم اقتراح تقنيات مثل خسارة الموجه (Zoph وآخرون، 2022) للتغلب على هذه عدم الاستقرار، ولكن لا يزال هناك حاجة إلى مزيد من البحث.
- التحسين الدقيق والتجاوز: نماذج MoE تميل إلى التجاوز أكثر بسهولة خلال التحسين الدقيق، خاصة عندما يكون لديها مجموعة بيانات صغيرة نسبيًا. هذا السلوك يُعزى إلى زيادة سعة نماذج MoE والندرة، مما قد يؤدي إلى التخصص المفرط على بيانات التدريب. يتطلب الأمر استراتيجيات تحسين دقيق وتنظيم دقيق للتغلب على هذه القضية.
- متطلبات الذاكرة: في حين أن نماذج MoE يمكن أن تقلل من التكاليف الحاسوبية خلال الاستدلال، غالبًا ما يكون لديها متطلبات ذاكرة أعلى مقارنة بنماذج كثيفة من نفس الحجم. هذا لأن جميع أوزان الخبراء يجب تحميلها في الذاكرة، حتى لو تم تنشيط جزء فقط منها لكل إدخال. يمكن أن تقيد قيود الذاكرة من قابليّة نماذج MoE للتوسيع على الأجهزة المحدودة الموارد.
- تركيب الحمل: لتحقيق الكفاءة الحاسوبية المثلى، من المهم تركيب الحمل عبر الخبراء، مما يضمن عدم تحميل أي خبير واحد بشكل مفرط بينما يبقى الآخرون غير مستخدمين. يتم تحقيق هذا التركيب عادةً من خلال خسائر مساعدة خلال التدريب وضبط دقيق لعامل السعة، الذي يحدد العدد الأقصى من الرموز التي يمكن تعيينها لكل خبير.
- التأخير الاتصالي: في سيناريوهات التدريب والاستدلال الموزعة، يمكن لنماذج MoE أن تؤدي إلى تأخير اتصالي إضافي بسبب الحاجة إلى تبادل معلومات التنشيط والتدرجات عبر الخبراء المقيمين على أجهزة أو معززات مختلفة. استراتيجيات اتصال كفء وتصميم نموذج حساس للأجهزة ضروريان للتغلب على هذا التأخير.
على الرغم من هذه التحديات، فإن الإمكانيات المحتملة لنماذج MoE في تمكين نماذج اللغة الأكبر والأكثر قدرة قد حفزت جهود بحثية كبيرة لمعالجة وتخفيف هذه القضايا.
مثال: Mixtral 8x7B و GLaM
لتوضيح التطبيق العملي لمزيج الخبراء في نماذج اللغة، دعونا ننظر إلى مثالين ملحوظين: Mixtral 8x7B و GLaM.
Mixtral 8x7B هو متغير من نموذج اللغة Mistral، تم تطويره بواسطة Anthropic. يتكون من ثمانية خبراء، كل منها مع 7 مليارات معامل، مما يؤدي إلى إجمالي 56 مليار معامل. ومع ذلك، خلال الاستدلال، يتم تنشيط خبراء فقط لكل رمز، مما يقلل التكلفة الحاسوبية إلى نموذج كثيف مع 14 مليار معامل.
Mixtral 8x7B أظهر أداءً مثيرًا للإعجاب، متجاوزًا نموذج Llama 70 مليار معامل مع تقديم أوقات استدلال أسرع بكثير. تم إصدار نسخة محسنة من Mixtral 8x7B، تسمى Mixtral-8x7B-Instruct-v0.1، والتي تعزز من قدراته في اتباع تعليمات اللغة الطبيعية.
مثال آخر ملحوظ هو GLaM (نموذج اللغة من Google)، وهو نموذج MoE كبير تم تطويره بواسطة Google. يعتمد GLaM على هيكل محول فاقد فقط وتم تدريبه على مجموعة بيانات ضخمة تبلغ 1.6 تريليون رمز. حقق النموذج أداءً مثيرًا للإعجاب في التقييمات القليلة والواحدة، متجاوزًا جودة GPT-3 مع استخدام فقط ثلث الطاقة اللازمة لتدريب GPT-3.
يمكن أن يُعزى نجاح GLaM إلى هيكله الفعال لمزيج الخبراء، الذي سمح بتدريب نموذج مع عدد هائل من المعاملات مع الحفاظ على متطلبات حاسوبية معقولة. أظهر النموذج أيضًا إمكانية نماذج MoE أن تكون أكثر كفاءة في استخدام الطاقة وأكثر استدامة بيئيًا مقارنة بنماذجها الكثيفة.
هيكل Grok-1
Grok-1 هو نموذج MoE قائم على المحول مع هيكل فريد مصمم لتعزيز الكفاءة والأداء. دعونا نغوص في المواصفات الرئيسية:
- المعاملات: مع 314 مليار معامل، Grok-1 هو أكبر نموذج لغة مفتوح حتى الآن. ومع ذلك، بفضل هيكل MoE، يتم تنشيط فقط 25% من الأوزان (حوالي 86 مليار معامل) في أي وقت معين، مما يعزز القدرات المعالجة.
- الهيكل: Grok-1 يستخدم هيكل مزيج من 8 خبراء، حيث يتم معالجة كل رمز بواسطة خبراء اثنين خلال الاستدلال.
- الطبقات: يتكون النموذج من 64 طبقة محول، كل منها يدمج انتباه متعدد الرؤوس وكتلة كثيفة.
- التOKENIZATION: Grok-1 يستخدم tokenizer SentencePiece مع حجم قاموس 131,072 رمز.
- التضمين والترميز الموقعي: النموذج يحتوي على تضمين 6,144 بعدًا ويتضمن ترميز موقعي دواري، مما يسمح بتفسير أكثر ديناميكية للبيانات مقارنة بالترميز الموقعي الثابت.
- الانتباه: Grok-1 يستخدم 48 رأس انتباه للاستعلامات و 8 رؤوس انتباه للمفاتيح والقيم، كل منها بحجم 128.
- طول السياق: يمكن للنموذج معالجة تسلسلات تصل إلى 8,192 رمز في الطول، مع استخدام دقة bfloat16 للحساب الفعال.
الأداء وتفاصيل التنفيذ
Grok-1 أظهر أداءً مثيرًا للإعجاب، متجاوزًا LLaMa 2 70B و Mixtral 8x7B بنتيجة MMLU 73%, مما يظهر كفاءته ودقته عبر مختلف الاختبارات.
然而، من المهم ملاحظة أن Grok-1 يتطلب موارد GPU كبيرة بسبب حجمه الهائل. التنفيذ الحالي في الإصدار المفتوح يركز على التحقق من صحة النموذج ويستخدم تنفيذًا غير فعال لطبقة MoE لتجنب الحاجة إلى نواة مخصصة.
على الرغم من ذلك، يدعم النموذج شاردات التنشيط وكمية 8 بت، مما يمكن تحسين الأداء وتقليل متطلبات الذاكرة.
في خطوة ملحوظة، xAI أطلق Grok-1 تحت رخصة Apache 2.0، مما يجعل أوزانه وهيكله متاحين للجماعة العالمية للاستخدام والمساهمة.
الإصدار المفتوح يتضمن مستودع رمز جاكس الذي يظهر كيفية تحميل وتشغيل نموذج Grok-1. يمكن للمستخدمين تحميل أوزان النقاط باستخدام عميل تورنت أو مباشرة من خلال HuggingFace Hub، مما يسهل الوصول إلى هذا النموذج المتقدم.
مستقبل مزيج الخبراء في نماذج اللغة
مع استمرار الطلب على نماذج اللغة الأكبر والأكثر قدرة، من المتوقع أن يزداد اعتماد تقنيات MoE. الجهود البحثية الجارية تركز على معالجة التحديات المتبقية، مثل تحسين استقرار التدريب، وتقليل التجاوز خلال التحسين الدقيق، وضبط متطلبات الذاكرة والاتصالات.
اتجاه واعد هو استكشاف هياكل MoE الهرمية، حيث يتكون كل خبير من خبراء فرعيين. هذا النهج قد يسمح بمزيد من التوسع والكفاءة الحاسوبية مع الحفاظ على القوة التعبيرية لنماذج كبيرة.
بالإضافة إلى ذلك، فإن تطوير الأنظمة الحاسوبية والبرمجية المثلى لنماذج MoE هو مجال بحث نشط. المعززات والمعرفات الموزعة المصممة خصيصًا لمعالجة أنماط الحساب النادرة والشرطية لنماذج MoE يمكن أن تعزز أدائها وقابليتها للتوسيع.
علاوة على ذلك، يمكن أن يؤدي دمج تقنيات MoE مع التطورات الأخرى في نمذجة اللغة، مثل آليات الانتباه النادرة، واستراتيجيات التOKENIZATION الفعالة، وتمثيلات متعددة الوسائط، إلى نماذج لغة أكثر قوة وتنوعًا قادرة على معالجة مجموعة واسعة من المهام.
الختام
تقنية مزيج الخبراء ظهرت كأداة قوية في السعي لنمذجة اللغة الأكبر والأكثر قدرة. من خلال التنشيط الانتقائي للخبراء بناءً على بيانات الإدخال، تقدم نماذج MoE حلًا واعدًا للتحديات الحاسوبية المرتبطة بزيادة حجم النماذج الكثيفة. بينما لا يزال هناك تحديات للتحقيق، مثل عدم استقرار التدريب والتجاوز ومتطلبات الذاكرة، فإن الفوائد المحتملة لنماذج MoE من حيث الكفاءة الحاسوبية وال قابليّة التوسيع والاستدامة البيئية تجعلها مجالًا مثيرًا للبحث والتطوير.
مع استمرار مجال معالجة اللغة الطبيعية في دفع الحدود مما هو ممكن، من المحتمل أن يلعب اعتماد تقنيات MoE دورًا حاسمًا في تمكين الجيل التالي من نماذج اللغة. من خلال الجمع بين MoE مع تطورات أخرى في هيكل النموذج وطرق التدريب وضبط الأجهزة، يمكننا النظر إلى الأمام إلى نماذج لغة أكثر قوة وتنوعًا يمكنها حقًا فهم التواصل مع البشر بطريقة طبيعية ومتوافقة.
لقد قمت بإنفاق الخمس سنوات الماضية في غمرة العالم المثير للاهتمام من تعلم الآلة والتعلم العميق. وقد أدت شغفي وخبرتي إلى المساهمة في أكثر من 50 مشروعًا للهندسة البرمجية متنوعًا، مع التركيز بشكل خاص على الذكاء الاصطناعي / تعلم الآلة. كما أدت فضولي المستمر إلى جذبي نحو معالجة اللغة الطبيعية، وهو مجال أنا حريص على استكشافه بشكل أكبر.
You may like
-


لماذا ستصبح معظم التطبيقات الحديثة غير مفيدة في عصر الذكاء الاصطناعي
-


Mistral AI تحصل على 830 مليون دولار في الديون لبناء مركز بيانات في باريس
-


Gemini 3.1 Pro يحقق مكاسب قياسية في الاستدلال
-


رمز الإنسان من عام 2020 يهزم وكلاء التشفير بالاهتزاز في اختبارات الوكالة
-
يُعلن جوجل عن Gemini 3 Pro مع أداء يكسح المعايير
-


ثورة MoE: كيف يغير التوجيه المتقدم والتخصص النماذج اللغة الكبيرة

