الذكاء الاصطناعي
صعود مزيج من الخبراء لنماذج لغوية كبيرة وفعالة

By
عيوش ميتال ميتال
في عالم معالجة اللغات الطبيعية (NLP)، كان السعي لبناء نماذج لغوية أكبر وأكثر قدرة هو القوة الدافعة وراء العديد من التطورات الحديثة. ومع ذلك، مع نمو حجم هذه النماذج، أصبحت المتطلبات الحسابية للتدريب والاستدلال مطلوبة بشكل متزايد، مما يتعارض مع حدود موارد الأجهزة المتاحة.
إليكم تقنية "مزيج الخبراء" (MoE)، التي تَعِد بتخفيف هذا العبء الحسابي مع تمكين تدريب نماذج لغوية أكبر وأقوى. سنناقش تقنية "مزيج الخبراء" أدناه، ونستكشف أصولها، وآليات عملها، وتطبيقاتها في نماذج اللغات القائمة على المحولات.
أصول خليط الخبراء
يمكن إرجاع مفهوم خليط الخبراء (MoE) إلى أوائل التسعينيات عندما استكشف الباحثون فكرة الحساب الشرطي، حيث يتم تنشيط أجزاء من الشبكة العصبية بشكل انتقائي بناءً على البيانات المدخلة. ومن الأعمال الرائدة في هذا المجال "مزيج التكيف من الخبراء المحليين"ورقة كتبها جاكوبس وآخرون. في عام 1991، والذي اقترح إطارًا للتعلم الخاضع للإشراف لمجموعة من الشبكات العصبية، كل منها متخصص في منطقة مختلفة من مساحة الإدخال.
الفكرة الأساسية وراء وزارة التربية والتعليم هي وجود شبكات "خبراء" متعددة، كل منها مسؤول عن معالجة مجموعة فرعية من بيانات الإدخال. تحدد آلية البوابات، والتي عادة ما تكون شبكة عصبية بحد ذاتها، الخبير (الخبراء) الذي يجب أن يعالج مدخلات معينة. يسمح هذا النهج للنموذج بتخصيص موارده الحسابية بشكل أكثر كفاءة من خلال تنشيط الخبراء المعنيين فقط لكل مدخل، بدلاً من توظيف قدرة النموذج الكاملة لكل مدخل.
على مر السنين، استكشف العديد من الباحثين فكرة الحساب الشرطي ووسعوها، مما أدى إلى تطورات مثل MoEs الهرمية، والتقريبات منخفضة الرتبة للحساب الشرطي، وتقنيات تقدير التدرجات من خلال الخلايا العصبية العشوائية ووظائف التنشيط ذات العتبة الصلبة.
خليط من الخبراء في المحولات
بينما فكرة وزارة التربية لقد كان موجودًا منذ عقود، إلا أن تطبيقه على نماذج اللغة القائمة على المحولات حديث نسبيًا. تتكون المحولات، التي أصبحت المعيار الفعلي لنماذج اللغة الحديثة، من طبقات متعددة، تحتوي كل منها على آلية الاهتمام الذاتي وشبكة عصبية تغذية للأمام (FFN).
يتمثل الابتكار الرئيسي في تطبيق MoE على المحولات في استبدال طبقات FFN الكثيفة بطبقات MoE المتناثرة، والتي تتكون كل منها من شبكات FFN متعددة الخبراء وآلية بوابة. تحدد آلية البوابات الخبير (الخبراء) الذي يجب أن يعالج كل رمز إدخال، مما يمكّن النموذج من تنشيط مجموعة فرعية فقط من الخبراء بشكل انتقائي لتسلسل إدخال معين.
كان أحد الأعمال المبكرة التي أظهرت إمكانات وزارة البيئة في المحولات هو ورقة "الشبكات العصبية الكبيرة للغاية: طبقة خليط الخبراء ذات البوابات المتناثرة" التي أعدها شازير وآخرون. في عام 2017. قدم هذا العمل مفهوم طبقة وزارة التربية ذات البوابات المتناثرة، والتي استخدمت آلية البوابات التي أضافت التشتت والضوضاء إلى عملية اختيار الخبراء، مما يضمن تنشيط مجموعة فرعية فقط من الخبراء لكل مدخلات.
منذ ذلك الحين، أدت العديد من الأعمال الأخرى إلى تطوير تطبيق MoE على المحولات، ومعالجة التحديات مثل عدم استقرار التدريب، وموازنة الحمل، والاستدلال الفعال. تشمل الأمثلة البارزة محول التبديل (فيدوس وآخرون، 2021)، ST-MoE (زوف وآخرون، 2022)، و بريق (دو وآخرون، 2022).
فوائد خليط الخبراء لنماذج اللغة
تتمثل الفائدة الأساسية لاستخدام MoE في نماذج اللغة في القدرة على توسيع حجم النموذج مع الحفاظ على تكلفة حسابية ثابتة نسبيًا أثناء الاستدلال. ومن خلال التنشيط الانتقائي لمجموعة فرعية فقط من الخبراء لكل رمز إدخال، يمكن لنماذج MoE تحقيق القوة التعبيرية لنماذج كثيفة أكبر بكثير بينما تتطلب حسابات أقل بكثير.
على سبيل المثال، فكر في نموذج لغة يحتوي على طبقة FFN كثيفة مكونة من 7 مليارات معلمة. وإذا استبدلنا هذه الطبقة بطبقة MoE المكونة من ثمانية خبراء، كل منهم لديه 7 مليارات معلمة، فإن إجمالي عدد المعلمات يرتفع إلى 56 مليارًا. ومع ذلك، أثناء الاستدلال، إذا قمنا بتنشيط خبيرين فقط لكل رمز، فإن التكلفة الحسابية تعادل نموذجًا كثيفًا مكونًا من 14 مليار معلمة، حيث أنه يحسب اثنين من مضاعفات مصفوفة المعلمات 7 مليار.
تعتبر هذه الكفاءة الحسابية أثناء الاستدلال ذات قيمة خاصة في سيناريوهات النشر حيث تكون الموارد محدودة، مثل الأجهزة المحمولة أو بيئات الحوسبة الطرفية. بالإضافة إلى ذلك، يمكن أن يؤدي انخفاض المتطلبات الحسابية أثناء التدريب إلى توفير كبير في الطاقة وانخفاض البصمة الكربونية، بما يتماشى مع التركيز المتزايد على ممارسات الذكاء الاصطناعي المستدامة.
التحديات والاعتبارات
في حين أن نماذج وزارة التربية والتعليم تقدم فوائد مقنعة، فإن اعتمادها ونشرها يأتي أيضًا مع العديد من التحديات والاعتبارات:
- عدم استقرار التدريب: من المعروف أن نماذج وزارة التربية والتعليم أكثر عرضة لعدم الاستقرار التدريبي مقارنة بنظيراتها الكثيفة. تنشأ هذه المشكلة من الطبيعة المتناثرة والمشروطة لتنشيط الخبراء، والتي يمكن أن تؤدي إلى تحديات في انتشار التدرج والتقارب. تم اقتراح تقنيات مثل جهاز التوجيه z-loss (Zoph et al., 2022) للتخفيف من حالات عدم الاستقرار هذه، ولكن لا تزال هناك حاجة إلى مزيد من البحث.
- الضبط الدقيق والتجهيز الزائد: تميل نماذج MoE إلى التجاوز بسهولة أكبر أثناء الضبط الدقيق، خاصة عندما تحتوي المهمة النهائية على مجموعة بيانات صغيرة نسبيًا. ويعزى هذا السلوك إلى زيادة قدرة نماذج وزارة التربية والتعليم وتناثرها، مما قد يؤدي إلى الإفراط في التخصص في بيانات التدريب. هناك حاجة إلى استراتيجيات التنظيم والضبط الدقيقة للتخفيف من هذه المشكلة.
- متطلبات الذاكرة: في حين أن نماذج MoE يمكنها تقليل التكاليف الحسابية أثناء الاستدلال، إلا أنها غالبًا ما تتطلب متطلبات ذاكرة أعلى مقارنة بالنماذج الكثيفة ذات الحجم المماثل. وذلك لأن جميع الأوزان الخبيرة تحتاج إلى تحميلها في الذاكرة، على الرغم من تنشيط مجموعة فرعية فقط لكل إدخال. يمكن أن تحد قيود الذاكرة من قابلية التوسع في نماذج MoE على الأجهزة المحدودة الموارد.
- تحميل موازنة: لتحقيق الكفاءة الحسابية المثلى، من الضروري موازنة العبء بين الخبراء، مما يضمن عدم تحميل أي خبير فوق طاقته بينما يظل الآخرون غير مستغلين بشكل كافٍ. يتم تحقيق موازنة التحميل هذه عادةً من خلال الخسائر الإضافية أثناء التدريب والضبط الدقيق لعامل السعة، الذي يحدد الحد الأقصى لعدد الرموز المميزة التي يمكن تخصيصها لكل خبير.
- الاتصالات العامة: في سيناريوهات التدريب والاستدلال الموزعة، يمكن لنماذج وزارة التربية تقديم حمل إضافي للاتصالات بسبب الحاجة إلى تبادل معلومات التنشيط والتدرج بين الخبراء المقيمين على أجهزة أو مسرعات مختلفة. تعد استراتيجيات الاتصال الفعالة وتصميم النماذج المتوافقة مع الأجهزة أمرًا ضروريًا للتخفيف من هذه النفقات العامة.
على الرغم من هذه التحديات، فإن الفوائد المحتملة لنماذج وزارة التربية والتعليم في تمكين نماذج لغوية أكبر وأكثر قدرة حفزت جهود بحثية كبيرة لمعالجة هذه القضايا والتخفيف من حدتها.
مثال: Mixtral 8x7B وGLaM
ولتوضيح التطبيق العملي لـMoE في نماذج اللغة، دعونا نفكر في مثالين بارزين: Mixtral 8x7B وGLaM.
Mixtral 8x7B هو أحد إصدارات وزارة التربية والتعليم من نموذج لغة ميسترال، تم تطويره بواسطة أنثروبيك. ويتكون من ثمانية خبراء، كل منهم لديه 7 مليارات معلمة، مما يؤدي إلى إجمالي 56 مليار معلمة. ومع ذلك، أثناء الاستدلال، يتم تنشيط خبيرين فقط لكل رمز مميز، مما يقلل بشكل فعال من التكلفة الحسابية إلى تكلفة نموذج كثيف المعلمات يبلغ 14 مليارًا.
لقد أظهر Mixtral 8x7B أداءً رائعًا، حيث تفوق على نموذج Llama الذي يحتوي على 70 مليار معلمة بينما يوفر أوقات استدلال أسرع بكثير. تم أيضًا إصدار نسخة مضبوطة للتعليمات من Mixtral 8x7B، تسمى Mixtral-8x7B-Instruct-v0.1، مما يعزز قدراته في اتباع تعليمات اللغة الطبيعية.
مثال آخر جدير بالملاحظة هو GLaM (نموذج لغة Google)، وهو نموذج واسع النطاق لوزارة التربية والتعليم تم تطويره بواسطة Google. تستخدم GLaM بنية محولات لوحدة فك التشفير فقط وتم تدريبها على مجموعة بيانات ضخمة تبلغ 1.6 تريليون رمز مميز. يحقق النموذج أداءً مثيرًا للإعجاب في تقييمات اللقطات القليلة والطلقة الواحدة، مما يتوافق مع جودة GPT-3 مع استخدام ثلث الطاقة المطلوبة فقط لتدريب GPT-3.
يُعزى نجاح GLaM إلى كفاءة بنية MoE، التي أتاحت تدريب نموذج بعدد كبير من المعلمات مع الحفاظ على متطلبات حسابية معقولة. كما أظهر النموذج قدرة نماذج MoE على أن تكون أكثر كفاءة في استخدام الطاقة واستدامة بيئيًا مقارنةً بنظيراتها كثيفة البيانات.
العمارة Grok-1
جروك-1 نموذج MoE قائم على المحولات، يتميز بهندسة فريدة مصممة لتحقيق أقصى قدر من الكفاءة والأداء. لنستعرض المواصفات الرئيسية:
- المعاملات: مع عدد مذهل يبلغ 314 مليار معلمة، يعد Grok-1 أكبر ماجستير مفتوح حتى الآن. ومع ذلك، وبفضل بنية MoE، فإن 25% فقط من الأوزان (حوالي 86 مليار معلمة) نشطة في أي وقت، مما يعزز قدرات المعالجة.
- معمار: يستخدم Grok-1 بنية مزيج من 8 خبراء، حيث تتم معالجة كل رمز بواسطة خبيرين أثناء الاستدلال.
- طبقات: يتكون النموذج من 64 طبقة محولات، تشتمل كل منها على اهتمام متعدد الرؤوس وكتل كثيفة.
- Tokenization: يستخدم Grok-1 رمز SentencePiece المميز بحجم مفردات يبلغ 131,072 رمزًا.
- التضمين والتشفير الموضعي: يتميز النموذج بتضمينات ذات 6,144 بُعدًا ويستخدم تضمينات موضعية دوارة، مما يتيح تفسيرًا أكثر ديناميكية للبيانات مقارنةً بالترميز الموضعي الثابت التقليدي.
- انتباه: يستخدم Grok-1 48 رأس انتباه للاستعلامات و8 رؤوس انتباه للمفاتيح والقيم، كل منها بحجم 128.
- طول السياق: يمكن للنموذج معالجة تسلسلات يصل طولها إلى 8,192 رمزًا مميزًا، باستخدام دقة bfloat16 لإجراء عمليات حسابية فعالة.
تفاصيل الأداء والتنفيذ
أظهر Grok-1 أداءً مثيرًا للإعجاب، حيث تفوق على LLaMa 2 70B وMixtral 8x7B بدرجة MMLU بلغت 73%، مما أظهر كفاءته ودقته عبر الاختبارات المختلفة.
مع ذلك، تجدر الإشارة إلى أن Grok-1 يتطلب موارد كبيرة من وحدة معالجة الرسومات نظرًا لحجمه الهائل. يركز التنفيذ الحالي في الإصدار مفتوح المصدر على التحقق من صحة النموذج، ويستخدم تطبيقًا غير فعال لطبقة MoE لتجنب الحاجة إلى نوى مخصصة.
ومع ذلك، يدعم النموذج تقسيم التنشيط وتكميم 8 بت، مما يمكنه تحسين الأداء وتقليل متطلبات الذاكرة.
وفي خطوة لافتة للنظر، أصدرت شركة xAI Grok-1 بموجب ترخيص Apache 2.0، مما يجعل أوزانه وبنيته في متناول المجتمع العالمي للاستخدام والمساهمات.
يتضمن الإصدار مفتوح المصدر مستودع تعليمات برمجية لمثال JAX يوضح كيفية تحميل نموذج Grok-1 وتشغيله. يمكن للمستخدمين تنزيل أوزان نقاط التفتيش باستخدام عميل تورنت أو مباشرة من خلال HuggingFace Hub، مما يسهل الوصول بسهولة إلى هذا النموذج الرائد.
مستقبل خليط الخبراء في نماذج اللغة
ومع استمرار نمو الطلب على نماذج لغوية أكبر وأكثر قدرة، فمن المتوقع أن يكتسب اعتماد تقنيات وزارة التربية المزيد من الزخم. وتركز الجهود البحثية الجارية على معالجة التحديات المتبقية، مثل تحسين استقرار التدريب، وتخفيف التجهيز الزائد أثناء الضبط الدقيق، وتحسين متطلبات الذاكرة والاتصالات.
أحد الاتجاهات الواعدة هو استكشاف البنى الهرمية لوزارة التربية والتعليم، حيث يتكون كل خبير من عدة خبراء فرعيين. يمكن أن يتيح هذا النهج قدرًا أكبر من قابلية التوسع والكفاءة الحسابية مع الحفاظ على القوة التعبيرية للنماذج الكبيرة.
بالإضافة إلى ذلك، يعد تطوير أنظمة الأجهزة والبرامج الأمثل لنماذج وزارة التربية والتعليم مجالًا نشطًا للبحث. يمكن للمسرعات المتخصصة وأطر التدريب الموزعة المصممة للتعامل بكفاءة مع أنماط الحساب المتفرقة والمشروطة لنماذج وزارة التربية والتعليم أن تزيد من تعزيز أدائها وقابلية التوسع.
علاوة على ذلك، فإن دمج تقنيات وزارة التربية مع التطورات الأخرى في نمذجة اللغة، مثل آليات الاهتمام المتناثر، واستراتيجيات الترميز الفعالة، والتمثيلات متعددة الوسائط، يمكن أن يؤدي إلى نماذج لغوية أكثر قوة وتنوعًا قادرة على معالجة مجموعة واسعة من المهام.
الخاتمة
لقد برزت تقنية خليط الخبراء كأداة قوية في البحث عن نماذج لغوية أكبر وأكثر قدرة. ومن خلال تفعيل الخبراء بشكل انتقائي بناءً على البيانات المدخلة، تقدم نماذج وزارة التربية والتعليم حلاً واعداً للتحديات الحسابية المرتبطة بتوسيع نطاق النماذج الكثيفة. وفي حين لا تزال هناك تحديات يتعين التغلب عليها، مثل عدم استقرار التدريب، والتجهيز الزائد، ومتطلبات الذاكرة، فإن الفوائد المحتملة لنماذج وزارة التعليم من حيث الكفاءة الحسابية، وقابلية التوسع، والاستدامة البيئية تجعلها مجالًا مثيرًا للبحث والتطوير.
مع استمرار مجال معالجة اللغة الطبيعية في دفع حدود ما هو ممكن، فمن المرجح أن يلعب اعتماد تقنيات وزارة التربية والتعليم دورًا حاسمًا في تمكين الجيل القادم من نماذج اللغة. ومن خلال الجمع بين MoE والتطورات الأخرى في بنية النماذج وتقنيات التدريب وتحسين الأجهزة، يمكننا أن نتطلع إلى نماذج لغوية أكثر قوة وتنوعًا يمكنها حقًا فهم البشر والتواصل معهم بطريقة طبيعية وسلسة.
لقد أمضيت السنوات الخمس الماضية منغمسًا في عالم رائع من التعلم الآلي والتعلم العميق. قادني شغفي وخبرتي إلى المساهمة في أكثر من 50 مشروعًا متنوعًا لهندسة البرمجيات ، مع التركيز بشكل خاص على الذكاء الاصطناعي / التعلم الآلي. جذبني فضولي المستمر أيضًا نحو معالجة اللغة الطبيعية ، وهو مجال أتوق لاستكشافه بشكل أكبر.
قد يعجبك
-
نهاية عصر التوسع: لماذا تُعدّ الاختراقات الخوارزمية أكثر أهمية من حجم النموذج
-
الاستعداد للإعلان في نماذج اللغات الكبيرة
-
نماذج اللغة تغير إجاباتها اعتمادًا على كيفية تحدثك
-
نماذج اللغة المخصصة سهلة الصنع - وأصعب اكتشافها
-
مستقبل الإعلان بعد ثورة الذكاء الاصطناعي في حركة المرور
-
كيفية جعل ChatGPT يتحدث بشكل طبيعي