الذكاء الاصطناعي
GLM-130B: نموذج مفتوح ثنائي اللغة مسبق التدريب

إطار GLM-130B هو نموذج لغة كبير مسبق التدريب ثنائي اللغة يحتوي على أكثر من 130 مليار معلمة قادر على توليد مخرجات نصية باللغتين الإنجليزية والصينية. إطار GLM-130B هو محاولة لفتح مصدر نموذج لغة بمقياس يزيد عن 100 مليار معلمة، ومناقشة كيف يمكن للإطارات من هذا الحجم الكبير أن يتم تدريبها مسبقًا لأن التدريب على نموذج من هذا الحجم غالبًا ما يصاحبه مشاكل مثل الانحراف وتنكس الخسارة.
في هذا المقال، سنناقش إطار GLM-130B، الذي يحاول وضع طريقة لتدريب نموذج لغة كبير بمئات المليارات من المعلمات بشكل فعال. سنغوص بشكل أعمق في عمل وهيكل إطار GLM-130B جنبًا إلى جنب مع عملية التدريب واختيارات التصميم التي تساعد ليس فقط في زيادة الكفاءة ولكن أيضًا الاستقرار. النتائج الأولية التي أجريت لاختبار عمل إطار GLM-130B على مجموعة واسعة من المعايير الإنجليزية أظهرت أن نموذج GLM-130B يتفوق على إطار GPT-3 الحالي بفارق كبير. لذا دعونا نبدأ ونتعرف على كيفية قيام إطار GLM-130B بتسليم نتائج متسقة ودقيقة ومستقرة.
مدخل إلى إطار GLM-130B
النماذج اللغوية الكبيرة القادرة على العمل في إعدادات القليل من التصوير والصورة الصفراوية، خاصة تلك التي تحتوي على أكثر من 100 مليار معلمة، توفر قوانين مقياس جذابة، ومن بينها إطار GPT-3 هو واحد من أفضل الأداء الإطارات التي توفر تحسينات أداء ملحوظة على سلفه، إطار BERT. ومع ذلك، على الرغم من شعبية إطار GPT-3 وتطبيقاته الواسعة، فإن عملية التدريب، وفي بعض الطرق، إطار GPT-3 في حد ذاته لم يكن شفافًا للجمهور. بالإضافة إلى ذلك، من الناحية التجريبية، تعداد جميع التصاميم الممكنة لتدريب LLMs يزيد عن 100 مليار معلمة هو غير مجدي من الناحية الحسابية مما يجعله أكثر أهمية لتحقيق طريقة مسبقة التدريب لإطارات LLM على نطاق كبير.
النقطة المذكورة أعلاه تجعل مشاركة عمل وتدريب إطارات LLM على نطاق كبير مثل GPT-3 أمرًا بالغ الأهمية، ومع مراعاة المخاوف الأخلاقية، فإن إطار GLM-130B هو محاولة لتدريب نموذج LLM دقيق ومفتوح المصدر يزيد عن 100 مليار معلمة. خلال محاولة الفريق التطويرية لGLM-130B، لاحظوا أن التدريب المسبق لنموذج LLM على نطاق كبير يرافقه غالبًا مجموعة واسعة من التحديات الفنية والتقنية من حيث استقرار التدريب والكفاءة والاتساق.
لمزيد من التحديد، GLM-130B هو إطار كثيف ثنائي الاتجاه وثنائي اللغة يحتوي على أكثر من 130 مليار معلمة تم تدريبه على 400 مليار رمز على مجموعة من 96 عقدة GPU NVIDIA DGX-A100 خلال فترة تزيد قليلًا على شهرين. بالإضافة إلى ذلك، بدلاً من اختيار هيكل GPT-STYLE، يستخدم إطار GLM-130B خوارزمية GLM أو النموذج اللغوي العام، وهو نموذج لغة قائم على المحول الذي يهدف إلى الاستفادة من أهداف الحشو التلقائي لملء الفراغات، وميزة الانتباه ثنائي الاتجاه.

المفاهيم الهندسية والتنموية المشاركة في إطار GLM-130B تتفوق على hầu جميع إطارات LLM على نطاق كبير، بما في ذلك GPT-3 وPaLM 540B، الذي يحتوي على أكثر من 500 مليار معلمة، في العديد من الحالات وعبر مجموعة واسعة من المعايير. النتائج التالية تقارن أداء إطار GLM-130B مع نماذج تحتوي على أكثر من 100 مليار معلمة، ويمكن رؤية أن إطار GLM-130B يمتلك سمات التوليد الأقل سمية والانحياز مقارنة بنظيره.

أخيرًا، تم تصميم GLM-130B لتمكين المطورين من إجراء دراسات على إطارات تحتوي على أكثر من 100 مليار معلمة، وهناك طريقتان ي实现 إطار GLM-130B ذلك. أولاً، بدلاً من استخدام أكثر من 175 مليار معلمة مثل BLOOM وOPT، يستخدم إطار GLM-130B 130 مليار معلمة، لأن حجم النموذج يدعم التداخل حتى على خادم A100 وحيد. ثانيًا، متطلبات GPU لتشغيل إطار GLM-130B أقل مقارنة بإطارات LLM الأخرى، ويحقق إطار GLM-130B ذلك من خلال كمية الأصل إلى دقة INT4. كمية INT4 المستخدمة في إطار GLM-130B تحسن الأداء مع الحفاظ على انخفاض التدهور في الأداء.
GLM-130B : الهيكل
الانحياز الاستدلالي لنموذج التعلم الآلي يُوصف بهيكله، ولا يأتي على أنه مفاجئ عندما لا يستطيع المطورون استكشاف تصاميم هيكلية مختلفة لنموذج اللغة الكبير نظرًا للقابلية الحسابية والمقبولة. مع ذلك، دعونا نلقي نظرة على هيكل GLM-130B.
إطارات LLM على نطاق كبير مثل PaLM وGPT وأكثرها بنيت على هيكل GPT-STYLE التقليدية للنمذجة اللغوية التلقائية. من ناحية أخرى، يبحث إطار GLM-130B في إمكانية استخدام نموذج لغة عام ثنائي الاتجاه أو GLM، وهو نموذج لغة قائم على المحول يهدف إلى الاستفادة من أهداف الحشو التلقائي لملء الفراغات، وميزة الانتباه ثنائي الاتجاه.
الانتباه ثنائي الاتجاه لنموذج اللغة العام على السياق غير المخدش أو غير الخاضع للتنقيح هو ما يفرق بين إطار GLM-130B ونهج GPT-STYLE الذي يستخدم نهجًا واحد الاتجاه. بالإضافة إلى ذلك، لدعم كل من توليد وفهム البيانات، يدمج هيكل GLM استراتيجيتين لتخريب، كل واحدة منهما تمثلها رمز масك فريد.
- [MASK] : [MASK] هي استراتيجية تخريب تستخدم فراغات قصيرة في الجمل، وأطوالها تصل إلى نسبة معينة من المدخلات.
- [gMASK] : [gMASK] هي استراتيجية تخريب تستخدم فراغات عشوائية الطول نحو نهاية الجملة مع السياقات السابقة.
النهج المتبع من قبل هيكل GLM هو ما يسمح للإطار بتسجيل درجة دقة تزيد عن 80% في اختبار لغة LAMBADA في إعداد الصورة الصفراوية، ويتفوق على كل من PaLM 540B وإطار GPT-3.

تطبيع الطبقة
أحد التحديات الكبيرة التي يواجهها المطورون عند تدريب إطار LLM هو عدم استقرار التدريب، ويمكن أن يساعد استخدام تطبيع طبقة مناسب في تدريب LLMs. يستخدم إطار GLM-130B نهج Post-LN بفضل أدائه على المهام الجانبية.
FFNs وتشفير الموضع
شبكات العصبية التغذوية والتشفير الموضعي هما نهجان يتبناهما إطار GLM-130B لتقديم أداء جانبي عالي والاستقرار في التدريب.
إعداد التدريب المسبق
أهداف التدريب المسبق لإطار GLM-130B لا تشمل فقط التعلم المتعدد المهام لعدد صغير من الرموز، ولكنها تشمل أيضًا التعلم الذاتي لملء الفراغات التلقائي للنموذج العام، مع التوقع أن هذا النهج سيساعد إطار GLM-130B في المهام الجانبية. مع ذلك، يبدو إعداد التدريب المسبق لإطار GLM-130B كما يلي.
ملء الفراغات الذاتي
كما ذكرنا بالفعل، يستخدم إطار GLM-130B استراتيجيتين لتخريب هما [MASK] و[gMASK]، وتطبق واحدة من هذه الاستراتيجيات بشكل مستقل على كل تسلسل تدريبي فردي، واحدة تلو الأخرى. لملء الفراغات، تستخدم استراتيجية [MASK] فراغات متتالية في 30% من التسلسل التدريبي، حيث تصل أطوال الفراغات إلى 15% من المدخلات، وتتبع توزيع بواسون. بالنسبة للـ 70% المتبقية من التسلسل، يتم الاحتفاظ بسابقة كل تسلسل كسياق، وتساعد استراتيجية [gMASK] في مسح الباقي، وطول المسح يتم اختباره باستخدام التوزيع الموحد.
تعليم التوجيهات المتعددة
تم الإشارة إلى أن اتباع نهج التعلم المتعدد للمهام خلال التدريب المسبق يمكن أن يؤدي إلى نتائج أفضل من التعديل الدقيق لتحسين نقل المهام في إعداد الصورة الصفراوية. لذلك، يقترح إطار GLM-130B استخدام مجموعة من مجموعات بيانات التوجيه التي تشمل توليد اللغة والفهم والاستخراج المعلوماتي خلال التدريب المسبق.
عند المقارنة مع نهج التعلم المتعدد لتحويل المهام الذي يستخدم التعديل الدقيق للمهام، ي Represents نهج تعليم التوجيهات المتعددة الذي يتبعه إطار GLM-130B فقط 5% من الرموز الإجمالية، ويتم تعيينه خلال مرحلة التدريب المسبق في محاولة لمنع تلوث قدرات إطار LLM الأخرى أو ما يسمى التوليد الحر غير المشروط.
استراتيجية التوازي ثلاثية الأبعاد
هناك نهجان حقيقيان لتدريب نماذج كبيرة الحجم تحتوي على مليارات المعلمات، توازي النموذج التنسوري وتوازي البيانات. في محاولة لتقليل استخدام GPU، ومعالجة متطلبات GPU الهائلة، يطبق إطار GLM-130B استراتيجية توازي ثلاثية الأبعاد تدمج توازي النموذج الأنابيبي مع استراتيجيات توازي النموذج التنسوري وتوازي البيانات.
GLM-130B : استقرار التدريب
استقرار التدريب هو عاملاً مهمًا عند تحديد جودة نموذج LLM، ويتأثر استقرار التدريب بشكل كبير اعتمادًا على عدد الرموز التي يمر بها. بالإضافة إلى ذلك، من المهم تحقيق توازن بين الاستقرار والكفاءة فيما يتعلق بالتنسيقات النقطية مع القيود الحسابية. على سبيل المثال، التنسيقات النقطية منخفضة الدقة تزيد من كفاءة الحوسبة، ولكنها غالبًا ما تؤدي إلى انهيار التدريب نظرًا لانخفاضها للتأثر بالأخطاء.
الدوقة المختلطة
في محاولة لتعزيز دقة التدريب وتقليل استخدام الذاكرة، يتبع إطار GLM-130B الممارسة الشائعة لاستخدام الدقة المختلطة، أي FP16 للامام والخلف، وFP32 للأوزان الرئيسية وحالة المحسّن. مثل إطارات LLM الشهيرة الأخرى، بما في ذلك BLOOM-176B وOPT-175B، يواجه مرحلة التدريب لإطار GLM-130B باستخدام استراتيجية الدقة المختلطة انخفاضات خسارة متكررة، وتزداد تكرار انخفاضات الخسارة مع استمرار نموذج التدريب.

أولاً، يمكن أن يكون مقياس القيمة للفرع الرئيسي للمحول واسعًا في الطبقات الأعمق عند استخدام Pre-LN، وفي إطار GLM-130B، يتم معالجته باستخدام Pre-LN من نوع DeepNorm، الذي يضمن أن يبقى مقياس القيمة محددًا في جميع الأوقات. ثانيًا، مع زيادة حجم النموذج، ينمو تصنيف الانتباه إلى نقطة تتجاوز نطاق FP16.
تقليل تدرج طبقة التضمين أو EGS
المطورون العاملون على إطار GLM-130B لاحظوا أن معيار التدرج يمكن أن يتصرف كمؤشر إعلامي لانهيار التدريب، وانهيار التدريب يأتي عادة بعد ارتفاع في معيار التدرج. سبب هذه الانخفاضات هو التدرجات غير العادية لطبقة التضمين، ولاحظ المطورون أن معيار التدرج لطبقات التضمين أكبر بمقدار عدة أضعاف مقارنة بمعيار التدرج للطبقات الأخرى، ويتميل أيضًا إلى التقلبات بشكل كبير خلال التدريب المبكر للإطار.

GLM-130B : النتائج والأداء
为了 تقييم أداء GLM-130B لمهام اللغة الإنجليزية، يتم تطبيق نفس الإعدادات التي يتبعها إطارات LLM الشائعة، بما في ذلك PaLM وGPT-3، و由于 أن GLM-130B هو إطار ثنائي اللغة، يتم أيضًا تقييمه عبر مجموعة من المعايير الصينية. سوف يتم قياس أداء إطار GLM-130B عبر مجموعة من المعايير، بما في ذلك نمذجة اللغة، وMMLU أو فهم اللغة المتعددة المهام الكبير، وBIG-Bench أو معيار ما وراء لعبة التقليد، وCLUE أو تقييم فهم اللغة الصينية.لذلك دعونا نبدأ.
نمذجة اللغة
اختبار نمذجة اللغة على إطار GLM-130B يتم عبر مجموعتين من البيانات: LAMBADA وPile.
يتم استخدام مجموعة بيانات LAMBADA لاختبار قدرات نمذجة الكلمة الأخيرة لنموذج LLM، ويتحقق إطار GLM-130B من درجة دقة 80.2 في إعداد ثنائي اللغة، ويتجاوز بذلك سجل جديد في مجموعة بيانات LAMBADA.
من ناحية أخرى، Pile هي مجموعة اختبارات لنموذج اللغة. بمتوسط الدرجات، مقارنةً بـ GPT-3 وJurassic-1، يُظهر إطار GLM-130B أفضل أداء على 18 مجموعة اختبار مشتركة من حيثBPBs المرجحة. النتائج تظهر القدرات اللغوية القوية لإطار GLM-130B، والنتائج مدرجة في الجدول التالي.

MMLU أو فهم اللغة المتعددة المهام الكبير
MMLU أو فهم اللغة المتعددة المهام الكبير هو معيار متنوع يحتوي على أكثر من 50 مهمة للاستجابة المتعددة للأسئلة المتعلقة بالذكاء والknowledge البشري، تتراوح من المستوى المدرسي إلى المستوى الخبير، وتم إصداره بعد爬laration مجموعة اختبار Pile، وبالتالي، يخدم كمعيار اختبار مثالي لتقييم قدرات التعلم القليل لنموذج LLM.

كما يمكن رؤية ذلك، في إعدادات القليل من التصوير (5-التصوير)، يصل أداء إطار GLM-130B إلى أداء نموذج GPT-3 بعد رؤية ما يقرب من 300 مليار رمز. يستمر الأداء في التحسن مع استمرار التدريب، وعند انتهاء التدريب، يتحقق الإطار من درجة دقة 44.8 بعد رؤية ما مجموعه 400 مليار رمز.
BIG-Bench أو معيار ما وراء لعبة التقليد
BIG-Bench أو معيار ما وراء لعبة التقليد يختبر مهارات نموذج على المعرفة والاستدلال والمنطق العام. كما هو موضح في الشكل التالي، في إعداد الصورة الصفراوية، يتفوق إطار GLM-130B على كل من PaLM 540B وGPT-3 175B، وربما يعود ذلك إلى MIP والانتباه ثنائي الاتجاه لتعزيز أداء GLM-130B في المهام غير المرئية في إعداد الصورة الصفراوية. بالإضافة إلى ذلك، مع زيادة عدد التصويرات، يتحسن أداء إطار GLM-130B، ويتفوق بشكل مستمر على إطار GPT-3.

CLUE أو تقييم فهم اللغة الصينية
يتم تقييم أداء GLM-130B في الصورة الصفراوية للغة الصينية على مهام فهم اللغة الصينية المعروفة، بما في ذلك CLUE وFewCLUE، ويتوازي ذلك مع نموذج ERNIE Titan 3.0 البالغ 260 مليار معلمة، وهو أكبر نموذج لغة صينية موجود. كما يمكن رؤية ذلك، يتفوق إطار GLM-130B بشكل مستمر على نموذج ERNIE Titan 3.0 البالغ 260 مليار معلمة عبر 12 مهمة مختلفة، ويتفوق بنسبة 260% تقريبًا على نموذج ERNIE في مجموعتين من مجموعات المRC المجردة.

الخلاصة
في هذا المقال، ناقشنا GLM-130B، وهو نموذج لغة كبير مسبق التدريب ثنائي اللغة يهدف إلى تعزيز البحث الشامل في نماذج اللغة الكبيرة. الهيكل والهندسة والتحديات التقنية تهدف إلى تقديم رؤية أفضل للمجتمع الاصطناعي حول هيكل إطارات LLM، وكفاءة التدريب والاستقرار، وأهداف التدريب المسبق، والتداخل الميسور.










