الذكاء الاصطناعي
MoRA: تحديث ذو رتبة عالية لتعديل دقيق كفء للمعاملات
نظراً لاداءه القوي وتطبيقه الواسع بالمقارنة مع الطرق الأخرى، فإن LoRA أو التكيف ذو الرتبة المنخفضة هو واحد من أكثر طرق تعديل دقيق كفء للمعاملات (PEFT) شعبية لتعديل نموذج لغة كبير. يستخدم إطار LoRA两个 مصفوفة منخفضة الرتبة لتحليل وتقريب الأوزان المحدثة في التعديل الدقيق الكامل (FFT) ، ويعدل إطار LoRA المعاملات القابلة للتدريب وفقاً لذلك عن طريق تعديل رتبة المصفوفات. الفائدة الرئيسية لتنفيذ هذه العملية هي أن إطار LoRA يمكن أن يدمج هذه المصفوفات دون تأخير الاستدلال بعد التعديل الدقيق. بالإضافة إلى ذلك، على الرغم من أن النماذج اللغوية الكبيرة الحديثة توفر أداءً ملحوظًا في مهام التعلم في السياق، لا تزال بعض السيناريوهات تتطلب تعديلاً دقيقاً ويمكن تصنيفها على نطاق واسع إلى ثلاثة أنواع. النوع الأول، وهو تعديل الإرشادات، يهدف إلى جعل نماذج اللغة الكبيرة (LLMs) أكثر انسجاماً مع المهام ونوايا المستخدم دون تعزيز المعرفة والقدرات على LLMs ، وهو نهج يبسط عملية التعامل مع مهام متعددة وإرشادات معقدة. النوع الثاني يتضمن مهام التفكير المعقدة مثل حل المشكلات الرياضية. وأخيراً، النوع الثالث هو التعديل المسبق المستمر، وهو نهج يحاول تحسين القدرات الخاصة بالمجال للنماذج اللغوية الكبيرة.
في هذه المقالة، سنناقش ما إذا كان تحديث الرتبة المنخفضة يؤثر على أداء إطار LoRA حيث لوحظ أن آليات تحديث الرتبة المنخفضة قد تؤثر على قدرة نموذج اللغة الكبير على التعلم وتذكر المعرفة الجديدة. بناءً على ذلك، في هذه المقالة سنناقش MoRA ، وهو طريقة جديدة تحقق تحديثًا ذا رتبة عالية مع الحفاظ على نفس عدد المعاملات القابلة للتدريب، وذلك باستخدام مصفوفة مربعة. لتحقيق ذلك، يقلل إطار MoRA من بعد المدخل ويزيد من بعد المخرج للمصفوفة المربعة عن طريق إدخال المشغلين غير المعلمين المقابلة. بالإضافة إلى ذلك، يضمن هؤلاء المشغلون أن الوزن يمكن دمجه مرة أخرى في LLMs ، مما يجعل إطار MoRA قابلاً للتطبيق مثل LoRA.
تهدف هذه المقالة إلى تغطية إطار MoRA بالعمق، ونستكشف آليته و منهجيته وهندسته المعمارية جنباً إلى جنب مع مقارنته بالطرق الحالية. لذا دعونا نبدأ.
MoRA: تحديث ذو رتبة عالية لتعديل دقيق كفء للمعاملات
随着 زيادة حجم ونطاق نماذج اللغة، يصبح تعديل دقيق كفء للمعاملات (PEFT) واحدًا من أكثر الطرق شعبية وفعالية لتعديل نماذج اللغة الكبيرة (LLMs) لتحقيق مهام محددة. بالمقارنة مع التعديل الدقيق الكامل (FFT) الذي يحدث جميع المعاملات، يعدل PEFT فقط جزءًا من المعاملات الإجمالية، حيث يمكن أن يحقق أداءً مشابهًا لتعديل دقيق كامل على بعض المهام عن طريق تحديث أقل من 1٪ من المعاملات الإجمالية، مما يقلل من متطلبات الذاكرة للمحسّن بشكل كبير ويسهل تخزين ونشر النماذج. بالإضافة إلى ذلك، من بين جميع طرق PEFT الحالية، LoRA هو الأكثر شعبية اليوم، خاصةً بالنسبة لنماذج اللغة الكبيرة. أحد الأسباب الرئيسية لتحقيق طرق LoRA أداءً أفضل مقارنة بطرق PEFT مثل التكيف أو تعديل الإشارات هو أن LoRA يستخدم مصفوفات منخفضة الرتبة لتحديث المعاملات، حيث يتحكم الإطار في دمج هذه المصفوفات في معاملات النموذج الأصلية دون إضافة إلى المتطلبات الحسابية أثناء الاستدلال. على الرغم من وجود العديد من الطرق التي تحاول تحسين LoRA لنماذج اللغة الكبيرة، فإن معظم هذه النماذج تعتمد على GLUE لتأكيد كفاءتها، إما بالتطلب معاملات قابلة للتدريب قليلة أو بالحصول على أداء أفضل.
… (rest of the translation remains the same, following the exact structure and format as the original)












