الذكاء الاصطناعي

LoRa وQLoRA وQA-LoRA: القدرة على التكيف الفعال في نماذج اللغات الكبيرة من خلال تحليل المصفوفة منخفضة الرتبة

تم النشر 24 أكتوبر 2023

عيوش ميتال ميتال

LoRA: التكيف منخفض الرتبة لنماذج اللغات الكبيرة

لقد نحتت نماذج اللغات الكبيرة (LLMs) مكانة فريدة من نوعها، حيث قدمت قدرات لا مثيل لها في فهم وإنشاء نص يشبه الإنسان. يمكن إرجاع قوة LLMs إلى حجمها الهائل، وغالبًا ما تحتوي على مليارات من المعلمات. في حين أن هذا النطاق الضخم يغذي أداءهم، فإنه يولد في الوقت نفسه تحديات، خاصة عندما يتعلق الأمر بتكييف النموذج لمهام أو مجالات محددة. تمثل المسارات التقليدية لإدارة ماجستير إدارة الأعمال، مثل ضبط جميع المعلمات، عبئًا حسابيًا وماليًا فادحًا، مما يشكل عائقًا كبيرًا أمام اعتمادها على نطاق واسع في تطبيقات العالم الحقيقي.

في باقة المادة السابقة، لقد بحثنا في تحسين نماذج اللغات الكبيرة (LLMs) لتكييفها مع متطلبات محددة. لقد استكشفنا العديد من منهجيات الضبط الدقيق مثل الضبط الدقيق القائم على التعليمات، والضبط الدقيق للمهمة الواحدة، والضبط الدقيق لكفاءة المعلمات (PEFT)، ولكل منها نهجها الفريد نحو تحسين ماجستير إدارة الأعمال (LLM) للمهام المتميزة. كان محور المناقشة هو بنية المحولات، والعمود الفقري لماجستير القانون، والتحديات التي تطرحها المتطلبات الحسابية والذاكرة للتعامل مع عدد كبير من المعلمات أثناء الضبط الدقيق.

https://huggingface.co/blog/hf-bitsandbytes-integration

تمثل الصورة أعلاه مقياس نماذج اللغات الكبيرة المختلفة، مرتبة حسب عدد المعلمات الخاصة بها. أبرزها: كف، نخلة, يزدهر، وما إلى ذلك.

اعتبارًا من هذا العام، كانت هناك تطورات أدت إلى نماذج أكبر بكثير. ومع ذلك، فإن ضبط مثل هذه النماذج الضخمة مفتوحة المصدر على الأنظمة القياسية غير ممكن بدون تقنيات التحسين المتخصصة.

أدخل التكيف ذو الرتبة المنخفضة (LoRA) الذي قدمته Microsoft في هذا ورقة، بهدف التخفيف من هذه التحديات وجعل LLMs أكثر سهولة وقدرة على التكيف.

يكمن جوهر LoRA في نهجها تجاه التكيف مع النموذج دون الخوض في تعقيدات إعادة تدريب النموذج بأكمله. على عكس الضبط الدقيق التقليدي، حيث تكون كل معلمة عرضة للتغيير، تتبنى LoRA مسارًا أكثر ذكاءً. يقوم بتجميد أوزان النماذج المدربة مسبقًا ويقدم مصفوفات تحليل الرتب القابلة للتدريب في كل طبقة من بنية المحولات. يؤدي هذا النهج إلى تقليل عدد المعلمات القابلة للتدريب بشكل كبير، مما يضمن عملية تكيف أكثر كفاءة.

تطور استراتيجيات ضبط LLM

وبالتأمل في رحلة ضبط LLM، يمكن للمرء تحديد العديد من الاستراتيجيات التي استخدمها الممارسون على مر السنين. في البداية، تم تسليط الضوء على الضبط الدقيق للنماذج المدربة مسبقًا، وهي استراتيجية تستلزم تغييرًا شاملاً لمعلمات النموذج لتناسب المهمة المحددة المطروحة. ومع ذلك، مع نمو النماذج من حيث الحجم والتعقيد، زادت أيضًا المتطلبات الحسابية لهذا النهج.

كانت الاستراتيجية التالية التي لاقت رواجًا هي الضبط الدقيق للمجموعات الفرعية، وهي نسخة أكثر تحفظًا من سابقتها. هنا، يتم ضبط مجموعة فرعية فقط من معلمات النموذج، مما يُخفف العبء الحسابي إلى حد ما. على الرغم من مزاياها، إلا أن الضبط الدقيق للمجموعات الفرعية لم يتمكن من مواكبة معدل النمو في حجم برامج الماجستير في القانون.

وبينما غامر الممارسون باستكشاف سبل أكثر كفاءة، ظهر الضبط الدقيق الكامل باعتباره نهجًا صارمًا ولكنه مجزٍ.

مقدمة إلى لورا

يمنحنا ترتيب المصفوفة لمحة عن الأبعاد التي تم إنشاؤها بواسطة أعمدتها، والتي يتم تحديدها من خلال عدد الصفوف أو الأعمدة الفريدة الموجودة بها.

مصفوفة الرتبة الكاملة: تطابق رتبتها الرقم الأقل بين صفوفها أو أعمدتها.
مصفوفة ذات رتبة منخفضة: مع رتبة أصغر بشكل ملحوظ من عدد الصفوف والأعمدة، فإنها تلتقط ميزات أقل.

الآن، تتمتع النماذج الكبيرة بفهم واسع لمجالها، كما هو الحال مع اللغة في نماذج اللغة. لكن ضبطها بدقة لمهام محددة لا يتطلب غالبًا سوى تسليط الضوء على جزء صغير من هذا الفهم. وهنا تبرز LoRA، إذ تشير إلى أن المصفوفة التي تعرض تعديلات الوزن هذه يمكن أن تكون منخفضة الرتبة، وبالتالي تلتقط ميزات أقل.

يحد LoRA بذكاء من رتبة مصفوفة التحديث هذه عن طريق تقسيمها إلى مصفوفتين أصغر حجمًا. لذلك بدلاً من تغيير مصفوفة الوزن بأكملها، فإنها تغير جزءًا منها فقط، مما يجعل مهمة الضبط الدقيق أكثر كفاءة.

تطبيق LoRA على المحولات

يساعد LoRA على تقليل حمل التدريب في الشبكات العصبية من خلال التركيز على مصفوفات وزن محددة. في إطار بنية المحولات، ترتبط مصفوفات وزن معينة بآلية الانتباه الذاتي، وهي Wq وWk وWv وWo، بالإضافة إلى مصفوفتين أخريين في وحدة Multi-Layer Perceptron (MLP).

هندسة المحولات

رؤساء انتباه المحولات

شرح رياضي لـ LoRA

دعونا نستعرض الرياضيات وراء LoRA:

مصفوفة الوزن المدربة مسبقًا $W_{0}$ :
- يبدأ بمصفوفة الوزن المدربة مسبقًا $W_{0}$ من الأبعاد $d \times k$ . وهذا يعني أن المصفوفة لديها $d$ الصفوف و $k$ الأعمدة.
التحلل ذو الرتبة المنخفضة:
- بدلاً من تحديث المصفوفة بأكملها مباشرةً $W_{0}$ ، والتي يمكن أن تكون باهظة الثمن من الناحية الحسابية، تقترح الطريقة طريقة تحليل منخفضة الرتبة.
- التحديث $Δ W$ إلى $W_{0}$ يمكن تمثيلها كمنتج لمصفوفتين: $B$ و $A$ .
  - $B$ لها أبعاد $d \times r$
  - $A$ لها أبعاد $r \times k$
- النقطة الأساسية هنا هي أن الرتبة $r$ أصغر بكثير من كليهما $d$ و $k$ ، مما يسمح بتمثيل أكثر كفاءة من الناحية الحسابية.
التدريب:
- خلال عملية التدريب، $W_{0}$ يبقى دون تغيير. ويشار إلى هذا باسم "تجميد" الأوزان.
- من ناحية أخرى، $A$ و $B$ هي المعلمات القابلة للتدريب. وهذا يعني أنه أثناء التدريب، يتم إجراء تعديلات على المصفوفات $A$ و $B$ لتحسين أداء النموذج.
الضرب والإضافة:
- يبلغ قطر كلاً من $W_{0}$ والتحديث $Δ W$ (وهو نتاج $B$ و $A$ ) مضروبة في نفس المدخلات (يشار إليها بـ $x$ ).
- ثم يتم جمع مخرجات هذه الضربات معًا.
- يتم تلخيص هذه العملية في المعادلة: $h = W_{0} x + Δ W x = W_{0} x + B A x.$ هنا، $h$ يمثل الإخراج النهائي بعد تطبيق التحديثات على الإدخال $x$ .

باختصار، تتيح هذه الطريقة طريقة أكثر كفاءة لتحديث مصفوفة وزن كبيرة من خلال تمثيل التحديثات باستخدام تحليل منخفض الرتبة، والذي يمكن أن يكون مفيدًا من حيث الكفاءة الحسابية واستخدام الذاكرة.

LORA

التهيئة والقياس:

عند نماذج التدريب، فإن كيفية تهيئة المعلمات يمكن أن تؤثر بشكل كبير على كفاءة وفعالية عملية التعلم. في سياق تحديث مصفوفة الوزن لدينا باستخدام $A$ و $B$ :

تهيئة المصفوفات $A$ و $B$ :
- مصفوفة $A$ : تتم تهيئة هذه المصفوفة بقيم غاوسية عشوائية، تُعرف أيضًا بالتوزيع الطبيعي. الأساس المنطقي وراء استخدام التهيئة الغوسية هو كسر التماثل: ستتعلم الخلايا العصبية المختلفة في نفس الطبقة ميزات مختلفة عندما يكون لها أوزان أولية مختلفة.
- مصفوفة $B$ : تتم تهيئة هذه المصفوفة بالأصفار. من خلال القيام بذلك، التحديث $Δ W = B A$ يبدأ من الصفر في بداية التدريب. ويضمن عدم حدوث تغيير مفاجئ في سلوك النموذج في البداية، مما يسمح للنموذج بالتكيف تدريجيًا مع $B$ يتعلم القيم المناسبة أثناء التدريب.
تحجيم الإخراج من $Δ W$ :
- بعد حساب التحديث $Δ W$ ، يتم تحجيم إنتاجها بعامل $r α$ أين $α$ هو ثابت. عن طريق القياس، يتم التحكم في حجم التحديثات.
- يعد القياس أمرًا بالغ الأهمية بشكل خاص عندما تكون الرتبة $r$ التغييرات. على سبيل المثال، إذا قررتَ زيادة الترتيب لزيادة الدقة (على حساب الحساب)، فإن التدرج يضمن عدم الحاجة إلى تعديل العديد من المعلمات الفائقة الأخرى في هذه العملية. كما يوفر مستوى من الاستقرار للنموذج.

التأثير العملي لـ LoRA

لقد أثبتت LoRA قدرتها على ضبط LLMs على أنماط فنية محددة بكفاءة من قبل أشخاص من مجتمع الذكاء الاصطناعي. وقد ظهر ذلك بشكل ملحوظ في تكييف نموذج لتقليد الأسلوب الفني جريج روتكوفسكي.

كما تم تسليط الضوء عليه في الورقة باستخدام GPT-3 175B كمثال. يعد وجود مثيلات فردية للنماذج المضبوطة بدقة مع 175B من المعلمات أمرًا مكلفًا للغاية. ولكن مع LoRA، تنخفض المعلمات القابلة للتدريب بمقدار 10,000 مرة، ويتم تقليص استخدام ذاكرة وحدة معالجة الرسومات إلى الثلث.

تأثير LoRa على الضبط الدقيق لـ GPT-3

لا تجسد منهجية LoRA خطوة كبيرة نحو جعل الوصول إلى LLMs أكثر سهولة فحسب، بل تؤكد أيضًا على إمكانية سد الفجوة بين التطورات النظرية والتطبيقات العملية في مجال الذكاء الاصطناعي. من خلال تخفيف العقبات الحسابية وتعزيز عملية التكيف النموذجي الأكثر كفاءة، تستعد LoRA للعب دور محوري في اعتماد ونشر LLMs على نطاق أوسع في سيناريوهات العالم الحقيقي.

QLoRA (الكمية)

على الرغم من أن LoRA تُحدث نقلة نوعية في تقليل احتياجات التخزين، إلا أنها لا تزال تتطلب وحدة معالجة رسومية ضخمة لتحميل النموذج للتدريب. وهنا يأتي دور QLoRA، أو LoRA المُكمّم، الذي يمزج LoRA مع التكميم لتحقيق نهج أكثر ذكاءً.

توضيح

عادةً، تُخزَّن مُعاملات الوزن بتنسيق 32 بت (FP32)، ما يعني أن كل عنصر في المصفوفة يشغل 32 بتًا. تخيَّل لو استطعنا ضغط المعلومات نفسها في 8 أو حتى 4 بتات فقط. هذه هي الفكرة الأساسية وراء QLoRA. يشير التكميم إلى عملية ربط القيم اللانهائية المتصلة بمجموعة أصغر من القيم المحدودة المنفصلة. في سياق نماذج LLM، يشير إلى عملية تحويل أوزان النموذج من أنواع بيانات عالية الدقة إلى أنواع أقل دقة.

التكميم في LLM

فيما يلي تفصيل أبسط لـ QLoRA:

التكميم الأولي: أولاً، تم تقليل حجم نموذج اللغة الكبير (LLM) إلى 4 بتات، مما يقلل بشكل كبير من مساحة الذاكرة.
تدريب لورا: بعد ذلك، يتم تنفيذ تدريب LoRA، ولكن بدقة 32 بت القياسية (FP32).

الآن، قد تتساءل، لماذا نعود إلى 32 بت للتدريب بعد تقليصها إلى 4 بت؟ حسنًا، لتدريب محولات LoRA بشكل فعال في FP32، تحتاج أوزان النموذج إلى العودة إلى FP32 أيضًا. يتم إجراء هذا التبديل ذهابًا وإيابًا بطريقة ذكية خطوة بخطوة لتجنب إرباك ذاكرة وحدة معالجة الرسومات.

تجد LoRA تطبيقها العملي في Hugging Face الضبط الدقيق الفعال للمعلمة (PEFT) المكتبة، مما يُبسط استخدامها. لمن يرغب في استخدام QLoRA، يُمكن الوصول إليها من خلال مجموعة من بت و بايت ومكتبات PEFT. بالإضافة إلى ذلك، فإن HuggingFace مكتبة التعلم المعزز للمحولات (TRL). يسهل الضبط الدقيق الخاضع للإشراف مع دعم متكامل لـ LoRA. توفر هذه المكتبات الثلاث معًا مجموعة الأدوات الأساسية لضبط نموذج محدد تم تدريبه مسبقًا، مما يتيح إنشاء أوصاف مقنعة ومتماسكة للمنتج عند مطالبتك بتعليمات سمات محددة.

بعد الضبط الدقيق من QLoRA، يجب أن تعود الأوزان مرة أخرى إلى تنسيق عالي الدقة، مما قد يؤدي إلى فقدان الدقة ويفتقر إلى التحسين لتسريع العملية.

الحل المقترح هو تجميع مصفوفة الوزن إلى أجزاء أصغر وتطبيق التكميم والتكيف منخفض الرتبة على كل مجموعة على حدة. طريقة جديدة اسمها ضمان الجودة-لورا، يحاول المزج بين فوائد التكميم والتكيف ذو الرتبة المنخفضة مع الحفاظ على كفاءة العملية وفعالية النموذج للمهام المطلوبة.

خاتمة

في هذه المقالة، تطرقنا إلى التحديات التي يفرضها حجم المعلمة الهائل. لقد بحثنا في ممارسات الضبط الدقيق التقليدية والمتطلبات الحسابية والمالية المرتبطة بها. يكمن جوهر LoRA في قدرته على تعديل النماذج المدربة مسبقًا دون إعادة تدريبها بالكامل، وبالتالي تقليل المعلمات القابلة للتدريب وجعل عملية التكيف أكثر فعالية من حيث التكلفة.

لقد بحثنا أيضًا لفترة وجيزة في Quantized LoRA (QLoRA)، وهو مزيج من LoRA وQuantization الذي يقلل من أثر ذاكرة النموذج مع الحفاظ على الدقة الأساسية للتدريب. بفضل هذه التقنيات المتقدمة، تم تجهيز الممارسين الآن بمكتبات قوية، مما يسهل اعتماد ونشر LLMs عبر مجموعة من سيناريوهات العالم الحقيقي.

مصفوفة

تم تصميم هذه الاستراتيجيات لتحقيق التوازن بين جعل LLMs قابلة للتكيف لمهام محددة والتأكد من أن عمليات الضبط والنشر ليست متطلبة بشكل مفرط من حيث موارد الحساب والتخزين.

عيوش ميتال

لقد أمضيت السنوات الخمس الماضية منغمسًا في عالم رائع من التعلم الآلي والتعلم العميق. قادني شغفي وخبرتي إلى المساهمة في أكثر من 50 مشروعًا متنوعًا لهندسة البرمجيات ، مع التركيز بشكل خاص على الذكاء الاصطناعي / التعلم الآلي. جذبني فضولي المستمر أيضًا نحو معالجة اللغة الطبيعية ، وهو مجال أتوق لاستكشافه بشكل أكبر.