اتصل بنا للحصول على مزيد من المعلومات

زفير: التقطير المباشر لمحاذاة LLM

الذكاء الاصطناعي

زفير: التقطير المباشر لمحاذاة LLM

mm

لقد تطورت قدرة وأداء نماذج اللغات الكبيرة والمفتوحة الأصغر حجمًا بشكل كبير في السنوات الأخيرة، وقد شهدنا التقدم من نماذج GPT-2 المبكرة إلى أطر عمل LLM أكثر إحكاما ودقة وفعالية والتي تستخدم كمية أكبر بكثير من الرموز المميزة أن "حساب الأمثل"كمية الرموز الموصى بها بموجب قوانين تحجيم شينشيلا. علاوة على ذلك، أثبت المطورون أنه يمكن تدريب أطر LLM الأصغر هذه بشكل أكبر باستخدام النماذج الخاصة dSFT أو الضبط الدقيق المقطر تحت الإشراف النهج الذي يستخدم مخرجات نموذج المعلم الفعال كبيانات خاضعة للإشراف لنموذج الطالب في محاولة لتعزيز الدقة. 

في هذه المقالة، سنتحدث عن إطار عمل Zephyr-7B، وهو حالة فنية معيار الدردشة لنماذج المعلمات 7B التي لا تتطلب الشروح البشرية. الهدف الأساسي للإطار هو تمكين المطورين من إنتاج نماذج لغوية أصغر وكبيرة تتماشى مع نية المستخدم بشكل أقرب من أي وقت مضى. لا يقوم إطار عمل Zephyr-7B بفحص تطبيق الأساليب الحالية لأطر عمل LLM الأكبر مثل dSFT فحسب، بل يستكشف أيضًا إمكانية استخدام أساليب أخرى لتعلم نموذج دردشة مع توافق أفضل مع نية المستخدم. سنتعمق أكثر في إطار عمل Zephyr، ونستكشف بنيته وعمله ونتائجه. اذا هيا بنا نبدأ. 

Zephyr-7B: مقدمة للتقطير المباشر للمحاذاة في نماذج اللغة

كما ذكرنا سابقًا، تطورت النماذج اللغوية بسرعة في السنوات الأخيرة، بدءًا من أطر عمل GPT-2 السابقة إلى GPT-4 وGPT-XNUMX الحالية. miniGPT-5 أطر عمل LLM، على الرغم من كونها رمزية شاملة للغاية، إلا أنها أصبحت الآن أكثر دقة وأكثر كفاءة. من أبرز مميزات أطر LLM المتقدمة هذه أنها تتضمن عددًا أكبر بكثير من الرموز المميزة مقارنة بعدد الرموز المميزة التي كانت تعتبر في السابق مثالية حسابيًا في ظل قوانين تحجيم شينشيلا. علاوة على ذلك، تعلم المطورون والباحثون العاملون على أطر LLM أنه يمكن تدريب أطر LLM الأصغر هذه بشكل أكبر باستخدام نماذج الملكية القائمة على dSFT أو نهج الضبط الدقيق المقطر الخاضع للإشراف، والذي يستخدم مخرجات نموذج المعلم الفعال كبيانات خاضعة للإشراف لنموذج الطالب في محاولة لتعزيز الدقة. لقد أثبتت استراتيجية التقطير أنها أداة فعالة ومفيدة للغاية لتعظيم إمكانات وقدرات النماذج المفتوحة في مجموعة واسعة من المهام، على الرغم من أنها لا تستطيع حتى الآن تكرار الأداء الذي حققه نموذج المعلم. بالإضافة إلى ذلك، أبلغ المستخدمون في كثير من الأحيان أن هذه النماذج يتم عرضها غالبًا "اختلال النية"مما يعني أن النماذج لا تتصرف بطريقة تتوافق مع متطلبات المستخدمين النهائيين، مما يؤدي إلى مخرجات غير صحيحة لا توفر المخرجات الصحيحة أو الاستجابات لمدخلات المستخدم أو استعلاماته. 

لقد كانت محاذاة النوايا دائمًا تحديًا كبيرًا للمطورين حيث ركزت الأعمال الأخيرة على تطوير معايير مثل ألباكا إيفال وMT-بينش تم تطويره لاستهداف الاختلال. يمكن أن يُعزى الدافع لتطوير إطار عمل Zephyr إلى مشكلة استخدام التقطير لمواءمة إطار LLM صغير مفتوح بالكامل حيث تكون الخطوة الأساسية هي استخدام AIF أو ردود فعل الذكاء الاصطناعي للحصول على بيانات التفضيلات من مجموعة نموذج المعلم، ثم تطبيق تحسين التفضيلات المقطرة مباشرة كهدف تعليمي أساسي، وهو النهج الذي يشار إليه باسم dDPO أو تحسين سياسة نشر الضوضاء. أهم ما يميز نهج dDPO هو أنه على عكس أسلافه مثل PPO أو تحسين التفضيلات القريبة، فهو لا يتطلب أخذ عينات بشرية أو تعليقات توضيحية، كما يقلل أيضًا من الوقت الذي يستغرقه تدريب نموذج اللغة. علاوة على ذلك، فهو يسمح أيضًا للمطورين بتعظيم مكافآت العينة النهائية من خلال الاهتمام الشديد بتسلسل خطوات تقليل الضوضاء من البداية حتى النهاية، وبعبارة أخرى، طوال مجملها. 

قام المطورون بتطوير إطار عمل Zephyr-7B للتحقق من صحة هذا النهج، وهو في بعض النواحي نسخة متسقة من أحدث التقنيات إطار ميسترال-7ب. يستخدم إطار العمل أولاً dSFT أو Distilled Supervised Fine-Tuning استنادًا إلى مجموعة بيانات UltraChat، ويطبق dDPO أو تقليل الضوضاء التوزيع نهج تحسين السياسة بشأن بيانات التعليقات. تشير التجارب إلى أن إطار عمل Zephyr-7B الذي يحتوي على 7 مليارات معلمة يقدم نتائج مماثلة لتلك التي تقدمها نماذج الدردشة المتوافقة مع ردود الفعل البشرية مع أكثر من 70 مليار معلمة. علاوة على ذلك، تشير التجارب أيضًا إلى أنه يمكن تحسين النتائج من حيث المعايير التي تأخذ في الاعتبار القدرات التخاطبية، فضلاً عن المعايير الأكاديمية القياسية، كما أن استخدام تعلم التفضيلات أمر بالغ الأهمية لتحقيق النتائج المرجوة. 

يوضح الشكل أعلاه أداء نماذج اللغة المختلفة وفقًا لمعيار MT-bench. تم وضع إطار عمل Zephyr-7B الذي تم تدريبه باستخدام نهج dDPO في مواجهة نماذج اللغات الأكبر حجمًا والمملوكة للملكية وكذلك الوصول المفتوح مثل GPT-3.5 Turbo وLlama-2-70B والمزيد التي تم تدريبها باستخدام التعلم المعزز الإضافي، و كما تضمنت قدرًا هائلاً من ردود الفعل البشرية. كما يمكن أن نرى بوضوح أنه على الرغم من الاختلاف الهائل في عدد المعلمات التي تستخدمها هذه الأطر، فإن إطار عمل Zephyr-7B يقدم نتائج قابلة للمقارنة مقابل معظمها، ويتفوق على العديد من الأطر في مجالات مختلفة. 

Zephyr-7B: الطريقة والعمل والهندسة المعمارية

الهدف الأساسي لإطار عمل Zephyr-7B هو دعم المصادر المفتوحة نموذج لغة كبير محاذاة أقرب ما يمكن إلى نية المستخدم، وفي مجمله، يفترض إطار عمل Zephyr-7B الوصول إلى نموذج معلم كبير يتم الاستعلام عنه باستخدام الإنشاء الفوري. يتبع Zephyr-7B نهجًا مشابهًا لذلك المستخدم في إطار عمل InstructGPT، ويهدف إلى إنشاء نموذج طالب فعال ودقيق. 

يوضح الشكل التالي بإيجاز الخطوات الأساسية الثلاث المتبعة في عمل إطار عمل Zephyr-7B. 

  1. dSFT لبناء مجموعة بيانات واسعة النطاق باستخدام أسلوب التعليم الذاتي. 
  2. مجموعة AIF تستخدم مجموعة من نماذج الدردشة المكتملة متبوعة بالتفضيل الثنائي، والتسجيل بواسطة GPT-4. 
  3. dPO لنموذج dSFT من خلال الاستفادة من بيانات التعليقات. 

dSFT أو الضبط الدقيق المقطر تحت الإشراف

يبدأ إطار العمل بنموذج لغة كبير خام يحتاج أولاً إلى التدريب على الاستجابة لمطالبات المستخدم. تقليديًا، يتم تدريب أطر عمل LLM هذه على الاستجابة لمطالبات المستخدم باستخدام SFT أو Supervised Fine Tuning على مجموعة بيانات تتكون من تعليمات عالية الجودة والاستجابات المقابلة لها. نظرًا لأن إطار عمل Zephyr-7B لديه إمكانية الوصول إلى نموذج لغة المعلم، فيمكن للإطار إنشاء تعليمات واستجابات، وتدريب النموذج مباشرة على هذه التعليمات والاستجابات، ويعرف هذا النهج باسم dSFT أو SFT المقطر. يوضح الشكل التالي عملية التقطير التي يتم إجراؤها بواسطة SFT حيث تمثل x مجموعة من موجهات البذور التي تم إنشاؤها لغرض أساسي يتمثل في تمثيل مجموعة متنوعة من المجالات الموضعية، وتمثل y استجابة العينة، التي تم تنقيحها باستخدام تعليمات عينة جديدة ممثلة بـ x1 وC يمثل نقطة النهاية في مجموعة البيانات النهائية. 

ردود فعل الذكاء الاصطناعي من خلال التفضيلات

يتم استخدام ردود الفعل البشرية لتعيين نماذج لغة كبيرة لأنها يمكن أن توفر الإشارات الإضافية المطلوبة، ويتم توفير هذه التعليقات البشرية تقليديًا من خلال التفضيلات المتعلقة بجودة الاستجابات الناتجة عن أطر LLM. ومع ذلك، يستخدم إطار عمل Zephyr تعليقات الذكاء الاصطناعي من نموذج المعلم على المخرجات التي تم إنشاؤها للنماذج الأخرى بدلاً من التعليقات البشرية لأغراض التقطير. يتأثر النهج الذي يتبعه إطار عمل Zephyr بالنهج المستخدم في إطار عمل UltraFeedback الذي يستخدم نموذج المعلم لتوفير التفضيلات على مخرجات النموذج. 

على غرار أسلوب SFT أو Supervised Fine Tuning، فإنه يبدأ بمجموعة من المطالبات، حيث يمثل x كل موجه فردي يتم تغذيته بعد ذلك إلى مجموعة من أربعة نماذج مثل Llama وFalcon وClaude والمزيد، كل منها يولد استجابة خاصة بهم. يتم بعد ذلك تغذية هذه الاستجابات كمدخل لنموذج المعلم مثل GPT-3 أو GPT-4، ويخرج النموذج درجة لاستجابة الإدخال. بعد جمع درجات المخرجات، يقوم النموذج بحفظ الاستجابة ذات أعلى الدرجات. 

dDPO أو تحسين التفضيل المباشر المقطر

dDPO هي الخطوة الأخيرة في إطار عمل Zephyr، وهدفها الأساسي هو تحسين نموذج المعلم dSFT من خلال تعظيم احتمالية تصنيف الاستجابة المفضلة في نموذج التفضيل الذي يتم تحديده بواسطة وظيفة المكافأة من خلال استخدام نموذج لغة الطالب. ركزت الخطوة السابقة التي تتضمن استخدام تعليقات الذكاء الاصطناعي في المقام الأول على استخدام أساليب التعلم المعزز مثل PPO أو تحسين السياسة القريبة لتحقيق أقصى قدر من التحسين فيما يتعلق بالمكافأة الناتجة. في هذه الخطوة، يتم تدريب المكافأة أولاً، ثم أخذ عينات من السياسة الحالية لحساب التحديثات، وبالتالي تحقيق أقصى قدر من التحسين. يتبع DPO أو Direct Preference Optimization أسلوبًا مشابهًا لتحسين نموذج التفضيل مباشرة باستخدام البيانات الثابتة. يمكن كتابة الهدف بعد توصيل وظيفة المكافأة في نموذج التفضيل كـ

Zephyr-7B: التجارب والمعايير والنتائج

يُجري إطار عمل Zephyr تجاربه الدقيقة على إطار عمل Mistral-7B الحالي الذي يقدم أداءً مشابهًا لنماذج اللغة الأكبر بكثير في مجموعة واسعة من مهام معالجة اللغة الطبيعية أو البرمجة اللغوية العصبية. 

قواعد البيانات

يستخدم إطار عمل Zephyr مجموعتي بيانات للحوار تم استخلاصهما من مزيج من النماذج الخاصة والمفتوحة، والتي أثبتت في السابق فعاليتها في إنتاج نماذج دردشة فعالة. 

UltraChat

UltraChat عبارة عن مجموعة بيانات ذاتية التحسين تتكون من ما يقرب من 1.5 مليون حوار متعدد المنعطفات موزعة على 30 موضوعًا و20 مادة نصية تم إنشاؤها بواسطة إطار عمل GPT-3.5-Turbo. لمعالجة مشكلة الكتابة بالأحرف الكبيرة غير الصحيحة التي تواجهها مجموعة بيانات UltraChat، يطبق إطار العمل أسلوب الاستدلال الحقيقي للتخلص من الأخطاء النحوية. 

ردود فعل فائقة

UltraFeedback عبارة عن مجموعة بيانات سريعة تحتوي على أكثر من 64 ألف مطالبة، حيث تحتوي كل واحدة من هذه المطالبات على أربعة استجابات فردية لـ LLM. يستخدم إطار عمل Zephyr أعلى متوسط ​​درجات تم الحصول عليه من مجموعة بيانات UltraFeedback لإنشاء التفضيلات الثنائية، ويتم رفض إحدى استجابات LLM الثلاثة المتبقية باعتبارها عشوائية. 

التقييم

لتقييم أداء إطار عمل Zephyr، اختار المطورون معيارين للدردشة، أحدهما بدورة واحدة والآخر متعدد الدورات، في محاولة لتقييم قدرة النموذج على اتباع تعليمات المستخدم والاستجابة وفقًا لذلك. 

مقعد MT

يتكون معيار تقييم MT-Bench من 160 سؤالًا موزعة على 8 مجالات معرفية فريدة، وبموجب معيار MT-Bench، يجب أن يجيب النموذج على سؤال أولي، ويقدم إجابة على سؤال المتابعة. 

AlpacaEval

AlpacaEval هو معيار أحادي المنعطف يقوم بموجبه النموذج أو إطار العمل بإنشاء ردود المستخدم على أكثر من 800 سؤال موزعة على مواضيع مختلفة مع التركيز الأساسي على المساعدة. 

بالإضافة إلى هذين المعيارين الأساسيين، يتم تقييم إطار عمل Zephyr-7B أيضًا على Open LLM Leaderboard لمهام التصنيف متعددة الفئات، وARC، وHellaSwag، وMMLU، والمزيد. علاوة على ذلك، بغض النظر عن المعيار الذي يتم تقييم إطار عمل Zephyr-7B عليه، فإنه تتم مقارنته بمجموعة من النماذج الخاصة والمفتوحة، مع كون إجراءات مواءمتها هي العامل المميز الوحيد. 

النتائج

دعونا الآن نلقي نظرة على كيفية أداء إطار عمل Zephyr-7B ومقارنته بنماذج اللغة الحديثة الحالية. 

يؤدي تنفيذ نهج dDPO إلى تعزيز قدرات الدردشة

يقارن الجدول التالي أداء إطار عمل Zephyr-7B مع أحدث نماذج اللغات في معايير AlpacaEval وMT-Bench. 

كما هو واضح، عند وضعه مقابل نماذج 7B المفتوحة، فإن إطار عمل Zephyr-7B لا يتفوق بشكل كبير على نماذج dSFT عبر المعيارين فحسب، بل يضع أيضًا معايير جديدة على أحدث طراز. علاوة على ذلك، تمكن إطار عمل Zephyr-7B أيضًا من التفوق على إطار عمل XWIN-LM-7B، وهو أحد النماذج النادرة التي تم تدريبها على نهج dPPO أو نهج PPO المقطر. علاوة على ذلك، فإن الأداء الذي يقدمه إطار عمل Zephyr-7B يمكن مقارنته بالنتائج التي تقدمها نماذج لغوية أكبر بكثير مثل Llama2-Chat مع أكثر من 70B من المعلمات. 

dDPO يعزز أداء المهام الأكاديمية

يقارن الشكل التالي أداء إطار عمل Zephyr-7B مع مجموعة واسعة من أطر عمل LLM مفتوحة المصدر والمملوكة. 

كما هو واضح، يتفوق إطار عمل Zephyr-7B بشكل كبير على أطر عمل LLM بمعلمات 7B، كما أن الفجوة بين أدائه والأداء الذي توفره نماذج dSFT الأفضل أداءً ملحوظة أيضًا. ومع زيادة عدد المعلمات، فإن إطار عمل Zephyr-7B يفشل، على الرغم من أنه يطابق الأداء الذي تقدمه الإطارات التي تحتوي على 40 مليار معلمة. 

تحسين التفضيلات

في الشكل التالي، نقوم بتقييم كيفية تأثير الخطوات المختلفة المتبعة في عملية المحاذاة على الأداء. كما يمكن ملاحظته، فإن نهج dDPO عند دمجه مع dSFT يعزز الأداء بشكل كبير في كل من مجموعات بيانات MT-Bench وAlpacaEval. 

وأخيرا، في الشكل التالي يمكننا أن نرى دقة الاختبار والتدريب أثناء تنفيذ DPO. كما هو واضح، لا يؤثر نهج DPO على أداء النموذج في المهام النهائية. 

الخاتمة

في هذه المقالة، تحدثنا عن إطار عمل Zephyr-7B استنادًا إلى الحالة الحالية لإطار عمل Mistral-7B الذي يهدف إلى حل التحدي الحالي المتمثل في التقطير المحاذاة من نموذج لغة كبير إلى إطار عمل مُدرب مسبقًا أصغر بكثير. الهدف الأساسي للإطار هو تمكين المطورين من إنتاج نماذج لغوية أصغر وكبيرة تتماشى مع نية المستخدم بشكل أقرب من أي وقت مضى. لا يقوم إطار عمل Zephyr-7B بفحص تطبيق الأساليب الحالية لأطر عمل LLM الأكبر مثل dSFT فحسب، بل يستكشف أيضًا إمكانية استخدام أساليب أخرى لتعلم نموذج دردشة مع توافق أفضل مع نية المستخدم.

ومع ذلك، على الرغم من النتائج الواعدة، فإن إطار عمل Zephyr-7B ليس مثاليًا، ولا يزال يتعين القيام ببعض العمل. أحد القيود الواضحة هو استخدام إطار عمل GPT-4 لتقييم معايير MT-Bench وAlpacaEval، والتي غالبًا ما كانت منحازة نحو النماذج التي تقطرها بنفسها. ومع ذلك، يأمل إطار عمل Zephyr-7B في إيجاد طريقة لاستكشاف قدرات النماذج المفتوحة الأصغر حجمًا القادرة على التوافق مع غرض المستخدم وتفاعلاته. 

"مهندس بالمهنة كاتب عن ظهر قلب". كونال كاتب تقني لديه حب وفهم عميقان للذكاء الاصطناعي والتعلم الآلي ، مكرس لتبسيط المفاهيم المعقدة في هذه المجالات من خلال وثائقه الجذابة والغنية بالمعلومات.