الذكاء الاصطناعي
GPT-3 : Few Shot Learning for Language Model

في السنوات القليلة الماضية ، شهدت صناعة الذكاء الاصطناعي والتعلم الآلي زيادة هائلة في تطوير وتطبيق أنظمة معالجة اللغة الطبيعية ، حيث تمكن الباحثون من تنفيذ ممارسات معالجة اللغة الطبيعية بطريقة مرنة ومستقلة عن المهام للتحويلات الجانبية.
في البداية ، كانت التمثيلات من طبقة واحدة تستخدم متجهات الكلمات ، ثم تم تغذيتها إلى هيكل معين للمهمة. ثم جاءت هيكلة RNN التي تستخدم تمثيلات متعددة الطبقات والحالة السياقية لتشكيل تمثيلات أفضل. وأخيراً ، لدينا الآن نماذج لغة التحويل أو النماذج المتكررة المسبقة التدريب التي أزالت تماماً الحاجة إلى هياكل معينة للمهمة من خلال تحسين هذه الشبكات.
ثبتت نماذج لغة التحويل أنها نقطة تحول كبيرة في صناعة معالجة اللغة الطبيعية ، حيث أدت إلى تقدم كبير في مهام تحديّة مثل الإجابة على الأسئلة ، والقراءة الشاملة أو كتابة النص ، والاستدلال النصي ، وغيرها.
然而 ، على الرغم من مزاياها ، تتمتع نماذج لغة التحويل بقيود كبيرة ، حيث تتطلب تحسينًا معينًا للمهمة أو مجموعة بيانات معينة للمهمة لتحقيق الأداء المطلوب على المهمة. بالإضافة إلى ذلك ، تتطلب نماذج لغة التحويل من المطورين تحسين مجموعات البيانات إلى مئات الآلاف من الأمثلة المحددة للمهمة.
من غير المرجح أن يتم إزالة متطلبات مجموعة البيانات المحددة للمهمة وضبط المهمة سيكون مرغوبًا فيه للغاية ومفيدًا لصناعة معالجة اللغة الطبيعية لأسباب عديدة.
مشاكل النماذج المسبقة التدريب الحالية للغة التحويل أو النماذج المتكررة
- تقييد الواقعية والتطبيقية
أولاً وقبل كل شيء ، يتطلب متطلب مجموعة بيانات كبيرة مع بيانات مُسمّاة لكل مهمة يحدّ من تطبيقية وواقعية نماذج اللغة. تجد نماذج اللغة تطبيقاتها في مجموعة واسعة من المهام ، من إنشاء قصة قصيرة إلى تصحيح الأخطاء النحوية ، إلى إنشاء أمثلة على مفهوم ما. في بعض الأحيان ، يكون من الصعب جمع مجموعة بيانات خاضعة للإشراف كبيرة مع بيانات مُسمّاة ، خاصة عندما يتعين تكرار العملية لكل مهمة فردية.
- استغلال العلاقات الزائفة في بيانات التدريب
القيود والضيق في توزيع التدريب مع تعبيرية النموذج يمكن أن يؤدي إلى نمو أساسي في القدرة على استغلال العلاقات الزائفة في بيانات التدريب. يمكن أن يؤدي استغلال بيانات التدريب إلى مشاكل أثناء التحسين والتدريب المسبق لأن نماذج لغة التحويل مصممة لامتصاص كمية كبيرة من المعلومات أثناء التدريب المسبق.
علاوة على ذلك ، أشارت الأعمال السابقة على النماذج السابقة إلى أن النماذج الكبيرة لا تؤدي دائمًا إلى نتائج أفضل خارج التوزيع في كل مرة. كما أشارت إلى أن التعميم المُحقق في هذا الإطار يمكن أن يؤدي إلى أداء سيئ بشكل رئيسي لأن النموذج يكون محددًا للغاية ببيانات التدريب ولا يستطيع الأداء جيدًا في حالات تتجاوز نطاق بيانات التدريب.
- المقارنة مع التعلم البشري
أخيراً ، عند مقارنة نماذج لغة التحويل بالبشر ، لا يتطلب البشر مجموعة بيانات كبيرة عند تعلم معظم مهام اللغة. غالبًا ما يكون توجيه简短 في لغة شخص ما الطبيعية أو عرض صغير لمهمة اللغة كافياً لشخص ما لفهم وممارسة مهمة اللغة بمستوى معين من التنافس.
قدرة البشر على التكيف لها العديد من المزايا العملية لأنها تسمح لهم بالتبديل بين مجموعات مهارات مختلفة أو مزيجها معًا لأداء أفضل خلال لهجة ، وهو ما يخالف قدرات أنظمة معالجة اللغة الطبيعية الحالية.
مواجهة المشاكل مع التعلم المتعدد والـ GPT-3
حل محتمل للمشاكل المذكورة أعلاه هو استخدام التعلم المتعدد ، وهو مفهوم في التعلم الآلي الحديث يسمح للنموذج بتطوير مجموعة أكبر وأوسع من المهارات والقدرة على التعرف على الأنماط أثناء التدريب ، ثم يستخدم هذه القدرات المكتسبة أثناء التدخل للاستجابة بسرعة أو التعرف على المهمة المطلوبة.
يتم تنفيذ التعلم المتعدد في هيكل نموذج اللغة من خلال تقنية تسمى “التعلم في السياق” التي تستخدم إدخال النص من نموذج لغة مسبق التدريب كتخصيص للمهمة. في هذه العملية ، يعتمد النموذج على توجيه لغة طبيعية ، وربما يستخدم بعض العروض ، ويتوقع من النموذج إكمال بقية المهمة عن طريق التنبؤ بالخطوات التالية.
المشكلة الرئيسية مع التعلم المتعدد هي أنه على الرغم من إظهاره إمكانيات إيجابية ، إلا أنه لا يزال أقل من نهج التحسين في هيكل اللغة الطبيعية ، ويتطلب تحسينًا أكبر ليكون طريقة عملية لتحقيق مهام اللغة.
بالإضافة إلى التعلم المتعدد ، هناك طريقة أخرى تكتسب شعبية وهي زيادة سعة نماذج لغة التحويل. في السنوات القليلة الماضية ، شهدت نماذج التحويل زيادة كبيرة في سعتها مع نموذج RNSS18 ب 100 مليون 매개변ر ، ونموذج DCLT18 ب 300 مليون 매개변ر ، ونموذج RWC19 ب 1.5 مليار 매개변ر ، ونموذج SSP19 ب 8 مليارات 매개변ر ، ونموذج RSR19 ب 11 مليار 매개변ر ، ونموذج TUR20 ب 17 مليار 매개변ر.
زيادة سعة النموذج أو زيادة 매개변رات أدت تاريخيًا إلى تحسينات في توليد النص ، وتم الإشارة إلى أن الخسارة اللغوية ، التي تتعلق بالمهام الجانبية ، تتبع أيضًا اتجاهًا متسلسلاً مع التحسين مع النطاق. وتم الإشارة إلى أن هذا يؤدي إلى تحسينات في الأداء.
هذا يأتي بنا إلى نموذج GPT-3 الذي يحتوي على أكثر من 175 مليار 매개변ر ، وعند إطلاقه ، كان نموذج لغة التحويل ذا أعلى سعة. دعونا نتحدث الآن عن نموذج GPT-3.
مدخل إلى نموذج GPT-3
GPT-3 هو نموذج لغة ذاتي الحد الذي يحتوي على أكثر من 175 مليار 매개변ر ، تم إطلاقه بواسطة OpenAI في عام 2020. يصنف GPT-3 أيضًا على أنه نموذج لغة كبير يعتمد على نموذج GPT-2 السابق ، وهو نموذج تحويل深ي فقط يستخدم هيكلاً قائمًا على الانحلال لإنشاء بيانات نصية.
يقيّم نموذج GPT-3 قدراته على التعلم السياقي ، ويتم تقييم نموذج GPT-3 على أكثر من два десятين من مجموعات بيانات معالجة اللغة الطبيعية ومهام جديدة متعددة. لكل مهمة فردية ، يتم تقييم نموذج GPT-3 في ثلاثة ظروف ،
- التعلم القليل أو التعلم في السياق: في التعلم القليل ، يسمح نموذج GPT-3 بمقدار التوزيع الذي يمكن أن يتناسب جيدًا مع نافذة السياق للنموذج.
- التعلم الواحد: في التعلم الواحد ، يسمح النموذج بعرض واحد فقط.
- التعلم الصفر: في التعلم الصفر ، لا توجد عروض ، ويتوفر فقط توجيه لغة طبيعية يُغذي إلى النموذج.

بشكل عام ، يصل نموذج GPT-3 إلى أداء مرغوب فيه في إعدادات الصفر وواحد ، وفي إعداد القليل ، يتفوق على نماذج التحويل الحالية في معظم الأحيان. بالإضافة إلى ذلك ، يؤدي نموذج GPT-3 جيدًا في إعدادات واحدة و صفر في مهام اللغة التي تتطلب التفكير السريع أو الانتباه السريع مثل استخدام كلمات جديدة بعد جملة أو فك تشفير الكلمات أو أداء عمليات حسابية.

نموذج GPT-3: النهج
يستخدم نموذج GPT-3 نهجًا تقليديًا للتحسين المسبق يتكون من نموذج وبيانات وتدريب ، ويشبه نهج التحسين المسبق الذي اتبعه نموذج RWC-19 للتحويل. يوسع نموذج GPT-3 حجم النموذج ، وحجم مجموعة البيانات ، وتنوع مجموعة البيانات ، ويزيد من طول فترة التدريب.
كما يستخدم نموذج GPT-3 نهج التعلم في السياق الذي يُشبه مرة أخرى نهج نموذج RWC-19 ، لكنه يعدل بعض الأشياء عن طريق استكشاف إعدادات مختلفة لتعلم الأنماط داخل سياق مجموعة البيانات.
التحسين الدقيق
يعد التحسين الدقيق نهجًا تقليديًا في نماذج اللغة ، ويتضمن تحديث أوزان نموذج مسبق التدريب عن طريق تدريبه على مجموعة بيانات خاضعة للإشراف معينة للمهمة المرغوبة ، ويتم استخدام مئات الآلاف من الأمثلة المُسمّاة خلال هذه العملية.
التعلم القليل
التعلم القليل هو مصطلح يُشير إلى الإعداد الذي يُمنح فيه نموذج GPT-3 بعض العروض للمهمة أثناء التدخل كتكييف ، ولكن أوزان النموذج لا يتم تحديثها. في إعدادات التعلم القليل ، تحتوي مجموعة البيانات عادةً على مثالًا مع سياق واكتمال مرغوب (على سبيل المثال ، جملة فرنسية وترجمة إنجليزية لها).
التعلم الواحد
في إعداد التعلم الواحد ، يُمنح النموذج عرض واحد فقط.
التعلم الصفر
في إعداد التعلم الصفر ، لا توجد عروض ، ويتوفر فقط توجيه لغة طبيعية يُغذي إلى النموذج.

هيكل نموذج GPT-3
يستخدم نموذج GPT-3 نفس الهيكل المستخدم في نموذج GPT-2 ، ويشمل التطبيع المسبق وتهيئة معدلة و تقنيات تحويل قابلة لل đảoة كما تم استخدامها في نموذج GPT مع استثناء استخدام استراتيجية بديلة لمواضع الانتباه النطاقي المحلي والطبقات الكثيفة البديلة في طبقات التحويل ، مشابهة ل Sparse Transformer.
مجموعات بيانات التدريب
عادةً ما تستخدم النماذج اللغوية الكبيرة مجموعات بيانات توسعت بشكل كبير مع التطورات الحديثة ، وتنتهي بمجموعة Common Crawl التي تحتوي على أكثر من تريليون كلمة. حجم مجموعة البيانات كافٍ لتدريب نموذج GPT-3 دون تحديثه على نفس التسلسل عدة مرات.
التقييم
对于 التعلم القليل ، يقوم النموذج بتقييم كل مثال موجود في مجموعة بيانات التقييم عن طريق سحب K أمثلة بشكل عشوائي من مجموعة بيانات التدريب للمهمة كتكييف ، ويفصلها ب 1 أو 2 سطر جديد حسب المهمة.
النتائج

الرسم البياني أعلاه يعرض منحنيات التدريب لل 8 نماذج المستخدمة في هيكل نموذج GPT-3 ، كما هو موضح في الأقسام السابقة.
أفكار ختامية
يمكن القول بأمان أن GPT-3 كان مرحلة ثورية في صناعة LLM حيث ساعد في دفع حدود ما يمكن أن تفعله نموذج اللغة. كانت التطورات التي تم إجراؤها والتحديات التي تم التغلب عليها بواسطة GPT-3 هي التي مهدت الطريق للنموذج الأكثر تقدمًا ودقة حتى الآن ، وهو GPT-4.












