الذكاء الاصطناعي
GPT-3: تعلم القليل من الإطلاق للنموذج اللغوي

في السنوات القليلة الماضية، شهدت صناعة الذكاء الاصطناعي والتعلم الآلي زيادة هائلة في تطوير ونشر أنظمة معالجة اللغة الطبيعية، حيث تمكن الباحثون من تنفيذ ممارسات معالجة اللغة الطبيعية بطرق مرنة ومستقلة عن المهام لتحويل المهام الجانبية.
في البداية، كانت التمثيلات من طبقة واحدة تستخدم متجهات الكلمات، ثم يتم تغذيتها إلى بنية معمارية محددة للمهمة. بعد ذلك، كانت بنية الرنين العصبي (RNN) تستخدم تمثيلات متعددة الطبقات والحالة السياقية لتشكيل تمثيلات أفضل. وأخيراً، لدينا نماذج اللغة النقلية أو النماذج المتكررة المسبقة التي أزالت تماماً الحاجة إلى بنى معمارية محددة للمهمة من خلال تعديل هذه الشبكات.
أثبتت نماذج اللغة النقلية أنها نقطة تحول كبيرة في صناعة معالجة اللغة الطبيعية، حيث أدت إلى تقدم كبير في المهام الصعبة مثل الإجابة على الأسئلة والفهم القرائي أو كتلة النصوص والاستدلال النصي، وغيرها الكثير.
然而، على الرغم من مزاياها، فإن نماذج اللغة النقلية لها قيود كبيرة، حيث تتطلب تعديلاً محدداً للمهمة أو مجموعة بيانات محددة للمهمة لتحقيق الأداء المطلوب على المهمة. بالإضافة إلى ذلك، تتطلب نماذج اللغة النقلية من المطورين تعديل مجموعات البيانات إلى مئات الآلاف من الأمثلة المحددة للمهمة.
من الواضح أن إزالة الحاجة إلى مجموعة بيانات محددة للمهمة وضبطها سيكون أمراً مرغوباً للغاية ومفيداً لصناعة معالجة اللغة الطبيعية لعدة أسباب.
مشاكل النماذج النقلية المسبقة الحالية أو النماذج المتكررة
- تقييد الواقعية والتطبيق
أولاً وقبل كل شيء، يتطلب الحاجة إلى مجموعة بيانات كبيرة مع بيانات محددة لكل مهمة تقييد تطبيق وواقعية نماذج اللغة. توجد تطبيقات للنماذج اللغوية في مجموعة واسعة من المهام، بدءاً من إنشاء قصة قصيرة، إلى تصحيح الأخطاء النحوية، إلى إنشاء أمثلة على مفهوم. في بعض الأحيان، يكون من الصعب جمع مجموعة بيانات خاضعة للإشراف مع بيانات محددة، خاصة عند الحاجة إلى تكرار العملية لكل مهمة فردية.
- استغلال الارتباطات الزائفة في بيانات التدريب
القيود والضيق في توزيع التدريب، مع التعبير عن النموذج، يمكن أن يؤدي إلى زيادة كبيرة في إمكانية استغلال الارتباطات الزائفة في بيانات التدريب. يمكن أن يؤدي استغلال بيانات التدريب إلى مشاكل خلال نموذج ما قبل التدريب والتعدين بسبب تصميم نماذج اللغة النقلية لامتصاص كمية كبيرة من المعلومات خلال ما قبل التدريب.
علاوة على ذلك، أشار العمل على النماذج السابقة إلى أن النماذج الكبيرة لا تؤدي دائماً إلى نتائج أفضل خارج التوزيع. كما أشار إلى أن التعميم المُحقق في ظل هذا النموذج يمكن أن يؤدي إلى أداء سيئ، لأن النموذج يتمتع بخصائص محددة لبيانات التدريب ولا يمكنه الأداء الجيد في الحالات التي تتجاوز نطاق بيانات التدريب.
- المقارنة مع التعلم البشري
أخيراً، عند المقارنة مع نماذج اللغة النقلية، لا يتطلب البشر مجموعة بيانات كبيرة عند تعلم معظم مهام اللغة. في معظم المهام، يكون التوجيه القصير في لغة الشخص الطبيعية أو عرض صغير لمهمة اللغة كافياً لتمكين الإنسان من فهم وفهم مهمة اللغة بمستوى معين من التنافس.
قدرة الإنسان على التكيف لها العديد من المزايا العملية، حيث تمكنه من التبديل بين مهارات مختلفة أو دمجها معاً لأداء أفضل خلال لهجة، وهو ما يخالف قدرات أنظمة معالجة اللغة الحالية.
معالجة المشاكل باستخدام التعلم المتعددي والنموذج GPT-3
من الحلول الممكنة للمشاكل المذكورة أعلاه هو استخدام التعلم المتعدد، وهو مفهوم في التعلم الآلي الحديث يسمح للنموذج بتطوير مجموعة أكبر وأوسع من المهارات والقدرة على التعرف على الأنماط أثناء التدريب، ثم يستخدم هذه القدرات المكتسبة أثناء التدخل لتعلم سريع أو التعرف على المهمة المطلوبة.
يتم تنفيذ التعلم المتعدد في بنية النموذج اللغوي من خلال تقنية تسمى “التعلم في السياق” التي تستخدم إدخال النص من نموذج اللغة المسبق لتحديد المهمة. في هذه العملية، يشترط النموذج على توجيه لغة طبيعية، وربما يستخدم بعض العروض، ويتوقع من النموذج إكمال المهمة المتبقية من خلال التنبؤ بالخطوات التالية.
المشكلة الرئيسية مع التعلم المتعدد هي أنه على الرغم من إظهاره إمكانات إيجابية، إلا أنه لا يزال أقل من النهج التعديلي في بنية اللغة الطبيعية، ويتطلب تحسينات إضافية ليكون طريقة عملية لتحقيق مهام اللغة.
بالإضافة إلى التعلم المتعدد، هناك طريقة أخرى تكتسب شعبية وهي زيادة سعة نماذج اللغة النقلية. في السنوات القليلة الماضية، شهدت نماذج النقل زيادة كبيرة في القدرة، مع نموذج RNSS18 الذي يحتوي على 100 مليون معامل، ونموذج DCLT18 الذي يحتوي على 300 مليون معامل، ونموذج RWC19 الذي يحتوي على 1.5 مليار معامل، ونموذج SSP19 الذي يحتوي على 8 مليارات معامل، ونموذج RSR19 الذي يحتوي على 11 مليار معامل، ونموذج TUR20 الذي يحتوي على 17 مليار معامل.
زيادة سعة النموذج أو زيادة المعاملات أدت تاريخياً إلى تحسينات في توليد النص، وتم الإشارة إلى أن الخسارة اللغوية تتبع قانون القوة السلس كما وظيفة الحجم.
هذا يأتي بنا إلى نموذج GPT-3 الذي يحتوي على أكثر من 175 مليار معامل، وعند إطلاقه، كان نموذج اللغة النقلية ذا أعلى سعة. دعونا نتحدث الآن عن نموذج GPT-3.
مقدمة إلى نموذج GPT-3
GPT-3 هو نموذج لغوي تلقائي يحتوي على أكثر من 175 مليار معامل، تم إطلاقه بواسطة OpenAI في عام 2020. يصنف GPT-3 أيضًا على أنه نموذج لغوي كبير، مثل نموذج GPT-2 السابق، وهو نموذج تحويل عميق فقط يستخدم بنية قائم على الالتفاف لإنشاء بيانات نصية.
يتم تقييم نموذج GPT-3 على أكثر من عشرين مجموعة بيانات لمعالجة اللغة الطبيعية ومهام جديدة متعددة. لكل مهمة فردية، يتم تقييم نموذج GPT-3 في ثلاثة ظروف،
- التعلم القليل أو التعلم في السياق: في التعلم القليل، يسمح نموذج GPT-3 بعدد من التوزيعات التي يمكن أن تناسب جيداً نافذة السياق للنموذج.
- التعلم الواحد: في التعلم الواحد، يسمح النموذج بعرض واحد فقط.
- التعلم الصفري: في التعلم الصفري، لا توجد عروض، وهناك فقط توجيه لغة طبيعية يتم إطعامه إلى النموذج.

بشكل عام، يصل نموذج GPT-3 إلى أداء مرغوب فيه في إعدادات التعلم الصفري والتعلم الواحد، وفي إعداد التعلم القليل، يتفوق على نماذج النقل الحالية في معظم الأحيان. بالإضافة إلى ذلك، يؤدي نموذج GPT-3 أداء جيداً في إعدادات التعلم الواحد والتعلم الصفري لمهام اللغة الطبيعية المصممة لاختبار التفكير على الفور أو تتطلب انتباهاً سريعاً مثل استخدام كلمات جديدة بعد جملة أو فك تشفير الكلمات أو أداء عمليات حسابية.

نموذج GPT-3: النهج
يستخدم نموذج GPT-3 نهجاً تقليدياً لما قبل التدريب يتكون من نموذج وبيانات وتدريب، ويشبه عملية ما قبل التدريب التي يتبعها نموذج اللغة النقلية RWC-19. يزيد نموذج GPT-3 من حجم النموذج، وحجم مجموعة البيانات، وتنوع مجموعة البيانات، ويزيد من طول فترة التدريب.
كما يستخدم نموذج GPT-3 نهجاً للتعلم في السياق مرة أخرى، والذي يتشابه مع نهج نموذج RWC-19، ولكن يغير بعض الأشياء من خلال استكشاف منهجية مختلفة لتعلم الأنماط داخل سياق مجموعة البيانات.
لذلك، دعونا نبدأ باستكشاف هذه الإعدادات، وتقييم أداء نموذج GPT-3 في إعدادات مختلفة.
التعديل الدقيق
تعديل النموذج الدقيق كان النهج التقليدي في نماذج اللغة النقلية، ويتضمن تحديث أوزان نموذج مسبق التدريب من خلال تدريبه على مجموعة بيانات خاضعة للإشراف محددة للمهمة المطلوبة، ويتم استخدام مئات الآلاف من الأمثلة المحددة خلال هذه العملية.
يعد نهج التعديل الدقيق مفيداً لأنه يؤدي إلى أداء قوي عبر العديد من المعايير. من ناحية أخرى، فإن الحد الرئيسي لاستخدام نهج التعديل الدقيق هو أنه يتطلب مجموعة بيانات جديدة كبيرة لكل مهمة فردية، ويمكن أن يؤدي إلى استغلال ميزات زائفة في مجموعة بيانات التدريب، ويمكن أن يؤدي إلى مقارنة غير عادلة مع الأداء البشري، وأداء سيئ للتعلم الخارجي.
نطاق نموذج GPT-3 الحالي لا يطبق نهج التعديل الدقيق بسبب أدائه المستقل عن المهمة، على الرغم من أنه يمكن تطبيق التعديل الدقيق على نموذج GPT-3 في المستقبل.
التعلم القليل
التعلم القليل هو مصطلح يُستخدم لوصف الإعداد حيث يتم إعطاء نموذج GPT-3 بعض العروض للمهمة أثناء التدخل كتوجيه، ولكن لا يتم تحديث أوزان النموذج. في إعداد التعلم القليل، تحتوي مجموعة البيانات عادة على مثال مع سياق واكتمال مرغوب (على سبيل المثال، جملة إنجليزية وجملة فرنسية مترجمة).
يمنح إعداد التعلم القليل نموذج GPT-3 K أمثلة من السياق والاكتمال، ثم يقدم نموذج GPT-3 سياقاً أخيراً، ويتوقع من النموذج تقديم الاكتمال.
الميزة الرئيسية لاستخدام إعداد التعلم القليل هي أنه يقلل بشكل كبير من الحاجة إلى بيانات محددة للمهمة، ويتقلل من إمكانية تعلم توزيع ضيق من مجموعة بيانات كبيرة يتم تعديلها بدقة.
التعلم الواحد
في إعداد التعلم الواحد، يتم تزويد النموذج بعرض واحد فقط، والباقي مشابه لإعداد التعلم القليل. السبب في أن إعداد التعلم الواحد ذو صلة في نماذج اللغة النقلية هو أنه من بين الإعدادات الثلاث، يُشبه التعلم الواحد أفضل طريقة يتم بها الاتصال بالمهام البشرية.
التعلم الصفري
في إعداد التعلم الصفري، لا توجد عروض، ويتم تزويد النموذج بتوجيه لغة طبيعية يصف المهمة. يُعد نهج التعلم الصفري هو الذي يقدم أقصى قدر من الراحة، وهو متين، ويتجنب الارتباطات الزائفة، ولكنه أيضًا هو أكثر الإعدادات تحدياً.
على الرغم من ذلك، في بعض المهام، يُعد إعداد التعلم الصفري هو الذي يُشبه أكثر كيفية أداء البشر لمهام اللغة الطبيعية.

الرسم البياني أعلاه يقارن إعداد التعلم القليل، والتعلم الواحد، والتعلم الصفري عند أداء مهمة لغة طبيعية لترجمة جملة إنجليزية إلى الفرنسية.
نموذج GPT-3: بنية النموذج
يستخدم نموذج GPT-3 نفس البنية المستخدمة في نموذج GPT-2، ويتضمن التطبيع قبل التدريب، والتخصيص المعدل، و تقنيات التشفير القابل للعكس كما تم استخدامها في نموذج GPT مع استثناء استخدام استراتيجية بديلة لانماط الانتباه النطاقي المحلي والطبقات الكثيفة البديلة في طبقات التحويل، مشابهة لتحويل Sparse.
为了 دراسة اعتماد أداء النموذج على حجم النموذج، قام المطورون بتدريب 8 أحجام نموذجية مختلفة تتراوح عبر ثلاثة أوامر من Magnitude من 125 مليون إلى أكثر من 175 مليار معامل، وكان آخرها نموذج GPT-3.

الرسم البياني أعلاه يقارن حجم و بنية النماذج الثمانية المستخدمة في بنية نموذج GPT-3.
علاوة على ذلك،为了 تقليل نقل البيانات بين العقد، يتم تقسيم النموذج عبر وحدات المعالجة الرسومية (GPUs) على طول العمق وعرض الأبعاد.
مجموعات التدريب
عادة ما تستخدم نماذج اللغة الكبيرة مجموعات بيانات توسعت بشكل كبير مع التطورات الحديثة، وتنتهي بمجموعة Common Crawl التي تتكون من أكثر من تريليون كلمة.
为了 معالجة مشكلة جودة مجموعة البيانات، قام المطورون بخطوات ثلاثة لتحسين جودة مجموعة البيانات.
- قام المطورون بتنزيل وتصفية نسخة من مجموعة بيانات Common Crawl بناءً على نطاق مشابه لمجموعات المراجع عالية الجودة.
- قام المطورون بتنفيذ التكرار المضغوط على مستوى المستند عبر مجموعة البيانات في محاولة لصون سلامة مجموعة التحقق المتبقية كوسيلة فعالة لقياس التكرار الزائد، ولمنع التكرار.
- قام المطورون بإضافة مجموعات المراجع عالية الجودة إلى بيانات التدريب لتعزيز مجموعة Common Crawl، ولزيادة تنوع مجموعة البيانات.
الرسم البياني التالي يظهر النسبة النهائية أو مزيج من مجموعات البيانات المستخدمة لتدريب نموذج GPT-3.

من المخاوف الكبيرة المتعلقة بنماذج اللغة الكبيرة المسبقة التدريب على كمية كبيرة من بيانات الإنترنت بقدرة على تذكر و تعلم كمية كبيرة من المحتوى هو إمكانية تلوث المهام الجانبية من خلال رؤية مجموعات التطوير والاختبار أثناء ما قبل التدريب.

الرسم البياني أعلاه يظهر الحوسبة الإجمالية المستخدمة أثناء تدريب نموذج GPT-3.
التقييم
对于 التعلم القليل، يقوم النموذج بتقييم كل مثال في مجموعة بيانات التقييم من خلال سحب K أمثلة بشكل عشوائي من مجموعة بيانات التدريب للمهمة كتوجيه، ويفصلها بحدود 1 أو 2 سطر جديد حسب المهمة.
يمكن أن يكون K أي قيمة تتراوح من 0 إلى الحد الأقصى المسموح به من نافذة السياق للنموذج، وهو n ext = 2048 لجميع النماذج، وغالبًا ما يتسع ل 10 إلى 100 مثال.
قيم أكبر من K غالباً ما تؤدي إلى نتائج أفضل، ولكن ليس دائماً، لذلك عندما يكون للنموذج مجموعة اختبار منفصلة ومجموعة تطوير، يجرى النموذج بعض قيم K على مجموعة التطوير، و根据 النتائج، يجرى أفضل قيمة على مجموعة الاختبار.
علاوة على ذلك، على المهام التي تتطلب اختيار اكتمال صحيح من بين عدة خيارات، يقدم المطورون K أمثلة من الاكتمال والسياق، ثم يقدمون سياق واحد فقط، ويتابعون المهام بناءً على احتمال الاكتمال.
النتائج

الرسم البياني أعلاه يظهر منحنيات التدريب للنماذج الثمانية في بنية نموذج GPT-3، كما هو موضح في الأقسام السابقة.
قبل تقييم النماذج الثمانية على مجموعة واسعة من بيانات التدريب، يتم تجميع مجموعات البيانات في ثمانية فئات تمثل مهام متشابهة.
- التقييم على المهام التقليدية لمعالجة اللغة الطبيعية، والمهام التي تشبه معالجة اللغة الطبيعية مثل مهام Cloze أو إكمال الجملة / الفقرة.
- التقييم على مهام الإجابة على الأسئلة في الكتاب المغلق.
- التقييم على قدرة النموذج على الترجمة بين اللغات (خاصة في إعداد التعلم الواحد والتعلم القليل).
- التقييم على أداء النموذج في مهام Schema Winograd.
- التقييم على مجموعات بيانات تتضمن استدلال الحس السليم أو الإجابة على الأسئلة.
- التقييم على مهام الفهم القرائي.
- التقييم على مجموعة معايير SuperGLUE.
- استكشاف NLI.
معالجة اللغة، والاكتمال، ومهام Cloze
في هذا القسم، يتم تقييم أداء نموذج GPT-3 على المهام التقليدية لمعالجة اللغة الطبيعية، وكذلك المهام التي تتطلب التنبؤ بكلمة واحدة من الاهتمام، أو إكمال جملة أو فقرة، أو إكمال قطعة من النص.
معالجة اللغة
يحسب نموذج GPT-3 الارتباك الصفري في مجموعة بيانات PTB أو بنك شجرة بنسيلفانيا.
النموذج الأكبر في بنية نموذج GPT-3 يصل إلى أفضل نتيجة جديدة على مجموعة بيانات PTB بفارق كبير يصل إلى 15 نقطة، ويتحقق من الارتباك بحدود 20.50.
LAMBADA
يتم استخدام مجموعة بيانات LAMBADA لاختبار نموذجية النموذج على التبعيات الطويلة المدى في الفقرات أو النصوص.
يصل نموذج GPT-3 إلى دقة 76% على مجموعة بيانات LAMBADA، ويتحقق من مكسب يصل إلى 8% أكثر من النماذج السابقة الأفضل.
الإجابة على الأسئلة في الكتاب المغلق
يتم استخدام الإجابة على الأسئلة في الكتاب المغلق لقياس قدرة نموذج GPT-3 على الإجابة على الأسئلة بناءً على المعرفة الواقعية الشاملة.
يصل نموذج GPT-3 إلى دقة 64.3% في إعداد التعلم الصفري، و 68% و 71.2% في إعداد التعلم الواحد والتعلم القليل على مجموعة بيانات TriviaQA.
الأفكار النهائية
يمكن القول بأمان أن نموذج GPT-3 كان مرحلة ثورية في صناعة نماذج اللغة الكبيرة، حيث ساعد نموذج GPT-3 في دفع حدود ما يمكن لنموذج اللغة أن يفعله.












