رطم GPT-3: القليل من التعلم باللقطة لنموذج اللغة؟ - اتحدوا.AI
اتصل بنا للحصول على مزيد من المعلومات

الذكاء الاصطناعي

GPT-3: القليل من التعلم باللقطة لنموذج اللغة؟

mm

تم النشر

 on

في السنوات القليلة الماضية، شهدت صناعة الذكاء الاصطناعي وتعلم الآلة ارتفاعًا سريعًا في تطوير وتطبيق أنظمة البرمجة اللغوية العصبية حيث تمكن الباحثون من تنفيذ ممارسات البرمجة اللغوية العصبية بطرق مرنة للغاية ومستقلة عن المهام لنقل المهام النهائية. 

في البداية، كانت التمثيلات أحادية الطبقة هي التي تستخدم ناقلات الكلمات، ثم تم تغذيتها بعد ذلك إلى البنية الخاصة بالمهمة. بعد ذلك، كانت بنية RNN هي التي استخدمت تمثيلات متعددة الطبقات وحالة سياقية لتشكيل تمثيلات أفضل. ومؤخرًا، لدينا نماذج لغة النقل أو النماذج المتكررة المدربة مسبقًا والتي ألغت تمامًا الحاجة إلى بنيات خاصة بالمهام من خلال ضبط هذه الشبكات. 

أثبتت نماذج لغة النقل أنها نقطة تحول رئيسية في صناعة البرمجة اللغوية العصبية لأنها أدت إلى تقدم هائل في المهام الصعبة مثل الإجابة على الأسئلة، وفهم القراءة أو كتل النص، والاستنتاج النصي، وأكثر من ذلك بكثير. 

ومع ذلك، على الرغم من مزاياها، فإن نماذج لغة النقل لها قيود كبيرة لأنها تتطلب ضبطًا دقيقًا خاصًا بالمهمة أو مجموعة بيانات خاصة بالمهمة لتحقيق الأداء المطلوب في المهمة. علاوة على ذلك، تتطلب نماذج لغة النقل أيضًا من المطورين ضبط مجموعات البيانات لمئات الآلاف من الأمثلة الخاصة بمهمة معينة. 

وغني عن القول أن إزالة متطلبات مجموعة البيانات الخاصة بالمهمة والضبط الدقيق للمهمة المحددة سيكون أمرًا مرغوبًا للغاية ومفيدًا لصناعة البرمجة اللغوية العصبية لأسباب عديدة. 

مشكلات تتعلق بنماذج لغة النقل الحالية المدربة مسبقًا أو النماذج المتكررة

  • الحد من التطبيق العملي وقابلية التطبيق

أولاً وقبل كل شيء، فإن الحاجة إلى مجموعة بيانات كبيرة تحتوي على بيانات مصنفة لكل مهمة تحد من قابلية تطبيق نماذج اللغة وعمليتها. تجد نماذج اللغة تطبيقاتها في مجموعة واسعة من المهام التي تتراوح من إنشاء قصة قصيرة، إلى تصحيح الأخطاء النحوية، إلى إنشاء أمثلة على مفهوم ما. في بعض الأحيان، يكون جمع مجموعة كبيرة من البيانات الخاضعة للإشراف مع البيانات المصنفة مهمة صعبة، خاصة عندما يلزم تكرار العملية لكل مهمة على حدة. 

  • استغلال الارتباطات الزائفة في بيانات التدريب

يمكن أن تؤدي القيود وضيق توزيع التدريب إلى جانب تعبير النموذج إلى نمو أساسي في إمكانية استغلال الارتباطات الزائفة في بيانات التدريب. يمكن أن تؤدي إمكانية استغلال بيانات التدريب إلى حدوث مشكلات أثناء الضبط الدقيق ونموذج ما قبل التدريب لأن نماذج لغة النقل مصممة بطريقة لاستيعاب كمية كبيرة من المعلومات أثناء التدريب المسبق. 

علاوة على ذلك، أشار العمل على النماذج السابقة إلى أن النماذج الكبيرة لا تؤدي إلى توزيع أفضل في كل مرة. علاوة على ذلك، تمت الإشارة أيضًا إلى أن التعميم الذي يتم تحقيقه في ظل هذا النموذج يمكن أن يؤدي إلى ضعف الأداء في المقام الأول لأن النموذج محدد للغاية لبيانات التدريب، ولا يمكن أن يؤدي أداءً جيدًا في المواقف خارج نطاق بيانات التدريب. 

  • مقارنة مع التعلم البشري

وأخيرًا، عند مقارنتها بنماذج نقل اللغة، لا يحتاج البشر إلى مجموعة بيانات تدريب كبيرة عندما يتعلق الأمر بتعلم غالبية المهام اللغوية. في أغلب الأحيان، يكون التوجيه الموجز باللغة الطبيعية للشخص أو عرض بسيط للمهمة اللغوية كافيًا للإنسان لفهم مهمة لغوية وتنفيذها بمستوى معين من القدرة التنافسية. 

تتمتع قدرة الإنسان على التكيف بالعديد من المزايا العملية لأنها تتيح له إما التبديل بين مجموعات المهارات المختلفة أو مزجها معًا لأداء أفضل خلال اللهجة، وهو أمر يتجاوز قدرات أنظمة البرمجة اللغوية العصبية الحالية. 

معالجة مشكلات Meta Learning وGPT-3

الحل المحتمل للتحديات المذكورة أعلاه هو استخدام التعلم التلوي، وهو مفهوم في تعلم الآلة الحديث الذي يسمح للنموذج بتطوير مجموعة أكبر وأوسع من المهارات والقدرة على التعرف على الأنماط أثناء التدريب، ثم يستخدم هذه القدرات المكتسبة أثناء التدخل للتكيف بسرعة، أو التعرف على المهمة المطلوبة. 

يتم تنفيذ التعلم الوصفي في بنية نموذج اللغة عبر تقنية تسمى "التعلم في السياق" الذي يستخدم إدخال النص لنموذج لغة مُدرب مسبقًا كمواصفات مهمة. في هذه العملية، يتطلب النموذج تعليمات اللغة الطبيعية، وقد يستخدم بعض العروض التوضيحية، ومن المتوقع بعد ذلك أن يكمل النموذج بقية المهمة من خلال التنبؤ بالخطوات التالية. 

المشكلة الرئيسية الوحيدة في Meta Learning هي أنه على الرغم من أنه أظهر إمكانات إيجابية، إلا أنه لا يزال أدنى من نهج الضبط الدقيق في بنية اللغة الطبيعية، ويحتاج إلى مزيد من التحسين حتى يصبح طريقة عملية للتغلب على المهام اللغوية. 

بالإضافة إلى التعلم الوصفي، هناك طريقة أخرى تكتسب شعبية وهي زيادة قدرة نماذج اللغة المحولة. في السنوات القليلة الماضية، شهدت نماذج النقل زيادة كبيرة في قدرتها على التعامل مع RNSS18 نموذج يحتوي على 100 مليون معلمة DCLT18 نموذج يحتوي على 300 مليون معلمة RWC19 نموذج يحتوي على 1.5 مليار معلمة SSP19 نموذج يحتوي على 8 مليار معلمة آر إس آر19 نموذج يحتوي على 11 مليار معلمة، و تور 20 نموذج يحتوي على 17 مليار معلمة. 

لقد أدت زيادة قدرة النموذج أو زيادة المعلمات تاريخيًا إلى تحسينات في تركيب النص، وكان هناك مؤشر على أن فقدان السجل، الذي يرتبط بالمهام النهائية، يتبع أيضًا اتجاهًا سلسًا للتحسين مع المقياس. 

يقودنا هذا إلى نموذج GPT-3 الذي يحتوي على أكثر من 175 مليار معلمة، وعندما تم إطلاقه، كان نموذج لغة النقل ذو السعة الأعلى. لنتحدث الآن عن نموذج GPT-3. 

مقدمة لنموذج GPT-3

GPT-3 هو نموذج لغة عدواني ذاتي يحتوي على أكثر من 175 مليار معلمة تم إصداره بواسطة OpenAI في عام 2020. ويصنف GPT-3 أيضًا على أنه نموذج لغة كبير تمامًا مثل سابقته، يعد نموذج GPT-2 نموذجًا لمحول التعلم العميق لوحدة فك التشفير فقط والذي يستخدم بنية قائمة على الالتواء لإنشاء بيانات نصية. 

يقيس نموذج GPT-3 قدراته الخاصة في تعلم السياق، ويتم تقييم نموذج GPT-3 على أكثر من عشرين مجموعة بيانات البرمجة اللغوية العصبية ومهام متعددة جديدة. لكل مهمة على حدة، يتم تقييم نموذج GPT-3 تحت ثلاثة شروط،

  • القليل من التعلم باللقطة أو التعلم في السياق: في عدد قليل من عمليات التعلم باللقطة، يسمح نموذج GPT-3 بأكبر عدد من التوزيعات التي يمكن أن تتلاءم بشكل جيد مع نافذة سياق النموذج. 
  • التعلم بلقطة واحدة: في التعلم بلقطة واحدة، يسمح النموذج بعرض توضيحي واحد فقط. 
  • التعلم بدون إطلاق النار: في التعلم الصفري، لا توجد عروض توضيحية، ويوجد فقط تعليمات باللغة الطبيعية يتم تغذيتها للنموذج. 

بشكل عام ، نموذج GPT-3 يحقق الأداء المطلوب في إعدادات اللقطة الصفرية واللقطة الواحدة، وفي إعدادات اللقطات القليلة، يتفوق على نماذج النقل الحديثة في معظم الأوقات. علاوة على ذلك، يعمل نموذج GPT-3 جيدًا في إعدادات اللقطة الواحدة والصفرية في مهام اللغة الطبيعية المصممة لاختبار التفكير السريع، أو يتطلب اهتمامًا سريعًا مثل استخدام كلمات جديدة بعد الجملة، أو فك رموز الكلمات، أو إجراء العمليات الحسابية. عمليات. من ناحية أخرى، عند تشغيله في إطار لقطات قليلة، يقوم نموذج GPT-3 بإنشاء مقالات إخبارية اصطناعية تشبه الكتابة البشرية عند تمريرها عبر مقيمين بشريين. 

نموذج GPT-3: النهج

يستخدم نموذج GPT-3 نهجًا تقليديًا للتدريب المسبق يشتمل على النموذج والبيانات والتدريب، وهو يشبه عملية التدريب المسبق التي يتبعها نموذج لغة النقل RWC-19. يعمل نموذج GPT-3 على زيادة حجم النموذج وحجم مجموعة البيانات وتنوع مجموعة البيانات وزيادة طول فترة التدريب. 

يستخدم النموذج أيضًا نهج التعلم في السياق الذي يشبه مرة أخرى نهج نموذج RWC-19، ولكنه يعدل الأمور قليلاً من خلال استكشاف إعدادات مختلفة لأنماط التعلم بشكل منهجي في سياق مجموعة البيانات. 

لذا، فلنبدأ باستكشاف هذه الإعدادات وتقييم كيفية أداء نموذج GTP-3 في إعدادات مختلفة. 

الكون المثالى

لقد كان ضبط النموذج هو النهج التقليدي في النقل نماذج اللغة، ويتضمن هذا النهج تحديث أوزان النموذج المُدرب مسبقًا من خلال تدريب النموذج على مجموعة بيانات خاضعة للإشراف خاصة بالمهمة المطلوبة، ويتم استخدام مئات الآلاف من الأمثلة المُصنفة أثناء العملية. 

يعد أسلوب الضبط الدقيق مفيدًا لأنه يقدم أداءً قويًا عبر العديد من المعايير. من ناحية أخرى، فإن القيد الرئيسي لاستخدام نهج الضبط الدقيق هو أنه يتطلب مجموعة بيانات جديدة وكبيرة لكل مهمة فردية، ولديه القدرة على استغلال الميزات الزائفة لمجموعة بيانات التدريب، ويمكن أن يؤدي إلى مقارنة غير عادلة مع الأداء البشري ، والتعميم الضعيف لعدم التوزيع. 

لا يطبق النطاق الحالي لنموذج GPT-3 نهج الضبط الدقيق بسبب أدائه الحيادي للمهمة، على الرغم من إمكانية تطبيق الضبط الدقيق على نموذج GPT-3 في المستقبل. 

طلقة قليلة

Few Shot هو مصطلح يشير إلى الإعداد الذي يُعطى فيه نموذج GPT-3 بعض العروض التوضيحية للمهمة أثناء التداخل كتكييف، ولكن لا يتم تحديث أوزان النموذج. في إعدادات اللقطات القليلة، تحتوي مجموعة البيانات عادةً على مثال مع سياق وإكمال مرغوب فيه (على سبيل المثال، جملة فرنسية وترجمتها الإنجليزية). إعداد اللقطات القليلة يعطي النموذج K أمثلة على السياق والإكمال، ثم يزود النموذج بسياق نهائي واحد، ويتوقع أن يوفر النموذج الإكمال. 

تتمثل الميزة الرئيسية لاستخدام إعداد اللقطات القليلة في أنه يقلل بشكل كبير من الحاجة إلى بيانات خاصة بالمهمة، كما يقلل أيضًا من إمكانية تعلم توزيع ضيق من مجموعة بيانات كبيرة تم ضبطها بدقة. من ناحية أخرى، فإن العيب الرئيسي لاستخدام التعلم باللقطات القليلة هو أن النتائج المقدمة في إعداد اللقطات القليلة لا ترقى إلى المستوى المطلوب، وضعيفة بشكل ملحوظ عند مقارنتها بالنماذج الحديثة الأخرى التي تم ضبطها بدقة. 

طلقة واحدة

في إعداد اللقطة الواحدة، يتم تزويد النموذج بعرض توضيحي واحد فقط، والباقي مشابه لإعداد اللقطات القليلة. السبب وراء أهمية إعداد لقطة واحدة في نماذج لغة النقل هو أنه من بين جميع الإعدادات الثلاثة، فإن لقطة واحدة هي التي تشبه الطريقة التي يتم بها توصيل المهام إلى البشر بشكل أفضل. لأنه في معظم المهام، من الشائع تقديم عرض توضيحي واحد للمهمة وإلا فقد يكون من الصعب فهم سياق المهمة. 

طلقة صفرية

في إعداد اللقطة الصفرية، لا توجد عروض توضيحية، ويتم إعطاء النموذج تعليمات باللغة الطبيعية تصف المهمة. طريقة اللقطة الصفرية هي الطريقة التي توفر أقصى قدر من الراحة، وهي قوية، وتتجنب أيضًا الارتباطات الزائفة، ولكنها أيضًا الأكثر تحديًا من بين جميع الإعدادات الثلاثة. لأنه في بعض الحالات، يصعب علينا نحن البشر اكتشاف سياق المهمة دون رؤية العرض التوضيحي أولاً. 

بغض النظر، بالنسبة لبعض المهام، فإن إعداد اللقطة الصفرية هو الإعداد الذي يشبه الطريقة الأقرب للبشر لأداء مهام اللغة الطبيعية. 

يقارن الشكل أعلاه بين إعدادات اللقطات القليلة واللقطة الواحدة وإعدادات اللقطة الصفرية عند تنفيذ مهمة اللغة الطبيعية المتمثلة في أخذ جملة باللغة الإنجليزية وترجمتها إلى الفرنسية. 

GPT-3: الهندسة المعمارية النموذجية

يستخدم نموذج GPT-3 نفس البنية المستخدمة في نموذج GPT-2، ويتضمن التطبيع المسبق والتهيئة المعدلة وتقنيات الترميز العكسي كما تم استخدامها في نموذج GPT باستثناء استخدام بديل استراتيجية لأنماط الانتباه المتفرقة ذات النطاقات المحلية، والطبقات الكثيفة المتناوبة في طبقات المحولات، على غرار المحولات المتفرقة. 

لدراسة اعتماد أداء النموذج على حجم النموذج، قام المطورون بتدريب 8 أحجام مختلفة للنماذج تتراوح على ثلاثة أوامر مختلفة من حيث الحجم من 125 مليون إلى أكثر من 175 مليار معلمة، وآخرها يسمى نموذج GPT-3 . أشارت الأعمال السابقة المتعلقة بنماذج LLM إلى أن قياس فقدان التحقق من الصحة بكمية كافية من بيانات التدريب يجب أن يكون قانون قوة سلسًا تقريبيًا كدالة للحجم. تتيح نماذج التدريب ذات الأحجام المختلفة للمطورين اختبار الفرضية لكل من المهام اللغوية النهائية وكذلك فقدان التحقق من الصحة. 

يقارن الشكل أعلاه حجم وبنية النماذج الثمانية المختلفة المستخدمة لتطوير GPT-8. هنا، يحدد n(params) العدد الإجمالي للأنماط القابلة للتدريب، ويحدد n(layers) العدد الإجمالي للطبقات في النموذج، ويحدد d(model) عدد الوحدات في كل طبقة من عنق الزجاجة، ويحدد d(head) أبعاد كل رأس انتباه. نافذة السياق لكل نموذج هي نفسها مع 3 رمزًا مميزًا. 

علاوة على ذلك، ولتقليل نقل البيانات بين العقد، يتم تقسيم النموذج عبر وحدات معالجة الرسومات على طول عمق وعرض الأبعاد. تم اختيار المعلمات المعمارية لكل نموذج على أساس الكفاءة الحسابية وموازنة التحميل لتحقيق أقصى قدر من الدقة في تخطيط النماذج عبر وحدات معالجة الرسومات. 

مجموعات بيانات التدريب

عادةً، تستخدم نماذج اللغات الكبيرة مجموعات البيانات التي توسعت بشكل كبير مع التطورات الأخيرة، وتبلغ ذروتها في مجموعة بيانات Common Crawl التي تتكون من أكثر من تريليون كلمة مختلفة. حجم مجموعة البيانات كافٍ لتدريب نموذج GPT-3 دون التحديث على نفس التسلسل عدة مرات. ومع ذلك، تشير الدراسات وتحليل الأداء إلى أن الإصدارات التي تمت تصفيتها قليلاً أو الإصدارات غير المرشحة من مجموعة بيانات Common Crawl تتمتع بجودة منخفضة عند مقارنتها بمجموعة بيانات أكثر تنظيماً. 

لمعالجة مشكلة متوسط ​​جودة مجموعة البيانات، اتخذ المطورون 3 خطوات لتعزيز جودة مجموعة البيانات. 

  1. قام المطورون بتنزيل وتصفية نسخة من مجموعة بيانات Common Crawl استنادًا إلى نطاق مشابه لمجموعة مرجعية عالية الجودة. 
  2. أجرى المطورون تكرارًا غامضًا على مستوى المستند عبر مجموعة البيانات في محاولة للحفاظ على سلامة مجموعة التحقق من الصحة الخاصة بهم كمقياس فعال للتركيب الزائد، وكذلك لمنع التكرار. 
  3. أضاف المطورون أيضًا مجموعات مرجعية عالية الجودة إلى بيانات التدريب لزيادة مجموعة بيانات الزحف المشترك، ولزيادة تنوع مجموعة البيانات. 

يوضح الشكل التالي النسبة أو الخليط النهائي لمجموعات البيانات المستخدمة لتدريب نموذج GPT-3. تتألف بيانات الزحف المشترك من أكثر من 45 تيرابايت من النص العادي قبل التصفية، وقد تم تخفيضها إلى 570 جيجابايت من البيانات بعد التصفية، وهو ما يعادل تقريبًا أكثر من 400 مليار من الرموز المميزة المشفرة بزوج البايت. تجدر الإشارة إلى أن مجموعات البيانات في التدريب التي يُنظر إليها على أنها ذات جودة أعلى يتم أخذ عينات منها بتكرار أكبر بدلاً من أخذ عينات من مجموعة البيانات بما يتناسب مع حجمها. ونتيجة لذلك، يتم أخذ عينات من مجموعات البيانات مثل Books2 & Common Crawl أقل من مرة واحدة أثناء التدريب، بينما يتم أخذ عينات من مجموعات البيانات الأخرى عدة مرات. يسمح للنموذج بقبول كمية صغيرة من التجهيز الزائد مقابل التدريب على بيانات التدريب بجودة أعلى. 

أحد المخاوف الكبيرة المتعلقة بنماذج اللغة الكبيرة التي تم تدريبها مسبقًا على كمية كبيرة من بيانات الإنترنت مع القدرة على حفظ وتعلم كمية كبيرة من المحتوى هو التلوث المحتمل للمهام النهائية من خلال رؤية مجموعات التطوير أو الاختبار الخاصة بها أثناء مرحلة ما قبل التدريب. عملية التدريب. لتقليل هذا التلوث المحتمل، بحث المطورون عن أي تداخلات مع مجموعات الاختبار والتطوير الخاصة بالمعايير التي تمت دراستها لـ GPT-3، وحاولوا إزالة هذه التداخلات. 

توضح الصورة أعلاه إجمالي الحوسبة المستخدمة أثناء تدريب نموذج GPT-3. يستخدم النموذج قوانين القياس لنماذج اللغة العصبية لتدريب نماذج أكبر بكثير على عدد أقل من الرموز المميزة. ونتيجة لذلك، استغرق كل من طراز GPT-3 وRoBERTa-Large، وهو أصغر بمقدار 10 مرات من طراز GPT-3، ما يقرب من 50 بيتافلوب/يوم من الحوسبة أثناء عملية التدريب المسبق. 

التقييم

بالنسبة للتعلم باللقطة القليلة، يقوم النموذج بتقييم كل مثال موجود في مجموعة بيانات التقييم عن طريق رسم أمثلة K بشكل عشوائي من مجموعة بيانات التدريب الخاصة بهذه المهمة كتكييف، ويحددها بسطر واحد أو سطرين جديدين اعتمادًا على المهمة. بالنسبة إلى Storycloze وLAMBADA، يرسم النموذج أمثلة تكييفية من مجموعة التطوير ويقيمها في مجموعة الاختبار بسبب عدم توفر مجموعة تدريب خاضعة للإشراف. بالنسبة لفينوغراد، توجد مجموعة بيانات واحدة فقط، ولذلك يتم استخلاص عينات التكييف منها مباشرة. 

يمكن أن تكون K أي قيمة تتراوح من 0 إلى الحد الأقصى للمبلغ المسموح به في نافذة سياق النموذج وهو nتحويلة = 2048 لجميع النماذج، وعادةً ما يناسب حوالي 10 إلى 100 مثال. غالبًا ما تؤدي القيم الأكبر لـ K إلى نتائج أفضل، ولكن ليس دائمًا ولهذا السبب عندما يكون لدى النموذج مجموعة اختبار ومجموعة تطوير منفصلة متاحة، يقوم النموذج بإجراء تجارب على قيم قليلة لـ K في مجموعة التطوير، واستنادًا إلى النتائج ، فإنه يشغل أفضل قيمة في مجموعة الاختبار. 

علاوة على ذلك، بالنسبة للمهام التي تتطلب تحديد إكمال صحيح من خيارات متعددة، يقدم المطورون أمثلة K للتصحيح بالإضافة إلى إكمال السياق، ومتابعتها من خلال تقديم مثال واحد للسياق فقط، ثم تتم مقارنة المهام على أساس احتمالية LM من كل إنجاز. بالنسبة للمهام التي تتطلب تصنيفًا ثنائيًا، غالبًا ما تعطي النماذج خيارات أكثر دلالة، وبأسماء ذات معنى أكثر، ثم تعامل المهمة على أنها اختيار متعدد، وفي بعض الأحيان تقوم أيضًا بتأطير المهمة بشكل مشابه لما يتم بواسطة نموذج وهندسة RSR. 

بالنسبة للمهام التي تتطلب إكمالًا حرًا، يستخدم النموذج بحث الشعاع بمعلمات مماثلة كما هو مستخدم في إطار عمل RSR، مع حزمة طولها 4، وعقوبة قدرها 0.6. يتم بعد ذلك تسجيل النموذج باستخدام درجة التشابه F1، أو المطابقة التامة، أو BLEU، اعتمادًا على معيار مجموعة البيانات. 

النتائج

يعرض الشكل أعلاه منحنيات التدريب للنماذج الثمانية المستخدمة في بنية نموذج GPT-8، كما هو موضح في الأقسام السابقة. على غرار نتائج نموذج لغة KMH، يتبع أداء نموذج GPT-3 قانونًا مناسبًا عند استخدام حساب التدريب بشكل فعال. هناك اختلاف طفيف عن القانون فقط عندما يتم تمديد الاتجاه بأمرين إضافيين من حيث الحجم. قد يخطر ببال الناس أن التحسينات في فقدان الإنتروبيا المتقاطعة قد تكون نتيجة لنمذجة تفاصيل زائفة لمجموعة التدريب. ومع ذلك، فإن التحسينات في فقدان الإنتروبيا المتقاطعة تؤدي إلى مكاسب ثابتة في الأداء العام عبر نطاق واسع من مجموعة متنوعة من مهام البرمجة اللغوية العصبية. 

قبل تقييم النماذج الثمانية المختلفة لمجموعة واسعة من بيانات التدريب، يتم تجميع مجموعات البيانات في 8 فئات مختلفة تمثل مهام مماثلة. هذه الفئات هي

  1. تقييم مهام نمذجة اللغة التقليدية، والمهام التي تشبه نمذجة اللغة مثل مهام Cloze، أو مهام إكمال الجملة/الفقرة. 
  2. تقييم مهام الإجابة على أسئلة "الكتاب المغلق". 
  3. تقييم قدرة النموذج على الترجمة بين اللغات (خاصة اللقطات الواحدة والقليلة اللقطات)
  4. تقييم أداء النموذج في المهام المشابهة لمخطط فينوغراد. 
  5. تقييم مجموعات البيانات التي تتضمن المنطق المنطقي أو الإجابة على الأسئلة. 
  6. تقييم مهام القراءة والفهم. 
  7. التقييم على مجموعة SuperGLUE القياسية. 
  8. استكشاف NLI. 

نمذجة اللغة، والإكمال، ومهام الإغلاق

في هذا القسم، يتم تقييم أداء نموذج GPT-3 على مهام نمذجة اللغة التقليدية بالإضافة إلى المهام التي تتطلب التنبؤ بكلمة واحدة محل اهتمام، أو إكمال فقرة أو جملة، أو إكمال جزء من النص. دعونا نناقشها بالتفصيل باختصار. 

نمذجة اللغة

يحسب نموذج GPT-3 درجة الحيرة الصفرية على مجموعة بيانات PTB أو Penn Tree Bank. يحذف النموذج المهام المتعلقة بـ Wikipedia لأنه تم تضمينها بالفعل في بيانات التدريب الخاصة بالنموذج، كما تم حذف المعيار المكون من مليار كلمة لأنه يسبب قدرًا كبيرًا من الاحتكاك بمجموعة البيانات الموجودة ضمن بيانات التدريب. ومع ذلك، فإن مجموعة بيانات PTB تعالج هذه المشكلات لأنها يمكن أن تسبق ظهور الإنترنت الحديث. أكبر نموذج في بنية نموذج GPT-3 يحصل على SOTA جديد على مجموعة بيانات PTB بهامش جدير بالملاحظة قدره 15 نقطة، ويحقق حيرة قدرها 20.50. 

مبادا

يتم استخدام مجموعة بيانات LAMBADA لاختبار نمذجة النموذج على التبعيات طويلة المدى في الفقرات أو النصوص. ويعني أنه يُطلب من النموذج توقع الكلمة الأخيرة من الجملة بعد قراءة الفقرة للسياق. علاوة على ذلك، فإن التوسع المستمر في نماذج اللغة يؤدي إلى عوائد متناقصة على المعيار. 

يحقق نموذج GPT-3 دقة بنسبة 76% على LAMBADA، ويحقق مكاسب تزيد عن 8% مقارنة بأفضل النماذج السابقة. علاوة على ذلك، يوضح نموذج LAMBADA مرونة التعلم القليل حيث أنه يعالج المشكلة بطريقة تحدث بشكل كلاسيكي مع مجموعة البيانات. عادةً ما يكون إكمال الجملة في LAMBADA هو الكلمة الأخيرة في الجملة، ولكن نظرًا لأن النموذج اللغوي لا يمكنه معرفة ذلك، فإنه يعين احتمالًا ليس فقط للنهاية الصحيحة، ولكن أيضًا للاستمراريات الأخرى في الفقرة. 

علاوة على ذلك، عندما يتم تعديل الأمثلة التي تم تغذيتها لنموذج GPT-3 بطريقة معينة، يعود النموذج دقة تزيد عن 86%، أي بزيادة تزيد عن 18% عن النماذج السابقة. بالإضافة إلى ذلك، أشارت النتائج أيضًا إلى أن أداء النموذج في إعدادات اللقطات القليلة يزداد بشكل متناسب مع زيادة حجم النموذج. وعلى الرغم من أن هذه الإستراتيجية تقلل من أصغر نموذج في بنية GPT-3 بنسبة 20%، إلا أنها تعزز دقة نموذج GPT-3 الأساسي الذي يحتوي على 175 مليار معلمة بنسبة 10%. 

إجابة سؤال الكتاب المغلق

إن الإجابة على أسئلة الكتاب المغلق هي محاولة لقياس قدرة نموذج GPT-3 على الإجابة على الأسئلة بناءً على معرفة واقعية واسعة. نظرًا لأن مثل هذه الأسئلة غالبًا ما تحتوي على قدر كبير من الاستعلامات المحتملة، يتم تحقيق المهمة عادةً باستخدام نظام استرجاع المعلومات الذي يسمح للنموذج بالعثور على النص ذي الصلة مع النموذج الذي يتعلم إنشاء استجابة لإجابة في ضوء النص المسترجع، و السؤال. 

تقارن الصورة أعلاه نتيجة نموذج GPT-3 مع نماذج مختلفة، وتعمل على مجموعات بيانات مختلفة. في مجموعة بيانات TriviaQA، يحقق النموذج درجة دقة تبلغ 64.3% في إعداد اللقطة الصفرية، في حين يحقق درجة دقة تبلغ 68% و71.2% في إعدادات اللقطة الواحدة وعدد قليل من اللقطات على التوالي. 

من الواضح أن نموذج GPT-3 في وضع اللقطة الصفرية يتفوق على نموذج T5-11B المضبوط بدقة بنسبة تزيد عن 14%. 

يوضح الشكل أعلاه أن أداء نموذج GPT-3 ينمو بسلاسة مع زيادة حجم النموذج. ويشير الأداء إلى أن نماذج اللغة تستمر في التعلم من مجموعة البيانات مع زيادة قدرتها. 

افكار اخيرة

سيكون من الآمن أن نقول إن GPT-3 كانت مرحلة ثورية في صناعة LLM حيث ساعدت GPT-3 في دفع حدود ما يمكن أن يفعله نموذج اللغة. لقد كانت التطورات التي تم إجراؤها والعقبات التي تم التغلب عليها بواسطة GPT-3 هي التي مهدت الطريق لنموذج اللغة الكبيرة الأكثر تقدمًا ودقة حتى الآن، GPT-4. 

"مهندس بالمهنة كاتب عن ظهر قلب". كونال كاتب تقني لديه حب وفهم عميقان للذكاء الاصطناعي والتعلم الآلي ، مكرس لتبسيط المفاهيم المعقدة في هذه المجالات من خلال وثائقه الجذابة والغنية بالمعلومات.