Connect with us

نماذج NLP تعاني من فهم الجمل الاسمية التكرارية

الذكاء الاصطناعي

نماذج NLP تعاني من فهم الجمل الاسمية التكرارية

mm

وجد باحثون من الولايات المتحدة والصين أن أيًا من نماذج معالجة اللغة الطبيعية (NLP) الرائدة لا يبدو أنه قادر ب mặc định على فك تشفير الجمل الإنجليزية التي تتميز بالجمل الاسمية التكرارية (NPs) ، و “يعانون” من تحديد المعنى المركزي في الأمثلة المتعلقة بها مثل فيلم جديد مفضلي و فيلمي المفضل (كل منها له معنى مختلف).

في مثال رئيسي من الورقة ، هنا لغز صغير يفشل الأطفال في فك شفرته غالبًا: الكرة الثانية خضراء ، ولكن الكرة الخامسة هي 'الكرة الخضراء الثانية'. مصدر: https://arxiv.org/pdf/2112.08326.pdf

في مثال رئيسي من الورقة ، هنا لغز صغير يفشل الأطفال في فك شفرته غالبًا: الكرة الثانية خضراء ، ولكن الكرة الخامسة هي ‘الكرة الخضراء الثانية’. مصدر: https://arxiv.org/pdf/2112.08326.pdf

قام الباحثون بتحدي الجمل الاسمية التكرارية (RNPC) لعدة نماذج توليد لغة مفتوحة المصدر مثبتة محليًا: GPT-3 * من OpenAI ، و BERT من Google ، و RoBERTa و BART من Facebook ، ووجدوا أن هذه النماذج من الدرجة الأولى حققت أداءً ي相当 بالصدفة. وخلصت إلى:

‘تظهر النتائج أن نماذج اللغة المتقدمة (SOTA) المحددة على معايير قياسية من نفس الشكل تعاني جميعًا على مجموعة بياناتنا ، مما يشير إلى أن المعرفة المستهدفة ليست متاحة بسهولة.’

أمثلة زوجية في تحدي RNPC حيث ارتكبت نماذج SOTA أخطاء.

أمثلة زوجية في تحدي RNPC حيث ارتكبت نماذج SOTA أخطاء.

في الأمثلة المذكورة أعلاه ، فشلت النماذج ، على سبيل المثال ، في التمييز بين الاختلاف الدلالي بين حيوان خطير ميت (أي مفترس لا يشكل تهديدًا لأنه ميت) و حيوان ميت خطير (مثل السنجاب الميت ، الذي قد يحتوي على فيروس ضار ، ويشكل تهديدًا نشطًا حاليًا).

(علاوة على ذلك ، على الرغم من أن الورقة لا تتطرق إليها ، يتم استخدام ‘ميت’ غالبًا كحرف ، والذي لا يعالج أي من الحالتين)

然而 ، وجد الباحثون أيضًا أن التدريب الإضافي أو التكميلي الذي يتضمن مواد RNPC يمكن أن يحل هذه القضية:

‘النماذج اللغوية المحددة مسبقًا بأداء SOTA على معايير NLU لها سيطرة سيئة على هذه المعرفة ، ولكنها لا تزال能够 تعلمها عند التعرض لمقدار صغير من البيانات من RNPC.’

يجادل الباحثون بأن قدرة نموذج اللغة على التنقل في الهياكل التكرارية من هذا النوع أمر ضروري للمهام الجانبية مثل تحليل اللغة والترجمة ، ويجعلون حالة خاصة لأهميتها في إجراءات الكشف عن الضرر:

‘[نحن] نعتبر السيناريو الذي يتفاعل فيه مستخدم مع وكيل موجه للمهمة مثل Siri أو Alexa ، ويتعين على الوكيل تحديد ما إذا كانت النشاط المشار إليه في استعلام المستخدم محتمل أن يكون ضارًا [أي للأطفال]. اخترنا هذه المهمة لأن العديد من الإيجابيات الكاذبة تأتي من الجمل الاسمية التكرارية.

‘على سبيل المثال ، كيفية صنع قنبلة منزلية واضح أنها ضارة ، بينما كيفية صنع قنبلة حمام منزلية هي غير ضارة.’

الورقة بعنوان هل “فيلمي المفضل الجديد” هو فيلمي المفضل؟ ، وتأتي من خمسة باحثين في جامعة بنسيلفانيا وواحد في جامعة بكين.

البيانات والطريقة

على الرغم من أن الأعمال السابقة درست الهيكل النحوي للجمل الاسمية التكرارية و تصنيف دلالات التعديلات ، إلا أن أيًا من هذه النهجين ليس كافياً ، وفقًا للباحثين ، لمواجهة التحدي.

لذلك ، استنادًا إلى استخدام الجمل الاسمية التكرارية بتعديلين ، سعى الباحثون إلى تحديد ما إذا كانت المعرفة المسبقة موجودة في أنظمة NLP من الدرجة الأولى (لا وجود لها) ؛ ما إذا كان يمكن تعليمها لهم (يمكن تعليمها) ؛ ما الذي يمكن أن تتعلمه نماذج NLP من الجمل الاسمية التكرارية ؛ وكيف يمكن أن تفيد هذه المعرفة التطبيقات الجانبية.

كانت مجموعة البيانات التي استخدمها الباحثون قد تم إنشاؤها في أربع مراحل. أولاً ، تم بناء قاموس تعديلي يحتوي على 689 مثالًا مستمدًا من الأدب السابق والعمل الجديد.

بعد ذلك ، جمع الباحثون الجمل الاسمية التكرارية من الأدب والمدونات الحالية وإضافات من اختراعهم. وشملت الموارد النصية Penn Treebank و Annotated Gigaword corpus.

ثم قام الفريق بتوظيف طلاب كلية مخضعة للاختبار لإنشاء أمثلة للمهام الثلاث التي ستواجهها نماذج اللغة ، وصدقها بعد ذلك إلى 8260 حالة صالحة.

أخيرًا ، تم توظيف طلاب كلية مخضعة للاختبار ، هذه المرة من خلال Amazon Mechanical Turk ، لتعليق كل حالة كمهام ذكاء بشري (HIT) ، واقترح حل النزاعات على أساس الأغلبية. هذا قلل من الحالات إلى 4567 مثالًا ، والتي تمت تصفيتها بعد ذلك إلى 3790 حالة أكثر توازنًا.

قام الباحثون بتكييف مجموعات بيانات موجودة لصياغة ثلاثة أقسام من فرضيات الاختبار ، بما في ذلك MNLI و SNLI و MPE و ADEPT ، وtrained جميع نماذج SOTA بأنفسهم ، مع استثناء نموذج HuggingFace ، حيث تم استخدام نقطة تفتيش.

النتائج

وجد الباحثون أن جميع النماذج “تعاني” في مهام RNPC ، مقابل درجة دقة موثوقة بنسبة 90٪ + للهوم ، مع أداء نماذج SOTA على مستويات الصدفة (أي بدون أي دليل على القدرة الفطرية مقابل الصدفة العشوائية في الاستجابة).

نتائج اختبارات الباحثين. هنا يتم اختبار نماذج اللغة مقابل دقتهم على معيار موجود ، مع تمثيل الخط المركزي للأداء البشري المكافئ في المهام.

نتائج اختبارات الباحثين. هنا يتم اختبار نماذج اللغة مقابل دقتهم على معيار موجود ، مع تمثيل الخط المركزي للأداء البشري المكافئ في المهام.

تشير خطوط البحث الثانوية إلى أن هذه النقص يمكن تعويضها في مرحلة التدريب أو التحسين من خط أنابيب نموذج NLP عن طريق تضمين معرفة الجمل الاسمية التكرارية بشكل خاص. بعد إجراء هذا التدريب التكميلي ، حققت النماذج أداءً قويًا في مهام الكشف عن الضرر.

وعد الباحثون بنشر رمز هذا العمل على https://github.com/veronica320/Recursive-NPs.

 

نشر في الأصل 16 ديسمبر 2021 – 17 ديسمبر 2021 ، 6:55 صباحًا بتوقيت جرينيتش +2: تصحيح الارتباطات المعطلة.

* GPT-3 Ada ، وهو أسرع نموذج في السلسلة ، ولكن ليس الأفضل. ومع ذلك ، فإن نموذج Davinci الأكبر “الرئيسي” غير متاح للتحسين الذي يتضمن المرحلة الأخيرة من تجارب الباحثين.

تحويلي للتعليقات المتضمنة إلى روابط.

كاتب في تعلم الآلة، متخصص في مجال 합성 الصور البشرية. السابق رئيس محتوى البحث في Metaphysic.ai.
الsite الشخصي: martinanderson.ai
التواصل: [email protected]
تويتر: @manders_ai