زاوية Anderson

نماذج NLP تعاني من فهم الجمل الاسمية التكرارية

mm

وجد باحثون من الولايات المتحدة والصين أن لا أحد من نماذج معالجة اللغة الطبيعية (NLP) الرائدة يبدو قادرًا ، افتراضيًا ، على فك تشفير الجمل الإنجليزية التي تتميز بالجمل الاسمية التكرارية (NPs) ، و “يصارع” لتحديد المعنى المركزي في الأمثلة المرتبطة مثل فيلمي المفضل الجديد و فيلمي المفضل (كل منهما له معنى مختلف).

في مثال رئيسي من الورقة ، هنا لغز صغير يفشل الأطفال في فك شفرته غالبًا: الكرة الثانية خضراء ، ولكن الكرة الخامسة هي 'الكرة الخضراء الثانية'. مصدر: https://arxiv.org/pdf/2112.08326.pdf

في مثال رئيسي من الورقة ، هنا لغز صغير يفشل الأطفال في فك شفرته غالبًا: الكرة الثانية خضراء ، ولكن الخامس الكرة هي ‘الكرة الخضراء الثانية’. مصدر: https://arxiv.org/pdf/2112.08326.pdf

قام الباحثون بتحدي الجمل الاسمية التكرارية (RNPC) لعدة نماذج مفتوحة المصدر محلية ، بما في ذلك GPT-3 * من OpenAI و BERT من Google و RoBERTa و BART من Facebook ، ووجدوا أن هذه النماذج عالية الأداء تحقق أداء “مصادفي” فقط. وخلصت إلى:

‘تظهر النتائج أن نماذج اللغة المتقدمة (SOTA) التي تم تعديلها على معايير قياسية من نفس الشكل كلها تعاني على مجموعتنا البيانية ، مما يشير إلى أن المعرفة المستهدفة ليست متاحة بسهولة.’

أمثلة زوجية في تحدي RNPC حيث ارتكبت نماذج SOTA الأخطاء.

أمثلة زوجية في تحدي RNPC حيث ارتكبت نماذج SOTA الأخطاء.

في الأمثلة المذكورة أعلاه ، فشلت النماذج ، على سبيل المثال ، في التمييز بين الفرق الدلالي بين حيوان خطير ميت (أي مفترس لا يشكل تهديدًا لأنه ميت) و حيوان ميت خطير (مثل السناجب الميتة التي قد تحتوي على فيروس ضار ، وتهديد حالي).

(بالإضافة إلى ذلك ، على الرغم من أن الورقة لا تتناولها ، يتم استخدام “ميت” بشكل متكرر كحرف، الذي لا يعالج أي من الحالتين)

ومع ذلك ، وجد الباحثون أيضًا أن التدريب الإضافي أو الإضافي الذي يتضمن مواد RNPC يمكن أن يحل هذه القضية:

‘النماذج اللغوية المسبقة التدريب بأداء SOTA على معايير NLU لها سيطرة سيئة على هذه المعرفة ، ولكنها لا تزال يمكن أن تتعلمها عند تعرضها لمقدار صغير من البيانات من RNPC.’

يجادل الباحثون بأن قدرة نموذج اللغة على التنقل في الهياكل التكرارية من هذا النوع ضرورية للمهام التنازلية مثل تحليل اللغة والترجمة ، ويبررون أهميتها بشكل خاص في روتينات الكشف عن الأذى:

‘نعتبر السيناريو حيث يتفاعل المستخدم مع وكلاء مهمة مثل Siri أو Alexa ، ويحتاج الوكيل إلى تحديد ما إذا كان النشاط المشار إليه في استفسار المستخدم محتملًا أن يكون ضارًا [أي للأطفال]. اخترنا هذه المهمة لأن العديد من الإيجابيات الكاذبة تأتي من الجمل الاسمية التكرارية.

‘على سبيل المثال ، كيفية صنع قنبلة محلية واضح أنها ضارة ، بينما كيفية صنع قنبلة حمام محلية هي أthing غير ضار.

الورقة بعنوان هل “فيلمي المفضل الجديد” هو فيلمي المفضل؟ اختبار فهم الجمل الاسمية التكرارية ، وينشأ من خمسة باحثين من جامعة بنسيلفانيا وواحد من جامعة بكين.

البيانات والمنهج

على الرغم من أن العمل السابق قد درَس الهيكل النحوي للجمل الاسمية التكرارية و التصنيف الدلالي للمعدل ، إلا أن نهجي هذه النهج ، وفقًا للباحثين ، لا يكفيان لمواجهة التحدي.

لذلك ، استنادًا إلى استخدام الجمل الاسمية التكرارية ذات المعدلين ، سعى الباحثون إلى تحديد ما إذا كانت المعرفة المسبقة موجودة في أنظمة NLP عالية الأداء (لا وجود لها) ؛ ما إذا كان يمكن تعليمها (يمكن تعليمها) ؛ ما الذي يمكن أن تتعلمه نماذج NLP من الجمل الاسمية التكرارية ؛ وكيف يمكن أن تفيد هذه المعرفة التطبيقات التنازلية.

كانت المجموعة البيانية التي استخدمها الباحثون قد تم إنشاؤها في أربعة مراحل. أولاً ، تم بناء قاموس معدل يحتوي على 689 مثالًا مستمدًا من الأدب السابق والعمل الجديد.

بعد ذلك ، جمع الباحثون الجمل الاسمية التكرارية من الأدب والمجموعات الحالية وإضافاتهم الخاصة. وشملت الموارد النصية شجرة بنسيلفانيا ، و مجموعة جيجاوورد المُحَدَدَة .

ثم قام الفريق بتوظيف طلاب جامعيين تم فحصهم مسبقًا لإنشاء أمثلة للمهام الثلاث التي ستواجهها نماذج اللغة ، وتم التحقق منها لاحقًا في 8260 حالة صالحة.

أخيرًا ، تم توظيف طلاب جامعيين تم فحصهم مسبقًا ، هذه المرة من خلال Amazon Mechanical Turk ، لتعليق كل حالة كمهام ذكاء بشرية (HIT) ، وتم تحديد النزاعات على أساس الأغلبية. وقد خفض ذلك الحالات إلى 4567 مثالًا ، والتي تمت تصفيتها إلى 3790 حالة أكثر توازنًا.

قام الباحثون بتعديل مجموعات بيانات مختلفة لصياغة أقسام ثلاثة من فرضياتهم ، بما في ذلك MNLI و SNLI و MPE و ADEPT ، وتم تدريب جميع نماذج SOTA بأنفسهم ، مع استثناء نموذج HuggingFace ، حيث تم استخدام نقطة تحقق.

النتائج

وجد الباحثون أن جميع النماذج “تصارع” في مهام RNPC ، مقابل درجة دقة موثوقة بنسبة 90٪ + للهوم ، مع أداء نماذج SOTA على مستوى “المصادفة” (أي بدون أي دليل على القدرة الفطرية مقابل الحظ في الاستجابة).

نتائج الاختبارات التي أجريها الباحثون. هنا يتم اختبار نماذج اللغة ضد دقتهم على معيار موجود ، مع تمثيل الخط المركزي للأداء البشري المكافئ في المهام.

نتائج الاختبارات التي أجريها الباحثون. هنا يتم اختبار نماذج اللغة ضد دقتهم على معيار موجود ، مع تمثيل الخط المركزي للأداء البشري المكافئ في المهام.

تشير خطوط البحث الثانوية إلى أن هذه النقص يمكن تعويضه في مرحلة التدريب أو التعديل من خط أنابيب نموذج NLP عن طريق تضمين المعرفة بالجمل الاسمية التكرارية بشكل خاص. بمجرد أن تم إجراء هذا التدريب الإضافي ، حققت النماذج أداء “قوي” في مهام الكشف عن الأذى.

وعد الباحثون بنشر رمز هذا العمل على https://github.com/veronica320/Recursive-NPs.

 

نشر في الأصل 16 ديسمبر 2021 – 17 ديسمبر 2021 ، 6:55 صباحًا بتوقيت غرينيتش + 2: تم исправить الارتباط المعطوب.

* GPT-3 Ada ، وهو أسرع نموذج في السلسلة ، ولكن ليس الأفضل. ومع ذلك ، فإن نموذج Davinci الأكبر “العرضي” غير متوفر للتعديل الدقيق الذي يتضمن المرحلة الأخيرة من تجارب الباحثين.

تحويلي للإشارات المتضمنة إلى روابط.

كاتب في تعلم الآلة، متخصص في مجال 합성 الصور البشرية. السابق رئيس محتوى البحث في Metaphysic.ai.
الsite الشخصي: martinanderson.ai
التواصل: [email protected]
تويتر: @manders_ai