الذكاء الاصطناعي

لماذا تعتبر اللغة التاريخية تحديًا للذكاء الاصطناعي

تم النشر 16 تشرين الثاني، 2021

تحديث 9 كانون الأول، 2022

مارتن أندرسون

أحد التحديات الرئيسية لأنظمة معالجة اللغات الطبيعية (NLP) هو استخلاص الأفكار الأساسية من مجموعة واسعة من المواد المكتوبة. يمكن أن تكون المصادر المساهمة في مجموعة بيانات التدريب لخوارزمية البرمجة اللغوية العصبية الجديدة متنوعة لغويًا مثل تويتر، والصحف العريضة، والمجلات العلمية، مع كل الغرابة المستأنفة الفريدة لكل من هذه المصادر الثلاثة فقط.

في معظم الحالات، يقتصر ذلك على اللغة الإنجليزية فقط؛ وهذا ينطبق فقط على مصادر النصوص الحالية أو الحديثة. عندما يتعين على خوارزمية معالجة اللغة الطبيعية (NLP) مراعاة مواد من عصور متعددة، فإنها عادةً ما تواجه صعوبة في التوفيق بين طرق مختلفة جدا أن يتحدث الناس أو يكتبوا عبر المجتمعات الوطنية ودون الوطنية ، وخاصة عبر فترات مختلفة من التاريخ.

ومع ذلك ، فإن استخدام البيانات النصية (مثل الأطروحات التاريخية والأعمال العلمية الموقرة) التي تمتد عبر العصور هي طريقة مفيدة محتملة لإنشاء إشراف تاريخي على موضوع ما ، وصياغة إعادة بناء الجدول الزمني الإحصائي التي تسبق اعتماد وصيانة المقاييس للمجال.

على سبيل المثال ، لم يتم تسجيل معلومات الطقس التي تساهم في نماذج الذكاء الاصطناعي التنبؤية لتغير المناخ بشكل كاف في جميع أنحاء العالم حتى 1880، أثناء التنقيب في البيانات عن النصوص الكلاسيكية يقدم سجلات قديمة لأحداث الأرصاد الجوية الكبرى التي قد تكون مفيدة في توفير بيانات الطقس ما قبل العصر الفيكتوري.

اختلال زمني

A ورقة جديدة من جامعة واشنطن ومعهد ألين للذكاء الاصطناعي أنه حتى فترة قصيرة مثل خمس سنوات يمكن أن تسبب اختلال زمني والتي يمكن أن تعرقل فائدة نموذج البرمجة اللغوية العصبية المدربة مسبقًا.

في جميع الحالات ، تكون الدرجات الأعلى أفضل. هنا نرى خريطة حرارية للتدهور الزمني عبر أربع مجموعات من المواد النصية تمتد على فترة خمس سنوات. يمكن أن يؤدي عدم التطابق بين بيانات التدريب والتقييم ، وفقًا لمؤلفي الورقة البحثية الجديدة ، إلى "انخفاض هائل في الأداء". المصدر: https://arxiv.org/pdf/2111.07408.pdf

في جميع الحالات، الدرجات الأعلى أفضل. نرى هنا خريطة حرارية للتدهور الزمني عبر أربع مجموعات من المواد النصية تمتد على مدى خمس سنوات. ووفقًا لمؤلفي الورقة البحثية الجديدة، فإن هذا التفاوت بين بيانات التدريب والتقييم يمكن أن يُسبب "انخفاضًا هائلًا في الأداء". المصدر: https://arxiv.org/pdf/2111.07408.pdf

تقول الورقة:

وجدنا أن الاختلال الزمني يؤثر على كلٍّ من تعميم نموذج اللغة وأداء المهام. ولاحظنا تفاوتًا كبيرًا في التدهور عبر مجالات النصوص والمهام. على مدار خمس سنوات، يمكن أن يتدهور تقييم F5 للمصنفين بما يصل إلى 1 نقطة (الانتماء السياسي على تويتر) أو نقطة واحدة فقط (تقييمات مراجعات Yelp). ويمكن لمهمتين مختلفتين مُحددتين في المجال نفسه أن تُظهرا مستويات مختلفة من التدهور بمرور الوقت.

انقسامات غير متساوية

المشكلة الأساسية هي أن مجموعات بيانات التدريب تنقسم عمومًا إلى مجموعتين ، أحيانًا بنسبة غير متوازنة إلى حد ما 80/20 ، بسبب محدودية توافر البيانات. يتم تدريب المجموعة الأكبر من البيانات على شبكة عصبية ، بينما يتم استخدام البيانات المتبقية كمجموعة تحكم لاختبار دقة الخوارزمية الناتجة.

في مجموعات البيانات المختلطة التي تحتوي على مادة تمتد لعدد من السنوات ، قد يعني التوزيع غير المتكافئ للبيانات من فترات مختلفة أن بيانات التقييم تتكون بشكل مفرط من مواد من حقبة معينة.

سيؤدي هذا إلى جعلها أرض اختبار ضعيفة لنموذج مُدرّب على مزيج أكثر تنوعًا من العصور (أي على جزء أكبر من إجمالي البيانات المتاحة). في الواقع، بناءً على ما إذا كانت بيانات تقييم الأقليات تُمثّل بشكل مبالغ فيه المواد الأحدث أو الأقدم، فإن الأمر أشبه بطلب من جدك تقييم أحدث نجوم الكيبوب.

سيكون الحل الطويل هو تدريب نماذج متعددة على مجموعات بيانات أكثر تقييدًا بالوقت ، ومحاولة تجميع الميزات المتوافقة من نتائج كل نموذج. لكن، تهيئة نموذج عشوائي تعني الممارسات وحدها أن هذا النهج يواجه مجموعة المشاكل الخاصة به في تحقيق التكافؤ والإنصاف عبر النماذج - حتى قبل التفكير فيما إذا كانت مجموعات البيانات المتعددة المساهمة متشابهة بشكل كافٍ مع بعضها البعض لجعل التجربة ذات مغزى.

البيانات والتدريب

لتقييم الاختلال الزمني ، قام المؤلفون بتدريب أربع مجموعات نصية عبر أربعة مجالات:

تويتر
... حيث قاموا بجمع بيانات غير مصنفة عن طريق استخراج مجموعة عشوائية من 12 مليون تغريدة منتشرة بشكل موحد بين 2015-2020 ، حيث درس المؤلفون كيانات معينة (أي أشخاص ومنظمات) وانتماءات سياسية.

مقالات علميّة
... حيث حصل المؤلفون على بيانات غير مسماة من مجموعة الباحث الدلالي، تشكل 650,000 ألف وثيقة تمتد على 30 عامًا ، والتي درسوا فيها ذكر تصنيف النوع (سايرك) وتصنيف موقع AI (AIC ، والذي يميز ما إذا تم نشر ورقة في AAAI or آي سي إم إل).

الأخبار المقالات
... حيث استخدم المؤلفون تسعة ملايين مقال من مجموعة بيانات غرفة الأخبار تمتد الفترة من 2009 إلى 2016 ، حيث قاموا بتنفيذ ثلاث مهام: تلخيص غرفة الأخبار ، وتصنيف الناشرين ، وتصنيف إطارات الوسائط (MFC) ، والتي تفحص المهمة الأخيرة تحديد الأولويات المتصورة لمختلف الموضوعات عبر مخرجات الأخبار.

مراجعات الغذاء
... حيث استخدم الباحثون ملف الصرخة فتح مجموعة البيانات في مهمة واحدة: تصنيف تصنيف المراجعة (YELPCLS) ، وهو تحليل تقليدي للمشاعر يمثل تحديًا نموذجيًا للكثير من أبحاث البرمجة اللغوية العصبية في هذا القطاع.

النتائج

تم تقييم النماذج على GPT-2، مع مجموعة من النتائج عشرات F1. وجد المؤلفون أن فقدان الأداء بسبب الاختلال الزمني هو ثنائي الاتجاه ، مما يعني أن النماذج المدربة على البيانات الحديثة يمكن أن تتأثر سلبًا بتأثير البيانات القديمة ، والعكس صحيح (انظر الصورة في بداية المقالة للرسوم البيانية). لاحظ المؤلفون أن هذا له آثار خاصة على تطبيقات العلوم الاجتماعية.

بشكل عام، تُظهر النتائج أن عدم التوافق الزمني يُقلل بشكل كبير من فقدان الأداء، وله تأثير واسع النطاق على معظم المهام. وتُفاقم مجموعات البيانات التي تغطي فترات طويلة جدًا، مثل عقود، المشكلة بطبيعة الحال.

لاحظ المؤلفون كذلك أن الاختلال الزمني يؤثر أيضًا على بيانات التدريب المسبق المصنفة وغير المسماة. بالإضافة إلى ذلك ، فإن محاولاتهم للتخفيف من الآثار عن طريق التكيف مع المجال (انظر أدناه) لم تحسن الوضع بشكل كبير ، على الرغم من أنهم يؤكدون أن ضبط معلومات البيانات في مجموعة البيانات يمكن أن يساعد إلى حد معين.

خاتمة

يؤكد الباحثون النتائج السابقة التي تضمنت العلاجات المقترحة سابقًا تكيف المجال (DAPT ، حيث يتم وضع البدل لتباين البيانات) و التكيف الزمني (حيث يتم اختيار البيانات حسب الفترة الزمنية) لا تفعل الكثير للتخفيف من المشكلة.

وتخلص الورقة *:

كشفت تجاربنا عن تباين كبير في التدهور الزمني عبر المهام ، أكثر مما هو موجود في الدراسات السابقة. هذه النتائج تحفز الدراسة المستمرة للاختلال الزمني عبر تطبيقات البرمجة اللغوية العصبية ، ومراعاتها في التقييمات المعيارية ، واليقظة من جانب الممارسين القادرين على مراقبة أداء النظام الحي بمرور الوقت.

'من الجدير بالذكر أننا لاحظنا أن التدريب المستمر للآلات الحاسبة على البيانات المتوافقة زمنيًا ليس له تأثير كبير، مما يحفز إجراء المزيد من الأبحاث للعثور على طرق فعالة للتكيف الزمني أقل تكلفة من التجميع المستمر لمجموعات البيانات الموضحة/المُسماة بمرور الوقت.'

يقترح المؤلفون أن مزيدًا من التحقيق في التعلم المستمر ، حيث يتم تحديث البيانات باستمرار ، قد يكون مفيدًا في هذا الصدد ، وأن انحراف المفهوم ، والطرق الأخرى لاكتشاف التحولات في المهام يمكن أن تكون مساعدة مفيدة لتحديث مجموعات البيانات.

* تحويل الاقتباسات المضمنة إلى ارتباطات تشعبية.