الذكاء الاصطناعي
لماذا يُعد اللغات التاريخية تحديًا للذكاء الاصطناعي
واحدة من التحديات المركزية لأنظمة معالجة اللغة الطبيعية (NLP) هي استخلاص رؤى أساسية من مجموعة واسعة من المواد المكتوبة. يمكن أن تكون المصادر المساهمة في مجموعة بيانات تدريب لخوارزمية NLP جديدة متعددة اللغات مثل تويتر والصحف الشعبية والمجلات العلمية ، مع جميع الغرائب الفريدة من نوعها لكل من هذه المصادر الثلاث.
في معظم الحالات ، هذا فقط للغة الإنجليزية ؛ وهذا فقط لمصادر النص الحالية أو الحديثة. عندما يجب على خوارزمية NLP أن تضع في الاعتبار المواد التي تأتي من عصور متعددة ، عادة ما تعاني من صعوبة في التوفيق بين الطرق المختلفة جدا التي يتكلم أو يكتب بها الناس عبر المجتمعات الوطنية والفرعية ، وأpecially عبر فترات زمنية مختلفة في التاريخ.
ومع ذلك ، استخدام بيانات النص (مثل المعاهدات التاريخية والأعمال العلمية القديمة) التي تمتد عبر العصور هو وسيلة محتملة ل生成 نظرة تاريخية للموضوع ، ووضع إعادة بناء زمني إحصائي يسبق تبني وحدات القياس للمجال.
على سبيل المثال ، لم يتم تسجيل معلومات الطقس التي تساهم في نماذج الذكاء الاصطناعي لتغير المناخ بشكل كافٍ في جميع أنحاء العالم حتى عام 1880 ، بينما يوفر تعدين النصوص الكلاسيكية سجلات أقدم لأحداث جوية رئيسية قد تكون مفيدة في توفير بيانات جوية قبل فيكتورية.
الانحياز الزمني
وجدت ورقة جديدة من جامعة واشنطن ومعهد آلين للذكاء الاصطناعي أن حتى فترة زمنية قصيرة مثل خمس سنوات يمكن أن تسبب انحيازًا زمنيًا يمكن أن يؤدي إلى تعطيل فائدة نموذج NLP مدرب مسبقًا.

في جميع الحالات ، تكون الدرجات الأعلى أفضل. هنا نرى خريطة حرارية لانحطاط زمني عبر أربعة مجاميع من المواد النصية التي تمتد لمدة خمس سنوات. يمكن أن تسبب هذه المISMATCHات بين بيانات التدريب والتقويم ، وفقًا لمؤلفي الورقة الجديدة ، انخفاضًا كبيرًا في الأداء. مصدر: https://arxiv.org/pdf/2111.07408.pdf
تنص الورقة على:
‘نحن نجد أن الانحياز الزمني يؤثر على كل من تعميم نموذج اللغة وأداء المهمة. نجد تباينًا كبيرًا في الانحطاط عبر مجالات النص والمهام. خلال 5 سنوات ، يمكن أن تتراجع درجة F1 للفئة كما veel كما 40 نقطة (الانتماء السياسي في تويتر) أو كما قليلاً كما نقطة واحدة (تقييمات يلب). يمكن أن تظهر مهمتان متميزتان محددان على نفس المجال مستويات مختلفة من الانحطاط بمرور الوقت.’
تقسيمات غير متساوية
المشكلة الأساسية هي أن مجموعات بيانات التدريب عادة ما تقسم إلى مجموعتين ، أحيانًا بنسبة 80/20 غير متساوية ، بسبب محدودية توافر البيانات. يتم تدريب المجموعة الأكبر من البيانات على شبكة عصبية ، بينما يتم استخدام البيانات المتبقية ك مجموعة تحكم لاختبار دقة الخوارزمية الناتجة.
في مجموعات بيانات مختلطة تحتوي على مواد تمتد لعدة سنوات ، يمكن أن يؤدي توزيع غير متساو للبيانات من فترات زمنية مختلفة إلى أن تكون بيانات التقييم مكونة بشكل غير عادل من مواد من حقبة معينة.
سيؤدي هذا إلى أن تكون سيئة للغاية كمنطقة اختبار لنموذج مدرب على مزيج أكثر تنوعًا من الحقبات (أي على أكثر من البيانات المتاحة كلها). في الواقع ، اعتمادًا على ما إذا كانت بيانات التقييم الأقل تمثل مواد جديدة أو قديمة ، فإنها مثل سؤال جده لتقدير آي돌ز K-Pop最新.
طريقة العمل حولها طويلة سوف تكون تدريب نماذج متعددة على مجموعات بيانات أكثر تقييدًا زمنيًا ، ومحاولة تجميع الميزات المتوافقة من نتائج كل نموذج. ومع ذلك ، فإن ممارسات التحديد العشوائي للنموذج وحدها يعني أن هذا النهج يواجه مشاكله الخاصة في تحقيق المساواة والإنصاف بين النماذج – حتى قبل النظر في ما إذا كانت مجموعات البيانات المساهمة كافية الشبه لجعل التجربة ذات معنى.
البيانات والتدريب
为了 تقييم الانحياز الزمني ، قام المؤلفون بتدريب أربعة مجاميع نصية عبر أربعة مجالات:
تويتر
… حيث جمعوا بيانات غير تمييزية عن طريق استخراج اختيار عشوائي من 12 مليون تويت موزعة بشكل موحد بين 2015-2020 ، حيث درسوا الكيانات المسمى (أي الأشخاص والمنظمات) والانتماءات السياسية.
المقالات العلمية
… حيث حصل المؤلفون على بيانات غير تمييزية من مجموعة Semantic Scholar ، التي تتكون من 650,000 وثيقة تمتد لمدة 30 عامًا ، ودراستهم تصنيف نوع الذكر ( SciERC ) وتصنيف مكان النشر AI (AIC ، الذي يميز ما إذا تم نشر ورقة في AAAI أو ICML ).
مقالات الأخبار
… حيث استخدم المؤلفون تسعة ملايين مقال من مجموعة بيانات Newsroom التي تمتد لمدة 2009-2016 ، وأداء ثلاث مهام: تلخيص غرفة الأخبار ، وتصنيف الناشر وتصنيف الإطارات الإعلامية (MFC) ، والتي تختبر الأولوية المتصورة لموضوعات مختلفة عبر الإنتاج الإخباري.
استعراضات الطعام
… حيث استخدم الباحثون مجموعة بيانات Yelp المفتوحة على مهمة واحدة: تصنيف تقييم المراجعة (YELPCLS) ، وهو تحدي تحليل المشاعر التقليدية典型 من البحث في NLP في هذا القطاع.
النتائج
تم تقييم النماذج على GPT-2 ، مع مجموعة من درجات F1 الناتجة. وجد المؤلفون أن فقدان الأداء بسبب الانحياز الزمني ثنائي الاتجاه ، مما يعني أن النماذج المدربة على بيانات حديثة يمكن أن تتأثر سلبًا بتأثير البيانات القديمة ، وبالعكس (انظر الصورة في بداية المقال للرسوم البيانية). يلاحظ المؤلفون أن هذا له آثار خاصة على تطبيقات العلوم الاجتماعية.
بشكل عام ، تظهر النتائج أن الانحياز الزمني يؤدي إلى تدهور فقدان الأداء “بشكل كبير” ، وله تأثير واسع على معظم المهام. تزيد مجموعات البيانات التي تغطي فترات زمنية طويلة ، مثل العقود ، من المشكلة.
يلاحظ المؤلفون أيضًا أن الانحياز الزمني يؤثر على بيانات التدريب المسمى وغير المسمى. بالإضافة إلى ذلك ، لم تُحسِّن محاولاتهم للتخفيف من الآثار عبر التكيف مع المجال (انظر أدناه) الوضع بشكل كبير ، على الرغم من أنهم يؤكدون أن تحسين بيانات المعلومات في المجموعة يمكن أن يساعد إلى حد ما.
الاستنتاج
يؤكد الباحثون النتائج السابقة التي اقترحت علاجات مسبوقة تتضمن التكيف مع المجال (DAPT ، حيث يتم توفير مساحة للفرق في البيانات) و التكيف الزمني (حيث يتم اختيار البيانات حسب الفترة الزمنية) لا تفعل الكثير لتحسين المشكلة.
تنتهي الورقة إلى:
‘أظهرت تجاربنا تباينًا كبيرًا في الانحطاط الزمني عبر المهام ، أكثر من ما وجد في دراسات سابقة. هذه النتائج تحفز استمرار دراسة الانحياز الزمني عبر تطبيقات NLP ، واعتباره في تقييمات البenchmarks ، واليقظة من قبل الممارسين القادرين على مراقبة أداء النظام الحية بمرور الوقت. ‘
‘وب特别 ، لاحظنا أن الاستمرار في تدريب النماذج على بيانات متوافقة زمنيًا لا يؤثر كثيرًا ، مما يحفز المزيد من البحث لfinding طرق تكيف زمني فعالة أقل تكلفة من جمع مستمر لمجموعات بيانات تمييزية ومسمى بمرور الوقت.’
ي建议 المؤلفون أن البحث المستمر في التعلم المستمر ، حيث يتم تحديث البيانات باستمرار ، قد يكون مفيدًا في هذا الصدد ، وأن انحراف المفهوم ، وطرق أخرى لاكتشاف تحولات في المهام ، يمكن أن تكون مساعدة مفيدة في تحديث مجموعات البيانات.
* تحويلي للتعليقات المتضمنة إلى روابط.












