الذكاء الاصطناعي

نماذج الكتابة التوليدية المستندة إلى الذكاء الاصطناعي بشكل متكرر "نسخ ولصق" بيانات المصدر

تحديث on 9 كانون الأول، 2022

غالبًا ما يُنقل عن الكاتب المسرحي ورجل الأعمال الأمريكي ويلسون ميزنر قوله "عندما تسرق من مؤلف واحد ، فهذا انتحال ؛ إذا سرقت من كثيرين ، فهذا بحث ".

وبالمثل ، فإن الافتراض حول الجيل الجديد من أنظمة الكتابة الإبداعية القائمة على الذكاء الاصطناعي هو أن كميات هائلة من البيانات إطعامهم في مرحلة التدريب نتج عنها حقيقية التجريد من المفاهيم والأفكار عالية المستوى. أن هذه الأنظمة تحت تصرفها الحكمة المقطرة لآلاف المؤلفين المساهمين ، والتي يمكن للذكاء الاصطناعي من خلالها صياغة كتابات مبتكرة وأصلية ؛ وأن أولئك الذين يستخدمون مثل هذه الأنظمة يمكنهم التأكد من أنهم لا ينغمسون عن غير قصد في الانتحال عن طريق الوكيل.

إنه افتراض تم تحديه من خلال ورقة بحثية جديدة من اتحاد بحثي (بما في ذلك أقسام أبحاث الذكاء الاصطناعي في فيسبوك ومايكروسوفت)، والذي وجد أن نماذج اللغة التوليدية للتعلم الآلي مثل سلسلة GPT "انسخ أحيانًا حتى مقاطع طويلة جدًا" في ناتجهم الأصلي المفترض ، دون الإسناد.

في بعض الحالات ، لاحظ المؤلفون أن GPT-2 سوف تكرر أكثر من 1,000 كلمة من مجموعة التدريب في مخرجاتها.

• ورقة بعنوان ما مقدار نسخ النماذج اللغوية من بيانات التدريب الخاصة بهم؟ تقييم الحداثة اللغوية في توليد النص باستخدام RAVEN، وهو عبارة عن تعاون بين جامعة جونز هوبكنز و Microsoft Research وجامعة نيويورك و Facebook AI Research.

RAVEN

تستخدم الدراسة نهجًا جديدًا يسمى RAVEN (RAtingVErbalNovelty) ، وهو اختصار تم تعذيبه بشكل ترفيهي ليعكس شرير الطيور في قصيدة كلاسيكية:

يشير هذا الاختصار إلى "الغراب" بقلم إدغار آلان بو ، حيث يصادف الراوي غرابًا غامضًا يصرخ مرارًا وتكرارًا ، "لا أكثر!" لا يستطيع الراوي أن يعرف ما إذا كان الغراب ببساطة يكرر شيئًا ما سمعه بشريًا ، أم أنه يبني أقواله الخاصة (ربما عن طريق الجمع بين أبدا و الأكثر من ذلك) - نفس الغموض الأساسي الذي تتناوله ورقتنا.

تأتي النتائج من الورقة الجديدة في سياق النمو الكبير لأنظمة كتابة محتوى الذكاء الاصطناعي التي تسعى إلى استبدال مهام التحرير "البسيطة" ، وحتى كتابة محتوى كامل الطول. أحد هذه الأنظمة تلقى 21 مليون دولار في السلسلة A التمويل في وقت سابق من هذا الأسبوع.

لاحظ الباحثون ذلك يكرر GPT-2 أحيانًا فقرات التدريب الموجودة أكثر من 1,000 كلمة.' (تأكيدهم) ، وأن أنظمة اللغة التوليدية تنشر الأخطاء اللغوية في البيانات المصدر.

كانت نماذج اللغة التي تمت دراستها تحت RAVEN عبارة عن سلسلة إصدارات GPT حتى GPT-2 (لم يكن لدى المؤلفين حق الوصول في ذلك الوقت إلى GPT-3) ، و Transformer ، و Transformer-XL ، و LSTM.

عصرية

تشير الورقة إلى أن GPT-2 تعمل على عملات تصريفات على غرار بوش 2 مثل "سويسري"، والاشتقاقات مثل "ايكيا"، إنشاء مثل هذه الكلمات الجديدة (لا تظهر في بيانات تدريب GPT-2) على المبادئ اللغوية المستمدة من المساحات ذات الأبعاد الأعلى التي تم إنشاؤها أثناء التدريب.

تظهر النتائج أيضًا أن "74٪ من الجمل التي تم إنشاؤها بواسطة Transformer-XL لها بنية نحوية لا تحتوي على جملة تدريب" ، مما يشير ، كما يقول المؤلفون ، إن نماذج اللغة العصبية لا تحفظ ببساطة ؛ بدلاً من ذلك ، يستخدمون عمليات إنتاجية تسمح لهم بدمج الأجزاء المألوفة بطرق جديدة.

لذلك من الناحية الفنية ، التعميم والتجريد ينبغي إنتاج نص مبتكر وجديد.

قد يكون تكرار البيانات هو المشكلة

تنص الورقة البحثية على أن الاقتباسات الطويلة والحرفية التي تنتجها أنظمة توليد اللغة الطبيعية (NLG) يمكن أن تصبح كاملة "مخبوزة" في نموذج الذكاء الاصطناعي لأن نص المصدر الأصلي يتكرر عدة مرات في مجموعات البيانات التي لم يتم نسخها بشكل كافٍ.

رغم أن مشروع بحثي آخر وجد أن ازدواجية كاملة للنص يمكن أن تحدث حتى لو ظهر النص المصدر فقط مرة في مجموعة البيانات ، لاحظ المؤلفون أن المشروع له بنى مفاهيمية مختلفة عن التشغيل الشائع لأنظمة الذكاء الاصطناعي المولدة للمحتوى.

لاحظ المؤلفون أيضًا أن تغيير مكون فك التشفير في أنظمة توليد اللغة يمكن أن يزيد من الحداثة ، لكن وجد في الاختبارات أن هذا يحدث على حساب جودة المخرجات.

تظهر مشاكل أخرى مع تزايد حجم مجموعات البيانات التي تغذي الخوارزميات المولدة للمحتوى. إلى جانب تفاقم المشكلات المتعلقة بالقدرة على تحمل تكاليف المعالجة المسبقة للبيانات وإمكانية استمرارها ، فضلاً عن ضمان الجودة وإزالة الازدواجية في البيانات ، تبقى العديد من الأخطاء الأساسية في بيانات المصدر ، والتي يتم نشرها بعد ذلك في إخراج المحتوى بواسطة الذكاء الاصطناعي.

لاحظ المؤلفون *:

الزيادات الأخيرة في أحجام مجموعات التدريب تجعل من المهم بشكل خاص التحقق من الحداثة لأن حجم مجموعات التدريب هذه يمكن أن يكسر حدسنا حول ما يمكن توقع حدوثه بشكل طبيعي. على سبيل المثال ، بعض الأعمال البارزة في لغة استحواذ يعتمد على افتراض أن أشكال الفعل الماضي المنتظمة للأفعال الشاذة (على سبيل المثال ، تم تعليمه ، تم تعليمه) لا تظهر في تجربة المتعلم ، لذلك إذا قام المتعلم بإنتاج مثل هذه الكلمات ، فيجب أن تكون جديدة بالنسبة للمتعلم.

"ومع ذلك ، اتضح أنه بالنسبة لجميع الأفعال الشاذة الأساسية البالغ عددها 92 في اللغة الإنجليزية ، يظهر الشكل العادي غير الصحيح في مجموعة تدريب GPT-2."

مطلوب المزيد من تنظيم البيانات

تؤكد الورقة أنه يجب إيلاء المزيد من الاهتمام للحداثة في صياغة أنظمة اللغة التوليدية ، مع التركيز بشكل خاص على ضمان أن الجزء الاختباري "المحجوب" من البيانات (الجزء من البيانات المصدر الذي تم تخصيصه لاختبار كيفية حسنًا ، قامت الخوارزمية النهائية بتقييم الجسم الرئيسي للبيانات المدربة) مناسبة للمهمة.

في التعلم الآلي ، من الأهمية بمكان تقييم النماذج على مجموعة اختبار محجوبة. نظرًا للطبيعة المفتوحة لإنشاء النص ، قد يتم نسخ النص الذي تم إنشاؤه للنموذج من مجموعة التدريب ، وفي هذه الحالة لا يتم حجبه - لذا فإن استخدام تلك البيانات لتقييم النموذج (على سبيل المثال ، للترابط أو القواعد النحوية) غير صالح ".

يؤكد المؤلفون أيضًا أن هناك حاجة أيضًا إلى مزيد من العناية في إنتاج نماذج اللغة بسبب تأثير إليزا، وهي متلازمة تم تحديدها في عام 1966 والتي تم تحديدها "قابلية الأشخاص لقراءة فهم أكثر بكثير مما هو مبرر في سلاسل من الرموز - وخاصة الكلمات - المجمعة معًا بواسطة أجهزة الكمبيوتر".

* تحويل الاقتباسات المضمنة إلى ارتباطات تشعبية