زاوية Anderson
نماذج الكتابة التوليدية القائمة على الذكاء الاصطناعي غالبًا ما “ت複ي ولصق” بيانات المصدر

الكاتب المسرحي الأمريكي والرجل الأعمال ويلسون ميزنر يُ引用 غالبًا مع عبارته الشهيرة “عندما تسلب من مؤلف واحد ، فهذا هو الانتحال ؛ إذا كنت تسلب من العديدين ، فهذا هو البحث”.
وبالمثل ، يفترض حول جيل الجديد من أنظمة الكتابة الإبداعية القائمة على الذكاء الاصطناعي أن الكميات الهائلة من البيانات التي يتم تغذيتها إليها في مرحلة التدريب أدت إلى تجريد حقيقي للمفاهيم والأفكار عالية المستوى ؛ أن هذه الأنظمة لديها في متناول يدها الحكمة المُستقاة من آلاف المؤلفين المساهمين ، والتي يمكن للذكاء الاصطناعي من خلالها صياغة كتابات مبتكرة وأصلية ؛ وأن أولئك الذين يستخدمون مثل هذه الأنظمة يمكن أن يكونوا متأكدين من أنهم لا يشاركون عن غير قصد في الانتحال بالوكالة.
يتحدى هذا الافتراض ورقة جديدة من اتحاد بحثي (بما في ذلك أقسام أبحاث الذكاء الاصطناعي في فيسبوك ومايكروسوفت) ، والتي وجدت أن نماذج اللغة التوليدية القائمة على التعلم الآلي مثل سلسلة GPT “ت複ي أحيانًا حتى المقاطع الطويلة” في الإخراج المزعوم الأصلي ، بدون إسناد.
في بعض الحالات ، يشير المؤلفون إلى أن GPT-2 سيتكرر أكثر من 1000 كلمة من مجموعة التدريب في الإخراج.
الورقة بعنوان كم عدد اللغة التي ت複ي من بيانات التدريب؟ تقييم الابتكار اللغوي في توليد النص باستخدام RAVEN ، وهي تعاون بين جامعة جونز هوبكينز ، ومايكروسوفت ريسيرش ، وجامعة نيويورك ، وآي آر ريسيرش فيسبوك.
RAVEN
تستخدم الدراسة نهجًا جديدًا يسمى RAVEN (RAtingVErbalNovelty) ، وهو اختصار تم تشويهه بطريقة مسلية ليعكس الشاعر الشرير في قصيدة كلاسيكية:
‘هذا الاختصار يشير إلى “الغُراب” ل إدغار ألان بو ، حيث يلتقي الراوي بغُراب غامض يصرخ باستمرار “أبدًا!” الراوي لا يستطيع أن ي告诉 ما إذا كان الغُراب يكرر ببساطة ما سمعه إنسان يقوله ، أو إذا كان يبني عباراته الخاصة (ربما عن طريق الجمع بين أبدًا و أكثر)—الغموض الأساسي نفسه الذي تتعامل معه ورقتنا.’
تأتي النتائج الجديدة في سياق نمو كبير لأنظمة الكتابة المحتوى القائمة على الذكاء الاصطناعي التي تسعى إلى استبدال مهام التحرير “البسيطة” ، وحتى كتابة المحتوى الكامل. تلقى نظام من هذا القبيل 21 مليون دولار في التمويل الجولى أ في الأسبوع الماضي.
يشير الباحثون إلى أن ‘GPT-2 أحيانًا يتكرر مقاطع التدريب التي يزيد طولها على 1000 كلمة.’ (بإيمانهم) ، وأن أنظمة اللغة التوليدية ت_propagate أخطاء لغوية في بيانات المصدر.
كانت نماذج اللغة التي تم دراستها تحت RAVEN هي سلسلة GPT حتى GPT-2 (لم يكن المؤلفون قد حصلوا على GPT-3 في ذلك الوقت) ، و Transformer ، و Transformer-XL ، و LSTM.
الجديد
تشير الورقة إلى أن GPT-2 يخترع أسلوب بوش 2 مثل ‘سويسيفاي’ ، والاشتقاقات مثل ‘IKEA-ness’ ، مما يخلق كلمات جديدة (لا تظهر في بيانات تدريب GPT-2) على أساس مبدأي لغوي مستمد من فضاءات ذات أبعاد أعلى تم إنشاؤها أثناء التدريب.
تظهر النتائج أيضًا أن ’74٪ من الجمل التي تم توليدها بواسطة Transformer-XL لها هيكل نحوي لا توجد له جملة تدريبية’ ، مما يشير ، كما يقول المؤلفون ، إلى أن ‘نماذج اللغة العصبية لا تتذكر ببساطة ؛ بل تستخدم عمليات إنتاجية تتيح لها الجمع بين الأجزاء المألوفة بطرق جديدة.’
لذلك ، من الناحية الفنية ، يجب أن تنتج التعميم والتجريد يجب نصًا مبتكرًا وجديدًا.
قد يكون تكرار البيانات هو المشكلة
تفترض الورقة أن الإشارات الطويلة والكلمة-for-كلمة التي تنتجها أنظمة NLG قد تكون “مخبوزة” بالكامل في نموذج الذكاء الاصطناعي لأن النص الأصلي يتم تكراره عدة مرات في مجموعات البيانات التي لم يتم إزالة التكرارات منها بشكل كافٍ.
على الرغم من أن مشروع بحثي آخر وجد أن التكرار الكامل للنص يمكن أن يحدث حتى إذا ظهر النص الأصلي مرة واحدة في مجموعة البيانات ، يشير المؤلفون إلى أن المشروع له هياكل概念ية مختلفة عن معظم أنظمة الذكاء الاصطناعي المولدة للمحتوى.
يشير المؤلفون أيضًا إلى أن تغيير مكون الفك في أنظمة توليد اللغة يمكن أن يزيد من الابتكار ، ولكن وجدوا في الاختبارات أن هذا يحدث على حساب جودة الإخراج.
تظهر مشاكل إضافية مع نمو مجموعات البيانات التي تغذي خوارزميات توليد المحتوى. بالإضافة إلى تفاقم القضايا المتعلقة بتحمل التكاليف ومدى جدوى معالجة البيانات مسبقًا ، وكذلك ضمان الجودة وإزالة التكرارات من البيانات ، تظل العديد من الأخطاء الأساسية في بيانات المصدر ، والتي يتم بعد ذلك نشرها في الإخراج الذي يتم إنشاؤه بواسطة الذكاء الاصطناعي.
يشير المؤلفون إلى*:
‘الزيادات الأخيرة في حجم مجموعات التدريب تجعل من الهام特别 التحقق من الابتكار لأن حجم هذه المجموعات يمكن أن يكسر直ورنا حول ما يمكن توقعه بشكل طبيعي. على سبيل المثال ، بعض الأعمال البارزة في اللغة الاستحواذ يعتمد على افتراض أن الأشكال المعتادة للفعل الماضي للفعل غير المنتظم (على سبيل المثال ، أصبحت ، علمت) لا تظهر في تجربة المتعلم ، لذلك إذا أنتج المتعلم مثل هذه الكلمات ، يجب أن تكون جديدة للمتعلم.
‘然而 ، يturned out أن الشكل غير الصحيح للفعل المنتظم يظهر في مجموعة بيانات GPT-2 لجميع 92 فعل غير منتظم أساسي في اللغة الإنجليزية.’
مزيد من تنظيف البيانات ضروري
تطالب الورقة بضرورة إيلاء المزيد من الاهتمام للابتكار في صياغة أنظمة اللغة التوليدية ، مع التركيز بشكل خاص على ضمان أن جزء “مرفوض” من البيانات (الجزء من بيانات المصدر الذي يتم حجزها لاختبار مدى جودة الخوارزمية النهائية في تقييم الجسم الرئيسي لبيانات التدريب) مناسب للمهمة.
‘في التعلم الآلي ، من المهم تقييم النماذج على مجموعة اختبار مرفوضة. بسبب الطبيعة المفتوحة لتوليد النص ، قد يتم نسخ نص تم إنشاؤه بواسطة النموذج من مجموعة التدريب ، وفي هذه الحالة لا يتم رفضه – لذلك استخدام تلك البيانات لتقييم النموذج (على سبيل المثال ، من أجل الاتساق أو الصحة النحوية) ليس صحيحًا.’
كما يطالب المؤلفون بضرورة إيلاء المزيد من العناية في إنتاج نماذج اللغة بسبب تأثير إليزا ، وهو متلازمة تم تحديدها في عام 1966 والتي حددت “إمكانية قراءة الناس لمزيد من الفهم مما هو مبرر في سلاسل الرموز – خاصة الكلمات – التي يتم ربطها بواسطة أجهزة الكمبيوتر”.
* تحويلي لمراجع داخلية إلى روابط












