رطم إعادة صياغة الجيل باستخدام التعلم المعزز العميق - قادة الفكر - اتحدوا
اتصل بنا للحصول على مزيد من المعلومات

الذكاء الاصطناعي

إعادة صياغة الجيل باستخدام التعلم المعزز العميق - قادة الفكر

mm
تحديث on

عند الكتابة أو التحدث ، تساءلنا جميعًا عما إذا كانت هناك طريقة أفضل لإيصال الفكرة للآخرين. ما هي الكلمات التي يجب أن أستخدمها؟ كيف يجب أن أبني الفكر؟ كيف يحتمل أن يستجيبوا؟ في Phrasee، نقضي الكثير من الوقت في التفكير في اللغة - ما الذي يصلح وما لا يصلح.

تخيل أنك تكتب سطر الموضوع لحملة بريد إلكتروني ستذهب إلى 10 ملايين شخص في قائمتك للترويج بنسبة 20٪ على جهاز كمبيوتر محمول جديد فاخر.

أي سطر ستختاره:

  • يمكنك الآن الحصول على خصم إضافي بنسبة 20٪ على طلبك التالي
  • استعد - خصم إضافي 20٪

بينما ينقلون نفس المعلومات ، حقق أحدهم معدل فتح أعلى بنسبة 15 ٪ تقريبًا من الآخر (وأراهن أنك لا تستطيع التغلب على نموذجنا في التنبؤ بأي منها؟). بينما يمكن غالبًا اختبار اللغة من خلال إختبار أ / ب or ماكينات الألعاب المتعددة، يظل إنشاء إعادة الصياغة تلقائيًا مشكلة بحث صعبة حقًا.

تعتبر جملتان إعادة صياغة لبعضهما البعض إذا كان لهما نفس المعنى ويمكن استخدامهما بالتبادل. الشيء المهم الآخر الذي غالبًا ما يتم اعتباره أمرًا مفروغًا منه هو ما إذا كانت الجملة المنشأة آليًا بطلاقة.

على عكس التعلم الخاضع للإشراف ، يتعلم وكلاء التعلم المعزز (RL) من خلال التفاعل مع بيئتهم ومراقبة المكافآت التي يتلقونها نتيجة لذلك. هذا الاختلاف الدقيق إلى حد ما له آثار هائلة على كيفية عمل الخوارزميات وكيفية تدريب النماذج. التعلم المعزز العميق يستخدم الشبكات العصبية كمقرب للوظائف للسماح للعامل بتعلم كيفية التفوق على البشر في البيئات المعقدة مثل Goو أتاري و ستار كرافت الثاني.

على الرغم من هذا النجاح، لم يتم تطبيق التعلم المعزز على نطاق واسع على مشاكل العالم الحقيقي بما في ذلك معالجة اللغات الطبيعية (NLP).

كجزء من بلدي أطروحة ماجستير في علوم البيانات، نوضح كيف يمكن استخدام Deep RL للتغلب على أساليب التعلم الخاضعة للإشراف في التوليد التلقائي لإعادة صياغة نص الإدخال. يمكن النظر إلى مشكلة إنشاء أفضل إعادة صياغة على أنها إيجاد سلسلة من الكلمات التي تزيد من التشابه الدلالي بين الجمل مع الحفاظ على الطلاقة في الإخراج. وكلاء RL مناسبون تمامًا للعثور على أفضل مجموعة من الإجراءات لتحقيق أقصى قدر من المكافأة المتوقعة في بيئات التحكم.

على النقيض من معظم المشاكل في التعلم الآلي، فإن المشكلة الأكبر في معظم تطبيقات توليد اللغات الطبيعية (NLG) لا تكمن في النمذجة بل في التقييم. على الرغم من أن التقييم البشري يعتبر حاليًا المعيار الذهبي في تقييم NLG، إلا أنه يعاني من عيوب كبيرة بما في ذلك كونه باهظ الثمن، ويستغرق وقتًا طويلاً، ويصعب ضبطه، ويفتقر إلى إمكانية التكرار عبر التجارب ومجموعات البيانات (هان ، 2016). نتيجة لذلك ، كان الباحثون يبحثون منذ فترة طويلة عن مقاييس تلقائية بسيطة وقابلة للتعميم وتعكس الحكم البشري (بابينيني وآخرون ، 2002).

يتم تلخيص طرق التقييم التلقائي الأكثر شيوعًا في تقييم التعليقات التوضيحية للصور التي تم إنشاؤها آليًا أدناه مع إيجابياتها وسلبياتها:

إعادة صياغة الجيل باستخدام خط أنابيب التعلم المعزز

لقد طورنا نظامًا يسمى ParaPhrasee ينتج عنه إعادة صياغة عالية الجودة. يتكون النظام من خطوات متعددة من أجل تطبيق التعلم المعزز بطريقة حسابية فعالة. ويرد أدناه ملخص موجز لخط الأنابيب رفيع المستوى مع مزيد من التفاصيل الواردة في أطروحة.

بيانات

هناك العديد من مجموعات البيانات المعاد صياغتها المتاحة والتي يتم استخدامها في البحث بما في ذلك: مايكروسوفت تعيد صياغة النص, مسابقة تشابه النص الدلالي ACL, أسئلة مكررة Quoraو روابط Twitter المشتركة. لقد اخترنا مس-كوكو نظرًا لحجمها ونظافتها واستخدامها كمعيار لاثنين من ورقات إعادة الصياغة البارزة. يحتوي MS-COCO على 120 ألف صورة لمشاهد شائعة مع 5 تعليقات للصور لكل صورة مقدمة من 5 مفسرين مختلفين للبشر.

على الرغم من أنها مصممة في المقام الأول لأبحاث الرؤية الحاسوبية، إلا أن التسميات التوضيحية تميل إلى أن تكون ذات تشابه دلالي عالٍ وهي عبارة عن إعادة صياغة مثيرة للاهتمام. نظرًا لأن التسميات التوضيحية للصور مقدمة من أشخاص مختلفين، فإنها تميل إلى وجود اختلافات طفيفة في التفاصيل المقدمة في المشهد، وبالتالي فإن الجمل التي تم إنشاؤها تميل إلى الهلوسة بالتفاصيل.

النموذج الخاضع للإشراف

في حين أن التعلم المعزز قد تحسن بشكل كبير من حيث كفاءة العينة ، وأوقات التدريب ، وأفضل الممارسات بشكل عام ، إلا أن تدريب نماذج RL من البداية لا يزال بطيئًا وغير مستقر نسبيًا (Arulkumaran et al. ، 2017). لذلك ، بدلاً من التدريب من الصفر ، نقوم أولاً بتدريب نموذج خاضع للإشراف ثم ضبطه باستخدام RL.

نحن نستخدم ملف التشفير-فك إطار نموذجي وتقييم أداء العديد من النماذج الأساسية الخاضعة للإشراف. عند ضبط النموذج باستخدام RL ، نقوم فقط بضبط شبكة مفكك التشفير ومعالجة شبكة التشفير على أنها ثابتة. على هذا النحو فإننا نعتبر إطارين رئيسيين:

  • تدريب النموذج الخاضع للإشراف من البداية باستخدام وحدة فك ترميز قياسية / فانيلا مع وحدات GRU
  • استخدام نماذج تضمين الجملة سابقة التدريب لبرنامج التشفير بما في ذلك: تضمين الكلمات المجمعة (GloVe) و InferSent و BERT

تميل النماذج الخاضعة للإشراف إلى الأداء بشكل مشابه إلى حد ما عبر الطرز باستخدام BERT ووحدة فك ترميز الفانيليا التي تحقق أفضل أداء.

في حين أن الأداء يميل إلى أن يكون معقولًا ، إلا أن هناك ثلاثة مصادر شائعة للخطأ: التلعثم وتوليد أجزاء الجملة والهلوسة. هذه هي المشاكل الرئيسية التي يهدف استخدام RL إلى حلها.

نموذج التعلم المعزز

يعد تنفيذ خوارزميات RL أمرًا صعبًا للغاية خاصة عندما لا تعرف ما إذا كان يمكن حل المشكلة. يمكن أن تكون هناك مشاكل في تنفيذ بيئتك ، أو وكلائك ، أو معاملاتك الفائقة ، أو وظيفة المكافأة الخاصة بك ، أو مزيج من كل ما سبق! تتفاقم هذه المشكلات عند القيام بعميقة RL حيث تحصل على متعة التعقيد الإضافي لـ تصحيح أخطاء الشبكات العصبية.

كما هو الحال مع جميع عمليات التصحيح ، فمن الأهمية بمكان ابدأ بسيطًا. قمنا بتنفيذ أشكال مختلفة من بيئتي ألعاب RL مفهومة جيدًا (CartPole و FrozenLake) لاختبار خوارزميات RL وإيجاد استراتيجية قابلة للتكرار لنقل المعرفة من النموذج الخاضع للإشراف.

وجدنا أن باستخدام خوارزمية الناقد الفاعل تفوقت على REINFORCE في هذه البيئات. فيما يتعلق بنقل المعرفة إلى نموذج الممثل الناقد ، وجدنا أن تهيئة أوزان الممثل بالنموذج الخاضع للإشراف والتدريب المسبق للناقد حقق أفضل أداء. وجدنا صعوبة في تعميم مناهج تقطير السياسات المعقدة في البيئات الجديدة لأنها تقدم العديد من المعلمات الفائقة الجديدة التي تتطلب ضبطًا للعمل.

بدعم من هذه الأفكار ، ننتقل بعد ذلك إلى تطوير نهج لمهمة إعادة الصياغة. نحتاج أولاً إلى خلق بيئة.

تسمح لنا البيئة باختبار تأثير استخدام مقاييس التقييم المختلفة كوظائف مكافأة بسهولة.

ثم نقوم بتعريف الوكيل ، نظرًا لمزاياه العديدة ، نستخدم بنية الممثل-الناقد. يتم استخدام الممثل لاختيار الكلمة التالية في التسلسل وتهيئة أوزانها باستخدام النموذج الخاضع للإشراف. يقدم الناقد تقديرًا للمكافأة المتوقعة التي من المحتمل أن تتلقاها الدولة لمساعدة الممثل على التعلم.

تصميم وظيفة المكافأة الصحيحة

أهم عنصر في تصميم نظام RL هو وظيفة المكافأة لأن هذا هو ما يحاول وكيل RL تحسينه. إذا كانت وظيفة المكافأة غير صحيحة ، فستتأثر النتائج حتى لو كان كل جزء آخر من النظام يعمل!

مثال كلاسيكي على ذلك عداء الساحل حيث حدد باحثو OpenAI وظيفة المكافأة على أنها تعظيم النتيجة الإجمالية بدلاً من الفوز بالسباق. والنتيجة هي أن الوكيل اكتشف حلقة حيث يمكنه الحصول على أعلى الدرجات بضرب التوربينات دون إكمال السباق.

نظرًا لأن تقييم جودة إعادة الصياغة هو بحد ذاته مشكلة لم يتم حلها ، فإن تصميم وظيفة مكافأة تلتقط هذا الهدف تلقائيًا هو أكثر صعوبة. معظم جوانب اللغة لا تتحلل بشكل جيد إلى مقاييس خطية وتعتمد على المهمة (نوفيكوفا وآخرون ، 2017).

غالبًا ما يكتشف وكيل RL استراتيجية مثيرة للاهتمام لتعظيم المكافآت التي تستغل نقاط الضعف في مقياس التقييم بدلاً من إنشاء نص عالي الجودة. يؤدي هذا إلى ضعف الأداء على المقاييس التي لا يقوم الوكيل بتحسينها بشكل مباشر.

نحن نعتبر ثلاثة مناهج رئيسية:

  1. مقاييس تداخل الكلمات

تأخذ مقاييس تقييم البرمجة اللغوية العصبية الشائعة في الاعتبار نسبة تداخل الكلمات بين إعادة الصياغة التي تم إنشاؤها وجملة التقييم. وكلما زاد التداخل زادت المكافأة. يتمثل التحدي في مناهج مستوى الكلمات في أن العامل يتضمن عددًا كبيرًا جدًا من الكلمات المتصلة مثل "a is on of" ولا يوجد مقياس للطلاقة. ينتج عن هذا إعادة صياغة منخفضة الجودة للغاية.

  1. مقاييس التشابه والطلاقة على مستوى الجملة

الخصائص الرئيسية لإعادة الصياغة التي تم إنشاؤها هي أنه يجب أن تكون بطلاقة ومتشابهة لغويًا للجملة المدخلة. لذلك ، نحاول تسجيل هذه النقاط بشكل صريح بشكل فردي ثم نجمع المقاييس. من أجل التشابه الدلالي ، نستخدم تشابه جيب التمام بين زخارف الجملة من النماذج التي تم تدريبها مسبقًا بما في ذلك BERT. من أجل الطلاقة ، نستخدم درجة بناءً على ارتباك الجملة من GPT-2. كلما زادت نقاط التشابه والطلاقة في جيب التمام ، زادت المكافأة.

لقد جربنا العديد من التركيبات المختلفة لنماذج تضمين الجملة ونماذج الطلاقة ، وبينما كان الأداء معقولًا ، فإن المشكلة الرئيسية التي واجهها الوكيل لم تكن كافية لتحقيق التوازن بين التشابه الدلالي والطلاقة. بالنسبة لمعظم التكوينات ، أعطى الوكيل الأولوية للطلاقة مما أدى إلى إزالة التفاصيل ووضع معظم الكيانات "في منتصف" شيء ما أو نقلها "على طاولة" أو "جانب الطريق".

يعد التعلم المعزز متعدد الأهداف سؤالًا بحثيًا مفتوحًا ويشكل تحديًا كبيرًا في هذه الحالة.

  1. استخدام نموذج الخصومة كوظيفة مكافأة

نظرًا لأن البشر يعتبرون المعيار الذهبي في التقييم ، فإننا ندرب نموذجًا منفصلاً يسمى المُميِّز للتنبؤ بما إذا كانت جملتان تعاد صياغة بعضهما البعض (على غرار الطريقة التي سيقيم بها الإنسان). الهدف من نموذج RL هو إقناع هذا النموذج بأن الجملة المولدة هي إعادة صياغة للمدخلات. يُنشئ المُميِّز درجة لمدى احتمالية إعادة صياغة الجملتين لبعضهما البعض والتي تُستخدم كمكافأة لتدريب الوكيل.

كل 5,000 تخمين يتم إخبار المميّز عن أي إعادة صياغة جاءت من مجموعة البيانات والتي تم إنشاؤها حتى تتمكن من تحسين التخمينات المستقبلية. تستمر العملية لعدة جولات حيث يحاول الوكيل خداع أداة التمييز والمميز الذي يحاول التمييز بين إعادة الصياغة الناتجة وإعادة صياغة التقييم من مجموعة البيانات.

بعد عدة جولات من التدريب ، يولد الوكيل إعادة صياغة تتفوق في الأداء على النماذج الخاضعة للإشراف ووظائف المكافآت الأخرى.

الخلاصة والقيود

توفر المناهج العدائية (بما في ذلك اللعب الذاتي للألعاب) نهجًا واعدًا للغاية لتدريب خوارزميات RL لتتجاوز مستوى الأداء البشري في مهام معينة دون تحديد وظيفة مكافأة واضحة.

بينما كانت RL قادرة على التفوق على التعلم الخاضع للإشراف في هذه الحالة ، فإن مقدار النفقات الإضافية من حيث الكود والحساب والتعقيد لا يستحق مكاسب الأداء لمعظم التطبيقات. من الأفضل ترك RL للمواقف التي لا يمكن فيها تطبيق التعلم الخاضع للإشراف بسهولة ، ومن السهل تحديد وظيفة المكافأة (مثل ألعاب Atari). تعد الأساليب والخوارزميات أكثر نضجًا في التعلم الخاضع للإشراف وإشارة الخطأ أقوى بكثير مما ينتج عنه تدريب أسرع وأكثر استقرارًا.

هناك اعتبار آخر ، كما هو الحال مع الأساليب العصبية الأخرى ، أن العامل يمكن أن يفشل بشكل كبير للغاية في الحالات التي يكون فيها المدخل مختلفًا عن المدخلات التي رآها سابقًا ، مما يتطلب طبقة إضافية من فحوصات السلامة لتطبيقات الإنتاج.

إن ازدياد الاهتمام بنهج RL والتقدم في البنية التحتية الحاسوبية في السنوات القليلة الماضية سيفتح فرصًا هائلة لتطبيق RL في الصناعة ، وخاصة في البرمجة اللغوية العصبية NLP.

أندرو جيبس ​​برافو عالم بيانات في Phrasee ركز على تحسين التكنولوجيا الكامنة وراء كتابة الإعلانات الرائدة عالميًا في Phrasee المدعومة بالذكاء الاصطناعي. وهو أيضًا منظم مشارك في اجتماع مجتمع تعلم التعزيز بلندن ، وهو مهتم بكل ما يتعلق بالتمهيد اللغوي ، ومعالجة اللغات الطبيعية ، والتعلم الآلي.