موجه الهندسة

التدريب على تضمينات النص المحسنة باستخدام نماذج اللغات الكبيرة

تم النشر 11 كانون الثاني 2024

عيوش ميتال ميتال

تضمينات النص عبارة عن تمثيلات متجهة للكلمات أو الجمل أو الفقرات أو المستندات التي تلتقط معناها الدلالي. إنها بمثابة لبنة أساسية في العديد من تطبيقات معالجة اللغات الطبيعية (NLP) اليوم، بما في ذلك استرجاع المعلومات والإجابة على الأسئلة والبحث الدلالي والمزيد.

ناقلات التضمين

أظهرت التطورات الحديثة في نماذج اللغات الكبيرة (LLMs) مثل GPT-3 قدرات رائعة في التعلم بعدد قليل من اللقطات وتوليد اللغة الطبيعية. هل يمكننا الاستفادة من LLMs أيضًا لتحسين حالة تضمينات النص؟ في ورقتهم"تحسين تضمينات النص باستخدام نماذج اللغات الكبيرة"، يقترح باحثون من Microsoft طريقة جديدة تحقق نتائج متفوقة من خلال إنشاء بيانات تدريب تركيبية باستخدام LLMs وضبطها.

التحديات مع الأساليب الحالية

تفشل تقنيات تضمين النص التقليدية مثل المتوسطات المرجحة لمتجهات الكلمات أو TF-IDF في التقاط المعلومات السياقية الغنية في النص بشكل مناسب. تحصل الأساليب الأحدث المستندة إلى نماذج اللغة المدربة مسبقًا مثل BERT على عمليات تضمين أفضل بكثير للسياق.

ومع ذلك، فإنها تتطلب خطوط تدريب معقدة متعددة المراحل:

تدرب مسبقًا على مليارات من أزواج النصوص ذات العلامات الضعيفة أو الاصطناعية
صقل مجموعات البيانات المحدودة المنسقة يدويًا

وهذا يتطلب موارد حسابية هائلة وجهدًا بشريًا لجمع البيانات. كما أن بيانات التدريب مقيدة بالتنوع والتغطية اللغوية. على سبيل المثال، يشتمل معيار BEIR على مجموعات بيانات لـ 15 مهمة استرجاع فقط باللغة الإنجليزية.

تستخدم الأساليب الحالية في الغالب بنيات أصغر على طراز BERT كنموذج أساسي. إنهم غير قادرين على الاستفادة من LLMs الأكثر تقدمًا والتقنيات ذات الصلة.

المنهجية: توليد البيانات الاصطناعية مع LLMs

للتغلب على هذه القيود، يقترح الباحثون نهجًا تدريبيًا جديدًا أحادي المرحلة يستفيد من شهادات LLM مثل GPT-3 وGPT-4 لتوليد بيانات تدريب تركيبية متنوعة.

الخطوات الرئيسية هي:

تصنيف المهمة: حدد تصنيفًا يصنف مهام تضمين النص إلى:
- المهام غير المتماثلة (الاستعلام والوثيقة وليس إعادة الصياغة، مثل البحث)
- المهام المتماثلة (الاستعلام والمستند عبارة عن إعادة صياغة، على سبيل المثال، التشابه الدلالي)
التصميم الفوري: قم بإنشاء قوالب سريعة مصممة خصيصًا لكل نوع مهمة لتوجيه LLM لإنشاء أمثلة تدريبية ذات صلة.
توليد البيانات الاصطناعية: اطلب من LLM باستخدام المطالبات المصممة لإنشاء مئات الآلاف من أزواج (الاستعلام والمستندات) التي تغطي مجموعة واسعة من المهام الدلالية عبر 93 لغة.
تدريب النموذج: قم بضبط برنامج LLM قوي ومفتوح المصدر مثل Mistral على البيانات الاصطناعية باستخدام الخسارة المتباينة.

تسمح هذه المنهجية بإنشاء بيانات تدريبية وافرة لمهام متنوعة بلغات متعددة دون أي جهد بشري لوضع العلامات. من خلال الاستفادة من المعرفة المضمنة بالفعل في LLMs من خلال التدريب المسبق على النصوص على نطاق الويب، يمكننا تجميع بيانات عالية الجودة مصممة بدقة لتضمين النص.

يوضح الباحثون ذلك من خلال استراتيجية تحفيز مكونة من خطوتين:

اطلب من GPT-4 اقتراح مهام الاسترجاع المحتملة

موجه لإنشاء مهام استرجاع عالية المستوى

اطلب منه مرة أخرى إنشاء عينات (استعلام، مستند) بناءً على المهام المقترحة

n إنشاء ثلاثة توائم (استعلام، إيجابي، سلبي صعب).

بعض الجوانب الرئيسية للتصميم الفوري:

تطالب اللغة الطبيعية بتعليمات بديهية شبيهة بالإنسان
العناصر النائبة لتشجيع التنوع (مثل طول الاستعلام والوضوح وطول المستند)
دمج البيانات من قوالب متعددة لنفس نوع المهمة
لغات الترجيح على أساس توافر الموارد

في المجمل، تمكنوا من إنشاء 500 ألف أمثلة لتضمين النص بتكلفة حسابية قدرها 180 مليون رمز مميز. وكانت اللغة السائدة هي الإنجليزية (43%) تليها البولندية واليابانية والإيطالية وغيرها.

بالنسبة للتدريب النموذجي، اختاروا ضبط المعلمة 7B مفتوحة المصدر الميسترال ريح شمالية نموذج بدلاً من أبنية أصغر على طراز BERT. وبما أن ميسترال قد تم تدريبها مسبقًا على مجموعة نصية ضخمة، فلم تكن هناك حاجة إلى تدريب مسبق إضافي متباين. إضافته قدمت تحسينات ضئيلة.

استغرق الضبط الدقيق بالكامل أقل من ألف خطوة، باستخدام مزيج من البيانات الاصطناعية والبيانات التي تم تصنيفها بواسطة الإنسان. وهذا يوضح كفاءة عينة النهج المقترح.

النتائج

قام الباحثون بتقييم نموذجهم على معيار MTEB، والذي يغطي مهام متنوعة عبر التصنيف والتجميع والتشابه الدلالي والتلخيص واسترجاع المعلومات.

نموذجهم تفوقت على الحالة الحديثة السابقة بمقدار 2.4 نقطة في متوسط الدرجات، وإنشاء سجلات جديدة لكل فئة تقريبًا:

الموديل	سوتا السابقة	النموذج المقترح
تصنيف	76.0	78.5
التكتل	46.1	50.3
التصنيف الزوجي	87.1	88.3
إعادة الترتيب	60.0	60.2
استرجاع	54.3	56.9
STS	83.1	84.6
تلخيص	31.6	31.4
متوسط	64.2	66.6

ومن اللافت للنظر أنه حتى بدون استخدام أي بيانات مصنفة والتدريب فقط على البيانات الاصطناعية، فقد حقق دقة تنافسية - بفارق 3.5 نقطة فقط عن النموذج الخاضع للإشراف الكامل. يوضح هذا جدوى إنشاء تضمينات نصية باستخدام LLMs فقط، دون جهد بشري في مجال التعليقات التوضيحية.

قام الباحثون أيضًا بتقييم معيار MIRACL متعدد اللغات الذي يغطي 18 لغة. وقد تفوق نموذجهم على أفضل أداء سابق في اللغات ذات الموارد العالية، ولكنه كان أضعف في اللغات منخفضة الموارد. ويفترضون أن هذا يمكن التخفيف من حدته من خلال التدريب المسبق لحاملي شهادة الماجستير في القانون على نطاق أوسع على اللغات منخفضة الموارد.

باختصار، تؤدي عمليات تضمين النص التي تم تدريبها على البيانات الاصطناعية التي تم إنشاؤها بواسطة LLM إلى إنشاء نتائج جديدة على أحدث طراز، مع استخدام تدريب أبسط وأكثر كفاءة مقارنة بالمناهج السابقة متعددة المراحل. ومع إجراء المزيد من الأبحاث في مجال الهندسة السريعة وجودة البيانات التركيبية، يمكن لهذه المنهجية أن تؤدي إلى تقدم كبير في عمليات تضمين النصوص متعددة اللغات.

تحليل الأداء

يقدم هذا العمل العديد من الوجبات القيمة:

تتمتع شهادات LLM مثل GPT-3 وGPT-4 بقدرة رائعة على إنشاء بيانات تدريب تركيبية عالية الجودة لمهام البرمجة اللغوية العصبية المتنوعة عندما يُطلب منك ذلك بشكل مناسب. وهذا يمكن أن يقلل الاعتماد على البيانات التي يحملها الإنسان.
بالنسبة لتضمين النص، يوفر التدريب المسبق المتباين مكاسب ضئيلة مقارنة بنماذج الضبط الدقيق مثل ميسترال التي لديها بالفعل تدريب مسبق على نطاق تريليون. هذه فكرة مهمة عن كفاءة التدريب.
تعمل أساليب الجيل المعزز للاسترجاع على تمكين LLMs من الوصول ديناميكيًا إلى المعرفة الخارجية. وبالتالي فإن تحسين عمليات تضمين النص يعد أمرًا ذا قيمة لتعزيز هذه LLMs.
هناك مجال كبير للتحسين في اللغات منخفضة الموارد. يمكن أن يساعد الحاصلون على ماجستير إدارة الأعمال متعددي اللغات، والذين تم تدريبهم مسبقًا على بيانات أكثر تمثيلاً، في سد هذه الفجوة.
من الناحية النظرية، فإن نمذجة اللغة وتضمين النص وجهان لعملة واحدة - فهم دلالات اللغة. من خلال المطالبة بالبيانات التركيبية، يمكن ضبط LLMs بشكل عضوي في أدوات التضمين بدون خطوط أنابيب معقدة.

تتضمن بعض الاتجاهات الواعدة للعمل المستقبلي ما يلي:

الاستفادة من شهادات LLM مفتوحة المصدر مثل GPT-NeoX لإنشاء بيانات تركيبية
استكشاف الوزن الخفيف بعد التدريب لتكييف أدوات التضمين مع السياقات الأطول
تطوير تقنيات هندسية سريعة للتحكم في الجودة وتغطية المهام
طرق تحسين زمن الوصول الاستدلالي وتكاليف التخزين للاستخدام الصناعي

وبعيدًا عن التغلب على المعايير القياسية، فإن استخدام نماذج لغوية كبيرة لتحسين تضمينات النص يفتح إمكانيات مثيرة للاهتمام للمستقبل. ومع استمرار طلاب ماجستير اللغة في التقدم في إتقانهم للغة الطبيعية، فمن المرجح أن تتحسن أيضًا قدرتهم على توليد بيانات تركيبية عالية الدقة.

ومع ذلك، لا تزال هناك اتجاهات بحثية حاسمة لترجمة هذه الإمكانية إلى تأثير في العالم الحقيقي.

التخصيص والتحكم

تتمثل الميزة الرئيسية للبيانات الاصطناعية في القدرة على إنشاء أمثلة برمجية مصممة خصيصًا لتلبية الاحتياجات المحددة. وكما أوضح البحث، تسمح الهندسة السريعة بإنشاء بيانات تدريب لمئات الآلاف من مهام التضمين.

ومع ذلك، تظل ممارسات التصميم الفوري الحالية فنًا أكثر منها علمًا. إن تطوير أساليب منهجية وقابلة للتكرار للتحكم بدقة في خصائص البيانات التي تم إنشاؤها من شأنه أن يوسع إمكانية تطبيق هذه التقنية.

على سبيل المثال، يمكن أن تساعد تقنيات تعديل عوامل مثل تعقيد الأمثلة وغموضها وحداثتها في معالجة مشكلات المتانة في المهام النهائية. يعد إنشاء المطالبة الديناميكية لمطابقة توزيعات العالم الحقيقي المتطورة تحديًا مفتوحًا آخر.

التدريب على نطاق واسع

في حين أن الحاصلين على ماجستير في القانون المدربين مسبقًا يقومون بالفعل بتشفير المعرفة اللغوية الكبيرة، فمن المرجح أن تتعزز مهاراتهم في توليد البيانات بشكل أكبر مع نطاق إضافي. تُظهر نماذج مثل GPT-4، التي تم تدريبها على تريليونات من الرموز المميزة لنصوص الإنترنت، تعلمًا قويًا في لقطات قليلة، ولكن لم يتم تحسينها خصيصًا لتجميع بيانات التدريب.

يمكن أن تؤدي البنى والأهداف المصممة خصيصًا لتمهيد عملية توليد البيانات الخاضعة للإشراف الذاتي على نطاق الويب إلى تحسين جودة وكفاءة هذه المنهجية بشكل كبير. يعد التكامل الفعال للمعرفة المسترجعة لاستكمال المعرفة المكتسبة اتجاهًا واعدًا آخر.

متعددة المهام ومتعددة اللغات

وكما أشارت الورقة، فإن تحسين الأداء في اللغات منخفضة الموارد لا يزال يمثل مشكلة. بدلاً من التدريب المسبق لماجستير في إدارة الأعمال (LLM) واحد ضخم، فإن البديل هو تدريب أسطول من نماذج الخبراء الأصغر حجمًا والمتخصصة في طرائق بيانات أو مجالات لغوية معينة.

يمكن أن يساعد هذا النهج الجماعي في تحسين التغطية للمهام واللغات النادرة من خلال مشاركة التمثيلات المستفادة بين الخبراء. يعد التعلم المستمر لتوسيع الخبرة اللغوية والمهام بمرور الوقت بمثابة احتمال مثير أيضًا.

في الختام، تقدم هذه الورقة مفهومًا مبتكرًا لتجميع بيانات التدريب من ماجستير إدارة الأعمال لإنشاء تضمينات نصية فعالة. وتظهر نتائجهم فعالية هذه المنهجية، وتفوقها على المعايير السابقة. مع تقدم طلاب ماجستير إدارة الأعمال وتقنيات البيانات الاصطناعية، يمكن أن يصبح الاستفادة من معرفتهم لتدريب القائمين على التضمين اتجاهًا واعدًا للغاية.

مواضيع ذات صلة:GPT-4 LLM مايكروسوفت تضمينات النص

عيوش ميتال

لقد أمضيت السنوات الخمس الماضية منغمسًا في عالم رائع من التعلم الآلي والتعلم العميق. قادني شغفي وخبرتي إلى المساهمة في أكثر من 50 مشروعًا متنوعًا لهندسة البرمجيات ، مع التركيز بشكل خاص على الذكاء الاصطناعي / التعلم الآلي. جذبني فضولي المستمر أيضًا نحو معالجة اللغة الطبيعية ، وهو مجال أتوق لاستكشافه بشكل أكبر.