Connect with us

صعود معالجة اللغة الطبيعية مع نماذج Transformer | تحليل شامل لـ T5 و BERT و GPT

الذكاء الاصطناعي

صعود معالجة اللغة الطبيعية مع نماذج Transformer | تحليل شامل لـ T5 و BERT و GPT

mm
Guide on NLP

لقد شهدت معالجة اللغة الطبيعية بعض الإنجازات الأكثر تأثيراً في السنوات الأخيرة، ويرجع الفضل في ذلك بشكل رئيسي إلى معمارية Transformer. لم تكن هذه الإنجازات فقط تعزز قدرات الآلات على فهم اللغة البشرية وتوليدها، بل أعادت أيضًا تعريف مشهد العديد من التطبيقات، من محركات البحث إلى الذكاء الاصطناعي المحادثي.

للتقدير الكامل لأهمية Transformers، يجب علينا أولاً النظر إلى السابقين والعناصر الأساسية التي وضعت الأسس لهذه المعمارية الثورية.

تقنيات معالجة اللغة الطبيعية المبكرة: الأسس قبل Transformers

تضمين الكلمات: من التشفير الثنائي إلى Word2Vec

في النهج التقليدية لمعالجة اللغة الطبيعية، كانت تمثيل الكلمات غالبًا حرفيًا وفتقدها أي شكل من أشكال الفهم الدلالي أو النحوي.

التشفير الثنائي هو عملية يتم من خلالها تحويل المتغيرات التصنيفية إلى تمثيل متجه ثنائي حيث يكون فقط بت واحد “ساخن” (محدد إلى 1) بينما باقيها “بارد” (محدد إلى 0). في سياق معالجة اللغة الطبيعية، يتم تمثيل كل كلمة في القاموس بواسطة متجهات ثنائية حيث يكون كل متجه بحجم القاموس، وتمثل كل كلمة بمتجه تحتوي على أصفار و 1 في الفهرس الموافق للكلمة في قائمة القاموس.

مثال على التشفير الثنائي

افترض أن لدينا قاموسًا صغيرًا يحتوي على خمس كلمات فقط: [“king”، “queen”، “man”، “woman”، “child”]. سيكون تمثيل التشفير الثنائي للكلمات على النحو التالي:

  • “king” -> [1, 0, 0, 0, 0]
  • “queen” -> [0, 1, 0, 0, 0]
  • “man” -> [0, 0, 1, 0, 0]
  • “woman” -> [0, 0, 0, 1, 0]
  • “child” -> [0, 0, 0, 0, 1]

التمثيل الرياضي

إذا أسمينا V بحجم قاموسنا و wi بتمثيل المتجه الثنائي للكلمة i في القاموس، فإن التمثيل الرياضي لـ wi سيكون:

wi=[0,0,,1,,0,0] حيث يكون الموقع i هو 1 وجميع المواقع الأخرى هي 0.حيث يكون الموقع i هو 1 وجميع المواقع الأخرى هي 0.

الجزء السلبي الرئيسي للتشفير الثنائي هو أنه يعامل كل كلمة على أنها كيان معزول، دون أي علاقة بالكلمات الأخرى. يؤدي هذا إلى متجهات متفرقة وذات أبعاد عالية لا تحمل أي معلومات دلاليّة أو نحويّة عن الكلمات.

كانت إدخال تضمين الكلمات، و特别 Word2Vec، لحظة حاسمة في معالجة اللغة الطبيعية. تم تطوير Word2Vec بواسطة فريق في جوجل بقيادة توماس ميكولوف في عام 2013، وتمثل Word2Vec الكلمات في فضاء متجه كثيف، مما يلتقط العلاقات الدلاليّة والنحويّة للكلمات بناءً على سياقها داخل مجموعات كبيرة من النصوص.

على عكس التشفير الثنائي، ينتج Word2Vec متجهات كثيفة، عادةً ذات أبعاد مئات. الكلمات التي تظهر في سياقات مشابهة، مثل “king” و “queen”، ستكون لها تمثيلات متجهية أقرب إلى بعضها البعض في فضاء المتجه.

للتوضيح، دعونا نفترض أننا قمنا بتدريب نموذج Word2Vec الآن وتمثل الكلمات في فضاء ثلاثي الأبعاد افتراضي (والذي يتم تقليله هنا من أجل البساطة). قد تظهر التضمينات (التي عادة ما تكون أكثر من ثلاثة أبعاد ولكن تم تقليلها هنا من أجل البساطة) كما يلي:

  • “king” -> [0.2, 0.1, 0.9]
  • “queen” -> [0.21, 0.13, 0.85]
  • “man” -> [0.4, 0.3, 0.2]
  • “woman” -> [0.41, 0.33, 0.27]
  • “child” -> [0.5, 0.5, 0.1]

尽管 هذه الأرقام خيالية، إلا أنها توضح كيف أن الكلمات المماثلة لها متجهات مماثلة.

التمثيل الرياضي

إذا أسمينا تمثيل تضمين Word2Vec للكلمة vw, وافترضنا أن فضاء التضمين له d أبعاد، فإن vw يمكن تمثيله على النحو التالي:

vw=[v1,v2,,vd] حيث يكون كل vi هو رقم عائم يمثل ميزة للكلمة في فضاء التضمين.

العلاقات الدلاليّة

يمكن لـ Word2Vec حتى التقاط علاقات معقدة، مثل القواس. على سبيل المثال، العلاقة الشهيرة التي يتم التقاطها بواسطة تضمينات Word2Vec هي:

متجه(“king”) – متجه(“man”) + متجه(“woman”) ≈ متجه(“queen”)متجه(“king”) – متجه(“man”) + متجه(“woman”)متجه(“queen”)

هذا ممكن لأن Word2Vec يعدل متجهات الكلمات أثناء التدريب بحيث تكون الكلمات التي تشترك في سياقات مشتركة في المجموعة النصية واقعة قريبة في فضاء المتجه.

يستخدم Word2Vec两ية رئيسية لإنتاج تمثيل موزع للكلمات: Continuous Bag-of-Words (CBOW) و Skip-Gram. CBOW يتنبأ بكلمة الهدف من كلمات السياق المحيطة بها، بينما يقوم Skip-Gram بعكس ذلك، حيث يتنبأ بكلمات السياق من كلمة الهدف. سمح هذا للأجهزة بالبدء في فهم استخدام الكلمات و.meaningها بطريقة أكثر دقة.

نمذجة التسلسل: RNNs و LSTMs

随着 تقدم الحقل، تحول التركيز نحو فهم تسلسلات النص، وهو أمر ضروري للمهام مثل الترجمة الآلية و تلخيص النص و تحليل المشاعر. أصبحت الشبكات العصبية المتكررة (RNNs) حجر الزاوية لهذه التطبيقات بسبب khảية التعامل مع البيانات التسلسلية من خلال الحفاظ على نوع من الذاكرة.

然而، واجهت RNNs قيودًا. كانت تعاني من الاعتماديات الطويلة المدى بسبب مشكلة التدرج المتناقص، حيث تفقد المعلومات عبر التسلسلات الطويلة، مما يجعل من الصعب تعلم العلاقات بين الأحداث البعيدة.

شبكات الذاكرة القصيرة الطويلة (LSTMs)، التي قدمها Sepp Hochreiter و Jürgen Schmidhuber في عام 1997، تعاملت مع هذه القضية بمعمارية أكثر تطورًا. تتمتع LSTMs بأبواب تحكم تدفق المعلومات: البوابة الداخلة وبوابة النسيان وبوابة الإخراج. ت决定 هذه الأبواب ما المعلومات يتم تخزينها أو تحديثها أو إلغاؤها، مما يسمح للشبكة بحفظ الاعتماديات الطويلة المدى وتحسين الأداء بشكل كبير على مجموعة متنوعة من مهام معالجة اللغة الطبيعية.

معمارية Transformer

خضعت معالجة اللغة الطبيعية لتغيير جذري مع إدخال نموذج Transformer في الورقة الرائدة “الانتباه هو كل ما تحتاجه” بواسطة Vaswani وآخرون في عام 2017. تختلف معمارية Transformer عن المعالجة التسلسلية للـ RNNs و LSTMs وبدلاً من ذلك تستخدم آلية تسمى “الانتباه الذاتي” لتقييم تأثير أجزاء مختلفة من البيانات الإدخالية.

فكرة Transformer الأساسية هي أنها يمكن معالجة البيانات الإدخالية بالكامل في وقت واحد، بدلاً من المعالجة التسلسلية. يسمح هذا بمزيد من التموازي ونتيجة لذلك زيادة كبيرة في سرعة التدريب. آلية الانتباه الذاتي تمكن النموذج من التركيز على أجزاء مختلفة من النص أثناء معالجته، وهو أمر حاسم لفهم السياق والعلاقات بين الكلمات، بغض النظر عن موقعها في النص.

المشفر والفك في Transformers:

في نموذج Transformer الأصلي، كما هو موضح في الورقة “الانتباه هو كل ما تحتاجه” بواسطة Vaswani وآخرون، يتم تقسيم المعمارية إلى جزأين رئيسيين: المشفر والفك. يتكون كلا الجزأين من طبقات لها نفس الهيكل العام ولكنها تخدم أغراضًا مختلفة.

المشفر:

  • الدور: دور المشفر هو معالجة البيانات الإدخالية وإنشاء تمثيل يلتقط العلاقات بين العناصر (مثل الكلمات في الجملة). لا يولد هذا الجزء من Transformer أي محتوى جديد؛ إنه ببساطة يتحول الإدخال إلى حالة يمكن للفك استخدامها.
  • الوظيفة: تحتوي كل طبقة من طبقات المشفر على آليات انتباه ذاتي وشبكات عصبية تغذية إلى الأمام. آلية الانتباه الذاتي تسمح لكل موقع في المشفر بالانتباه إلى جميع المواقع في الطبقة السابقة من المشفر — وبالتالي يمكنه تعلم السياق حول كل كلمة.
  • التضمينات السياقية: مخرج المشفر هو سلسلة من المتجهات التي تمثل تسلسل الإدخال في فضاء بعدي عالي. غالبًا ما يشار إلى هذه المتجهات باسم التضمينات السياقية لأنها ترمز ليس فقط الكلمات الفردية ولكن أيضًا سياقها داخل الجملة.

الفك:

  • الدور: دور الفك هو توليد بيانات الإخراج بشكل تسلسلي، جزءًا تلو الآخر، بناءً على الإدخال الذي يتلقاه من المشفر وما تم توليده حتى الآن. يتم تصميمه لمهام مثل توليد النص، حيث يكون ترتيب التوليد حاسمًا.
  • الوظيفة: تحتوي طبقات الفك أيضًا على آليات انتباه ذاتي، ولكنها مخفية لمنع المواقع من الانتباه إلى المواقع اللاحقة. هذا يضمن أن التنبؤ لموقع معين يمكن أن يعتمد فقط على الإخراج المعروف في المواقع السابقة. بالإضافة إلى ذلك، تحتوي طبقات الفك على آلية انتباه ثانية تنتبها إلى مخرج المشفر، مما يدمج السياق من الإدخال في عملية التوليد.
  • قدرات التوليد التسلسلي: هذا يشير إلى khảية الفك لتوليد تسلسل واحدًا تلو الآخر، مبنيًا على ما تم إنتاجه بالفعل. على سبيل المثال، عند توليد النص، يتنبأ الفك بالكلمة التالية بناءً على السياق المقدم بواسطة المشفر وتسلسل الكلمات التي تم توليدها بالفعل.

كل من هذه الطبقات الفرعية داخل المشفر والفك حاسمة لقدرة النموذج على التعامل مع مهام معالجة اللغة الطبيعية المعقدة. آلية الانتباه المتعدد الرؤوس تسمح للنموذج بالتركيز بشكل انتقائي على أجزاء مختلفة من التسلسل، مما يوفر فهمًا غنيًا للسياق والعلاقات بين الكلمات.

نماذج شائعة تستخدم Transformers

بعد النجاح الأولي لنموذج Transformer، شهدت ظهور مجموعة من النماذج الجديدة بناءً على معماريته، كل منها يضيف تحسينات وابتكارات لمهام مختلفة:

BERT (تمثيلات Encoder ثنائية الاتجاه من Transformers): قدمت بواسطة جوجل في عام 2018، قامت BERT بثورة في كيفية دمج المعلومات السياقية في تمثيلات اللغة. من خلال التدريب المسبق على مجموعة كبيرة من النصوص باستخدام نموذج لغة مخفي وتنبؤ الجملة التالية، قامت BERT بتقاط سياقات ثنائية الاتجاه غنية وحققت نتائج على أعلى مستوى في مجموعة متنوعة من مهام معالجة اللغة الطبيعية.

BERT

BERT

T5 (Transformer النقل النصي): قدم بواسطة جوجل في عام 2020، قام T5 بتحويل جميع مهام معالجة اللغة الطبيعية إلى مشكلة نقل نصية، باستخدام تنسيق نصي موحد. يبسط هذا النهج عملية تطبيق النموذج على مجموعة متنوعة من المهام، بما في ذلك الترجمة و تلخيص النص و الإجابة على الأسئلة.

هيكل T5

هيكل T5

GPT (Transformer التوليدي المسبق): طور بواسطة OpenAI، بدأت سلسلة نماذج GPT من GPT-1 ووصلت إلى GPT-4 في عام 2023. يتم تدريب هذه النماذج باستخدام التعلم غير المشرّف على كميات هائلة من البيانات النصية وضبط دقيق لمهام مختلفة. قدرتهم على توليد نصوص متسقة وذات سياق جعلتها مؤثرة بشكل كبير في التطبيقات الأكاديمية والتجارية للذكاء الاصطناعي.

GPT

هيكل GPT

هنا مقارنة أكثر تفصيلاً بين نماذج T5 و BERT و GPT عبر أبعاد مختلفة:

1. التشفير والقاموس

  • BERT: يستخدم التشفير الثنائي للكلمات مع حجم قاموس يبلغ حوالي 30,000 رمز.
  • GPT: يستخدم التشفير الثنائي للكلمات مع حجم قاموس كبير (على سبيل المثال، يحتوي GPT-3 على حجم قاموس يبلغ 175,000).
  • T5: يستخدم التشفير الثنائي للجمل ويعامل النص على أنه نص خام ولا يتطلب كلمات مسبقة القسم.

2. أهداف التدريب المسبق

  • BERT: نموذج لغة مخفي وتنبؤ الجملة التالية.
  • GPT: نموذج لغة سببي، حيث يتنبأ كل رمز بالرمز التالي في التسلسل.
  • T5: يستخدم هدف تشويش حيث يتم استبدال نطاقات نصية عشوائية برمز حارس ويتعلم النموذج إعادة بناء النص الأصلي.

3. تمثيل الإدخال

  • BERT: يتم دمج تمثيلات الرمز والقطعة وال位置.
  • GPT: يتم دمج تمثيلات الرمز وال位置 (لا يتم استخدام تمثيلات القطعة لأنها لا يتم تصميمها لمهام زوج الجمل).
  • T5: يتم استخدام تمثيلات الرمز فقط مع إضافات ترميزات vị trí النسبية أثناء عمليات الانتباه.

4. آلية الانتباه

  • BERT: يستخدم الترميزات vị trí المطلقة ويمكن لكل موقع الانتباه إلى جميع المواقع — الانتباه ثنائي الاتجاه.
  • GPT: يستخدم أيضًا الترميزات vị trí المطلقة ولكن يقيّد الانتباه بالمواقع السابقة فقط — الانتباه أحادي الاتجاه.
  • T5: يطبق نسخة من Transformer التي تستخدم تحيزات vị trí النسبية بدلاً من الترميزات vị trí.

5. هيكل النموذج

  • BERT: هيكل مشفر فقط مع طبقات متعددة من كتل Transformer.
  • GPT: هيكل فك فقط، أيضًا مع طبقات متعددة ولكن مصمم لل مهام التوليدية.
  • T5: هيكل مشفر-فك، حيث يتكون كلا المشفر والفك من طبقات Transformer.

6. نهج الضبط الدقيق

  • BERT: يعدل الحالات الخفية النهائية للنموذج المسبق على مهام أسفل الانسيابية مع طبقات إخراج إضافية حسب الحاجة.
  • GPT: يضيف طبقة خطية على顶ية Transformer وضبط دقيق على مهام أسفل الانسيابية باستخدام نفس هدف نموذج اللغة السببي.
  • T5: يحول جميع المهام إلى تنسيق نصي-نصي، حيث يتم ضبط النموذج لتوليد التسلسل الهدف من التسلسل الإدخالي.

7. بيانات التدريب والمقياس

  • BERT: تم تدريبه على BooksCorpus وويكيبيديا الإنجليزية.
  • GPT: تم تدريب GPT-2 و GPT-3 على مجموعات بيانات مستخرجة من الإنترنت، مع أن GPT-3 تم تدريبه على مجموعة أكبر تسمى Common Crawl.
  • T5: تم تدريبه على “Colossal Clean Crawled Corpus”، وهو نسخة كبيرة ونموذجية من Common Crawl.

8. التعامل مع السياق والاتجاهية

  • BERT: مصمم لفهم السياق في كلا الاتجاهين في نفس الوقت.
  • GPT: تم تدريبه على فهم السياق في اتجاه واحد (من اليسار إلى اليمين).
  • T5: يمكنه نمذجة السياق ثنائي الاتجاه في المشفر ووحيد الاتجاه في الفك، مناسب للمهام التسلسلية-التسلسلية.

9. التكيف مع المهام الأسفل الانسيابية

  • BERT: يتطلب طبقات رأس خاصة بالمهام وضبط دقيق لكل مهام أسفل الانسيابية.
  • GPT: هو توليدي بطبعه ويمكن تحفيزه على أداء مهام بتحويلات طفيفة في هيكله.
  • T5: يعامل كل مهام معالجة اللغة الطبيعية على أنها مشكلة “نص-نص”، مما يجعله مرنًا وتكيفيًا بشكل جوهري مع مهام جديدة.

10. تفسيرية ووضوح

  • BERT: طبيعة الاتجاهين توفر تضمينات غنية سياقيًا ولكن قد تكون أكثر صعوبة في التفسير.
  • GPT: الاتجاه الواحد قد يكون أكثر وضوحًا في المتابعة ولكنه يفتقر إلى عمق السياق ثنائي الاتجاه.
  • T5: إطار المشفر-الفك يوفر فصلًا واضحًا للخطوات العاملية ولكنه قد يكون معقدًا في التحليل بسبب طبيعته التوليدية.

تأثير Transformers على معالجة اللغة الطبيعية

قامت Transformers بثورة في مجال معالجة اللغة الطبيعية من خلال تمكين النماذج من معالجة تسلسلات البيانات بالتوازي، مما زاد بشكل كبير من سرعة وفعّالية تدريب الشبكات العصبية الكبيرة. أدخلت آلية الانتباه الذاتي، مما سمح للنماذج بتحديد أهمية كل جزء من البيانات الإدخالية، بغض النظر عن المسافة داخل التسلسل. أدى هذا إلى تحسينات غير مسبوقة في مجموعة واسعة من مهام معالجة اللغة الطبيعية، بما في ذلك الترجمة و回答 الأسئلة و تلخيص النص.

يستمر البحث في دفع حدود ما يمكن أن تحققه نماذج Transformer. تتمتع نماذج مثل GPT-4 وأقرانها ليس فقط بمقياس أكبر ولكن أيضًا بكفاءة وقدرات أفضل بسبب التطورات في الهندسة المعمارية وطرق التدريب.

تتعلم نماذج اللغة مثل تلك المبنية على Transformers من البيانات التي يمكن أن تحتوي على تحيزات. يعمل الباحثون والممارسون بشكل نشط على تحديد وتفهم وتخفيف هذه التحيزات. تتراوح التقنيات من مجموعات بيانات مدروسة بعناية إلى تعديلات بعد التدريب تهدف إلى العدالة والحياد.

تعد نماذج مثل T5 و BERT و GPT أمثلة على التطور المستمر في مجال معالجة اللغة الطبيعية، حيث تقدم كل نموذج تحسينات وابتكارات على سابقه، مما يوسع من قدرات الذكاء الاصطناعي في فهم وتوليد اللغة البشرية.

لقد قمت بإنفاق الخمس سنوات الماضية في غمرة العالم المثير للاهتمام من تعلم الآلة والتعلم العميق. وقد أدت شغفي وخبرتي إلى المساهمة في أكثر من 50 مشروعًا للهندسة البرمجية متنوعًا، مع التركيز بشكل خاص على الذكاء الاصطناعي / تعلم الآلة. كما أدت فضولي المستمر إلى جذبي نحو معالجة اللغة الطبيعية، وهو مجال أنا حريص على استكشافه بشكل أكبر.