الذكاء الاصطناعي

البرمجة اللغوية العصبية ترتفع مع نماذج المحولات | تحليل شامل لـ T5، وBERT، وGPT

تم النشر

منذ أشهر 6

8 نوفمبر، 2023

شهدت معالجة اللغات الطبيعية (NLP) بعضًا من أكثر الإنجازات تأثيرًا في السنوات الأخيرة، ويرجع ذلك أساسًا إلى بنية المحولات. ولم تعمل هذه الإنجازات على تعزيز قدرات الآلات على فهم وتوليد اللغة البشرية فحسب، بل أعادت أيضًا تعريف مشهد العديد من التطبيقات، بدءًا من محركات البحث وحتى الذكاء الاصطناعي للمحادثة.

لكي نقدر أهمية المحولات بشكل كامل، يجب علينا أولاً أن ننظر إلى الوراء إلى أسلافها ولبنات البناء التي وضعت الأساس لهذه الهندسة المعمارية الثورية.

تقنيات البرمجة اللغوية العصبية المبكرة: الأسس قبل المحولات

تضمينات الكلمات: من One-Hot إلى Word2Vec

في مناهج البرمجة اللغوية العصبية التقليدية، كان تمثيل الكلمات غالبًا حرفيًا ويفتقر إلى أي شكل من أشكال الفهم الدلالي أو النحوي. يعد التشفير السريع مثالًا رئيسيًا على هذا القيد.

التشفير الساخن هو عملية يتم من خلالها تحويل المتغيرات الفئوية إلى تمثيل متجه ثنائي حيث يكون بت واحد فقط "ساخنًا" (مضبوطًا على 1) بينما تكون جميع البتات الأخرى "باردة" (مضبوطة على 0). في سياق البرمجة اللغوية العصبية، يتم تمثيل كل كلمة في المفردات بواسطة متجهات واحدة ساخنة حيث يكون كل متجه هو حجم المفردات، ويتم تمثيل كل كلمة بواسطة متجه يحتوي على جميع الأصفار وواحد في الفهرس المقابل لتلك الكلمة في قائمة المفردات.

مثال على ترميز One-Hot

لنفترض أن لدينا مفردات صغيرة مكونة من خمس كلمات فقط: ["ملك"، "ملكة"، "رجل"، "امرأة"، "طفل"]. ستبدو متجهات التشفير الساخنة لكل كلمة كما يلي:

"الملك" -> [1، 0، 0، 0، 0]
"الملكة" -> [0، 1، 0، 0، 0]
"رجل" -> [0، 0، 1، 0، 0]
"امرأة" -> [0، 0، 0، 1، 0]
"الطفل" -> [0، 0، 0، 0، 1]

التمثيل الرياضي

إذا دلنا $V$ بحجم مفرداتنا و $w_{i}$ كتمثيل متجه واحد ساخن للكلمة i في المفردات، والتمثيل الرياضي لـ $w_{i}$ سيكون:

$w_{i} = [0, 0, ..., 1, ..., 0, 0]$ $حيث يكون الموضع i هو 1 وجميع المواضع الأخرى هي 0.$

الجانب السلبي الرئيسي للتشفير الساخن هو أنه يعامل كل كلمة ككيان معزول، لا علاقة له بالكلمات الأخرى. وينتج عن ذلك ناقلات متفرقة وعالية الأبعاد لا تلتقط أي معلومات دلالية أو نحوية حول الكلمات.

كان إدخال تضمينات الكلمات، وأبرزها Word2Vec، لحظة محورية في البرمجة اللغوية العصبية. تم تطوير Word2013Vec بواسطة فريق في Google بقيادة توماس ميكولوف في عام 2، وهو يمثل الكلمات في مساحة متجهة كثيفة، ويلتقط علاقات الكلمات النحوية والدلالية بناءً على سياقها داخل مجموعة كبيرة من النص.

على عكس التشفير السريع، ينتج Word2Vec نواقل كثيفة، عادةً بمئات الأبعاد. الكلمات التي تظهر في سياقات مماثلة، مثل "ملك" و"ملكة"، سيكون لها تمثيلات متجهة أقرب إلى بعضها البعض في الفضاء المتجه.

للتوضيح، لنفترض أننا قمنا بتدريب نموذج Word2Vec ونقوم الآن بتمثيل الكلمات في مساحة افتراضية ثلاثية الأبعاد. التضمينات (التي عادة ما تكون أكثر من ثلاثية الأبعاد ولكن تم تقليلها هنا للتبسيط) قد تبدو كما يلي:

"الملك" -> [0.2، 0.1، 0.9]
"الملكة" -> [0.21، 0.13، 0.85]
"رجل" -> [0.4، 0.3، 0.2]
"امرأة" -> [0.41، 0.33، 0.27]
"الطفل" -> [0.5، 0.5، 0.1]

على الرغم من أن هذه الأرقام وهمية، إلا أنها توضح كيف أن الكلمات المتشابهة لها نواقل مماثلة.

التمثيل الرياضي

إذا قمنا بتمثيل تضمين Word2Vec للكلمة كـ $v_{w}$ ، ومساحة التضمين لدينا لديها $d$ الأبعاد إذن $v_{w}$ يمكن تمثيلها على النحو التالي:

$v_{w} = [v_{1}, v_{2}, ..., v_{d}]$ $حيث كل v_{i} هو رقم فاصلة عائمة يمثل سمة من سمات الكلمة في مساحة التضمين.$

العلاقات الدلالية

يمكن لـ Word2Vec أيضًا التقاط العلاقات المعقدة، مثل القياسات. على سبيل المثال، العلاقة الشهيرة التي تم التقاطها بواسطة تضمينات Word2Vec هي:

$المتجه ("الملك") - المتجه ("الرجل") + المتجه ("المرأة") \approx ناقل ("الملكة")$

يعد هذا ممكنًا لأن Word2Vec يقوم بضبط متجهات الكلمات أثناء التدريب بحيث يتم وضع الكلمات التي تشترك في سياقات مشتركة في المجموعة بشكل قريب في مساحة المتجهات.

يستخدم Word2Vec بنيتين رئيسيتين لإنتاج تمثيل موزع للكلمات: حقيبة الكلمات المستمرة (CBOW) وSkip-Gram. يتنبأ نظام CBOW بالكلمة المستهدفة من كلمات السياق المحيطة بها، بينما يقوم Skip-Gram بالعكس، حيث يتنبأ بكلمات السياق من الكلمة المستهدفة. سمح هذا للآلات بالبدء في فهم استخدام الكلمات ومعناها بطريقة أكثر دقة.

نمذجة التسلسل: RNNs وLSTMs

مع تقدم المجال، تحول التركيز نحو فهم تسلسل النص، وهو أمر بالغ الأهمية لمهام مثل الترجمة الآلية، وتلخيص النص، وتحليل المشاعر. أصبحت الشبكات العصبية المتكررة (RNNs) حجر الزاوية لهذه التطبيقات نظرًا لقدرتها على التعامل مع البيانات المتسلسلة من خلال الحفاظ على شكل من أشكال الذاكرة.

ومع ذلك، لم تكن شبكات RNN خالية من القيود. لقد عانوا من التبعيات طويلة المدى بسبب مشكلة التدرج المتلاشي، حيث تُفقد المعلومات خلال تسلسلات طويلة، مما يجعل من الصعب معرفة الارتباطات بين الأحداث البعيدة.

شبكات الذاكرة الطويلة قصيرة المدى (LSTMs)، تم تقديمها بواسطة سيب هوخريتر ويورغن شميدهوبر في عام 1997، تناول هذه المشكلة ببنية أكثر تعقيدًا. تحتوي LSTMs على بوابات تتحكم في تدفق المعلومات: بوابة الإدخال، وبوابة النسيان، وبوابة الإخراج. تحدد هذه البوابات المعلومات التي يتم تخزينها أو تحديثها أو التخلص منها، مما يسمح للشبكة بالحفاظ على التبعيات طويلة المدى وتحسين الأداء بشكل ملحوظ في مجموعة واسعة من مهام البرمجة اللغوية العصبية.

هندسة المحولات

لقد خضع مشهد البرمجة اللغوية العصبية لتحول جذري مع تقديم نموذج المحولات في الورقة التاريخية "الانتباه هو كل ما تحتاجه" التي كتبها فاسواني وآخرون. في عام 2017. تنطلق بنية المحولات من المعالجة التسلسلية لشبكات RNN وLSTMs وتستخدم بدلاً من ذلك آلية تسمى "الانتباه الذاتي" لتقييم تأثير الأجزاء المختلفة من بيانات الإدخال.

الفكرة الأساسية للمحول هي أنه يمكنه معالجة بيانات الإدخال بالكامل مرة واحدة، وليس بشكل تسلسلي. وهذا يسمح بمزيد من التوازي، ونتيجة لذلك، زيادات كبيرة في سرعة التدريب. تتيح آلية الاهتمام الذاتي للنموذج التركيز على أجزاء مختلفة من النص أثناء معالجته، وهو أمر بالغ الأهمية لفهم السياق والعلاقات بين الكلمات، بغض النظر عن موقعها في النص.

التشفير وفك التشفير في المحولات:

في نموذج المحول الأصلي، كما هو موضح في الورقة "الاهتمام هو كل ما تحتاجه"بحسب فاسواني وآخرين، تنقسم الهندسة المعمارية إلى قسمين رئيسيين: المشفر ووحدة فك التشفير. يتكون كلا الجزأين من طبقات لها نفس البنية العامة ولكنها تخدم أغراضًا مختلفة.

التشفير:

النوع: يتمثل دور المشفر في معالجة البيانات المدخلة وإنشاء تمثيل يلتقط العلاقات بين العناصر (مثل الكلمات في الجملة). هذا الجزء من المحول لا يولد أي محتوى جديد؛ إنه ببساطة يحول الإدخال إلى حالة يمكن لجهاز فك التشفير استخدامها.
الية عمل سفينة نوح: تحتوي كل طبقة تشفير على آليات الاهتمام الذاتي والشبكات العصبية ذات التغذية الأمامية. تسمح آلية الانتباه الذاتي لكل موضع في برنامج التشفير بالاهتمام بجميع المواضع في الطبقة السابقة من برنامج التشفير، وبالتالي يمكنه معرفة السياق المحيط بكل كلمة.
التضمين السياقي: خرج المشفر عبارة عن سلسلة من المتجهات التي تمثل تسلسل الإدخال في مساحة عالية الأبعاد. غالبًا ما يُشار إلى هذه المتجهات باسم التضمينات السياقية لأنها لا تقوم بتشفير الكلمات الفردية فحسب، بل أيضًا سياقها داخل الجملة.

فك:

النوع: يتمثل دور وحدة فك التشفير في إنشاء بيانات الإخراج بشكل تسلسلي، جزء واحد في كل مرة، بناءً على المدخلات التي يتلقاها من وحدة التشفير وما تم إنشاؤه حتى الآن. وهو مصمم لمهام مثل إنشاء النص، حيث يكون ترتيب الإنشاء أمرًا بالغ الأهمية.
الية عمل سفينة نوح: تحتوي طبقات وحدة فك التشفير أيضًا على آليات الانتباه الذاتي، ولكنها مخفية لمنع المواضع من الحضور إلى المواضع اللاحقة. وهذا يضمن أن التنبؤ بموضع معين لا يمكن أن يعتمد إلا على المخرجات المعروفة في المواضع التي تسبقه. بالإضافة إلى ذلك، تشتمل طبقات وحدة فك التشفير على آلية اهتمام ثانية تهتم بمخرجات وحدة التشفير، وتدمج السياق من المدخلات في عملية التوليد.
قدرات التوليد المتسلسل: يشير هذا إلى قدرة وحدة فك التشفير على إنشاء تسلسل عنصر واحد في كل مرة، بناءً على ما تم إنتاجه بالفعل. على سبيل المثال، عند إنشاء نص، يتنبأ برنامج فك التشفير بالكلمة التالية استنادًا إلى السياق الذي يوفره برنامج التشفير وتسلسل الكلمات التي أنشأها بالفعل.

تعد كل طبقة من هذه الطبقات الفرعية داخل جهاز التشفير ووحدة فك التشفير أمرًا ضروريًا لقدرة النموذج على التعامل مع مهام البرمجة اللغوية العصبية المعقدة. تسمح آلية الانتباه متعدد الرؤوس، على وجه الخصوص، للنموذج بالتركيز بشكل انتقائي على أجزاء مختلفة من التسلسل، مما يوفر فهمًا غنيًا للسياق.

النماذج الشعبية الاستفادة من المحولات

بعد النجاح الأولي لنموذج المحول، كان هناك انفجار في النماذج الجديدة المبنية على هندسته المعمارية، ولكل منها ابتكاراتها وتحسيناتها لمهام مختلفة:

BERT (تمثيلات التشفير ثنائي الاتجاه من المحولات): تم تقديم BERT بواسطة Google في عام 2018، وقد أحدث ثورة في طريقة دمج المعلومات السياقية في تمثيلات اللغة. من خلال التدريب المسبق على مجموعة كبيرة من النصوص باستخدام نموذج لغة مقنع والتنبؤ بالجمل التالية، يلتقط BERT سياقات غنية ثنائية الاتجاه وحقق أحدث النتائج في مجموعة واسعة من مهام البرمجة اللغوية العصبية.

بيرت

T5 (محول نقل النص إلى النص): تم تقديمه بواسطة جوجل في عام 2020، يقوم T5 بإعادة صياغة جميع مهام البرمجة اللغوية العصبية كمشكلة تحويل النص إلى نص، باستخدام تنسيق موحد قائم على النص. يعمل هذا الأسلوب على تبسيط عملية تطبيق النموذج على مجموعة متنوعة من المهام، بما في ذلك الترجمة والتلخيص والإجابة على الأسئلة.

العمارة T5

GPT (المحولات التوليدية المدربة مسبقًا): طورت بواسطة OpenAI، بدأ خط نماذج GPT بـ GPT-1 ووصل إلى GPT-4 بحلول عام 2023. يتم تدريب هذه النماذج مسبقًا باستخدام التعلم غير الخاضع للإشراف على كميات هائلة من البيانات النصية ويتم ضبطها بدقة لمختلف المهام. إن قدرتهم على إنشاء نص متماسك وذي صلة بالسياق جعلتهم مؤثرين للغاية في كل من تطبيقات الذكاء الاصطناعي الأكاديمية والتجارية.

هندسة جي بي تي

فيما يلي مقارنة أكثر تعمقًا لنماذج T5 وBERT وGPT عبر أبعاد مختلفة:

1. الترميز والمفردات

بيرت: يستخدم ترميز WordPiece بحجم مفردات يبلغ حوالي 30,000 رمزًا.
GPT: يستخدم تشفير زوج البايت (BPE) بحجم كبير من المفردات (على سبيل المثال، GPT-3 لديه حجم مفردات يبلغ 175,000).
T5: يستخدم ترميز SentencePiece الذي يتعامل مع النص على أنه خام ولا يتطلب كلمات مقسمة مسبقًا.

2. أهداف ما قبل التدريب

بيرت: نمذجة اللغة المقنعة (MLM) والتنبؤ بالجمل التالية (NSP).
GPT: نمذجة اللغة السببية (CLM)، حيث يتنبأ كل رمز بالرمز التالي في التسلسل.
T5: يستخدم هدف تقليل الضوضاء حيث يتم استبدال مساحات النص العشوائية برمز مميز ويتعلم النموذج إعادة بناء النص الأصلي.

3. تمثيل المدخلات

بيرت: يتم دمج الرمز المميز والقطعة والتضمين الموضعي لتمثيل الإدخال.
GPT: يتم دمج التضمينات الرمزية والموضعية (لا توجد عمليات تضمين مقطعية لأنها غير مصممة لمهام أزواج الجمل).
T5: تضمينات الرمز المميز فقط مع الترميزات الموضعية النسبية المضافة أثناء عمليات الانتباه.

4. آلية الانتباه

بيرت: يستخدم الترميزات الموضعية المطلقة ويسمح لكل رمز مميز بالاهتمام بجميع الرموز المميزة على اليسار واليمين (الانتباه ثنائي الاتجاه).
GPT: يستخدم أيضًا الترميزات الموضعية المطلقة ولكنه يقيد الانتباه إلى الرموز المميزة السابقة فقط (الانتباه أحادي الاتجاه).
T5: ينفذ متغيرًا للمحول الذي يستخدم تحيزات الموضع النسبي بدلاً من التضمين الموضعي.

5. العمارة النموذجية

بيرت: بنية التشفير فقط مع طبقات متعددة من كتل المحولات.
GPT: بنية وحدة فك التشفير فقط، وهي أيضًا ذات طبقات متعددة ولكنها مصممة للمهام التوليدية.
T5: بنية التشفير وفك التشفير، حيث يتكون كل من التشفير ووحدة فك التشفير من طبقات المحولات.

6. نهج الضبط الدقيق

بيرت: يتكيف مع الحالات المخفية النهائية للنموذج المُدرب مسبقًا للمهام النهائية مع طبقات إخراج إضافية حسب الحاجة.
GPT: يضيف طبقة خطية أعلى المحول ويضبط المهمة النهائية باستخدام نفس هدف نمذجة اللغة السببية.
T5: يحول جميع المهام إلى تنسيق نص إلى نص، حيث يتم ضبط النموذج بدقة لإنشاء التسلسل المستهدف من تسلسل الإدخال.

7. بيانات التدريب وحجمه

بيرت: تدرب على BooksCorpus ويكيبيديا الإنجليزية.
GPT: تم تدريب GPT-2 وGPT-3 على مجموعات بيانات متنوعة مستخرجة من الإنترنت، مع تدريب GPT-3 على مجموعة أكبر تسمى Common Crawl.
T5: تم التدريب على "Colossal Clean Crawled Corpus"، وهي نسخة كبيرة ونظيفة من Common Crawl.

8. التعامل مع السياق وثنائية الاتجاه

بيرت: مصممة لفهم السياق في كلا الاتجاهين في وقت واحد.
GPT: تدرب على فهم السياق في الاتجاه الأمامي (من اليسار إلى اليمين).
T5: يمكن وضع نموذج للسياق ثنائي الاتجاه في جهاز التشفير وأحادي الاتجاه في جهاز فك التشفير، وهو مناسب لمهام التسلسل إلى التسلسل.

9. القدرة على التكيف مع المهام النهائية

بيرت: يتطلب طبقات رأس خاصة بالمهمة وضبطًا دقيقًا لكل مهمة في المراحل النهائية.
GPT: منتج بطبيعته ويمكن مطالبته بأداء المهام بأقل قدر من التغييرات في بنيته.
T5: يتعامل مع كل مهمة على أنها مشكلة "تحويل نص إلى نص"، مما يجعلها مرنة بطبيعتها وقابلة للتكيف مع المهام الجديدة.

10. قابلية التفسير وقابلية الشرح

بيرت: توفر الطبيعة ثنائية الاتجاه تضمينات سياقية غنية ولكن قد يكون من الصعب تفسيرها.
GPT: قد يكون السياق أحادي الاتجاه أكثر وضوحًا في المتابعة ولكنه يفتقر إلى عمق السياق ثنائي الاتجاه.
T5: يوفر إطار عمل التشفير وفك التشفير فصلًا واضحًا لخطوات المعالجة ولكن يمكن أن يكون التحليل معقدًا نظرًا لطبيعته التوليدية.

تأثير المحولات على البرمجة اللغوية العصبية

لقد أحدثت المحولات ثورة في مجال البرمجة اللغوية العصبية من خلال تمكين النماذج من معالجة تسلسل البيانات بالتوازي، مما أدى إلى زيادة كبيرة في سرعة وكفاءة تدريب الشبكات العصبية الكبيرة. لقد قدموا آلية الاهتمام الذاتي، مما يسمح للنماذج بتقييم أهمية كل جزء من بيانات الإدخال، بغض النظر عن المسافة داخل التسلسل. وأدى ذلك إلى تحسينات غير مسبوقة في مجموعة واسعة من مهام البرمجة اللغوية العصبية، بما في ذلك على سبيل المثال لا الحصر الترجمة والإجابة على الأسئلة وتلخيص النص.

تستمر الأبحاث في توسيع حدود ما يمكن أن تحققه النماذج المعتمدة على المحولات. إن GPT-4 ومعاصريه ليسوا فقط أكبر حجمًا ولكنهم أيضًا أكثر كفاءة وقدرة بسبب التقدم في الهندسة المعمارية وأساليب التدريب. تقنيات مثل التعلم البسيط، حيث تؤدي النماذج المهام مع الحد الأدنى من الأمثلة، وطرق التعلم النقلي الأكثر فعالية، هي في طليعة الأبحاث الحالية.

تتعلم نماذج اللغة مثل تلك المعتمدة على المحولات من البيانات التي يمكن أن تحتوي على تحيزات. ويعمل الباحثون والممارسون بنشاط على تحديد هذه التحيزات وفهمها والتخفيف منها. تتراوح التقنيات من مجموعات بيانات التدريب المنسقة إلى تعديلات ما بعد التدريب التي تهدف إلى العدالة والحياد.

مواضيع ذات صلة:البرمجة اللغوية العصبية محولات

يُعد دبوس الذكاء الاصطناعي الخاص بشركة Humane خطوة للأمام في مجال التكنولوجيا القابلة للارتداء، ولكن مع وجود عيوب

لا تفوت

GPTs المخصصة موجودة هنا وستؤثر على كل شيء يتعلق بالذكاء الاصطناعي

عيوش ميتال

لقد أمضيت السنوات الخمس الماضية منغمسًا في عالم رائع من التعلم الآلي والتعلم العميق. قادني شغفي وخبرتي إلى المساهمة في أكثر من 50 مشروعًا متنوعًا لهندسة البرمجيات ، مع التركيز بشكل خاص على الذكاء الاصطناعي / التعلم الآلي. جذبني فضولي المستمر أيضًا نحو معالجة اللغة الطبيعية ، وهو مجال أتوق لاستكشافه بشكل أكبر.