الذكاء الاصطناعي
نماذج اللغات الكبيرة القائمة على وحدة فك التشفير: دليل كامل
نماذج اللغات الكبيرة أحدثت (LLMs) ثورة في مجال معالجة اللغة الطبيعية (NLP) من خلال إظهار قدرات رائعة في إنشاء نص يشبه الإنسان، والإجابة على الأسئلة، والمساعدة في مجموعة واسعة من المهام المتعلقة باللغة. في قلب هذه النماذج القوية يكمن بنية المحولات الخاصة بوحدة فك الترميز فقط، وهو شكل مختلف من بنية المحولات الأصلية المقترحة في الورقة الأساسية "الاهتمام هو كل ما تحتاجه"بقلم فاسواني وآخرون.
في هذا الدليل الشامل، سوف نستكشف الأعمال الداخلية لبرامج LLM القائمة على وحدة فك التشفير، ونتعمق في لبنات البناء الأساسية والابتكارات المعمارية وتفاصيل التنفيذ التي دفعت هذه النماذج إلى طليعة أبحاث وتطبيقات البرمجة اللغوية العصبية.
بنية المحولات: تجديد
قبل الغوص في تفاصيل برامج LLM القائمة على وحدة فك التشفير، من الضروري إعادة النظر في بنية المحولات، الأساس الذي بنيت عليه هذه النماذج. قدم المحول نهجًا جديدًا لنمذجة التسلسل، حيث يعتمد فقط على آليات الانتباه لالتقاط التبعيات طويلة المدى في البيانات، دون الحاجة إلى طبقات متكررة أو تلافيفية.
تتكون بنية المحولات الأصلية من مكونين رئيسيين: جهاز التشفير ووحدة فك التشفير. يقوم جهاز التشفير بمعالجة تسلسل الإدخال وإنشاء تمثيل سياقي، والذي يستهلكه بعد ذلك جهاز فك التشفير لإنتاج تسلسل الإخراج. تم تصميم هذه البنية في البداية لمهام الترجمة الآلية، حيث يقوم برنامج التشفير بمعالجة الجملة المدخلة في اللغة المصدر، ويقوم برنامج فك التشفير بإنشاء الجملة المقابلة في اللغة الهدف.
الاهتمام الذاتي: مفتاح نجاح المحولات
في قلب محول تكمن آلية الاهتمام الذاتي، وهي تقنية قوية تسمح للنموذج بوزن المعلومات وتجميعها من مواقع مختلفة في تسلسل الإدخال. على عكس نماذج التسلسل التقليدية، التي تعالج رموز الإدخال بشكل تسلسلي، يمكّن الاهتمام الذاتي النموذج من التقاط التبعيات بين أي زوج من الرموز المميزة، بغض النظر عن موضعها في التسلسل.
يمكن تقسيم عملية الاهتمام الذاتي إلى ثلاث خطوات رئيسية:
- الاستعلام والمفتاح وإسقاطات القيمة: يتم عرض تسلسل الإدخال في ثلاثة تمثيلات منفصلة: الاستفسارات (س) ، مفاتيح (ك) و القيم (الخامس). يتم الحصول على هذه التوقعات عن طريق ضرب المدخلات بمصفوفات الوزن المستفادة.
- حساب نقاط الانتباه: لكل موضع في تسلسل الإدخال، يتم حساب درجات الانتباه عن طريق أخذ المنتج النقطي بين متجه الاستعلام المقابل وجميع المتجهات الرئيسية. تمثل هذه الدرجات مدى ملاءمة كل منصب للمنصب الحالي الذي تتم معالجته.
- المجموع المرجح للقيم: تتم تسوية درجات الانتباه باستخدام دالة softmax، ويتم استخدام أوزان الانتباه الناتجة لحساب مجموع مرجح لمتجهات القيمة، مما يؤدي إلى إنتاج تمثيل الإخراج للموضع الحالي.
يسمح الانتباه متعدد الرؤوس، وهو أحد أشكال آلية الاهتمام الذاتي، للنموذج بالتقاط أنواع مختلفة من العلاقات عن طريق حساب درجات الاهتمام عبر عدة "رأس"بالتوازي، ولكل منها مجموعتها الخاصة من الاستعلامات والمفتاح وإسقاطات القيمة.
المتغيرات والتكوينات المعمارية
في حين أن المبادئ الأساسية لبرامج LLM القائمة على وحدة فك التشفير تظل متسقة، فقد استكشف الباحثون العديد من المتغيرات والتكوينات المعمارية لتحسين الأداء والكفاءة وقدرات التعميم. في هذا القسم، سوف نتعمق في الاختيارات المعمارية المختلفة وآثارها.
أنواع الهندسة المعمارية
يمكن تصنيف LLMs المستندة إلى وحدة فك التشفير على نطاق واسع إلى ثلاثة أنواع رئيسية: وحدة فك التشفير، وحدة فك التشفير السببية، ووحدة فك ترميز البادئة. يعرض كل نوع من أنواع الهندسة المعمارية أنماط اهتمام مميزة.
هندسة التشفير وفك التشفير
استنادًا إلى نموذج Vanilla Transformer، تتكون بنية التشفير وفك التشفير من مكدسين: جهاز تشفير ووحدة فك تشفير. يستخدم المشفر طبقات اهتمام ذاتي متعددة الرؤوس مكدسة لتشفير تسلسل الإدخال وإنشاء تمثيلات كامنة. يقوم مفكك التشفير بعد ذلك بتنفيذ الانتباه المتبادل على هذه التمثيلات لإنشاء التسلسل المستهدف. على الرغم من فعاليته في العديد من مهام البرمجة اللغوية العصبية، إلا أن القليل من حاملي شهادات LLM، مثل فلان- T5، اعتماد هذه البنية.
بنية فك التشفير السببية
تشتمل بنية وحدة فك التشفير السببية على قناع انتباه أحادي الاتجاه، مما يسمح لكل رمز إدخال مميز بالاهتمام فقط بالرموز المميزة السابقة ونفسه. تتم معالجة كل من رموز الإدخال والإخراج داخل نفس وحدة فك التشفير. نماذج بارزة مثل GPT-1تم بناء GPT-2 وGPT-3 على هذه البنية، مع عرض GPT-3 قدرات تعليمية رائعة في السياق. العديد من حاملي شهادات LLM، بما في ذلك OPT وBLOOM وGopher، اعتمدوا على نطاق واسع أجهزة فك التشفير السببية.
بنية وحدة فك ترميز البادئة
تُعرف بنية وحدة فك ترميز البادئة، المعروفة أيضًا باسم وحدة فك التشفير غير السببية، بتعديل آلية إخفاء وحدات فك التشفير السببية لتمكين الاهتمام ثنائي الاتجاه على الرموز المميزة للبادئة والاهتمام أحادي الاتجاه على الرموز المميزة التي تم إنشاؤها. مثل بنية التشفير وفك التشفير، يمكن لأجهزة فك تشفير البادئة تشفير تسلسل البادئة ثنائي الاتجاه والتنبؤ برموز الإخراج بشكل انحداري باستخدام المعلمات المشتركة. تتضمن LLMs المستندة إلى أجهزة فك ترميز البادئة GLM130B وU-PaLM.
يمكن توسيع جميع أنواع الهندسة المعمارية الثلاثة باستخدام خليط من الخبراء (وزارة التربية والتعليم) تقنية القياس، التي تنشط بشكل متناثر مجموعة فرعية من أوزان الشبكة العصبية لكل إدخال. تم استخدام هذا النهج في نماذج مثل Switch Transformer وGLaM، مع زيادة عدد الخبراء أو إجمالي حجم المعلمة مما يؤدي إلى تحسينات كبيرة في الأداء.
محول وحدة فك التشفير فقط: احتضان طبيعة الانحدار الذاتي
في حين تم تصميم بنية المحولات الأصلية لمهام التسلسل إلى التسلسل مثل الترجمة الآلية، فإن العديد من مهام البرمجة اللغوية العصبية، مثل نمذجة اللغة وإنشاء النص، يمكن تأطيرها كمشكلات انحدار ذاتي، حيث يقوم النموذج بإنشاء رمز مميز واحد في كل مرة، بشرط الرموز التي تم إنشاؤها مسبقًا.
أدخل محول وحدة فك التشفير فقط، وهو شكل مبسط من بنية المحولات التي تحتفظ فقط بمكون وحدة فك التشفير. تعتبر هذه البنية مناسبة بشكل خاص لمهام الانحدار التلقائي، حيث إنها تولد رموز الإخراج واحدة تلو الأخرى، مع الاستفادة من الرموز المميزة التي تم إنشاؤها مسبقًا كسياق إدخال.
يكمن الاختلاف الرئيسي بين محول وحدة فك التشفير فقط ووحدة فك ترميز المحولات الأصلية في آلية الاهتمام الذاتي. في إعداد وحدة فك التشفير فقط، يتم تعديل عملية الانتباه الذاتي لمنع النموذج من الاهتمام بالرموز المستقبلية، وهي خاصية تعرف باسم السببية. يتم تحقيق ذلك من خلال تقنية تسمى "الانتباه الذاتي المقنع"، حيث يتم تعيين درجات الانتباه المقابلة للمواقف المستقبلية على اللانهاية السلبية، مما يؤدي إلى إخفاءها بشكل فعال أثناء خطوة تطبيع softmax.
المكونات المعمارية للماجستير في القانون القائم على وحدة فك التشفير
في حين أن المبادئ الأساسية للاهتمام الذاتي والاهتمام الذاتي المقنع تظل كما هي، فقد قدمت LLMs الحديثة القائمة على وحدة فك التشفير العديد من الابتكارات المعمارية لتحسين الأداء والكفاءة وقدرات التعميم. دعونا نستكشف بعض المكونات والتقنيات الرئيسية المستخدمة في ماجستير إدارة الأعمال (LLM) الحديث.
تمثيل المدخلات
قبل معالجة تسلسل الإدخال، تستخدم LLMs القائمة على وحدة فك التشفير تقنيات الترميز والتضمين لتحويل النص الخام إلى تمثيل رقمي مناسب للنموذج.
Tokenization: تقوم عملية الترميز بتحويل نص الإدخال إلى سلسلة من الرموز المميزة، والتي يمكن أن تكون كلمات أو كلمات فرعية أو حتى أحرف فردية، اعتمادًا على استراتيجية الترميز المستخدمة. تتضمن تقنيات الترميز الشائعة لمجالس LLM تشفير Byte-Pair (BPE) وSentencePiece وWordPiece. تهدف هذه الأساليب إلى تحقيق التوازن بين حجم المفردات وتفاصيل التمثيل، مما يسمح للنموذج بالتعامل مع الكلمات النادرة أو غير المفردات بشكل فعال.
تضمينات الرمز المميز: بعد الترميز، يتم تعيين كل رمز مميز إلى تمثيل متجه كثيف يسمى تضمين الرمز المميز. يتم تعلم هذه التضمينات أثناء عملية التدريب والتقاط العلاقات الدلالية والنحوية بين الرموز المميزة.
التضمين الموضعي: تقوم نماذج المحولات بمعالجة تسلسل الإدخال بأكمله في وقت واحد، وتفتقر إلى المفهوم المتأصل لمواضع الرمز الموجودة في النماذج المتكررة. لدمج المعلومات الموضعية، تتم إضافة التضمينات الموضعية إلى تضمينات الرمز المميز، مما يسمح للنموذج بالتمييز بين الرموز المميزة بناءً على مواضعها في التسلسل. استخدمت LLMs المبكرة التضمينات الموضعية الثابتة استنادًا إلى الوظائف الجيبية، بينما استكشفت النماذج الأحدث التضمينات الموضعية القابلة للتعلم أو تقنيات التشفير الموضعية البديلة مثل التضمينات الموضعية الدوارة.
كتل الانتباه متعددة الرأس
إن اللبنات الأساسية لبرامج LLM القائمة على وحدة فك التشفير هي طبقات انتباه متعددة الرؤوس، والتي تؤدي عملية الاهتمام الذاتي المقنعة الموصوفة سابقًا. يتم تكديس هذه الطبقات عدة مرات، حيث تحضر كل طبقة مخرجات الطبقة السابقة، مما يسمح للنموذج بالتقاط التبعيات والتمثيلات المعقدة بشكل متزايد.
رؤساء الانتباه: تتكون كل طبقة انتباه متعددة الرؤوس من "رؤوس انتباه" متعددة، ولكل منها مجموعتها الخاصة من توقعات الاستعلام والمفتاح والقيمة. وهذا يسمح للنموذج بالاهتمام بجوانب مختلفة من المدخلات في وقت واحد، والتقاط العلاقات والأنماط المتنوعة.
الاتصالات المتبقية وتطبيع الطبقة: لتسهيل تدريب الشبكات العميقة والتخفيف من مشكلة التدرج المتلاشي، تستخدم LLMs القائمة على وحدة فك التشفير الاتصالات المتبقية وتقنيات تطبيع الطبقة. تضيف الاتصالات المتبقية مدخلات الطبقة إلى مخرجاتها، مما يسمح بتدفق التدرجات بسهولة أكبر أثناء الانتشار العكسي. يساعد تطبيع الطبقة على تثبيت عمليات التنشيط والتدرجات، مما يزيد من تحسين استقرار التدريب وأدائه.
طبقات التغذية الأمامية
بالإضافة إلى طبقات الانتباه متعددة الرؤوس، تشتمل برامج LLM القائمة على وحدة فك التشفير على طبقات تغذية للأمام، والتي تطبق شبكة عصبية بسيطة للتغذية الأمامية على كل موضع في التسلسل. تقدم هذه الطبقات عدم الخطية وتمكن النموذج من تعلم تمثيلات أكثر تعقيدًا.
وظائف التنشيط: يمكن أن يؤثر اختيار وظيفة التنشيط في طبقات التغذية الأمامية بشكل كبير على أداء النموذج. بينما اعتمدت LLMs السابقة على تنشيط ReLU المستخدم على نطاق واسع، فقد اعتمدت النماذج الأحدث وظائف تنشيط أكثر تعقيدًا مثل وحدة Gaussian Error Linear Unit (GELU) أو تنشيط SwiGLU، والتي أظهرت أداءً محسنًا.
الاهتمام المتناثر والمحولات الفعالة
في حين أن آلية الانتباه الذاتي قوية، إلا أنها تأتي مع تعقيد حسابي تربيعي فيما يتعلق بطول التسلسل، مما يجعلها مكلفة حسابيًا للتسلسلات الطويلة. ولمواجهة هذا التحدي، تم اقتراح العديد من التقنيات لتقليل المتطلبات الحسابية والذاكرة للانتباه الذاتي، مما يتيح المعالجة الفعالة للتسلسلات الأطول.
الانتباه المتناثر: تقنيات الانتباه المتفرق، مثل تلك المستخدمة في نموذج GPT-3، تهتم بشكل انتقائي بمجموعة فرعية من المواضع في تسلسل الإدخال، بدلاً من حساب درجات الاهتمام لجميع المواضع. يمكن أن يؤدي ذلك إلى تقليل التعقيد الحسابي بشكل كبير مع الحفاظ على الأداء المعقول.
انزلاق النافذة الاهتمام: تم تقديمه في نموذج Mistral 7B، وهو عبارة عن تقنية بسيطة ولكنها فعالة تقيد مدى انتباه كل رمز مميز إلى حجم نافذة ثابت. يعمل هذا النهج على تعزيز قدرة طبقات المحولات على نقل المعلومات عبر طبقات متعددة، مما يزيد بشكل فعال من مدى الانتباه دون التعقيد التربيعي للانتباه الذاتي الكامل.
المتداول ذاكرة التخزين المؤقت: لتقليل متطلبات الذاكرة بشكل أكبر، خاصة بالنسبة للتسلسلات الطويلة، يستخدم طراز Mistral 7B ذاكرة تخزين مؤقت متجددة. تقوم هذه التقنية بتخزين وإعادة استخدام المفتاح المحسوب ومتجهات القيمة لحجم نافذة ثابت، وتجنب الحسابات الزائدة عن الحاجة وتقليل استخدام الذاكرة.
تنبيه الاستعلام المجمع: تم تقديم انتباه الاستعلام المجمع (GQA) في نموذج LLaMA 2، وهو أحد أشكال آلية الانتباه متعدد الاستعلامات التي تقسم رؤوس الانتباه إلى مجموعات، حيث تشترك كل مجموعة في مفتاح مشترك ومصفوفة قيمة. يحقق هذا النهج توازنًا بين كفاءة الاهتمام بالاستعلام المتعدد وأداء الاهتمام الذاتي القياسي، مما يوفر أوقات استدلال محسنة مع الحفاظ على نتائج عالية الجودة.