الذكاء الاصطناعي

نماذج اللغات الكبيرة القائمة على وحدة فك التشفير: دليل كامل

تحديث on 27 نيسان

نماذج اللغات الكبيرة القائمة على وحدة فك التشفير: دليل كامل

نماذج اللغات الكبيرة أحدثت (LLMs) ثورة في مجال معالجة اللغة الطبيعية (NLP) من خلال إظهار قدرات رائعة في إنشاء نص يشبه الإنسان، والإجابة على الأسئلة، والمساعدة في مجموعة واسعة من المهام المتعلقة باللغة. في قلب هذه النماذج القوية يكمن بنية المحولات الخاصة بوحدة فك الترميز فقط، وهو شكل مختلف من بنية المحولات الأصلية المقترحة في الورقة الأساسية "الاهتمام هو كل ما تحتاجه"بقلم فاسواني وآخرون.

في هذا الدليل الشامل، سوف نستكشف الأعمال الداخلية لبرامج LLM القائمة على وحدة فك التشفير، ونتعمق في لبنات البناء الأساسية والابتكارات المعمارية وتفاصيل التنفيذ التي دفعت هذه النماذج إلى طليعة أبحاث وتطبيقات البرمجة اللغوية العصبية.

بنية المحولات: تجديد

قبل الغوص في تفاصيل برامج LLM القائمة على وحدة فك التشفير، من الضروري إعادة النظر في بنية المحولات، الأساس الذي بنيت عليه هذه النماذج. قدم المحول نهجًا جديدًا لنمذجة التسلسل، حيث يعتمد فقط على آليات الانتباه لالتقاط التبعيات طويلة المدى في البيانات، دون الحاجة إلى طبقات متكررة أو تلافيفية.

هندسة المحولات

تتكون بنية المحولات الأصلية من مكونين رئيسيين: جهاز التشفير ووحدة فك التشفير. يقوم جهاز التشفير بمعالجة تسلسل الإدخال وإنشاء تمثيل سياقي، والذي يستهلكه بعد ذلك جهاز فك التشفير لإنتاج تسلسل الإخراج. تم تصميم هذه البنية في البداية لمهام الترجمة الآلية، حيث يقوم برنامج التشفير بمعالجة الجملة المدخلة في اللغة المصدر، ويقوم برنامج فك التشفير بإنشاء الجملة المقابلة في اللغة الهدف.

الاهتمام الذاتي: مفتاح نجاح المحولات

في قلب محول تكمن آلية الاهتمام الذاتي، وهي تقنية قوية تسمح للنموذج بوزن المعلومات وتجميعها من مواقع مختلفة في تسلسل الإدخال. على عكس نماذج التسلسل التقليدية، التي تعالج رموز الإدخال بشكل تسلسلي، يمكّن الاهتمام الذاتي النموذج من التقاط التبعيات بين أي زوج من الرموز المميزة، بغض النظر عن موضعها في التسلسل.

الاهتمام بالاستعلام المتعدد

يمكن تقسيم عملية الاهتمام الذاتي إلى ثلاث خطوات رئيسية:

الاستعلام والمفتاح وإسقاطات القيمة: يتم عرض تسلسل الإدخال في ثلاثة تمثيلات منفصلة: الاستفسارات (س) ، مفاتيح (ك) و القيم (الخامس). يتم الحصول على هذه التوقعات عن طريق ضرب المدخلات بمصفوفات الوزن المستفادة.
حساب نقاط الانتباه: لكل موضع في تسلسل الإدخال، يتم حساب درجات الانتباه عن طريق أخذ المنتج النقطي بين متجه الاستعلام المقابل وجميع المتجهات الرئيسية. تمثل هذه الدرجات مدى ملاءمة كل منصب للمنصب الحالي الذي تتم معالجته.
المجموع المرجح للقيم: تتم تسوية درجات الانتباه باستخدام دالة softmax، ويتم استخدام أوزان الانتباه الناتجة لحساب مجموع مرجح لمتجهات القيمة، مما يؤدي إلى إنتاج تمثيل الإخراج للموضع الحالي.

يسمح الانتباه متعدد الرؤوس، وهو أحد أشكال آلية الاهتمام الذاتي، للنموذج بالتقاط أنواع مختلفة من العلاقات عن طريق حساب درجات الاهتمام عبر عدة "رأس"بالتوازي، ولكل منها مجموعتها الخاصة من الاستعلامات والمفتاح وإسقاطات القيمة.

المتغيرات والتكوينات المعمارية

في حين أن المبادئ الأساسية لبرامج LLM القائمة على وحدة فك التشفير تظل متسقة، فقد استكشف الباحثون العديد من المتغيرات والتكوينات المعمارية لتحسين الأداء والكفاءة وقدرات التعميم. في هذا القسم، سوف نتعمق في الاختيارات المعمارية المختلفة وآثارها.

أنواع الهندسة المعمارية

يمكن تصنيف LLMs المستندة إلى وحدة فك التشفير على نطاق واسع إلى ثلاثة أنواع رئيسية: وحدة فك التشفير، وحدة فك التشفير السببية، ووحدة فك ترميز البادئة. يعرض كل نوع من أنواع الهندسة المعمارية أنماط اهتمام مميزة.

هندسة التشفير وفك التشفير

استنادًا إلى نموذج Vanilla Transformer، تتكون بنية التشفير وفك التشفير من مكدسين: جهاز تشفير ووحدة فك تشفير. يستخدم المشفر طبقات اهتمام ذاتي متعددة الرؤوس مكدسة لتشفير تسلسل الإدخال وإنشاء تمثيلات كامنة. يقوم مفكك التشفير بعد ذلك بتنفيذ الانتباه المتبادل على هذه التمثيلات لإنشاء التسلسل المستهدف. على الرغم من فعاليته في العديد من مهام البرمجة اللغوية العصبية، إلا أن القليل من حاملي شهادات LLM، مثل فلان- T5، اعتماد هذه البنية.

بنية فك التشفير السببية

تشتمل بنية وحدة فك التشفير السببية على قناع انتباه أحادي الاتجاه، مما يسمح لكل رمز إدخال مميز بالاهتمام فقط بالرموز المميزة السابقة ونفسه. تتم معالجة كل من رموز الإدخال والإخراج داخل نفس وحدة فك التشفير. نماذج بارزة مثل GPT-1تم بناء GPT-2 وGPT-3 على هذه البنية، مع عرض GPT-3 قدرات تعليمية رائعة في السياق. العديد من حاملي شهادات LLM، بما في ذلك OPT وBLOOM وGopher، اعتمدوا على نطاق واسع أجهزة فك التشفير السببية.

بنية وحدة فك ترميز البادئة

تُعرف بنية وحدة فك ترميز البادئة، المعروفة أيضًا باسم وحدة فك التشفير غير السببية، بتعديل آلية إخفاء وحدات فك التشفير السببية لتمكين الاهتمام ثنائي الاتجاه على الرموز المميزة للبادئة والاهتمام أحادي الاتجاه على الرموز المميزة التي تم إنشاؤها. مثل بنية التشفير وفك التشفير، يمكن لأجهزة فك تشفير البادئة تشفير تسلسل البادئة ثنائي الاتجاه والتنبؤ برموز الإخراج بشكل انحداري باستخدام المعلمات المشتركة. تتضمن LLMs المستندة إلى أجهزة فك ترميز البادئة GLM130B وU-PaLM.

يمكن توسيع جميع أنواع الهندسة المعمارية الثلاثة باستخدام خليط من الخبراء (وزارة التربية والتعليم) تقنية القياس، التي تنشط بشكل متناثر مجموعة فرعية من أوزان الشبكة العصبية لكل إدخال. تم استخدام هذا النهج في نماذج مثل Switch Transformer وGLaM، مع زيادة عدد الخبراء أو إجمالي حجم المعلمة مما يؤدي إلى تحسينات كبيرة في الأداء.

محول وحدة فك التشفير فقط: احتضان طبيعة الانحدار الذاتي

في حين تم تصميم بنية المحولات الأصلية لمهام التسلسل إلى التسلسل مثل الترجمة الآلية، فإن العديد من مهام البرمجة اللغوية العصبية، مثل نمذجة اللغة وإنشاء النص، يمكن تأطيرها كمشكلات انحدار ذاتي، حيث يقوم النموذج بإنشاء رمز مميز واحد في كل مرة، بشرط الرموز التي تم إنشاؤها مسبقًا.

أدخل محول وحدة فك التشفير فقط، وهو شكل مبسط من بنية المحولات التي تحتفظ فقط بمكون وحدة فك التشفير. تعتبر هذه البنية مناسبة بشكل خاص لمهام الانحدار التلقائي، حيث إنها تولد رموز الإخراج واحدة تلو الأخرى، مع الاستفادة من الرموز المميزة التي تم إنشاؤها مسبقًا كسياق إدخال.

يكمن الاختلاف الرئيسي بين محول وحدة فك التشفير فقط ووحدة فك ترميز المحولات الأصلية في آلية الاهتمام الذاتي. في إعداد وحدة فك التشفير فقط، يتم تعديل عملية الانتباه الذاتي لمنع النموذج من الاهتمام بالرموز المستقبلية، وهي خاصية تعرف باسم السببية. يتم تحقيق ذلك من خلال تقنية تسمى "الانتباه الذاتي المقنع"، حيث يتم تعيين درجات الانتباه المقابلة للمواقف المستقبلية على اللانهاية السلبية، مما يؤدي إلى إخفاءها بشكل فعال أثناء خطوة تطبيع softmax.

المكونات المعمارية للماجستير في القانون القائم على وحدة فك التشفير

في حين أن المبادئ الأساسية للاهتمام الذاتي والاهتمام الذاتي المقنع تظل كما هي، فقد قدمت LLMs الحديثة القائمة على وحدة فك التشفير العديد من الابتكارات المعمارية لتحسين الأداء والكفاءة وقدرات التعميم. دعونا نستكشف بعض المكونات والتقنيات الرئيسية المستخدمة في ماجستير إدارة الأعمال (LLM) الحديث.

تمثيل المدخلات

قبل معالجة تسلسل الإدخال، تستخدم LLMs القائمة على وحدة فك التشفير تقنيات الترميز والتضمين لتحويل النص الخام إلى تمثيل رقمي مناسب للنموذج.

ناقلات التضمين

Tokenization: تقوم عملية الترميز بتحويل نص الإدخال إلى سلسلة من الرموز المميزة، والتي يمكن أن تكون كلمات أو كلمات فرعية أو حتى أحرف فردية، اعتمادًا على استراتيجية الترميز المستخدمة. تتضمن تقنيات الترميز الشائعة لمجالس LLM تشفير Byte-Pair (BPE) وSentencePiece وWordPiece. تهدف هذه الأساليب إلى تحقيق التوازن بين حجم المفردات وتفاصيل التمثيل، مما يسمح للنموذج بالتعامل مع الكلمات النادرة أو غير المفردات بشكل فعال.

تضمينات الرمز المميز: بعد الترميز، يتم تعيين كل رمز مميز إلى تمثيل متجه كثيف يسمى تضمين الرمز المميز. يتم تعلم هذه التضمينات أثناء عملية التدريب والتقاط العلاقات الدلالية والنحوية بين الرموز المميزة.

التضمين الموضعي: تقوم نماذج المحولات بمعالجة تسلسل الإدخال بأكمله في وقت واحد، وتفتقر إلى المفهوم المتأصل لمواضع الرمز الموجودة في النماذج المتكررة. لدمج المعلومات الموضعية، تتم إضافة التضمينات الموضعية إلى تضمينات الرمز المميز، مما يسمح للنموذج بالتمييز بين الرموز المميزة بناءً على مواضعها في التسلسل. استخدمت LLMs المبكرة التضمينات الموضعية الثابتة استنادًا إلى الوظائف الجيبية، بينما استكشفت النماذج الأحدث التضمينات الموضعية القابلة للتعلم أو تقنيات التشفير الموضعية البديلة مثل التضمينات الموضعية الدوارة.

كتل الانتباه متعددة الرأس

إن اللبنات الأساسية لبرامج LLM القائمة على وحدة فك التشفير هي طبقات انتباه متعددة الرؤوس، والتي تؤدي عملية الاهتمام الذاتي المقنعة الموصوفة سابقًا. يتم تكديس هذه الطبقات عدة مرات، حيث تحضر كل طبقة مخرجات الطبقة السابقة، مما يسمح للنموذج بالتقاط التبعيات والتمثيلات المعقدة بشكل متزايد.

رؤساء الانتباه: تتكون كل طبقة انتباه متعددة الرؤوس من "رؤوس انتباه" متعددة، ولكل منها مجموعتها الخاصة من توقعات الاستعلام والمفتاح والقيمة. وهذا يسمح للنموذج بالاهتمام بجوانب مختلفة من المدخلات في وقت واحد، والتقاط العلاقات والأنماط المتنوعة.

الاتصالات المتبقية وتطبيع الطبقة: لتسهيل تدريب الشبكات العميقة والتخفيف من مشكلة التدرج المتلاشي، تستخدم LLMs القائمة على وحدة فك التشفير الاتصالات المتبقية وتقنيات تطبيع الطبقة. تضيف الاتصالات المتبقية مدخلات الطبقة إلى مخرجاتها، مما يسمح بتدفق التدرجات بسهولة أكبر أثناء الانتشار العكسي. يساعد تطبيع الطبقة على تثبيت عمليات التنشيط والتدرجات، مما يزيد من تحسين استقرار التدريب وأدائه.

طبقات التغذية الأمامية

بالإضافة إلى طبقات الانتباه متعددة الرؤوس، تشتمل برامج LLM القائمة على وحدة فك التشفير على طبقات تغذية للأمام، والتي تطبق شبكة عصبية بسيطة للتغذية الأمامية على كل موضع في التسلسل. تقدم هذه الطبقات عدم الخطية وتمكن النموذج من تعلم تمثيلات أكثر تعقيدًا.

وظائف التنشيط: يمكن أن يؤثر اختيار وظيفة التنشيط في طبقات التغذية الأمامية بشكل كبير على أداء النموذج. بينما اعتمدت LLMs السابقة على تنشيط ReLU المستخدم على نطاق واسع، فقد اعتمدت النماذج الأحدث وظائف تنشيط أكثر تعقيدًا مثل وحدة Gaussian Error Linear Unit (GELU) أو تنشيط SwiGLU، والتي أظهرت أداءً محسنًا.

الاهتمام المتناثر والمحولات الفعالة

في حين أن آلية الانتباه الذاتي قوية، إلا أنها تأتي مع تعقيد حسابي تربيعي فيما يتعلق بطول التسلسل، مما يجعلها مكلفة حسابيًا للتسلسلات الطويلة. ولمواجهة هذا التحدي، تم اقتراح العديد من التقنيات لتقليل المتطلبات الحسابية والذاكرة للانتباه الذاتي، مما يتيح المعالجة الفعالة للتسلسلات الأطول.

الانتباه المتناثر: تقنيات الانتباه المتفرق، مثل تلك المستخدمة في نموذج GPT-3، تهتم بشكل انتقائي بمجموعة فرعية من المواضع في تسلسل الإدخال، بدلاً من حساب درجات الاهتمام لجميع المواضع. يمكن أن يؤدي ذلك إلى تقليل التعقيد الحسابي بشكل كبير مع الحفاظ على الأداء المعقول.

انزلاق النافذة الاهتمام: تم تقديمه في نموذج Mistral 7B، وهو عبارة عن تقنية بسيطة ولكنها فعالة تقيد مدى انتباه كل رمز مميز إلى حجم نافذة ثابت. يعمل هذا النهج على تعزيز قدرة طبقات المحولات على نقل المعلومات عبر طبقات متعددة، مما يزيد بشكل فعال من مدى الانتباه دون التعقيد التربيعي للانتباه الذاتي الكامل.

المتداول ذاكرة التخزين المؤقت: لتقليل متطلبات الذاكرة بشكل أكبر، خاصة بالنسبة للتسلسلات الطويلة، يستخدم طراز Mistral 7B ذاكرة تخزين مؤقت متجددة. تقوم هذه التقنية بتخزين وإعادة استخدام المفتاح المحسوب ومتجهات القيمة لحجم نافذة ثابت، وتجنب الحسابات الزائدة عن الحاجة وتقليل استخدام الذاكرة.

تنبيه الاستعلام المجمع: تم تقديم انتباه الاستعلام المجمع (GQA) في نموذج LLaMA 2، وهو أحد أشكال آلية الانتباه متعدد الاستعلامات التي تقسم رؤوس الانتباه إلى مجموعات، حيث تشترك كل مجموعة في مفتاح مشترك ومصفوفة قيمة. يحقق هذا النهج توازنًا بين كفاءة الاهتمام بالاستعلام المتعدد وأداء الاهتمام الذاتي القياسي، مما يوفر أوقات استدلال محسنة مع الحفاظ على نتائج عالية الجودة.

الاهتمام بالاستعلام المجمع

حجم النموذج والقياس

إحدى الخصائص المميزة للماجستير في القانون الحديث هو حجمها الهائل، حيث يتراوح عدد المعلمات من المليارات إلى مئات المليارات. لقد كانت زيادة حجم النموذج عاملاً حاسماً في تحقيق أداء متطور، حيث يمكن للنماذج الأكبر حجمًا التقاط أنماط وعلاقات أكثر تعقيدًا في البيانات.

عدد المعلمات: يتم تحديد عدد المعلمات في LLM القائم على وحدة فك التشفير بشكل أساسي من خلال بُعد التضمين (d_model)، وعدد رؤوس الانتباه (n_heads)، وعدد الطبقات (n_layers)، وحجم المفردات (vocab_size). على سبيل المثال، يحتوي نموذج GPT-3 على 175 مليار معلمة د_موديل = 12288, عدد الرؤوس = 96, ن_الطبقات = 96و vocab_size = 50257.

نموذج التوازي: يتطلب تدريب ونشر مثل هذه النماذج الضخمة موارد حسابية كبيرة وأجهزة متخصصة. للتغلب على هذا التحدي، تم استخدام تقنيات التوازي النموذجي، حيث يتم تقسيم النموذج عبر وحدات معالجة الرسومات أو وحدات TPU المتعددة، بحيث يكون كل جهاز مسؤولاً عن جزء من العمليات الحسابية.

خليط من الخبراء: هناك طريقة أخرى لتوسيع نطاق LLMs وهي بنية خليط الخبراء (MoE)، التي تجمع بين نماذج الخبراء المتعددة، كل منها متخصص في مجموعة فرعية محددة من البيانات أو المهمة. يعد نموذج Mixtral 8x7B مثالاً لنموذج وزارة التربية والتعليم الذي يعزز ميسترال 7 ب كنموذج أساسي لها، مما يحقق أداءً فائقًا مع الحفاظ على الكفاءة الحسابية.

الاستدلال وتوليد النص

إحدى حالات الاستخدام الأساسية لـ LLMs المستندة إلى وحدة فك التشفير هي إنشاء النص، حيث يقوم النموذج بإنشاء نص متماسك وطبيعي بناءً على موجه أو سياق معين.

فك تشفير الانحدار الذاتي: أثناء الاستدلال، تقوم LLMs المستندة إلى وحدة فك التشفير بإنشاء نص بطريقة انحدار ذاتي، وتتنبأ برمز مميز واحد في كل مرة بناءً على الرموز المميزة التي تم إنشاؤها مسبقًا ومطالبة الإدخال. تستمر هذه العملية حتى يتم استيفاء معيار التوقف المحدد مسبقًا، مثل الوصول إلى الحد الأقصى لطول التسلسل أو إنشاء رمز مميز لنهاية التسلسل.

استراتيجيات أخذ العينات: لإنشاء نص متنوع وواقعي، يمكن استخدام استراتيجيات مختلفة لأخذ العينات، مثل أخذ العينات من أعلى إلى أعلى، أو أخذ العينات من أعلى إلى p (المعروف أيضًا باسم أخذ العينات النواة)، أو قياس درجة الحرارة. تتحكم هذه التقنيات في المفاضلة بين التنوع والتماسك في النص الناتج عن طريق ضبط التوزيع الاحتمالي على المفردات.

موجه الهندسة: جودة وخصوصية موجه الإدخال يمكن أن تؤثر بشكل كبير على النص الذي تم إنشاؤه. لقد برزت الهندسة السريعة، وهي فن صياغة المطالبات الفعالة، كجانب حاسم للاستفادة من ماجستير إدارة الأعمال في مختلف المهام، وتمكين المستخدمين من توجيه عملية إنشاء النموذج وتحقيق المخرجات المطلوبة.

فك تشفير الإنسان في الحلقة: لزيادة تحسين جودة وتماسك النص الذي تم إنشاؤه، يتم استخدام تقنيات مثل التعزيز التعلم من ردود الفعل البشرية (RLHF) تم توظيفهم. في هذا النهج، يقدم المقيمون البشريون تعليقات على النص الذي تم إنشاؤه للنموذج، والذي يتم استخدامه بعد ذلك لضبط النموذج ومواءمته بشكل فعال مع التفضيلات البشرية وتحسين مخرجاته.

التقدم والتوجهات المستقبلية

يتطور مجال LLMs القائم على وحدة فك التشفير بسرعة، مع استمرار الأبحاث والاختراقات الجديدة في دفع حدود ما يمكن أن تحققه هذه النماذج. فيما يلي بعض التطورات الملحوظة والتوجهات المستقبلية المحتملة:

متغيرات المحولات الفعالة: في حين أن الاهتمام المتناثر والاهتمام بالنافذة المنزلقة قد قطعا خطوات كبيرة في تحسين كفاءة LLMs القائمة على وحدة فك التشفير، فإن الباحثين يستكشفون بنشاط بنيات المحولات البديلة وآليات الاهتمام لزيادة تقليل المتطلبات الحسابية مع الحفاظ على الأداء أو تحسينه.

ماجستير الوسائط المتعددة: توسيع قدرات LLM إلى ما هو أبعد من النص، وتهدف النماذج متعددة الوسائط إلى دمج طرائق متعددة، مثل الصور أو الصوت أو الفيديو، في إطار موحد واحد. وهذا يفتح إمكانيات مثيرة لتطبيقات مثل التعليق على الصور، والإجابة على الأسئلة المرئية، وإنشاء محتوى الوسائط المتعددة.

جيل يمكن التحكم فيه: يعد تمكين التحكم الدقيق في النص الذي تم إنشاؤه بمثابة اتجاه صعب ولكنه مهم بالنسبة إلى LLMs. تهدف تقنيات مثل إنشاء النص الذي يتم التحكم فيه والضبط الفوري إلى تزويد المستخدمين بتحكم أكثر دقة في السمات المختلفة للنص الذي تم إنشاؤه، مثل النمط أو النغمة أو متطلبات المحتوى المحددة.

وفي الختام

لقد برزت دورات LLM القائمة على وحدة فك التشفير كقوة تحويلية في مجال معالجة اللغة الطبيعية، مما دفع حدود ما هو ممكن من خلال توليد اللغة وفهمها. منذ بداياتها المتواضعة كنوع مبسط من بنية المحولات، تطورت هذه النماذج إلى أنظمة متطورة وقوية للغاية، مع الاستفادة من التقنيات المتطورة والابتكارات المعمارية.

بينما نواصل استكشاف وتطوير دورات LLM القائمة على وحدة فك التشفير، يمكننا أن نتوقع أن نشهد المزيد من الإنجازات الرائعة في المهام المتعلقة باللغة، بالإضافة إلى دمج هذه النماذج في مجموعة واسعة من التطبيقات والمجالات. ومع ذلك، فمن الأهمية بمكان معالجة الاعتبارات الأخلاقية، وتحديات قابلية التفسير، والتحيزات المحتملة التي قد تنشأ عن النشر الواسع النطاق لهذه النماذج القوية.

من خلال البقاء في طليعة الأبحاث، وتعزيز التعاون المفتوح، والحفاظ على التزام قوي بتطوير الذكاء الاصطناعي المسؤول، يمكننا إطلاق العنان للإمكانات الكاملة لبرامج LLM القائمة على وحدة فك التشفير مع ضمان تطويرها واستخدامها بطريقة آمنة وأخلاقية ومفيدة مجتمع.

قوة بحجم الجيب: الكشف عن Phi-3 من Microsoft، نموذج اللغة الذي يناسب هاتفك

لا تفوت

الجوزاء المصغرة: استخراج إمكانات نماذج لغة الرؤية متعددة الوسائط

عيوش ميتال

لقد أمضيت السنوات الخمس الماضية منغمسًا في عالم رائع من التعلم الآلي والتعلم العميق. قادني شغفي وخبرتي إلى المساهمة في أكثر من 50 مشروعًا متنوعًا لهندسة البرمجيات ، مع التركيز بشكل خاص على الذكاء الاصطناعي / التعلم الآلي. جذبني فضولي المستمر أيضًا نحو معالجة اللغة الطبيعية ، وهو مجال أتوق لاستكشافه بشكل أكبر.

اتحدوا

نماذج اللغات الكبيرة القائمة على وحدة فك التشفير: دليل كامل

الذكاء الاصطناعي

نماذج اللغات الكبيرة القائمة على وحدة فك التشفير: دليل كامل

جدول المحتويات