الذكاء الاصطناعي

شحن نماذج اللغات الكبيرة بشكل فائق مع التنبؤ متعدد الرموز

تم النشر 3 يونيو، 2024

عيوش ميتال ميتال

نماذج اللغات الكبيرة (LLMs) مثل GPT وLLaMA وغيرهما قد اجتاحت العالم بقدرتها الرائعة على فهم وإنشاء نص يشبه الإنسان. ومع ذلك، على الرغم من قدراتها المثيرة للإعجاب، فإن الطريقة القياسية لتدريب هذه النماذج، والمعروفة باسم "التنبؤ بالرمز التالي"، لها بعض القيود المتأصلة.

في التنبؤ بالرمز التالي، يتم تدريب النموذج على التنبؤ بالكلمة التالية في تسلسل معين للكلمات السابقة. وفي حين أثبت هذا النهج نجاحه، فإنه يمكن أن يؤدي إلى نماذج تكافح مع التبعيات طويلة المدى ومهام التفكير المعقدة. علاوة على ذلك، فإن عدم التطابق بين نظام تدريب إجبار المعلمين وعملية التوليد الانحداري الذاتي أثناء الاستدلال يمكن أن يؤدي إلى أداء دون المستوى الأمثل.

ورقة بحثية حديثة بقلم جلوكل وآخرون. (2024) من Meta AI يقدم نموذجًا تدريبيًا جديدًا يسمى "التنبؤ متعدد الرموزيهدف هذا المشروع إلى معالجة هذه القيود وتعزيز نماذج اللغات الكبيرة. في هذه التدوينة، سنتعمق في المفاهيم الأساسية والتفاصيل التقنية والآثار المحتملة لهذا البحث الرائد.

التنبؤ برمز واحد: النهج التقليدي

قبل الخوض في تفاصيل التنبؤ متعدد الرموز، من الضروري فهم النهج التقليدي الذي تم اتباعه العمود الفقري لنموذج اللغة الكبيرة التدريب لسنوات – التنبؤ بالرمز الفردي، المعروف أيضًا باسم التنبؤ بالرمز التالي.

نموذج التنبؤ بالرمز التالي

في نموذج التنبؤ بالرمز التالي، يتم تدريب نماذج اللغة على التنبؤ بالكلمة التالية في تسلسل معين في السياق السابق. وبشكل أكثر رسمية، تم تكليف النموذج بتعظيم احتمالية الرمز المميز التالي xt+1، بالنظر إلى الرموز المميزة السابقة x1، x2، ...، xt. يتم ذلك عادةً عن طريق تقليل خسارة الإنتروبيا المتقاطعة:

L = -Σt سجل P(xt+1 | x1, x2, …, xt)

لقد كان هذا الهدف التدريبي البسيط والقوي أساسًا للعديد من نماذج اللغات الكبيرة الناجحة، مثل GPT (Radford et al., 2018)، وBERT (Devlin et al., 2019)، ومتغيراتها.

إجبار المعلم وتوليد الانحدار الذاتي

يعتمد التنبؤ بالرمز التالي على تقنية تدريب تسمى "إجبار المعلم"حيث يتم تزويد النموذج بالحقيقة الأساسية لكل رمز مستقبلي أثناء التدريب. وهذا يسمح للنموذج بالتعلم من السياق الصحيح والتسلسلات المستهدفة، مما يسهل تدريبًا أكثر استقرارًا وفعالية.

ومع ذلك، أثناء الاستدلال أو التوليد، يعمل النموذج بطريقة انحدار ذاتي، ويتنبأ برمز واحد في كل مرة بناءً على الرموز المميزة التي تم إنشاؤها مسبقًا. يمكن أن يؤدي عدم التطابق بين نظام التدريب (إجبار المعلم) ونظام الاستدلال (توليد الانحدار الذاتي) إلى تناقضات محتملة وأداء دون المستوى الأمثل، خاصة بالنسبة للتسلسلات الأطول أو مهام التفكير المعقدة.

حدود التنبؤ بالرمز التالي

على الرغم من أن التنبؤ بالرمز التالي كان ناجحًا بشكل ملحوظ، إلا أنه يحتوي أيضًا على بعض القيود المتأصلة:

التركيز على المدى القصير: من خلال التنبؤ بالرمز التالي فقط، قد يواجه النموذج صعوبة في التقاط التبعيات طويلة المدى والبنية العامة وتماسك النص، مما قد يؤدي إلى تناقضات أو أجيال غير متماسكة.
إغلاق النمط المحلي: يمكن لنماذج التنبؤ بالرمز التالي أن تلتصق بالأنماط المحلية في بيانات التدريب، مما يجعل من الصعب تعميمها على السيناريوهات أو المهام خارج التوزيع التي تتطلب تفكيرًا أكثر تجريدًا.
القدرات الاستدلالية: بالنسبة للمهام التي تتضمن التفكير متعدد الخطوات، أو التفكير الخوارزمي، أو العمليات المنطقية المعقدة، قد لا يوفر التنبؤ بالرمز التالي تحيزات أو تمثيلات استقرائية كافية لدعم هذه القدرات بشكل فعال.
عدم كفاءة العينة: نظرًا للطبيعة المحلية للتنبؤ بالرمز المميز التالي، قد تتطلب النماذج مجموعات بيانات تدريب أكبر لاكتساب المعرفة والمهارات المنطقية اللازمة، مما يؤدي إلى عدم كفاءة العينة المحتملة.

وقد حفزت هذه القيود الباحثين على استكشاف نماذج تدريب بديلة، مثل التنبؤ متعدد الرموز، والذي يهدف إلى معالجة بعض أوجه القصور هذه وإطلاق العنان لقدرات جديدة لنماذج اللغة الكبيرة.

من خلال مقارنة نهج التنبؤ التقليدي بالرمز التالي مع تقنية التنبؤ الجديدة متعددة الرموز، يمكن للقراء تقدير الدوافع والفوائد المحتملة للأخيرة بشكل أفضل، مما يمهد الطريق لاستكشاف أعمق لهذا البحث الرائد.

ما هو التنبؤ متعدد الرموز؟

الفكرة الأساسية وراء التنبؤ متعدد الرموز هي تدريب النماذج اللغوية على التنبؤ بالرموز المستقبلية المتعددة في وقت واحد، بدلاً من مجرد الرمز المميز التالي. على وجه التحديد، أثناء التدريب، يتم تكليف النموذج بالتنبؤ برموز n التالية في كل موضع في مجموعة التدريب، وذلك باستخدام رؤوس إخراج مستقلة تعمل أعلى صندوق النموذج المشترك.

على سبيل المثال، من خلال إعداد التنبؤ بأربعة رموز، سيتم تدريب النموذج على التنبؤ بالرموز الأربعة التالية مرة واحدة، في ضوء السياق السابق. يشجع هذا النهج النموذج على التقاط التبعيات الأطول مدى وتطوير فهم أفضل للهيكل العام وتماسك النص.

مثال لعبة

لفهم مفهوم التنبؤ متعدد الرموز بشكل أفضل، لنأخذ مثالاً بسيطاً. لنفترض أن لدينا الجملة التالية:

"الثعلب البني السريع يقفز فوق الكلب الكسول."

في نهج التنبؤ القياسي بالرمز التالي، سيتم تدريب النموذج على التنبؤ بالكلمة التالية في ضوء السياق السابق. على سبيل المثال، في ضوء السياق "يقفز الثعلب البني السريع فوق"، سيتم تكليف النموذج بالتنبؤ بالكلمة التالية، "كسول".

ومع ذلك، باستخدام التنبؤ متعدد الرموز، سيتم تدريب النموذج على التنبؤ بكلمات مستقبلية متعددة في وقت واحد. على سبيل المثال، إذا قمنا بتعيين n=4، فسيتم تدريب النموذج على التنبؤ بالكلمات الأربع التالية في وقت واحد. وبالنظر إلى نفس السياق "يقفز الثعلب البني السريع فوق"، سيتم تكليف النموذج بالتنبؤ بالتسلسل "كلب كسول". (لاحظ المسافة بعد كلمة "كلب" للإشارة إلى نهاية الجملة).

من خلال تدريب النموذج على التنبؤ برموز مستقبلية متعددة في وقت واحد، يتم تشجيعه على التقاط التبعيات طويلة المدى وتطوير فهم أفضل للهيكل العام وتماسك النص.

التفاصيل التقنية

يقترح المؤلفون بنية بسيطة لكنها فعالة لتنفيذ التنبؤ متعدد الرموز. يتكون النموذج من صندوق محول مشترك ينتج تمثيلًا كامنًا لسياق الإدخال، يليه n طبقات المحولات المستقلة (رؤوس الإخراج) التي تتنبأ بالرموز المستقبلية المعنية.

أثناء التدريب، يتم تنظيم التمريرات الأمامية والخلفية بعناية لتقليل أثر ذاكرة وحدة معالجة الرسومات. يحسب الجذع المشترك التمثيل الكامن، ثم يقوم كل رأس إخراج بالتسلسل بتنفيذ تمريره للأمام والخلف، مما يؤدي إلى تراكم التدرجات على مستوى الجذع. يتجنب هذا الأسلوب تجسيد جميع المتجهات اللوغاريتمية وتدرجاتها في وقت واحد، مما يقلل من الحد الأقصى لاستخدام ذاكرة وحدة معالجة الرسومات يا (ن ف + د) إلى يا (الخامس + د)، حيث V هي حجم المفردات و d هي بعد من التمثيل الكامن.

التنفيذ الفعال للذاكرة

أحد التحديات في تدريب المتنبئين متعددي الرموز هو تقليل استخدام ذاكرة GPU الخاصة بهم. منذ حجم المفردات (V) عادة ما يكون أكبر بكثير من بعد من التمثيل الكامن (D)، أصبحت ناقلات اللوغاريتمية هي عنق الزجاجة في استخدام ذاكرة وحدة معالجة الرسومات.

ولمواجهة هذا التحدي، يقترح المؤلفون تنفيذًا فعالاً للذاكرة يكيف بعناية تسلسل العمليات الأمامية والخلفية. بدلاً من تجسيد جميع اللوجيستات وتدرجاتها في وقت واحد، يحسب التنفيذ بشكل تسلسلي التمريرات الأمامية والخلفية لكل رأس إخراج مستقل، مما يؤدي إلى تراكم التدرجات على مستوى الجذع.

يتجنب هذا الأسلوب تخزين جميع المتجهات اللوغاريتمية وتدرجاتها في الذاكرة في وقت واحد، مما يقلل من الحد الأقصى لاستخدام ذاكرة وحدة معالجة الرسومات يا (ن ف + د) إلى يا (الخامس + د)، حيث n هو عدد الرموز المستقبلية التي يتم التنبؤ بها.

مزايا التنبؤ متعدد الرموز

تقدم الورقة البحثية العديد من المزايا المقنعة لاستخدام التنبؤ متعدد الرموز لتدريب نماذج اللغة الكبيرة:

تحسين كفاءة العينة: من خلال تشجيع النموذج على التنبؤ بالعديد من الرموز المستقبلية في وقت واحد، يؤدي التنبؤ متعدد الرموز إلى دفع النموذج نحو تحسين كفاءة العينة. أظهر المؤلفون تحسينات كبيرة في الأداء في فهم التعليمات البرمجية ومهام الإنشاء، مع نماذج تصل إلى 13B من المعلمات التي تحل حوالي 15% من المشكلات الإضافية في المتوسط.
أسرع الاستدلال: يمكن الاستفادة من رؤوس الإخراج الإضافية المدربة على التنبؤ متعدد الرموز لفك التشفير الذاتي، وهو نوع مختلف من فك التشفير الذي يسمح بالتنبؤ بالرمز المميز الموازي. وينتج عن ذلك أوقات استدلال أسرع بما يصل إلى 3 مرات عبر نطاق واسع من أحجام الدُفعات، حتى بالنسبة للنماذج الكبيرة.
تعزيز التبعيات طويلة المدى: يشجع التنبؤ متعدد الرموز النموذج على التقاط التبعيات والأنماط طويلة المدى في البيانات، وهو أمر مفيد بشكل خاص للمهام التي تتطلب الفهم والتفكير في سياقات أكبر.
الاستدلال الحسابي: يقدم المؤلفون تجارب على المهام التركيبية التي تثبت تفوق نماذج التنبؤ متعددة الرموز في تطوير الرؤوس التعريفية وقدرات الاستدلال الخوارزمي، خاصة بالنسبة لأحجام النماذج الأصغر.
التماسك والاتساق: من خلال تدريب النموذج على التنبؤ بالعديد من الرموز المستقبلية في وقت واحد، يشجع التنبؤ متعدد الرموز على تطوير تمثيلات متماسكة ومتسقة. يعد هذا مفيدًا بشكل خاص للمهام التي تتطلب إنشاء نص أطول وأكثر تماسكًا، مثل رواية القصص أو الكتابة الإبداعية أو إنشاء كتيبات إرشادية.
تحسين التعميمتشير تجارب الباحثين على المهام التركيبية إلى أن نماذج التنبؤ متعددة الرموز تُظهِر قدرات تعميم أفضل، خاصةً في البيئات خارج التوزيع. ويعود ذلك على الأرجح إلى قدرة النموذج على التقاط أنماط وتبعيات طويلة المدى، مما يُساعده على استقراء سيناريوهات غير مرئية بفعالية أكبر.

الأمثلة والحدس

لتوفير مزيد من الحدس حول سبب نجاح التنبؤ المتعدد الرموز، دعنا نفكر في بعض الأمثلة:

رمز الجيل: في سياق إنشاء التعليمات البرمجية، يمكن أن يساعد توقع الرموز المميزة المتعددة في وقت واحد النموذج على فهم وإنشاء هياكل تعليمات برمجية أكثر تعقيدًا. على سبيل المثال، عند إنشاء تعريف دالة، فإن التنبؤ بالرمز المميز التالي فقط قد لا يوفر سياقًا كافيًا للنموذج لإنشاء توقيع الوظيفة بالكامل بشكل صحيح. ومع ذلك، من خلال التنبؤ برموز مميزة متعددة في وقت واحد، يمكن للنموذج التقاط التبعيات بين اسم الوظيفة والمعلمات ونوع الإرجاع بشكل أفضل، مما يؤدي إلى إنشاء تعليمات برمجية أكثر دقة وتماسكًا.
المنطق اللغوي الطبيعي: فكر في سيناريو يتم فيه تكليف نموذج اللغة بالإجابة على سؤال يتطلب التفكير في خطوات أو أجزاء متعددة من المعلومات. من خلال التنبؤ برموز متعددة في وقت واحد، يمكن للنموذج التقاط التبعيات بين المكونات المختلفة لعملية الاستدلال بشكل أفضل، مما يؤدي إلى استجابات أكثر تماسكًا ودقة.
إنشاء نص طويل الشكل: عند إنشاء نص طويل، مثل القصص أو المقالات أو التقارير، قد يمثل الحفاظ على التماسك والاتساق على مدى فترة ممتدة تحديًا لنماذج اللغة المدربة على التنبؤ بالرمز المميز التالي. يشجع التنبؤ متعدد الرموز النموذج على تطوير تمثيلات تلتقط البنية العامة وتدفق النص، مما قد يؤدي إلى أجيال طويلة أكثر تماسكًا واتساقًا.

القيود والاتجاهات المستقبلية

في حين أن النتائج المقدمة في هذه الورقة مثيرة للإعجاب، إلا أن هناك بعض القيود والأسئلة المفتوحة التي تتطلب المزيد من التحقيق:

العدد الأمثل من الرموز: يستكشف البحث قيمًا مختلفة لـ n (عدد الرموز المستقبلية التي سيتم التنبؤ بها) ويجد أن n=4 يعمل بشكل جيد للعديد من المهام. ومع ذلك، فإن القيمة المثلى لـ n قد تعتمد على المهمة المحددة ومجموعة البيانات وحجم النموذج. تطوير أساليب مبدئية لتحديد n الأمثل يمكن أن يؤدي إلى مزيد من التحسينات في الأداء.
حجم المفردات والرموز: لاحظ المؤلفون أن الحجم الأمثل للمفردات واستراتيجية الترميز لنماذج التنبؤ متعددة الرموز قد تختلف عن تلك المستخدمة لنماذج التنبؤ بالرموز المميزة التالية. استكشاف هذا الجانب يمكن أن يؤدي إلى مقايضات أفضل بين طول التسلسل المضغوط والكفاءة الحسابية.
خسائر التنبؤ المساعدة: يقترح المؤلفون أن عملهم يمكن أن يحفز الاهتمام بتطوير خسائر تنبؤ مساعدة جديدة لنماذج اللغة الكبيرة، بما يتجاوز التنبؤ القياسي للرمز التالي. يعد التحقيق في الخسائر المساعدة البديلة ومجموعاتها مع التنبؤ متعدد الرموز اتجاهًا بحثيًا مثيرًا.
الفهم النظري: في حين أن الورقة توفر بعض البديهيات والأدلة التجريبية لفعالية التنبؤ متعدد الرموز، فإن الفهم النظري الأعمق لسبب وكيفية عمل هذا النهج بشكل جيد سيكون مفيدًا.

خاتمة

الورقة البحثية "نماذج لغة كبيرة أفضل وأسرع عبر التنبؤ متعدد الرموز" بقلم Gloeckle et al. يقدم نموذجًا تدريبيًا جديدًا لديه القدرة على تحسين أداء وقدرات نماذج اللغات الكبيرة بشكل كبير. من خلال نماذج التدريب للتنبؤ برموز مستقبلية متعددة في وقت واحد، يشجع التنبؤ متعدد الرموز على تطوير تبعيات طويلة المدى، وقدرات التفكير الخوارزمي، وكفاءة أفضل للعينات.

إن التنفيذ الفني الذي اقترحه المؤلفون أنيق وفعال من الناحية الحسابية، مما يجعل من الممكن تطبيق هذا النهج على تدريب نماذج اللغة على نطاق واسع. علاوة على ذلك، فإن القدرة على الاستفادة من فك تشفير التخمين الذاتي من أجل استنتاج أسرع تعد ميزة عملية كبيرة.

في حين أنه لا تزال هناك أسئلة ومجالات مفتوحة لمزيد من الاستكشاف، فإن هذا البحث يمثل خطوة مثيرة للأمام في مجال نماذج اللغات الكبيرة. مع استمرار نمو الطلب على نماذج لغوية أكثر قدرة وكفاءة، يمكن أن يصبح التنبؤ متعدد الرموز عنصرًا رئيسيًا في الجيل التالي من أنظمة الذكاء الاصطناعي القوية هذه.

عيوش ميتال

لقد أمضيت السنوات الخمس الماضية منغمسًا في عالم رائع من التعلم الآلي والتعلم العميق. قادني شغفي وخبرتي إلى المساهمة في أكثر من 50 مشروعًا متنوعًا لهندسة البرمجيات ، مع التركيز بشكل خاص على الذكاء الاصطناعي / التعلم الآلي. جذبني فضولي المستمر أيضًا نحو معالجة اللغة الطبيعية ، وهو مجال أتوق لاستكشافه بشكل أكبر.