الذكاء الاصطناعي
xLSTM: دليل شامل لذاكرة اللانغ الطويل الممتدة
فهم الأصول: قيود LSTM
قبل أن نغوص في عالم xLSTM، من المهم فهم القيود التي واجهتها هياكل LSTM التقليدية. هذه القيود كانت الدافع وراء تطوير xLSTM ومناهج بديلة أخرى.
- عدم القدرة على مراجعة قرارات التخزين: واحدة من القيود الرئيسية لـ LSTM هي صراعها لمراجعة القيم المخزنة عند مواجهة متجه مشابه أكثر.
- سعة التخزين المحدودة: LSTMs تضغط المعلومات في حالات خلية سكالي، مما يمكن أن يحد من قدرتها على تخزين واسترجاع أنماط بيانات معقدة بشكل فعال، خاصة عند التعامل مع رموز نادرة أو تعPENDencies طويلة المدى.
- نقص التموازي: آليّة خلط الذاكرة في LSTMs، التي تتضمن اتصالات مخفية بين الخطوات الزمنية، تفرض المعالجة التسلسلية، مما يمنع التموازي للحسابات ويلهم النمو.
أدت هذه القيود إلى ظهور التحويلات وآليات أخرى التي تجاوزت LSTMs في بعض الجوانب، خاصة عند النمو إلى نماذج أكبر.
هيكل xLSTM
في قلب xLSTM توجد تعديلات رئيسية على الإطار التقليدي لـ LSTM: بوابات التدرج الأسي وتركيبات الذاكرة الجديدة. هذه التحسينات تقدم متغيرين جديدين من LSTMs، يعرفان بـ sLSTM (LSTM سكالي) و mLSTM (LSTM مصفوفة).
- sLSTM: LSTM السكالي مع بوابات التدرج الأسي وخلط الذاكرة
- بوابات التدرج الأسي: sLSTM تدمج دوال التنشيط الأسي للبوابات الداخلة والمنسى، مما يسمح بالسيطرة على تدفق المعلومات.
- التنظيم والتثبيت: لمنع عدم الاستقرار العددي، تقدم sLSTM حالة منظم التي تتبع نتاج البوابات الداخلة والبوابات المستقبلية.
- خلط الذاكرة: sLSTM تدعم خلايا الذاكرة المتعددة وتمكن من خلط الذاكرة عبر الاتصالات المتكررة، مما يسمح باستخراج أنماط معقدة ومراقبة الحالة.
- mLSTM: LSTM المصفوفة مع سعة تخزين محسنة
- ذاكرة المصفوفة: بدلاً من خلية الذاكرة السكالي، تستخدم mLSTM ذاكرة مصفوفة، مما يزيد من سعة التخزين وتمكن من استرجاع المعلومات بشكل أكثر كفاءة.
- قاعدة تحديث التباين: mLSTM تستخدم قاعدة تحديث التباين، مستوحاة من ذاكرة التجميع التوجيهي (BAMs)، لتخزين واسترجاع أزواج المفتاح والقيمة بشكل فعال.
- التموازي: من خلال التخلي عن خلط الذاكرة، تحقق mLSTM التموازي الكامل، مما يسمح بالحسابات الفعالة على معززات الأجهزة الحديثة.
يمكن دمج هذه المتغيرات، sLSTM و mLSTM، في هياكل الكتلة المتبقية، مما يشكل كتل xLSTM. من خلال تكرار كتل xLSTM بشكل متبقي، يمكن للباحثين بناء هياكل xLSTM قوية مخصصة لمهام وتطبيقات محددة.
الرياضيات
LSTM التقليدية:
قدمت هيكلة LSTM الأصلية عربة الخطأ الثابت وآليات البوابات للتغلب على مشكلة الانحدار المتلاشي في الشبكات العصبية المتكررة.

الوحدة المتكررة في LSTM – المصدر
تخضع تحديثات خلية الذاكرة في LSTM للعلاقات التالية:
تحديث حالة الخلية: ct = ft ⊙ ct-1 + it ⊙ zt
تحديث حالة الخفية: ht = ot ⊙ tanh(ct)
حيث:
- 𝑐𝑡 هو متجه حالة الخلية في الوقت 𝑡
- 𝑓𝑡 هو متجه بوابة النسيان
- 𝑖𝑡 هو متجه بوابة الإدخال
- 𝑜𝑡 هو متجه بوابة الإخراج
- 𝑧𝑡 هو الإدخال المُحَكَّم بواسطة بوابة الإدخال
- ⊙ يمثل الضرب العنصري
تتحكم البوابات ft و it و ot في ما يتم تخزينه ونسيانه وإخراجها من حالة الخلية ct، مما يخفف من مشكلة الانحدار المتلاشي.
xLSTM مع بوابات التدرج الأسي:
تقدم هيكلة xLSTM بوابات التدرج الأسي لتمكين السيطرة على تدفق المعلومات. بالنسبة لمتغير sLSTM:
تحديث حالة الخلية: ct = ft ⊙ ct-1 + it ⊙ zt
تحديث حالة المنظم: nt = ft ⊙ nt-1 + it
تحديث حالة الخفية: ht = ot ⊙ (ct / nt)
بوابات الإدخال والنسى: it = exp(W_i xt + R_i ht-1 + b_i) ft = σ(W_f xt + R_f ht-1 + b_f) OR ft = exp(W_f xt + R_f ht-1 + b_f)
دوال التنشيط الأسي للبوابات الداخلة (it) والنسى (ft)، إلى جانب حالة المنظم nt، تمكن من السيطرة الفعالة على تحديث الذاكرة ومراجعة المعلومات المخزنة.
الميزات الرئيسية ومزايا xLSTM
- القدرة على مراجعة قرارات التخزين: بفضل بوابات التدرج الأسي، يمكن لـ xLSTM مراجعة القيم المخزنة بشكل فعال عند مواجهة معلومات أكثر صلة، مما يغلب على أحد القيود الرئيسية لـ LSTMs.
- سعة التخزين المحسنة: توفر ذاكرة المصفوفة في mLSTM زيادة في سعة التخزين، مما يسمح لـ xLSTM بمعالجة الرموز النادرة والاعتماديات الطويلة المدى والأنماط المعقدة بشكل أكثر فعالية.
- التموازي: يتحقق متغير mLSTM من التموازي الكامل، مما يسمح بالحسابات الفعالة على معززات الأجهزة الحديثة، مثل وحدات المعالجة الرسومية، وتمكين النمو إلى نماذج أكبر.
- خلط الذاكرة ومراقبة الحالة: يحتفظ متغير sLSTM من xLSTM بقدرات خلط الذاكرة في LSTMs التقليدية، مما يسمح بمراقبة الحالة ويجعل xLSTM أكثر تعبيرًا من التحويلات ونمذج الفضاء الحالة لمهام معينة.
- النمو: من خلال الاستفادة من أحدث التقنيات من نماذج اللغة الكبيرة، يمكن لـ xLSTM النمو إلى مليارات المعلمات، مما يفتح إمكانيات جديدة في نمذجة اللغة ومعالجة التسلسلات.
التقييم التجريبي: إظهار قدرات xLSTM
يقدم البحث ورقة تقييم تجريبي شاملة لـ xLSTM، مع تسليط الضوء على أدائه عبر مهام وbenchmarks مختلفة. إليك بعض النتائج الرئيسية:
- المهام الاصطناعية وملعب المدى الطويل:
- يتميز xLSTM في حل المهام اللغوية الرسمية التي تتطلب مراقبة الحالة، متجاوزًا التحويلات ونمذج الفضاء الحالة و LSTMs الأخرى.
- في مهمة الاستدعاء الترابطي المتعدد، يظهر xLSTM قدرات ذاكرة محسنة، متجاوزًا نماذج غير التحويلات وموازيًا لأداء التحويلات.
- على benchmark ملعب المدى الطويل، يظهر xLSTM أداءً قويًا ومستمرًا، مما يظهر كفاءته في معالجة مشاكل السياق الطويل.
- نمذجة اللغة والمهام الفرعية:
- عند التدريب على 15 مليار رمز من مجموعة SlimPajama، يتفوق xLSTM على الطرق الحالية، بما في ذلك التحويلات ونمذج الفضاء الحالة ومتغيرات LSTMs الأخرى، من حيث الارتباك التحقق.
- كما ينمو النماذج إلى أحجام أكبر، يحافظ xLSTM على ميزته الأدائية، مما يظهر سلوك التوسع المواتي.
- في المهام الفرعية مثل التفكير العادي والاستفهام، يظهر xLSTM كأفضل طريقة عبر أحجام نموذجية مختلفة، متجاوزًا الطرق الحالية.
- أداء على مهام لغة PALOMA:
- عند التقييم على 571 مجالًا نصيًا من مجموعة PALOMA، يحقق xLSTM[1:0] (متغير sLSTM) ارتباكًا أقل من الطرق الأخرى في 99.5% من المجالات مقارنةً بـ Mamba، و 85.1% مقارنةً بـ Llama، و 99.8% مقارنةً بـ RWKV-4.
- قوانين النمو والاستخراج الطولي:
- عند التدريب على 300 مليار رمز من SlimPajama، يظهر xLSTM قوانين نمو مواتية، مما يشير إلى إمكانية تحسين الأداء مع نمو حجم النموذج.
- في تجارب استخراج التسلسلات الطويلة، يحافظ نماذج xLSTM على ارتباك منخفض حتى في سياقات أطول بكثير مما تم رؤيته أثناء التدريب، متجاوزًا الطرق الأخرى.
تسلط هذه النتائج التجريبية الضوء على القدرات المذهلة لـ xLSTM، مما يجعله مرشحًا واعدًا لمهام نمذجة اللغة ومعالجة التسلسلات ومجالات أخرى.
التطبيقات الواقعية والتوجهات المستقبلية
تمتد التطبيقات المحتملة لـ xLSTM إلى مجالات واسعة، من معالجة اللغة الطبيعية إلى نمذجة التسلسلات وتحليل السلاسل الزمنية وأكثر. إليك بعض المجالات المثيرة التي يمكن لـ xLSTM أن يترك فيها تأثيرًا كبيرًا:
- نمذجة اللغة وتوليد النص: مع سعة الذاكرة المحسنة و khảية مراجعة المعلومات المخزنة، يمكن لـ xLSTM ثورة في مهام نمذجة اللغة وتوليد النص، مما يسمح بنص أكثر انسجامًا وسياقًا وملاءمة.
- الترجمة الآلية: يمكن لقدرات مراقبة الحالة في xLSTM أن تثبت قيمة كبيرة في مهام الترجمة الآلية، حيث يتم الحفاظ على المعلومات السياقية والاعتماديات الطويلة المدى أمرًا حاسمًا للترجمات الدقيقة.
- التعرف على الكلام وتوليد الصوت: يتيح التموازي ونمو xLSTM تطبيقات في التعرف على الكلام وتوليد الصوت، حيث يحتاج الحساب الفعال لتسلسلات طويلة إلى معالجة كفؤة.
- تحليل السلاسل الزمنية والتنبؤ: يمكن لقدرات xLSTM في معالجة الاعتماديات الطويلة المدى وتخزين الأنماط المعقدة أن تؤدي إلى تحسينات كبيرة في تحليل السلاسل الزمنية والتنبؤ عبر مجالات مختلفة، مثل المالية والطقس والتطبيقات الصناعية.
- التعلم بالتعزيز وأنظمة التحكم: تظهر إمكانات xLSTM في التعلم بالتعزيز وأنظمة التحكم واعدة، حيث يمكن لقدرات الذاكرة المحسنة ومراقبة الحالة أن تؤدي إلى اتخاذ قرارات أكثر ذكاءً وسيطرة في بيئات معقدة.
















