الذكاء الاصطناعي
xLSTM: دليل شامل للذاكرة الممتدة طويلة المدى
فهم الأصول: حدود LSTM
قبل الخوض في عالم xLSTM، من الضروري فهم القيود التي واجهتها بنى LSTM التقليدية. وقد كانت هذه القيود المحرك الرئيسي لتطوير xLSTM وغيرها من المناهج البديلة.
- عدم القدرة على مراجعة قرارات التخزين: أحد القيود الأساسية لـ LSTM هو كفاحها لمراجعة القيم المخزنة عند مواجهة ناقل أكثر تشابهًا. يمكن أن يؤدي هذا إلى أداء دون المستوى الأمثل في المهام التي تتطلب تحديثات ديناميكية للمعلومات المخزنة.
- قدرات تخزين محدودة: تقوم LSTMs بضغط المعلومات في حالات الخلايا العددية، مما قد يحد من قدرتها على تخزين واسترجاع أنماط البيانات المعقدة بشكل فعال، خاصة عند التعامل مع الرموز النادرة أو التبعيات طويلة المدى.
- عدم وجود التوازي: آلية خلط الذاكرة في LSTMs، والتي تتضمن اتصالات مخفية بين الخطوات الزمنية، تفرض معالجة تسلسلية، مما يعيق توازي الحسابات ويحد من قابلية التوسع.
لقد مهدت هذه القيود الطريق لظهور المحولات والبنيات الأخرى التي تجاوزت LSTMs في جوانب معينة، خاصة عند التوسع في النماذج الأكبر.
بنية xLSTM
يوجد في قلب xLSTM تعديلان رئيسيان لإطار عمل LSTM التقليدي: البوابات الأسية وهياكل الذاكرة الجديدة. تقدم هذه التحسينات نوعين جديدين من LSTM، المعروفين باسم sLSTM (LSTM العددية) وmLSTM (مصفوفة LSTM).
- سلستم: LSTM العددية مع البوابات الأسية وخلط الذاكرة
- النابضة الأسية: يتضمن sLSTM وظائف التنشيط الأسي لبوابات الإدخال والنسيان، مما يتيح تحكمًا أكثر مرونة في تدفق المعلومات.
- التطبيع والاستقرار: لمنع حالات عدم الاستقرار العددي، يقدم sLSTM حالة تسوية تتتبع منتج بوابات الإدخال وبوابات النسيان المستقبلية.
- خلط الذاكرة: يدعم sLSTM خلايا ذاكرة متعددة ويسمح بخلط الذاكرة عبر الاتصالات المتكررة، مما يتيح استخراج الأنماط المعقدة وقدرات تتبع الحالة.
- ملستم: Matrix LSTM مع قدرات تخزين محسنة
- ذاكرة المصفوفة: بدلاً من خلية الذاكرة العددية، يستخدم mLSTM ذاكرة مصفوفة، مما يزيد من سعة تخزينها ويتيح استرجاع المعلومات بشكل أكثر كفاءة.
- قاعدة تحديث التباين: يستخدم mLSTM قاعدة تحديث التغاير، مستوحاة من الذكريات الترابطية ثنائية الاتجاه (BAMs)، لتخزين واسترداد أزواج القيمة الرئيسية بكفاءة.
- التوازي: من خلال التخلي عن خلط الذاكرة، يحقق mLSTM إمكانية التوازي الكامل، مما يتيح إجراء حسابات فعالة على مسرعات الأجهزة الحديثة.
يمكن دمج هذين المتغيرين، sLSTM وmLSTM، في بنيات الكتل المتبقية، وتشكيل كتل xLSTM. من خلال تكديس كتل xLSTM هذه بشكل متبقي، يمكن للباحثين إنشاء بنيات xLSTM قوية مصممة خصيصًا لمهام ومجالات تطبيق محددة.
الرياضيات
LSTM التقليدية:
قدمت بنية LSTM الأصلية آليات دائرية للأخطاء وبوابات للتغلب على مشكلة التدرج المتلاشي في الشبكات العصبية المتكررة.

وحدة التكرار في LSTM – مصدر
تخضع تحديثات خلايا الذاكرة LSTM للمعادلات التالية:
تحديث حالة الخلية: ct = ft ⊙ ct-1 + it ⊙ zt
تحديث الحالة المخفية: ht = ot ⊙ tanh(ct)
أين:
- 𝑐𝑡 هو ناقل حالة الخلية في الوقت المناسب ن
- 𝑓𝑡 هو ناقلات بوابة النسيان
- 𝑖𝑡 هو ناقل بوابة الإدخال
- 𝑜𝑡 هو ناقل بوابة الإخراج
- 𝑧𝑡 هو الإدخال المشكل بواسطة بوابة الإدخال
- ⊙ يمثل الضرب العنصر الحكيم
تتحكم البوابات في المعلومات التي يتم تخزينها ونسيانها وإخراجها من حالة الخلية، مما يخفف من مشكلة التدرج المتلاشي.
xLSTM مع النابضة الأسية:
تقدم بنية xLSTM بوابة أسية للسماح بتحكم أكثر مرونة في تدفق المعلومات. بالنسبة لمتغير xLSTM (sLSTM) العددي:
تحديث حالة الخلية: ct = ft ⊙ ct-1 + it ⊙ zt
تحديث حالة المُطبيع: nt = ft ⊙ nt-1 + it
تحديث الحالة المخفية: ht = ot ⊙ (ct / nt)
بوابات الإدخال والنسيان: it = exp(W_i xt + R_i ht-1 + b_i) ft = σ(W_f xt + R_f ht-1 + b_f) أو ft = exp(W_f xt + R_f ht-1 + b_f)
تتيح وظائف التنشيط الأسي لبوابات الإدخال (it) والنسيان (ft)، جنبًا إلى جنب مع حالة التسوية nt، تحكمًا أكثر فعالية في تحديثات الذاكرة ومراجعة المعلومات المخزنة.
الميزات والمزايا الرئيسية لـ xLSTM
- القدرة على مراجعة قرارات التخزين: بفضل البوابات الأسية، يمكن لـ xLSTM مراجعة القيم المخزنة بشكل فعال عند مواجهة معلومات أكثر صلة، والتغلب على قيود كبيرة في LSTMs التقليدية.
- قدرات تخزين محسنة: توفر ذاكرة المصفوفة في mLSTM سعة تخزين متزايدة، مما يمكّن xLSTM من التعامل مع الرموز النادرة والتبعيات طويلة المدى وأنماط البيانات المعقدة بشكل أكثر فعالية.
- التوازي: متغير mLSTM لـ xLSTM قابل للتوازي بشكل كامل، مما يسمح بإجراء حسابات فعالة على مسرعات الأجهزة الحديثة، مثل وحدات معالجة الرسومات، وتمكين قابلية التوسع إلى نماذج أكبر.
- خلط الذاكرة وتتبع الحالة: يحتفظ متغير sLSTM لـ xLSTM بقدرات خلط الذاكرة الخاصة بـ LSTMs التقليدية، مما يتيح تتبع الحالة ويجعل xLSTM أكثر تعبيرًا من المحولات ونماذج مساحة الحالة لمهام معينة.
- التوسعة: من خلال الاستفادة من أحدث التقنيات من نماذج اللغات الكبيرة الحديثة (LLMs)، يمكن توسيع نطاق xLSTM إلى مليارات المعلمات، مما يفتح إمكانيات جديدة في نمذجة اللغة ومهام معالجة التسلسل.
التقييم التجريبي: عرض قدرات xLSTM
تقدم الورقة البحثية تقييمًا تجريبيًا شاملاً لـ xLSTM، مع تسليط الضوء على أدائها عبر مختلف المهام والمعايير. فيما يلي بعض النتائج الرئيسية:
- المهام الاصطناعية والساحة طويلة المدى:
- يتفوق xLSTM في حل المهام اللغوية الرسمية التي تتطلب تتبع الحالة، والتفوق في الأداء على المحولات، ونماذج مساحة الحالة، وبنيات RNN الأخرى.
- في مهمة الاستدعاء النقابي متعدد الاستعلامات، يوضح xLSTM قدرات الذاكرة المحسنة، متجاوزًا النماذج غير المحولة وتنافس أداء المحولات.
- في اختبار Long Range Arena، يعرض xLSTM أداءً قويًا ومتسقًا، مما يعرض كفاءته في التعامل مع مشكلات السياق الطويل.
- نمذجة اللغة والمهام النهائية:
- عند التدريب على 15 مليار رمز من مجموعة بيانات SlimPajama، يتفوق xLSTM في الأداء على الأساليب الحالية، بما في ذلك المحولات ونماذج مساحة الدولة ومتغيرات RNN الأخرى، من حيث حيرة التحقق من الصحة.
- ومع تغيير حجم النماذج إلى أحجام أكبر، يواصل xLSTM الحفاظ على ميزة الأداء الخاصة به، مما يدل على سلوك التوسع المناسب.
- في المهام النهائية مثل التفكير المنطقي والإجابة على الأسئلة، تبرز xLSTM كأفضل طريقة عبر أحجام النماذج المختلفة، متجاوزة أحدث الأساليب.
- الأداء في مهام لغة بالوما:
- تم تقييم xLSTM[571:1] (متغير sLSTM) على 0 نطاقًا نصيًا من معيار لغة PALOMA، ويحقق تعقيدات أقل من الطرق الأخرى في 99.5% من النطاقات مقارنة بـ Mamba، و85.1% مقارنة بـ Llama، و99.8% مقارنة بـ RWKV. -4.
- قوانين القياس واستقراء الطول:
- عند التدريب على 300B من الرموز المميزة من SlimPajama، يُظهر xLSTM قوانين توسيع مواتية، مما يشير إلى إمكانية إجراء المزيد من تحسينات الأداء مع زيادة أحجام النماذج.
- في تجارب استقراء طول التسلسل، تحافظ نماذج xLSTM على مستوى منخفض من الحيرة حتى في السياقات الأطول بكثير من تلك التي شوهدت أثناء التدريب، متفوقة على الطرق الأخرى.
تسلط هذه النتائج التجريبية الضوء على القدرات الرائعة لـ xLSTM، مما يجعلها منافسًا واعدًا لمهام نمذجة اللغة ومعالجة التسلسل ومجموعة واسعة من التطبيقات الأخرى.
تطبيقات العالم الحقيقي والاتجاهات المستقبلية
تمتد التطبيقات المحتملة لـ xLSTM على نطاق واسع من المجالات، بدءًا من معالجة اللغة الطبيعية وتوليدها وحتى نمذجة التسلسل وتحليل السلاسل الزمنية وما بعده. فيما يلي بعض المجالات المثيرة حيث يمكن أن يكون لـ xLSTM تأثير كبير:
- نمذجة اللغة وتوليد النص: بفضل قدرات التخزين المحسنة والقدرة على مراجعة المعلومات المخزنة، يمكن لـ xLSTM أن يحدث ثورة في نمذجة اللغة ومهام إنشاء النص، مما يتيح إنشاء نص أكثر تماسكًا ووعيًا بالسياق وطلاقة.
- الترجمة الآلية: قد تكون إمكانات تتبع الحالة لـ xLSTM لا تقدر بثمن في مهام الترجمة الآلية، حيث يعد الحفاظ على المعلومات السياقية وفهم التبعيات طويلة المدى أمرًا بالغ الأهمية للحصول على ترجمات دقيقة.
- التعرف على الكلام وتوليده: إن قابلية التوازي وقابلية التوسع لـ xLSTM تجعله مناسبًا تمامًا لتطبيقات التعرف على الكلام وتوليده، حيث تعد المعالجة الفعالة للتسلسلات الطويلة أمرًا ضروريًا.
- تحليل السلاسل الزمنية والتنبؤ:إن قدرة xLSTM على التعامل مع التبعيات طويلة المدى وتخزين واسترجاع الأنماط المعقدة بشكل فعال يمكن أن تؤدي إلى تحسينات كبيرة في تحليل السلاسل الزمنية ومهام التنبؤ عبر مجالات مختلفة، مثل التمويل والتنبؤ بالطقس والتطبيقات الصناعية.
- تعزيز أنظمة التعلم والتحكم: تعد إمكانات xLSTM في أنظمة التعلم والتحكم المعززة واعدة، حيث يمكن لقدرات الذاكرة المحسنة وقدرات تتبع الحالة أن تتيح اتخاذ قرارات أكثر ذكاءً والتحكم في البيئات المعقدة.
















