الذكاء الاصطناعي
xLSTM: دليل شامل لذاكرة اللانغمد الطويلة الموسعة
لمدة أكثر من عقدين، كانت عمارة ذاكرة اللانغمد الطويلة (LSTM) التي طورها Sepp Hochreiter رائدة في العديد من الاكتشافات في التعلم العميق والتطبيقات الواقعية. من توليد اللغة الطبيعية إلى تشغيل أنظمة التعرف على الكلام، كانت LSTMs قوة دافعة وراء ثورة الذكاء الاصطناعي.
然而، حتى مبتكر LSTMs أدرك القيود المتأصلة التي منعتها من تحقيق إمكاناتها الكاملة. العيوب مثل عدم القدرة على مراجعة المعلومات المخزنة، وسعة الذاكرة المحدودة، وعدم القدرة على التوازي، مهدت الطريق لظهور تحويلات وطرازات أخرى لتجاوز LSTMs في مهام اللغة الأكثر تعقيدًا.
لكن في تطور حديث، قدم Hochreiter وفريقه في NXAI متغيرًا جديدًا يسمى ذاكرة اللانغمد الطويلة الموسعة (xLSTM) التي تتعامل مع هذه القضايا القديمة. تم تقديم xLSTM في ورقة بحثية حديثة، وتبني على الأفكار الأساسية التي جعلت LSTMs قوية، بينما تتغلب على نقاط الضعف الرئيسية من خلال الابتكارات المعمارية.
في قلب xLSTM يوجد مكونان جديدان: بوابات أسية وتراكيب ذاكرة محسنة. تسمح البوابات الأسية بمزيد من المرونة في التحكم في تدفق المعلومات، مما يتيح ل xLSTMs مراجعة القرارات بشكل فعال عند مواجهة سياق جديد. في الوقت نفسه، يزيد إدخال ذاكرة المصفوفة بشكل كبير من سعة التخزين مقارنةً بال LSTMs السكاليات التقليدية.
لكن التحسينات لا تتوقف هناك. من خلال الاستفادة من تقنيات اقترضت من نماذج اللغة الكبيرة مثل التوازي والتراكب المتبقي للكتل، يمكن لـ xLSTMs النمو بشكل فعال إلى مليارات المعلمات. هذا يفتح إمكاناته لنمذجة تسلسلات طويلة جدًا ونوافذ سياق – وهي قدرة حرجة ل理解 اللغة المعقدة.
الآثار المترتبة على اختراع Hochreiter الأخير هي هائلة. تخيل المساعدين الافتراضيين الذين يمكنهم تتبع السياق على مدار محادثات طويلة. أو نماذج اللغة التي تعمم بطرق أكثر متانة إلى مجالات جديدة بعد التدريب على بيانات واسعة. التطبيقات تمتد إلى كل مكان أثرت فيه LSTMs – المحادثات، الترجمة، واجهات الكلام، تحليل البرامج والمزيد – ولكن الآن مدعومة بتقنيات xLSTM المتطورة.
في هذا الدليل الفني العميق، سنغوص في تفاصيل معمارية xLSTM، وتقييم مكوناته الجديدة مثل LSTMs السكاليات والمتحولة، وآليات البوابات الأسية، والتراكيب الذاكرة وغيرها. سوف تكتسب رؤى من النتائج التجريبية التي تظهر تحسينات الأداء المذهلة لـ xLSTM على معماريات الحالة الفنية مثل التحويلات وأحدث نماذج التكرار.
فهم الأصول: القيود في LSTMs
قبل أن ندخل عالم xLSTM، من المهم فهم القيود التي واجهتها معماريات LSTMs التقليدية. هذه القيود هي الدافع وراء تطوير xLSTM وطرازات بديلة أخرى.
- عدم القدرة على مراجعة القرارات المخزنة: واحدة من القيود الرئيسية في LSTMs هي صعوبة مراجعة القيم المخزنة عند مواجهة متجه مشابه أكثر.
- سعة الذاكرة المحدودة: LSTMs تضغط المعلومات في حالات خلية سكاليات، مما يمكن أن يحد من قدرتها على تخزين واسترجاع أنماط بيانات معقدة بشكل فعال، خاصة عند التعامل مع رموز نادرة أو اعتمادات طويلة المدى.
- غياب التوازي: آليات خلط الذاكرة في LSTMs، التي تتضمن اتصالات مخفية-مخفية بين الخطوات الزمنية، تفرض معالجة متسلسلة، مما يعوق توازي الحسابات ويتسبب في قيود على القابلية للتوسع.
هذه القيود مهدت الطريق لظهور التحويلات وطرازات أخرى لتجاوز LSTMs في بعض الجوانب، خاصة عند التوسع إلى نماذج أكبر.
معمارية xLSTM
في قلب xLSTM توجد تعديلات رئيسية على الإطار العام ل LSTMs: البوابات الأسية والتراكيب الذاكرة الجديدة. هذه التحسينات تقدم两个 متغيرين جديدين من LSTMs، يعرفان باسم sLSTM (LSTM سكالي) و mLSTM (LSTM مصفوفة).
- sLSTM: LSTM السكالي مع البوابات الأسية وخلط الذاكرة
- البوابات الأسية: sLSTM تدمج وظائف تنشيط أسية للبوابات الداخلة والمنسحبة، مما يسمح بمزيد من المرونة في التحكم في تدفق المعلومات.
- التطبيع والاستقرار: لمنع عدم الاستقرار العددي، تقدم sLSTM حالة تطبيع تتبع نتاج البوابات الداخلة والمستقبلية.
- خلط الذاكرة: sLSTM تدعم خلايا ذاكرة متعددة وتسمح بخلط الذاكرة عبر الاتصالات المتكررة، مما يتيح استخراج أنماط معقدة وقدرات تتبع الحالة.
- mLSTM: LSTM المصفوفة مع سعة تخزين محسنة
- ذاكرة المصفوفة: بدلاً من خلية ذاكرة سكاليات، تستخدم mLSTM ذاكرة مصفوفة، مما يزيد من سعة التخزين ويسمح باسترجاع المعلومات بفعالية أكبر.
- قاعدة تحديث التباين: mLSTM تستخدم قاعدة تحديث تباين، مستوحاة من ذاكرات التجميع التوجيهي (BAMs)، لتخزين واسترجاع أزواج المفتاح والقيمة بفعالية.
- التوازي: من خلال التخلي عن خلط الذاكرة، تتحقق mLSTM من التوازي الكامل، مما يسمح بالحسابات الفعالة على معززات الأجهزة الحديثة.
يمكن دمج هذه المتغيرات، sLSTM و mLSTM، في هياكل كتلة متبقية، مما يشكل كتل xLSTM. من خلال تكرار كتل xLSTM بشكل متبقي، يمكن الباحثين بناء معماريات xLSTM قوية مخصصة لمهام وdomains محددة.
الرياضيات
LSTM التقليدية:
المعمارية الأصلية ل LSTMs قدمت عربة الخطأ الثابتة وآليات البوابات لتجاوز مشكلة الانحدار المتلاشي في الشبكات العصبية المتكررة.

الوحدة المتكررة في LSTMs – المصدر
تحديثات خلية الذاكرة في LSTMs تحكمها المعادلات التالية:
تحديث حالة الخلية: ct = ft ⊙ ct-1 + it ⊙ zt
تحديث حالة المخفي: ht = ot ⊙ tanh(ct)
حيث:
- 𝑐𝑡 هو متجه حالة الخلية في الوقت 𝑡
- 𝑓𝑡 هو متجه بوابة النسيان
- 𝑖𝑡 هو متجه بوابة الدخول
- 𝑜𝑡 هو متجه بوابة الخروج
- 𝑧𝑡 هو الإدخال المعدل بواسطة بوابة الدخول
- ⊙ يمثل الضرب العنصري
تتحكم البوابات ft و it و ot في ما يتم تخزينه ونسيانه وإخراجها من حالة الخلية ct، مما يخفف من مشكلة الانحدار المتلاشي.
xLSTM مع البوابات الأسية:
معمارية xLSTM تقدم البوابات الأسية لتحقيق التحكم المزيد في تدفق المعلومات. بالنسبة لمتغير xLSTM السكالي (sLSTM):
تحديث حالة الخلية: ct = ft ⊙ ct-1 + it ⊙ zt
تحديث حالة التطبيع: nt = ft ⊙ nt-1 + it
تحديث حالة المخفي: ht = ot ⊙ (ct / nt)
بوابات الدخول والنسيان: it = exp(W_i xt + R_i ht-1 + b_i) ft = σ(W_f xt + R_f ht-1 + b_f) OR ft = exp(W_f xt + R_f ht-1 + b_f)
وظائف التنشيط الأسية للبوابات الداخلة والمنسحبة، إلى جانب حالة التطبيع nt، تمكن من التحكم الفعال في تحديث الذاكرة ومراجعة المعلومات المخزنة.
xLSTM مع ذاكرة المصفوفة:
لمتغير xLSTM المصفوفة (mLSTM) مع سعة تخزين محسنة:
تحديث حالة الخلية: Ct = ft ⊙ Ct-1 + it ⊙ (vt kt^T)
تحديث حالة التطبيع: nt = ft ⊙ nt-1 + it ⊙ kt
تحديث حالة المخفي: ht = ot ⊙ (Ct qt / max(qt^T nt, 1))
حيث:
- 𝐶𝑡 هو حالة الخلية المصفوفة
- 𝑣𝑡 و 𝑘𝑡 هما متجه القيمة والمفتاح
- 𝑞𝑡 هو متجه الاستعلام المستخدم للاسترجاع
هذه المعادلات الرئيسية تبرز كيف يوسع xLSTM الصيغة الأصلية ل LSTMs ببوابات أسية لتحقيق التحكم المزيد في الذاكرة وذاكرة المصفوفة لتحسين القدرات التخزينية. الجمع بين هذه الابتكارات يسمح لـ xLSTM بتحقيق ما لم تكن LSTMs التقليدية قادرة عليه.
الميزات الرئيسية ومزايا xLSTM
- القدرة على مراجعة القرارات المخزنة: بفضل البوابات الأسية، يمكن لـ xLSTM مراجعة القيم المخزنة بشكل فعال عند مواجهة معلومات أكثر صلة، مما يتيح له تجاوز واحدة من القيود الرئيسية في LSTMs التقليدية.
- سعة التخزين المحسنة: ذاكرة المصفوفة في mLSTM توفر سعة تخزين أكبر، مما يسمح لـ xLSTM بمعالجة الرموز النادرة والاعتمادات الطويلة المدى والأنماط المعقدة بشكل أكثر فعالية.
- التوازي: متغير mLSTM من xLSTM هو قابل للتوازي بالكامل، مما يسمح بالحسابات الفعالة على معززات الأجهزة الحديثة مثل وحدات معالجة الرسومات، ويتيح التوسع إلى نماذج أكبر.
- خلط الذاكرة وتتبع الحالة: متغير sLSTM من xLSTM يحتفظ بقدرات خلط الذاكرة في LSTMs التقليدية، مما يتيح تتبع الحالة وجعل xLSTM أكثر تعبيرًا من التحويلات ونمذج الفضاء الحالة لمهام معينة.
- القدرة على التوسع: من خلال الاستفادة من أحدث التقنيات من نماذج اللغة الكبيرة، يمكن لـ xLSTM النمو إلى مليارات المعلمات، مما يفتح إمكانيات جديدة في نمذج اللغة ومعالجة التسلسلات.
التقييم التجريبي: إظهار قدرات xLSTM
الورقة البحثية تقدم تقييمًا تجريبيًا شاملاً لـ xLSTM، يبرز أدائه عبر مهام وbenchmarks مختلفة. هنا بعض النتائج الرئيسية:
- المهام الاصطناعية و Long Range Arena:
- xLSTM يتفوق في حل المهام اللغوية الرسمية التي تتطلب تتبع الحالة، متجاوزًا التحويلات ونمذج الفضاء الحالة وعمليات التكرار الأخرى.
- في مهمة الاستدعاء الترابطي المتعدد، يظهر xLSTM قدرات تخزين محسنة، متجاوزًا نماذج غير التحويلات ومواكبة أداء التحويلات.
- على منصة Long Range Arena، يظهر xLSTM أداءً قويًا ومستمرًا، مما يبرز كفاءته في معالجة مشاكل السياق الطويل.
- نمذج اللغة والمهام الفرعية:
- عند التدريب على 15 مليار رمز من مجموعة SlimPajama، يتفوق xLSTM على الطرق الحالية، بما في ذلك التحويلات ونمذج الفضاء الحالة ومتغيرات التكرار الأخرى، من حيث الارتباك الصحيح.
- عندما يتم توسيع النماذج إلى أحجام أكبر، يحافظ xLSTM على ميزته الأدائية، مما يظهر سلوكًا مواتيًا للتوسع.
- في المهام الفرعية مثل العقل السليم والاستفهام، يبرز xLSTM كأفضل طريقة عبر أحجام نموذجية مختلفة، متجاوزًا الطرق الحالية.
- أداء على مهام PALOMA اللغة:
- عند التقييم على 571 مجالًا من معيار PALOMA اللغة، يحقق xLSTM[1:0] (متغير sLSTM) ارتباكًا أقل في 99.5% من المجالات مقارنةً بـ Mamba، و 85.1% مقارنةً بـ Llama، و 99.8% مقارنةً بـ RWKV-4.
- قوانين التوسع وتطوير الطول:
- عند التدريب على 300 مليار رمز من SlimPajama، يظهر xLSTM قوانين توسع مواتية، مما يشير إلى إمكانية تحسين الأداء عند زيادة حجم النماذج.
- في تجارب تطوير الطول، يحافظ نماذج xLSTM على ارتباك منخفض حتى في سياقات أطول بكثير من تلك التي تم رؤيتها أثناء التدريب، متجاوزًا الطرق الأخرى.
هذه النتائج التجريبية تبرز القدرات المذهلة لـ xLSTM، مما يجعله مرشحًا واعدًا لنمذج اللغة ومعالجة التسلسلات ومجالات أخرى.
التطبيقات الواقعية وتوجيهات المستقبل
تمدد التطبيقات المحتملة لـ xLSTM إلى نطاق واسع من المجالات، من معالجة اللغة الطبيعية إلى نمذج التسلسلات وتحليل السلاسل الزمنية وغيرها. هنا بعض المجالات المثيرة التي يمكن لـ xLSTM أن يترك فيها تأثيرًا كبيرًا:
- نمذج اللغة وتوليد النص: مع سعة التخزين المحسنة وقدرته على مراجعة المعلومات المخزنة، يمكن لـ xLSTM ثورة في نمذج اللغة وتوليد النص، مما يتيح توليد نصوص أكثر انسجامًا ووعيًا بالسياق.
- الترجمة الآلية: يمكن لقدرات تتبع الحالة في xLSTM أن تكون قيمة في مهام الترجمة الآلية، حيث يعتمد الحفاظ على المعلومات السياقية والاعتمادات الطويلة المدى على دقة الترجمات.
- التعرف على الكلام وتوليد الكلام: يمكن للتوازي والقابلية للتوسع في xLSTM أن تجعله مناسبًا للتطبيقات التي تتطلب معالجة تسلسلات طويلة، مثل التعرف على الكلام وتوليد الكلام.
- تحليل السلاسل الزمنية والتنبؤ: يمكن لقدرة xLSTM على معالجة الاعتمادات الطويلة المدى وتخزين الأنماط المعقدة أن تؤدي إلى تحسينات كبيرة في تحليل السلاسل الزمنية والتنبؤ في مختلف المجالات، مثل المالية والطقس والصناعة.
- التعلم اللاسيء الإرادي وأنظمة التحكم: يمكن لقدرات xLSTM في الذاكرة وتتبع الحالة أن تجعلها واعدة في التعلم اللاسيء الإرادي وأنظمة التحكم، مما يتيح اتخاذ قرارات أكثر ذكاءً وسيطرة في بيئات معقدة.
تحسينات المعمارية وضبط المعلمات
尽管 النتائج الحالية واعدة، هناك masih مجال لتحسين معمارية xLSTM وضبط معلماتها. يمكن للباحثين استكشاف مجموعات مختلفة من كتل sLSTM و mLSTM، بتغيير النسب والمراكز داخل المعمارية العامة. بالإضافة إلى ذلك، يمكن أن يؤدي البحث الشامل عن معلمات الضبط إلى تحسينات إضافية في الأداء، خاصةً بالنسبة للنماذج الأكبر.
تحسينات الأجهزة: للاستفادة الكاملة من التوازي في xLSTM، خاصةً متغير mLSTM، يمكن للباحثين استكشاف تحسينات الأجهزة المخصصة لعمليات المصفوفة، مثل تحسين نوى CUDA وإدارة الذاكرة واستخدام التوجيهات المتخصصة أو المكتبات لعمليات المصفوفة الفعالة.
التكامل مع مكونات الشبكات العصبية الأخرى: استكشاف التكامل بين xLSTM ومكونات الشبكات العصبية الأخرى، مثل آليات الانتباه أو التكرار أو تقنيات التعلم الذاتي، يمكن أن يؤدي إلى معماريات هجينة تجمع بين نقاط القوة المختلفة. هذه النماذج الهجينة يمكن أن تفتح إمكانيات جديدة وتحسن الأداء على نطاق أوسع من المهام.
التعلم القليل والتعلم النقل: استكشاف استخدام xLSTM في سيناريوهات التعلم القليل والتعلم النقل يمكن أن يكون مجالًا مثيرًا للبحث. من خلال الاستفادة من قدرات الذاكرة وتتبع الحالة في xLSTM، يمكن أن يتيح التعلم السريع والتحويل إلى مهام جديدة أو مجالات مع داده تدريبية محدودة.
الوضوح والتوضيح: كما هو الحال مع العديد من نماذج التعلم العميق، يمكن أن يكون عمل xLSTM غامضًا وصعب الفهم. تطوير تقنيات لتوضيح وشرح قرارات xLSTM يمكن أن يؤدي إلى نماذج أكثر شفافية وموثوقية، مما يسهل تبنيها في التطبيقات الحساسة ويعزز المساءلة.
استراتيجيات التدريب الفعالة والقابلة للتوسع: مع نمو النماذج في الحجم والتعقيد، تصبح استراتيجيات التدريب الفعالة والقابلة للتوسع أكثر أهمية. يمكن للباحثين استكشاف تقنيات مثل التوازي النمطي والتوازي البيانات والتدريب الموزع المخصص لنماذج xLSTM، مما يسمح بتدريب نماذج أكبر وربما يقلل من التكاليف الحسابية.
هذه بعض التوجيهات المحتملة للبحث المستقبلي مع xLSTM.
الختام
تقديم xLSTM ي代表 خطوة هامة في سعينا لتحقيق معماريات نمذج اللغة ومعالجة التسلسلات أكثر قوة وفعالية. من خلال معالجة القيود في LSTMs التقليدية وتبني تقنيات جديدة مثل البوابات الأسية وتراكيب الذاكرة، أظهر xLSTM أداءً مذهلاً عبر مجموعة واسعة من المهام والbenchmarks.
然而، الرحلة لا تنتهي هنا. كما هو الحال مع أي تقنية رائدة، يفتح xLSTM أبوابًا لمزيد من الاستكشاف والتحسين والتطبيق في السيناريوهات الواقعية. مع استمرار الباحثين في دفع الحدود مما هو ممكن، يمكننا أن نتوقع شاهداً على تقدم أكثر إثارة في مجال معالجة اللغة الطبيعية والذكاء الاصطناعي.
















