الذكاء الاصطناعي

xLSTM: دليل شامل للذاكرة الممتدة طويلة المدى

تم النشر 16 أيار 2024

عيوش ميتال ميتال

لأكثر من عقدين ، سيب هوخرايتر الرائد الذاكرة طويلة المدى (LSTM) لقد لعبت الهندسة المعمارية دورًا أساسيًا في العديد من اختراقات التعلم العميق وتطبيقات العالم الحقيقي. من توليد اللغة الطبيعية إلى تشغيل أنظمة التعرف على الكلام، كانت LSTMs قوة دافعة وراء ثورة الذكاء الاصطناعي.

ومع ذلك، حتى منشئ LSTMs أدرك القيود المتأصلة فيها والتي منعتها من تحقيق إمكاناتها الكاملة. مهدت أوجه القصور مثل عدم القدرة على مراجعة المعلومات المخزنة، وقدرات الذاكرة المقيدة، ونقص التوازي الطريق لظهور المحولات والنماذج الأخرى لتجاوز LSTMs في مهام لغوية أكثر تعقيدًا.

لكن في تطور حديث، تمكن هوخريتر وفريقه من NXAI لقد أدخلت متغيرًا جديدًا يسمى LSTM الموسعة (xLSTM) الذي يعالج هذه القضايا التي طال أمدها. تم تقديم xLSTM في ورقة بحثية حديثة، ويعتمد على الأفكار الأساسية التي جعلت من LSTMs قوية جدًا، مع التغلب على نقاط الضعف الرئيسية من خلال الابتكارات المعمارية.

يوجد في قلب xLSTM مكونان جديدان: البوابات الأسية وهياكل الذاكرة المحسنة. تسمح البوابات الأسية بتحكم أكثر مرونة في تدفق المعلومات، مما يتيح لـ xLSTMs مراجعة القرارات بشكل فعال عند مواجهة سياق جديد. وفي الوقت نفسه، يؤدي إدخال ذاكرة المصفوفة إلى زيادة سعة التخزين بشكل كبير مقارنةً بوحدات LSTM العددية التقليدية.

لكن التحسينات لا تتوقف عند هذا الحد. فمن خلال الاستفادة من تقنيات مُستعارة من نماذج اللغات الكبيرة، مثل إمكانية التوازي والتكديس المتبقي للكتل، يمكن لوحدات xLSTM التوسع بكفاءة لتشمل مليارات المعلمات. وهذا يُطلق العنان لإمكانياتها في نمذجة تسلسلات طويلة للغاية ونوافذ سياقية، وهي قدرة بالغة الأهمية لفهم اللغات المعقدة.

إن تداعيات أحدث ابتكارات هوخرايتر هائلة. تخيّل مساعدين افتراضيين قادرين على تتبع السياق بشكل موثوق خلال محادثات طويلة الأمد، أو نماذج لغوية تُعمّم بشكل أكثر دقة على مجالات جديدة بعد التدريب على بيانات واسعة. تنتشر التطبيقات في كل مكان أحدثت فيه أنظمة LSTM تأثيرًا - روبوتات الدردشة، والترجمة، وواجهات الكلام، وتحليل البرامج، وغيرها - ولكنها الآن مُدعّمة بقدرات xLSTM الثورية.

في هذا الدليل التقني المُعمّق، سنتعمق في التفاصيل المعمارية لـ xLSTM، ونُقيّم مكوناتها الجديدة، مثل وحدات LSTM القياسية والمصفوفية، وآليات البوابات الأسيّة، وهياكل الذاكرة، وغيرها. ستكتسب رؤىً من النتائج التجريبية التي تُظهر تحسنًا مُذهلًا في أداء xLSTM مقارنةً بالهياكل المعمارية الحديثة، مثل المحولات وأحدث النماذج المتكررة.

فهم الأصول: حدود LSTM

قبل الخوض في عالم xLSTM، من الضروري فهم القيود التي واجهتها بنى LSTM التقليدية. وقد كانت هذه القيود المحرك الرئيسي لتطوير xLSTM وغيرها من المناهج البديلة.

عدم القدرة على مراجعة قرارات التخزين: أحد القيود الأساسية لـ LSTM هو كفاحها لمراجعة القيم المخزنة عند مواجهة ناقل أكثر تشابهًا. يمكن أن يؤدي هذا إلى أداء دون المستوى الأمثل في المهام التي تتطلب تحديثات ديناميكية للمعلومات المخزنة.
قدرات تخزين محدودة: تقوم LSTMs بضغط المعلومات في حالات الخلايا العددية، مما قد يحد من قدرتها على تخزين واسترجاع أنماط البيانات المعقدة بشكل فعال، خاصة عند التعامل مع الرموز النادرة أو التبعيات طويلة المدى.
عدم وجود التوازي: آلية خلط الذاكرة في LSTMs، والتي تتضمن اتصالات مخفية بين الخطوات الزمنية، تفرض معالجة تسلسلية، مما يعيق توازي الحسابات ويحد من قابلية التوسع.

لقد مهدت هذه القيود الطريق لظهور المحولات والبنيات الأخرى التي تجاوزت LSTMs في جوانب معينة، خاصة عند التوسع في النماذج الأكبر.

بنية xLSTM

عائلة LSTM (xLSTM) الموسعة

يوجد في قلب xLSTM تعديلان رئيسيان لإطار عمل LSTM التقليدي: البوابات الأسية وهياكل الذاكرة الجديدة. تقدم هذه التحسينات نوعين جديدين من LSTM، المعروفين باسم sLSTM (LSTM العددية) وmLSTM (مصفوفة LSTM).

سلستم: LSTM العددية مع البوابات الأسية وخلط الذاكرة
- النابضة الأسية: يتضمن sLSTM وظائف التنشيط الأسي لبوابات الإدخال والنسيان، مما يتيح تحكمًا أكثر مرونة في تدفق المعلومات.
- التطبيع والاستقرار: لمنع حالات عدم الاستقرار العددي، يقدم sLSTM حالة تسوية تتتبع منتج بوابات الإدخال وبوابات النسيان المستقبلية.
- خلط الذاكرة: يدعم sLSTM خلايا ذاكرة متعددة ويسمح بخلط الذاكرة عبر الاتصالات المتكررة، مما يتيح استخراج الأنماط المعقدة وقدرات تتبع الحالة.
ملستم: Matrix LSTM مع قدرات تخزين محسنة
- ذاكرة المصفوفة: بدلاً من خلية الذاكرة العددية، يستخدم mLSTM ذاكرة مصفوفة، مما يزيد من سعة تخزينها ويتيح استرجاع المعلومات بشكل أكثر كفاءة.
- قاعدة تحديث التباين: يستخدم mLSTM قاعدة تحديث التغاير، مستوحاة من الذكريات الترابطية ثنائية الاتجاه (BAMs)، لتخزين واسترداد أزواج القيمة الرئيسية بكفاءة.
- التوازي: من خلال التخلي عن خلط الذاكرة، يحقق mLSTM إمكانية التوازي الكامل، مما يتيح إجراء حسابات فعالة على مسرعات الأجهزة الحديثة.

يمكن دمج هذين المتغيرين، sLSTM وmLSTM، في بنيات الكتل المتبقية، وتشكيل كتل xLSTM. من خلال تكديس كتل xLSTM هذه بشكل متبقي، يمكن للباحثين إنشاء بنيات xLSTM قوية مصممة خصيصًا لمهام ومجالات تطبيق محددة.

الرياضيات

LSTM التقليدية:

قدمت بنية LSTM الأصلية آليات دائرية للأخطاء وبوابات للتغلب على مشكلة التدرج المتلاشي في الشبكات العصبية المتكررة.

وحدة التكرار في LSTM – مصدر

تخضع تحديثات خلايا الذاكرة LSTM للمعادلات التالية:

تحديث حالة الخلية: ct = ft ⊙ ct-1 + it ⊙ zt

تحديث الحالة المخفية: ht = ot ⊙ tanh(ct)

أين:

هو ناقل حالة الخلية في الوقت المناسب $t$
هو ناقلات بوابة النسيان
هو ناقل بوابة الإدخال
هو ناقل بوابة الإخراج
هو الإدخال المشكل بواسطة بوابة الإدخال
يمثل الضرب العنصر الحكيم

تتحكم البوابات في المعلومات التي يتم تخزينها ونسيانها وإخراجها من حالة الخلية، مما يخفف من مشكلة التدرج المتلاشي.

xLSTM مع النابضة الأسية:

تقدم بنية xLSTM بوابة أسية للسماح بتحكم أكثر مرونة في تدفق المعلومات. بالنسبة لمتغير xLSTM (sLSTM) العددي:

تحديث حالة الخلية: ct = ft ⊙ ct-1 + it ⊙ zt

تحديث حالة المُطبيع: nt = ft ⊙ nt-1 + it

تحديث الحالة المخفية: ht = ot ⊙ (ct / nt)

بوابات الإدخال والنسيان: it = exp(W_i xt + R_i ht-1 + b_i) ft = σ(W_f xt + R_f ht-1 + b_f) أو ft = exp(W_f xt + R_f ht-1 + b_f)

تتيح وظائف التنشيط الأسي لبوابات الإدخال (it) والنسيان (ft)، جنبًا إلى جنب مع حالة التسوية nt، تحكمًا أكثر فعالية في تحديثات الذاكرة ومراجعة المعلومات المخزنة.

xLSTM مع ذاكرة مصفوفة:

بالنسبة لمتغير المصفوفة xLSTM (mLSTM) ذو سعة التخزين المحسنة:

تحديث حالة الخلية: Ct = ft ⊙ Ct-1 + it ⊙ (vt kt^T)

تحديث حالة المُطبيع: nt = ft ⊙ nt-1 + it ⊙ kt

تحديث الحالة المخفية: ht = ot ⊙ (Ct qt / max(qt^T nt, 1))

أين:

هي حالة خلية المصفوفة
و هي القيمة والمتجهات الرئيسية
هو ناقل الاستعلام المستخدم للاسترجاع

تسلط هذه المعادلات الرئيسية الضوء على كيفية قيام xLSTM بتوسيع صياغة LSTM الأصلية من خلال بوابة أسية للتحكم في الذاكرة بشكل أكثر مرونة وذاكرة المصفوفة لتحسين قدرات التخزين. يتيح الجمع بين هذه الابتكارات لـ xLSTM التغلب على قيود LSTM التقليدية.

الميزات والمزايا الرئيسية لـ xLSTM

القدرة على مراجعة قرارات التخزين: بفضل البوابات الأسية، يمكن لـ xLSTM مراجعة القيم المخزنة بشكل فعال عند مواجهة معلومات أكثر صلة، والتغلب على قيود كبيرة في LSTMs التقليدية.
قدرات تخزين محسنة: توفر ذاكرة المصفوفة في mLSTM سعة تخزين متزايدة، مما يمكّن xLSTM من التعامل مع الرموز النادرة والتبعيات طويلة المدى وأنماط البيانات المعقدة بشكل أكثر فعالية.
التوازي: متغير mLSTM لـ xLSTM قابل للتوازي بشكل كامل، مما يسمح بإجراء حسابات فعالة على مسرعات الأجهزة الحديثة، مثل وحدات معالجة الرسومات، وتمكين قابلية التوسع إلى نماذج أكبر.
خلط الذاكرة وتتبع الحالة: يحتفظ متغير sLSTM لـ xLSTM بقدرات خلط الذاكرة الخاصة بـ LSTMs التقليدية، مما يتيح تتبع الحالة ويجعل xLSTM أكثر تعبيرًا من المحولات ونماذج مساحة الحالة لمهام معينة.
التوسعة: من خلال الاستفادة من أحدث التقنيات من نماذج اللغات الكبيرة الحديثة (LLMs)، يمكن توسيع نطاق xLSTM إلى مليارات المعلمات، مما يفتح إمكانيات جديدة في نمذجة اللغة ومهام معالجة التسلسل.

التقييم التجريبي: عرض قدرات xLSTM

تقدم الورقة البحثية تقييمًا تجريبيًا شاملاً لـ xLSTM، مع تسليط الضوء على أدائها عبر مختلف المهام والمعايير. فيما يلي بعض النتائج الرئيسية:

المهام الاصطناعية والساحة طويلة المدى:
- يتفوق xLSTM في حل المهام اللغوية الرسمية التي تتطلب تتبع الحالة، والتفوق في الأداء على المحولات، ونماذج مساحة الحالة، وبنيات RNN الأخرى.
- في مهمة الاستدعاء النقابي متعدد الاستعلامات، يوضح xLSTM قدرات الذاكرة المحسنة، متجاوزًا النماذج غير المحولة وتنافس أداء المحولات.
- في اختبار Long Range Arena، يعرض xLSTM أداءً قويًا ومتسقًا، مما يعرض كفاءته في التعامل مع مشكلات السياق الطويل.
نمذجة اللغة والمهام النهائية:
- عند التدريب على 15 مليار رمز من مجموعة بيانات SlimPajama، يتفوق xLSTM في الأداء على الأساليب الحالية، بما في ذلك المحولات ونماذج مساحة الدولة ومتغيرات RNN الأخرى، من حيث حيرة التحقق من الصحة.
- ومع تغيير حجم النماذج إلى أحجام أكبر، يواصل xLSTM الحفاظ على ميزة الأداء الخاصة به، مما يدل على سلوك التوسع المناسب.
- في المهام النهائية مثل التفكير المنطقي والإجابة على الأسئلة، تبرز xLSTM كأفضل طريقة عبر أحجام النماذج المختلفة، متجاوزة أحدث الأساليب.
الأداء في مهام لغة بالوما:
- تم تقييم xLSTM[571:1] (متغير sLSTM) على 0 نطاقًا نصيًا من معيار لغة PALOMA، ويحقق تعقيدات أقل من الطرق الأخرى في 99.5% من النطاقات مقارنة بـ Mamba، و85.1% مقارنة بـ Llama، و99.8% مقارنة بـ RWKV. -4.
قوانين القياس واستقراء الطول:
- عند التدريب على 300B من الرموز المميزة من SlimPajama، يُظهر xLSTM قوانين توسيع مواتية، مما يشير إلى إمكانية إجراء المزيد من تحسينات الأداء مع زيادة أحجام النماذج.
- في تجارب استقراء طول التسلسل، تحافظ نماذج xLSTM على مستوى منخفض من الحيرة حتى في السياقات الأطول بكثير من تلك التي شوهدت أثناء التدريب، متفوقة على الطرق الأخرى.

تسلط هذه النتائج التجريبية الضوء على القدرات الرائعة لـ xLSTM، مما يجعلها منافسًا واعدًا لمهام نمذجة اللغة ومعالجة التسلسل ومجموعة واسعة من التطبيقات الأخرى.

تطبيقات العالم الحقيقي والاتجاهات المستقبلية

تمتد التطبيقات المحتملة لـ xLSTM على نطاق واسع من المجالات، بدءًا من معالجة اللغة الطبيعية وتوليدها وحتى نمذجة التسلسل وتحليل السلاسل الزمنية وما بعده. فيما يلي بعض المجالات المثيرة حيث يمكن أن يكون لـ xLSTM تأثير كبير:

نمذجة اللغة وتوليد النص: بفضل قدرات التخزين المحسنة والقدرة على مراجعة المعلومات المخزنة، يمكن لـ xLSTM أن يحدث ثورة في نمذجة اللغة ومهام إنشاء النص، مما يتيح إنشاء نص أكثر تماسكًا ووعيًا بالسياق وطلاقة.
الترجمة الآلية: قد تكون إمكانات تتبع الحالة لـ xLSTM لا تقدر بثمن في مهام الترجمة الآلية، حيث يعد الحفاظ على المعلومات السياقية وفهم التبعيات طويلة المدى أمرًا بالغ الأهمية للحصول على ترجمات دقيقة.
التعرف على الكلام وتوليده: إن قابلية التوازي وقابلية التوسع لـ xLSTM تجعله مناسبًا تمامًا لتطبيقات التعرف على الكلام وتوليده، حيث تعد المعالجة الفعالة للتسلسلات الطويلة أمرًا ضروريًا.
تحليل السلاسل الزمنية والتنبؤ:إن قدرة xLSTM على التعامل مع التبعيات طويلة المدى وتخزين واسترجاع الأنماط المعقدة بشكل فعال يمكن أن تؤدي إلى تحسينات كبيرة في تحليل السلاسل الزمنية ومهام التنبؤ عبر مجالات مختلفة، مثل التمويل والتنبؤ بالطقس والتطبيقات الصناعية.
تعزيز أنظمة التعلم والتحكم: تعد إمكانات xLSTM في أنظمة التعلم والتحكم المعززة واعدة، حيث يمكن لقدرات الذاكرة المحسنة وقدرات تتبع الحالة أن تتيح اتخاذ قرارات أكثر ذكاءً والتحكم في البيئات المعقدة.

التحسينات المعمارية وضبط المعلمات الفائقة

على الرغم من أن النتائج الحالية واعدة، إلا أنه لا يزال هناك مجال لتحسين بنية xLSTM وضبط معلماتها الفائقة. يمكن للباحثين استكشاف مجموعات مختلفة من كتل sLSTM وmLSTM، مع تغيير النسب والمواضع داخل البنية العامة. بالإضافة إلى ذلك، يمكن أن يؤدي البحث المنهجي للمعلمات الفائقة إلى تحسينات إضافية في الأداء، خاصة بالنسبة للنماذج الأكبر حجمًا.

تحسينات مدركة للأجهزة: للاستفادة الكاملة من قابلية التوازي لـ xLSTM، وخاصة متغير mLSTM، يمكن للباحثين التحقق من التحسينات المدركة للأجهزة والمصممة خصيصًا لبنيات GPU محددة أو مسرعات أخرى. قد يتضمن ذلك تحسين نواة CUDA، واستراتيجيات إدارة الذاكرة، والاستفادة من التعليمات أو المكتبات المتخصصة لعمليات المصفوفة الفعالة.

التكامل مع مكونات الشبكة العصبية الأخرى: استكشاف تكامل xLSTM مع مكونات الشبكة العصبية الأخرى، مثل آليات الانتباه، أو الالتفافات، أو تقنيات التعلم الخاضعة للإشراف الذاتي، يمكن أن يؤدي إلى بنيات هجينة تجمع بين نقاط القوة في الأساليب المختلفة. يمكن لهذه النماذج الهجينة أن تطلق العنان لقدرات جديدة وتحسن الأداء في نطاق أوسع من المهام.

القليل من اللقطة ونقل التعلم: استكشاف استخدام xLSTM في سيناريوهات التعلم قليلة اللقطات والنقل يمكن أن يكون وسيلة مثيرة للبحث المستقبلي. من خلال الاستفادة من قدرات الذاكرة المحسنة وقدرات تتبع الحالة، يمكن لـ xLSTM تمكين نقل المعرفة بشكل أكثر كفاءة والتكيف السريع مع المهام أو المجالات الجديدة ذات بيانات التدريب المحدودة.

قابلية التفسير والتفسير: كما هو الحال مع العديد من نماذج التعلم العميق، يمكن أن تكون الأعمال الداخلية لـ xLSTM مبهمة ويصعب تفسيرها. يمكن أن يؤدي تطوير تقنيات لتفسير وشرح القرارات التي تتخذها xLSTM إلى نماذج أكثر شفافية وجديرة بالثقة، مما يسهل اعتمادها في التطبيقات المهمة وتعزيز المساءلة.

استراتيجيات التدريب الفعالة والقابلة للتطوير: مع استمرار النماذج في النمو من حيث الحجم والتعقيد، أصبحت استراتيجيات التدريب الفعالة والقابلة للتطوير ذات أهمية متزايدة. يمكن للباحثين استكشاف تقنيات مثل التوازي النموذجي، وتوازي البيانات، وأساليب التدريب الموزعة المصممة خصيصًا لبنى xLSTM، مما يتيح تدريب نماذج أكبر وربما تقليل التكاليف الحسابية.

هذه بعض الاتجاهات والمجالات البحثية المستقبلية المحتملة لمزيد من الاستكشاف باستخدام xLSTM.

خاتمة

يمثل تقديم xLSTM علامة فارقة مهمة في السعي وراء تصميم أكثر قوة وكفاءة لنمذجة اللغة ومعالجة التسلسل. من خلال معالجة القيود المفروضة على LSTMs التقليدية والاستفادة من التقنيات الجديدة مثل البوابات الأسية وهياكل ذاكرة المصفوفة، أظهر xLSTM أداءً رائعًا عبر مجموعة واسعة من المهام والمعايير.

ومع ذلك، فإن الرحلة لا تنتهي هنا. كما هو الحال مع أي تقنية رائدة، تقدم xLSTM فرصًا مثيرة لمزيد من الاستكشاف والتحسين والتطبيق في سيناريوهات العالم الحقيقي. مع استمرار الباحثين في دفع حدود ما هو ممكن، يمكننا أن نتوقع أن نشهد المزيد من التقدم المثير للإعجاب في مجال معالجة اللغة الطبيعية والذكاء الاصطناعي.

عيوش ميتال

لقد أمضيت السنوات الخمس الماضية منغمسًا في عالم رائع من التعلم الآلي والتعلم العميق. قادني شغفي وخبرتي إلى المساهمة في أكثر من 50 مشروعًا متنوعًا لهندسة البرمجيات ، مع التركيز بشكل خاص على الذكاء الاصطناعي / التعلم الآلي. جذبني فضولي المستمر أيضًا نحو معالجة اللغة الطبيعية ، وهو مجال أتوق لاستكشافه بشكل أكبر.