الذكاء الاصطناعي
Mamba: إعادة تعريف نمذجة التسلسل وتفوقه على معمارية الترانسفورمر

في هذا المقال عن Mamba ، سنستكشف كيف يثور هذا النموذج المتقدم للمكان الفضائي (SSM) على نمذجة التسلسل. تم تطوير Mamba بواسطة Albert Gu و Tri Dao ، ويتميز بفعالية في معالجة تسلسلات معقدة في مجالات مثل معالجة اللغة و الجينوميات و تحليل الصوت. يضمن نمذجة التسلسل الخطي مع الفضاءات الحالة الانتقائية أداء استثنائي عبر هذه الوحدات المتنوعة.
سنغوص في قدرة Mamba على التغلب على التحديات الحسابية التي تواجهها النماذج التقليدية ، خاصة مع التسلسلات الطويلة. يسمح подходها الانتقائي في نماذج الفضاء الحالة بتحليل أسرع وتسلسل خطي مع طول التسلسل ، مما يحسن الإنتاجية بشكل كبير.
ما يجعل Mamba فريدًا حقًا هو انحرافه عن الانتباه التقليدية والكتل MLP. يؤدي هذا التبسيط إلى نموذج أخف وأسرع يتسلسل خطيًا مع طول التسلسل – إنجاز لم يسبق له مثيل من قبل سابقة.
الترانسفورمر مقابل Mamba
الترانسفورمر ، مثل GPT-4 ، قد حدد معايير في معالجة اللغة الطبيعية. ومع ذلك ، فإن كفاءتهم تتناقص مع طول التسلسلات. यह هو المكان الذي يتفوق فيه Mamba ، مع قدرته على معالجة تسلسلات طويلة أكثر كفاءة وبنية فريدة تبسيط العملية بأكملها.
Transformers قادرة على التعامل مع تسلسلات البيانات ، مثل النصوص للنماذج اللغوية. على عكس النماذج السابقة التي تمت معالجتها بشكل متسلسل ، يتم معالجة الترانسفورمر للتسلسلات بأكملها في وقت واحد ، مما يتيح لها التقاط العلاقات المعقدة داخل البيانات.
يستخدمون آلية الانتباه ، التي تسمح للنموذج بالتركيز على أجزاء مختلفة من التسلسل عند إجراء التنبؤات.
تتم حساب هذه الانتباه باستخدام ثلاث مجموعات من الأوزان: الاستفسارات والمفاتيح والقيم ، المستمدة من البيانات الإدخالية. يتم比較 كل عنصر في التسلسل مع كل عنصر آخر ، مما يوفر وزنًا يُظهر الأهمية أو “الانتباه” الذي يجب أن يتلقاه كل عنصر عند التنبؤ بالعنصر التالي في التسلسل.
تحافظ الترانسفورمر على两个 كتلا رئيسيين: المُشفر ، الذي يعالج البيانات الإدخالية ، والمتعرف ، الذي يولد الإخراج. يتكون المُشفر من طبقات متعددة ، تحتوي كل منها على طبقتين فرعيتين: آلية الانتباه المتعددة الرؤوس وشبكة تغذية أمامية متصلة تمامًا بسيطة. يتم استخدام التطبيع والاتصالات المتبقية في كل طبقة فرعية للمساعدة في تدريب الشبكات العميقة.
يتضمن المتعرف أيضًا طبقات مع طبقتين فرعيتين مشابهتين للمُشفر ولكن يضيف طبقة ثالثة تؤدي الانتباه المتعدد على إخراج المُشفر. يضمن الطبيعة المتسلسلة للمتعرف أن التنبؤات لموقع معين يمكن أن تأخذ فقط في الاعتبار المواقع السابقة ، مما يحافظ على الخاصية التلقائية.
في المقابل ، يأخذ نموذج Mamba نهجًا مختلفًا. بينما تتعامل الترانسفورمر مع مشكلة التسلسلات الطويلة باستخدام آليات انتباه أكثر تعقيدًا ، يستخدم Mamba فضاءات الحالة الانتقائية ، مما يوفر نهجًا أكثر كفاءة.
Mamba
ما يجعل Mamba فريدًا حقًا هو انحرافه عن الانتباه التقليدية والكتل MLP. يؤدي هذا التبسيط إلى نموذج أخف وأسرع يتسلسل خطيًا مع طول التسلسل – إنجاز لم يسبق له مثيل من قبل سابقة.
تتضمن الميزات الرئيسية ل Mamba ما يلي:
- فضاءات الحالة الانتقائية: هذه تسمح ل Mamba بالتركيز على المعلومات غير ذات الصلة وتحسين معالجة التسلسلات. هذه الانتقائية ضرورية للتفكير القائم على المحتوى الفعال.
- خوارزمية متوافقة مع الأجهزة: يستخدم Mamba خوارزمية متوافقة مع الأجهزة الحديثة ، خاصة مع وحدات معالجة الرسومات (GPU). هذا التصميم يسمح بمعالجة أسرع ويتطلب ذاكرة أقل مقارنة بالنماذج التقليدية.
- هيكل مبسط: من خلال دمج فضاءات الحالة الانتقائية وإزالة كتل الانتباه و MLP ، يوفر Mamba هيكلًا أكثر بساطة وتماسكًا. هذا يؤدي إلى meilleure قابلية للتوسع والأداء.
أثبت Mamba أداءً متفوقًا في مجالات مختلفة ، بما في ذلك اللغة والصوت والجينوميات ، ويتفوق في كل من التدريب المسبق والمهام المحددة للنطاق. على سبيل المثال ، في نمذجة اللغة ، يطابق Mamba أو يتفوق على أداء نماذج الترانسفورمر الأكبر.
يتوفر رمز Mamba والنموذج المسبق على GitHub للاستخدام المجاني للمجتمع.
ديناميكيات نماذج S4
نماذج S4 هي فئة واعدة من نماذج التسلسل ، وتتضمن خصائص من الشبكات العصبية المتكررة (RNNs) والشبكات العصبية التلافية (CNNs) والنماذج الكلاسيكية للمكان الفضائي. تستمد نماذج S4 الإلهام من الأنظمة المستمرة ، وخاصة نوع من الأنظمة التي تعمل على وظائف أحادية البعد أو تسلسلات عبر حالة 潜伏ية ضمنية.
أهمية التقطيع
التقطيع هو عملية حاسمة تتحول فيها المعلمات المستمرة إلى معلمات منفصلة من خلال صيغ ثابتة ، مما يسمح لنماذج S4 بالحفاظ على اتصال مع الأنظمة في الوقت المستمر. هذا يعطي النماذج خصائص إضافية ، مثل عدم تغير الدقة ، وضمان التطبيع الصحيح ، مما يعزز استقرار النموذج والأداء.
الخطية في الوقت غير المتغير (LTI)
ميزة أساسية من ميزات نماذج S4 هي خطيتها في الوقت غير المتغير. هذا يعني أن ديناميكيات النموذج تظل متسقة مع مرور الوقت ، مع معلمات ثابتة لجميع الخطوات الزمنية. تعتبر LTI ركنًا من أركان التكرار والاتجاهات ، مما يوفر إطارًا مبسطًا ولكن قويًا لإنشاء نماذج التسلسل.
التغلب على القيود الأساسية
كان إطار S4 تقليديًا مقيدًا بطبيعته LTI ، مما يطرح تحديات في نمذجة البيانات التي تتطلب ديناميكيات متكيفة. يقدم البحث الحديث نهجًا يغلب على هذه القيود من خلال إدخال معلمات متغيرة مع الوقت ، وبالتالي إزالة قيود LTI. هذا يسمح لنماذج S4 بالتعامل مع مجموعة أكثر تنوعًا من التسلسلات والمهام ، مما يوسع بشكل كبير قابليتها للتطبيق.
دوافع الانتقائية في نمذجة التسلسل
يجادل البحث بأن جانبًا أساسيًا من نمذجة التسلسل هو ضغط السياق إلى حالة قابلة للإدارة. توفر النماذج التي يمكنها التركيز انتقائيًا على المدخلات أو تصفيتها وسيلة أكثر فعالية للحفاظ على هذه الحالة المضغوطة ، مما يؤدي إلى نماذج تسلسل أكثر كفاءة وقوة. هذه الانتقائية حاسمة للنماذج لتكييف تدفق المعلومات على طول بعد التسلسل ، وهي قدرة أساسية للتعامل مع المهام المعقدة في نمذجة اللغة وما بعدها.
أداء Mamba
فيما يتعلق بالأداء ، يتفوق Mamba في كل من سرعة الاستدلال ودقة الأداء. يسمح تصميمه بأفضل استخدام السياق الأطول ، وهو ما يظهر في كل من نمذجة DNA والصوت ، ويتفوق على النماذج السابقة في المهام المعقدة التي تتطلب علاقات طويلة المدى.
بدء استخدام Mamba
لأولئك المهتمين بالاستفادة من Mamba ، تتضمن المتطلبات الفنية نظام تشغيل Linux ووحدة معالجة رسومات NVIDIA و PyTorch 1.12+ و CUDA 11.6+. يتضمن التثبيت أوامر pip بسيطة لتثبيت الحزم الضرورية من مستودع Mamba.
أثر Mamba
يمثل Mamba قفزة إلى الأمام في نمذجة التسلسل ، ويقدم بديلًا قويًا لمعمارية الترانسفورمر لمعالجة البيانات الغنية بالمعلومات. يتوافق تصميمه مع متطلبات الأجهزة الحديثة ، ويحسن من استخدام الذاكرة وقدرات المعالجة المتوازية. يعد توفر رمز Mamba والنموذج المسبق مفتوحًا المصدر أداة متينة وقابلة للوصول للباحثين والمطورين في مجال الذكاء الاصطناعي والتعلم العميق.












