الذكاء الاصطناعي

مامبا: إعادة تعريف نمذجة التسلسل والتفوق على هندسة المحولات

تم النشر

منذ أشهر 5

18 كانون الأول، 2023

في هذه المقالة على الممبة أفعي سامة، سنستكشف كيف يُحدث نموذج مساحة الدولة المبتكر (SSM) ثورة في نمذجة التسلسل. تم تطوير Mamba بواسطة Albert Gu وTri Dao، ويتميز بكفاءته في معالجة التسلسلات المعقدة في مجالات مثل معالجة اللغة وعلم الجينوم والتحليل الصوتي. يضمن نموذج التسلسل الزمني الخطي مع مساحات الحالة الانتقائية أداءً استثنائيًا عبر هذه الطرائق المتنوعة.

سوف نتعمق في قدرة مامبا على التغلب على التحديات الحسابية التي تواجهها المحولات التقليدية، خاصة مع التسلسلات الطويلة. يسمح نهجها الانتقائي في نماذج مساحة الحالة باستدلال أسرع وقياس خطي مع طول التسلسل، مما يؤدي إلى تحسين الإنتاجية بشكل كبير.

يكمن تفرد Mamba في قدرتها على المعالجة السريعة، وطبقة SSM الانتقائية، والتصميم الصديق للأجهزة المستوحى من FlashAttention. تمكّن هذه الميزات Mamba من التفوق في الأداء على العديد من النماذج الحالية، بما في ذلك تلك التي تعتمد على نهج المحولات، مما يجعلها تقدمًا جديرًا بالملاحظة في التعلم الآلي.

المحولات مقابل الممبة أفعي سامة

وضعت المحولات، مثل GPT-4، معايير في معالجة اللغة الطبيعية. ومع ذلك، تنخفض كفاءتها مع تسلسلات أطول. وهنا يقفز Mamba إلى الأمام، بفضل قدرته على معالجة التسلسلات الطويلة بشكل أكثر كفاءة وبنيته الفريدة التي تعمل على تبسيط العملية برمتها.

المحولات بارعة في التعامل مع تسلسل البيانات، مثل النص لنماذج اللغة. على عكس النماذج السابقة التي تعالج البيانات بشكل تسلسلي، تقوم المحولات بمعالجة التسلسلات بأكملها في وقت واحد، مما يمكنها من التقاط العلاقات المعقدة داخل البيانات.

يستخدمون آلية الانتباه، والتي تسمح للنموذج بالتركيز على أجزاء مختلفة من التسلسل عند إجراء التنبؤات.

يتم حساب هذا الاهتمام باستخدام ثلاث مجموعات من الأوزان: الاستعلامات والمفاتيح والقيم المستمدة من بيانات الإدخال. تتم مقارنة كل عنصر في التسلسل بكل عنصر آخر، مما يوفر وزنًا يدل على الأهمية أو "الاهتمام" الذي يجب أن يتلقاه كل عنصر عند التنبؤ بالعنصر التالي في التسلسل.

تحتوي المحولات على كتلتين رئيسيتين: وحدة التشفير، التي تعالج بيانات الإدخال، ووحدة فك التشفير، التي تولد المخرجات. يتكون المشفر من طبقات متعددة، تحتوي كل منها على طبقتين فرعيتين: آلية اهتمام ذاتي متعددة الرؤوس وشبكة تغذية أمامية بسيطة ومتصلة بالكامل من حيث الموقع. يتم استخدام التطبيع والاتصالات المتبقية في كل طبقة فرعية للمساعدة في تدريب الشبكات العميقة.

يحتوي جهاز فك التشفير أيضًا على طبقتين فرعيتين مشابهتين لجهاز التشفير ولكنه يضيف طبقة فرعية ثالثة تقوم باهتمام متعدد الرؤوس على مخرجات جهاز التشفير. تضمن الطبيعة التسلسلية لمفكك التشفير أن التنبؤات الخاصة بموضع ما لا يمكن أن تأخذ في الاعتبار إلا المواضع السابقة، مع الحفاظ على خاصية الانحدار الذاتي.

على النقيض من المتحولون، يتخذ نموذج مامبا نهجًا مختلفًا. بينما يتعامل المتحولون مع مسألة التسلسلات الطويلة باستخدام آليات انتباه أكثر تعقيدًا، يستخدم مامبا مساحات الحالة الانتقائية، مما يوفر عملية حسابية أكثر

فيما يلي نظرة عامة عالية المستوى حول كيفية عمل المحول:

معالجة المدخلات: تقوم المحولات أولاً بتشفير البيانات المدخلة إلى تنسيق يمكن للنموذج فهمه، وغالبًا ما تستخدم التضمينات التي تتضمن أيضًا موضع كل عنصر في التسلسل.
آلية الانتباه: في جوهرها، تحسب آلية الانتباه النتيجة التي تمثل مقدار التركيز الذي يجب وضعه على أجزاء أخرى من تسلسل الإدخال عند فهم عنصر حالي.
هندسة التشفير وفك التشفير: يتكون نموذج المحول من جهاز تشفير لمعالجة المدخلات وجهاز فك تشفير لتوليد الإخراج. يتكون كل منها من طبقات متعددة تعمل على تحسين فهم النموذج للمدخلات.
اهتمام متعدد الرؤوس: داخل كل من جهاز التشفير ووحدة فك التشفير، يسمح الاهتمام متعدد الرؤوس للنموذج بالحضور في وقت واحد إلى أجزاء مختلفة من التسلسل من مساحات تمثيلية مختلفة، مما يحسن قدرته على التعلم من سياقات متنوعة.
شبكات التغذية الأمامية الحكيمة: بعد الانتباه، تقوم شبكة عصبية بسيطة بمعالجة مخرجات كل موضع بشكل منفصل ومتماثل. يتم دمج هذا مع الإدخال من خلال الاتصال المتبقي ويتبعه تسوية الطبقة.
توليد الإخراج: يتنبأ جهاز فك التشفير بعد ذلك بتسلسل الإخراج، متأثرًا بسياق جهاز التشفير وما تم إنشاؤه حتى الآن.

إن قدرة المحول على التعامل مع التسلسلات بالتوازي وآلية الانتباه القوية الخاصة به تجعله قويًا لمهام مثل الترجمة وإنشاء النص.

في المقابل، يعمل نموذج مامبا بشكل مختلف باستخدام مساحات الحالة الانتقائية لمعالجة التسلسلات. يعالج هذا النهج عدم الكفاءة الحسابية في المحولات عند التعامل مع تسلسلات طويلة. يتيح تصميم مامبا إمكانية الاستدلال بشكل أسرع والمقاييس الخطية لطول التسلسل، مما يضع نموذجًا جديدًا لنمذجة التسلسل الذي يمكن أن يكون أكثر كفاءة، خاصة عندما تصبح التسلسلات طويلة بشكل متزايد.

الممبة أفعي سامة

ما يجعل Mamba فريدة حقًا هو ابتعادها عن الاهتمام التقليدي وكتل MLP. ويؤدي هذا التبسيط إلى نموذج أخف وأسرع يتدرج خطيًا مع طول التسلسل - وهو إنجاز لا مثيل له من قبل النماذج السابقة.

تشمل الميزات الرئيسية لمامبا ما يلي:

أجهزة SSM انتقائية: يتيح ذلك لـ Mamba تصفية المعلومات غير ذات الصلة والتركيز على البيانات ذات الصلة، مما يعزز طريقة تعاملها مع التسلسلات. تعتبر هذه الانتقائية أمرًا بالغ الأهمية للتفكير الفعال القائم على المحتوى.
خوارزمية مدركة للأجهزة: يستخدم Mamba خوارزمية متوازية تم تحسينها للأجهزة الحديثة، وخاصة وحدات معالجة الرسومات. يتيح هذا التصميم إجراء عمليات حسابية أسرع ويقلل من متطلبات الذاكرة مقارنة بالنماذج التقليدية.
الهندسة المعمارية المبسطة: من خلال دمج وحدات SSM الانتقائية وإزالة الانتباه وكتل MLP، تقدم Mamba بنية أبسط وأكثر تجانسًا. وهذا يؤدي إلى تحسين الأداء وقابلية التوسع.

لقد أظهرت مامبا أداءً فائقًا في مجالات مختلفة، بما في ذلك اللغة والصوت وعلم الجينوم، وتفوقت في كل من التدريب المسبق والمهام الخاصة بالمجال. على سبيل المثال، في نمذجة اللغة، يطابق أداء Mamba نماذج Transformer الأكبر حجمًا أو يفوقها.

كود Mamba والنماذج المدربة مسبقًا متاحة بشكل مفتوح للاستخدام المجتمعي على GitHub جيثب:.

تعتبر مهام النسخ القياسية بسيطة بالنسبة للنماذج الخطية. تتطلب رؤوس النسخ والتحريض الانتقائية ذاكرة ديناميكية واعية للمحتوى لمدارس LLM.

ظهرت نماذج مساحة الحالة المنظمة (S4) مؤخرًا كفئة واعدة من نماذج التسلسل، والتي تشمل سمات من شبكات RNN وشبكات CNN ونماذج مساحة الحالة الكلاسيكية. تستمد نماذج S4 الإلهام من الأنظمة المستمرة، وتحديدًا نوع النظام الذي يعين وظائف أو تسلسلات أحادية البعد من خلال حالة كامنة ضمنية. وفي سياق التعلم العميق، فإنها تمثل ابتكارًا مهمًا، حيث توفر منهجية جديدة لتصميم نماذج التسلسل التي تتسم بالكفاءة وقابلة للتكيف بدرجة كبيرة.

ديناميكيات نماذج S4

إس إس إم (S4) هذا هو النموذج الفضائي الأساسي للحالة المنظمة. يستغرق تسلسلا x وينتج الإخراج y باستخدام المعلمات المستفادة A, B, Cومعلمة تأخير Δ. يتضمن التحويل فصل المعلمات (تحويل الوظائف المستمرة إلى وظائف منفصلة) وتطبيق عملية SSM، التي لا تتغير بمرور الوقت - مما يعني أنها لا تتغير عبر خطوات زمنية مختلفة.

أهمية التمييز

يعد التمييز عملية رئيسية تعمل على تحويل المعلمات المستمرة إلى معلمات منفصلة من خلال صيغ ثابتة، مما يتيح لنماذج S4 الحفاظ على الاتصال بأنظمة الوقت المستمر. وهذا يمنح النماذج خصائص إضافية، مثل ثبات الدقة، ويضمن التطبيع المناسب، مما يعزز استقرار النموذج وأدائه. يرسم التمييز أيضًا أوجه تشابه مع آليات البوابات الموجودة في شبكات RNN، والتي تعتبر ضرورية لإدارة تدفق المعلومات عبر الشبكة.

ثبات الزمن الخطي (LTI)

الميزة الأساسية لنماذج S4 هي ثباتها الزمني الخطي. تشير هذه الخاصية إلى أن ديناميكيات النموذج تظل ثابتة مع مرور الوقت، مع تحديد المعلمات لجميع الخطوات الزمنية. LTI هو حجر الزاوية في التكرار والالتفافات، ويقدم إطارًا مبسطًا ولكنه قويًا لبناء نماذج التسلسل.

التغلب على القيود الأساسية

لقد كان إطار عمل S4 محدودًا تقليديًا بسبب طبيعة LTI الخاصة به، مما يشكل تحديات في نمذجة البيانات التي تتطلب ديناميكيات تكيفية. تقدم الورقة البحثية الحديثة نهجًا يتغلب على هذه القيود من خلال إدخال معلمات متغيرة بمرور الوقت، وبالتالي إزالة قيود LTI. وهذا يسمح لنماذج S4 بالتعامل مع مجموعة أكثر تنوعًا من التسلسلات والمهام، مما يزيد من إمكانية تطبيقها بشكل كبير.

يغطي مصطلح "نموذج مساحة الحالة" على نطاق واسع أي عملية متكررة تنطوي على حالة كامنة، وقد تم استخدامه لوصف مفاهيم مختلفة عبر تخصصات متعددة. في سياق التعلم العميق، تشير نماذج S4، أو نماذج SSM المنظمة، إلى فئة محددة من النماذج التي تم تحسينها لإجراء عمليات حسابية فعالة مع الاحتفاظ بالقدرة على تصميم تسلسلات معقدة.

يمكن دمج نماذج S4 في بنيات الشبكات العصبية الشاملة، وتعمل كتحويلات تسلسلية مستقلة. يمكن النظر إليها على أنها مماثلة للطبقات الملتوية في شبكات CNN، مما يوفر العمود الفقري لنمذجة التسلسل في مجموعة متنوعة من بنيات الشبكات العصبية.

SSM مقابل SSM + التحديد

الدافع للانتقائية في نمذجة التسلسل

أجهزة SSM المنظمة

تجادل الورقة بأن أحد الجوانب الأساسية لنمذجة التسلسل هو ضغط السياق إلى حالة يمكن التحكم فيها. توفر النماذج التي يمكنها التركيز بشكل انتقائي على المدخلات أو تصفيتها وسيلة أكثر فعالية للحفاظ على هذه الحالة المضغوطة، مما يؤدي إلى نماذج تسلسل أكثر كفاءة وقوة. تعد هذه الانتقائية أمرًا حيويًا للنماذج للتحكم بشكل تكيفي في كيفية تدفق المعلومات على طول بُعد التسلسل، وهي قدرة أساسية للتعامل مع المهام المعقدة في نمذجة اللغة وما بعدها.

تعمل نماذج SSM الانتقائية على تحسين نماذج SSM التقليدية من خلال السماح لمعلماتها بالاعتماد على المدخلات، مما يقدم درجة من القدرة على التكيف لم يكن من الممكن تحقيقها سابقًا مع النماذج الثابتة بمرور الوقت. وينتج عن ذلك نماذج SSM متغيرة بمرور الوقت، والتي لم يعد بإمكانها استخدام التلافيف لإجراء عمليات حسابية فعالة، ولكنها تعتمد بدلاً من ذلك على آلية التكرار الخطي، وهو انحراف كبير عن النماذج التقليدية.

SSM + التحديد (S6) يتضمن هذا المتغير آلية اختيار، مما يضيف الاعتماد على المدخلات إلى المعلمات B و Cومعلمة تأخير Δ. يسمح هذا للنموذج بالتركيز بشكل انتقائي على أجزاء معينة من تسلسل الإدخال x. يتم تقسيم المعلمات مع الأخذ في الاعتبار الاختيار، ويتم تطبيق عملية SSM بطريقة متغيرة بمرور الوقت باستخدام عملية المسح، التي تعالج العناصر بالتسلسل، وضبط التركيز ديناميكيًا بمرور الوقت.

أبرز أداء مامبا

مامبا هي الأفضل في فئتها في كل نتيجة تقييم

فيما يتعلق بالأداء، تتفوق مامبا في سرعة الاستدلال والدقة. يتيح تصميمه استخدامًا أفضل للسياقات الأطول، وهو ما يظهر في كل من نمذجة الحمض النووي والنمذجة الصوتية، ويتفوق على النماذج السابقة في المهام المعقدة التي تتطلب تبعيات طويلة المدى. ويتم أيضًا تسليط الضوء على تعدد استخداماته في التقييمات الصفرية عبر مهام متعددة، مما يضع معيارًا جديدًا لمثل هذه النماذج من حيث الكفاءة وقابلية التوسع.

البدء مع مامبا

بالنسبة لأولئك المهتمين بالاستفادة من Mamba، تتضمن المتطلبات الفنية نظام التشغيل Linux، ووحدة معالجة الرسومات NVIDIA، وPyTorch 1.12+، وCUDA 11.6+. يتضمن التثبيت أوامر بسيطة لتثبيت الحزم الضرورية من ملف مستودع مامبا. إذا ظهرت مشكلات توافق مع إصدارات PyTorch، فإن استخدام علامة –no-build-isolation مع النقطة يمكن أن يساعد. تم تصميم هذه النماذج، التي تم تدريبها على مجموعات بيانات واسعة النطاق مثل مجموعة بيانات Pile وSlimPajama، لتلبية الاحتياجات الحسابية المختلفة ومعايير الأداء.

تقدم Mamba مستويات مختلفة من الواجهات، بدءًا من طبقة SSM الانتقائية وحتى كتلة Mamba وهياكل نماذج اللغة الكاملة. تستخدم كتلة Mamba، وهي الوحدة الأساسية للهندسة المعمارية، طبقة Conv1d سببية ويمكن دمجها بسهولة في تصميمات الشبكات العصبية. يوضح مثال الاستخدام المقدم في Python إنشاء نموذج Mamba ومعالجة البيانات من خلاله، مما يسلط الضوء على بساطة النظام ومرونته.

تتوفر نماذج Mamba المُدربة مسبقًا على وجه يعانق، بأحجام تتراوح من 130 مليونًا إلى 2.8 مليار معلمة، تم تدريبها على مجموعة بيانات Pile الشاملة ومجموعة بيانات SlimPajama. تم تصميم هذه النماذج لتلبية المتطلبات الحسابية والأداء المتنوعة، مع الالتزام بمعايير الأبعاد لـ GPT-3. يمكن للمستخدمين أن يتوقعوا إنتاجية ودقة عالية من هذه النماذج، مما يجعل Mamba خيارًا تنافسيًا لمختلف التطبيقات، بما في ذلك على سبيل المثال لا الحصر، نمذجة اللغة.

تأثير مامبا

يمثل Mamba قفزة للأمام في نمذجة التسلسل، حيث يقدم بديلاً قويًا لبنيات Transformer لمعالجة البيانات كثيفة المعلومات. ويتوافق تصميمه مع متطلبات الأجهزة الحديثة، مما يعمل على تحسين استخدام الذاكرة وقدرات المعالجة المتوازية. إن توفر المصدر المفتوح لقاعدة بيانات Mamba ونماذجها المدربة مسبقًا يجعلها أداة قوية ويمكن الوصول إليها للباحثين والمطورين في مجال الذكاء الاصطناعي والتعلم العميق.

HierSpeech++: الاستدلال المتغير الهرمي لتوليف الكلام الصفري

لا تفوت

أبرز النقاط والمساهمات من NeurIPS 2023

عيوش ميتال

لقد أمضيت السنوات الخمس الماضية منغمسًا في عالم رائع من التعلم الآلي والتعلم العميق. قادني شغفي وخبرتي إلى المساهمة في أكثر من 50 مشروعًا متنوعًا لهندسة البرمجيات ، مع التركيز بشكل خاص على الذكاء الاصطناعي / التعلم الآلي. جذبني فضولي المستمر أيضًا نحو معالجة اللغة الطبيعية ، وهو مجال أتوق لاستكشافه بشكل أكبر.