الذكاء الاصطناعي
MambaOut: هل هناك حاجة حقيقية لاستخدام Mamba في الرؤية؟
في الإطارات الحديثة للتعلم الآلي والذكاء الاصطناعي، تعتبر المُحَوِّلات واحدة من المكونات الأكثر استخدامًا على نطاق واسع عبر مختلف المجالات، بما في ذلك سلسلة GPT و BERT في معالجة اللغة الطبيعية، و Vision Transformers في مهام الرؤية. على الرغم من أن تضمين المُحَوِّلات في هيكل النموذج يعطي دفعة كبيرة في أداء النموذج، فإن وحدة الانتباه في المُحَوِّلات تتغير مع طول التسلسل بشكل مربع، مما يؤدي إلى تحديات حسابية كبيرة. على مدار السنوات، استكشفت نماذج مختلفة استراتيجيات مختلفة لمواجهة التحديات الحسابية، بما في ذلك أساليب مثل الكيرنيليزيشن، ضغط الذاكرة التاريخية، تقييد نطاق الخلط العرضي، والمناهج منخفضة الرتبة. في الآونة الأخيرة، اجتذبت الشبكات العصبية المتكررة مثل المamba و RWKV انتباهًا كبيرًا بفضل نتائجها الواعدة في نماذج اللغة الكبيرة.
تتميز عائلة نماذج Mamba بهيكل يضم مُخَلِّط العُقد المتكرر لنموذج الفضاء الحالة، والذي تم تقديمه مؤخرًا لمواجهة التعقيدات التربيعية لأليات الانتباه، وتم تطبيقه لاحقًا على مهام الرؤية. وقد استكشفت الباحثون بالفعل طرقًا لدمج Mamba ونموذج الفضاء الحالة في مهام التعرف على الرؤية، ونموذج Vision Mamba الذي يدمج Mamba لإنشاء نماذج رؤية متساوية مثل Vision Transformer هو مثال رائع على ذلك. من ناحية أخرى، يدمج LocalMamba التحيزات الاستقرائية المحلية لتحسين نماذج Mamba البصرية، ويتضمن إطار VMamba استخدام نموذج Mamba الأساسي لإنشاء نماذج هرمية مشابهة ل ResNet و AlexNet. ومع ذلك، هل إطار Mamba ضروري حقًا لمهام السياق البصري؟ يطرح هذا السؤال لأن أداء عائلة نماذج Mamba في مهام الرؤية كان مخيباً للآمال حتى الآن عند مقارنته بالنماذج التقليدية القائمة على الانتباه والتحويلات.
يحاول إطار MambaOut الإجابة على вопрос ما إذا كان Mamba مناسبًا بشكل مثالي لمهام ذات خصائص متسلسلة طويلة ومتكررة. يفترض إطار MambaOut أن Mamba غير ضروري لمهام الرؤية لأن تصنيف الصور لا يتوافق مع الخصائص المتسلسلة الطويلة أو المتكررة. على الرغم من أن مهام الكشف والتقسيم ليست متكررة، إلا أنها تظهر خصائص متسلسلة طويلة، مما يؤدي إلى افتراض إطار MambaOut إمكانية Mamba لهذه المهام. يتم بناء إطار MambaOut عن طريق تكرار كتل Mamba فوق بعضها البعض مع إزالة نموذج الفضاء الحالة، وهو مُخَلِّط العُقد الأساسي. تدعم النتائج التجريبية الفرضية المقدمة من إطار MambaOut، حيث يتمكن من تجاوز جميع نماذج Mamba البصرية على إطار تصنيف الصور ImageNet، مما يشير إلى أن Mamba غير ضروري لمهام الرؤية. من ناحية أخرى، يظهر إطار MambaOut عدم القدرة على تكرار الأداء المقدم من نموذج Mamba المتقدم في مهام الكشف والتقسيم، مما يبرز إمكانية عائلة نماذج Mamba في مهام الرؤية المتسلسلة الطويلة.
يهدف هذا المقال إلى تغطية إطار MambaOut بالتفصيل، ونستكشف آليته وطريقة عمله وهيكله بالإضافة إلى مقارنته مع الإطارات المتقدمة. لذا دعونا نبدأ.
MambaOut: هل هناك حاجة حقيقية لاستخدام Mamba في الرؤية؟
مع تقدم تطبيقات التعلم الآلي وقدراته، ظهرت المُحَوِّلات كالعمود الفقري الرئيسي لمجموعة من المهام، حيث تقوم بتزويد نماذج بارزة بما في ذلك Vision Transformers، سلسلة GPT، BERT، وغيرها. ومع ذلك، فإن مُخَلِّط العُقد في المُحَوِّل يُحدث تعقيدًا تربيعيًا بالنسبة لطول التسلسل، مما يطرح تحديات حسابية كبيرة. لمواجهة هذه القضية، تم تقديم مُخَلِّطات عُقد خطية مثل Linformer، Longformer، Performer، Dynamic Convolution، و Big Bird. ومع ذلك، في الآونة الأخيرة، تكتسب نماذج الشبكات العصبية المتكررة مثل Mamba و RWKV أهمية كبيرة بفضل أدائها المpromising في نماذج اللغة الكبيرة. وتوجّه الباحثون، بفضل الأداء المبهر الذي تقدمه نماذج الشبكات العصبية المتكررة، إلى إدخال واستخدام عائلة نماذج Mamba في مهام التعرف على الرؤية، حيث يُعتبر مُخَلِّط العُقد في نماذج Mamba نموذجًا للفضاء الحالة تحت روح الشبكات العصبية المتكررة.
MambaOut هو محاولة لاستقصاء طبيعة عائلة نماذج Mamba، ويلخص أن Mamba مناسب لمهام تتميز بالتسلسلات الطويلة أو المتكررة، حيث يُعتبر نموذج الفضاء الحالة ذا آلية متكررة. ومع ذلك، لا تتميز معظم مهام الرؤية بهذه الخصائص، ووفقًا لبعض التجارب، يقترح إطار MambaOut الفرضيتين التاليتين. أولًا، لا يُعتبر نموذج الفضاء الحالة ضروريًا لتصنيف الصور لأن مهمة تصنيف الصور لا تتوافق مع الخصائص المتسلسلة الطويلة أو المتكررة. ثانيًا، قد يكون نموذج الفضاء الحالة مفيدًا نظريًا لمهام التقسيم والكشف، حيث تظهر هذه المهام خصائصًا متسلسلة طويلة، على الرغم من أنها ليست متكررة. تدعم النتائج التجريبية التي أجريت لتحليل آليات الشبكات العصبية المتكررة في نموذج الفضاء الحالة أن إطار Mamba مناسب لمهام تتميز بالتسلسلات الطويلة أو المتكررة، وأنه غير ضروري لتصنيف الصور. وبالنسبة لإطار MambaOut نفسه، فهو عبارة عن سلسلة من نماذج Mamba مبنية على كتل الشبكات العصبية المتكررة بدون نموذج الفضاء الحالة، وتبين النتائج التجريبية أن إطار MambaOut قادر على تجاوز نماذج Mamba البصرية في مهام تصنيف الصور، لكنه يفشل في تكرار الأداء على مهام الكشف والتقسيم.
ما المهام التي تتوافق مع Mamba؟
يتميز مُخَلِّط العُقد في إطار Mamba بوجود نموذج الفضاء الحالة الانتقائي الذي يحدد أربعة معاملات معتمدة على الإدخال. تتميز الخاصية المتكررة في الإطار بتمييز نماذج الشبكات العصبية المتكررة عن الانتباه العشوائي. يمكن اعتبار الحالة الخفية كذاكرة حجمها ثابت، وتخزين المعلومات التاريخية. يعني الحجم الثابت أن الذاكرة خاسرة، لكنه يضمن أيضًا أن تعقيدات دمج الذاكرة مع الإدخال الحالي تظل ثابتة. من ناحية أخرى، تحتفظ طبقات الانتباه بالكل والقيم من الرموز السابقة، وتتوسع بإضافة المفتاح والقيمة للرمز الحالي مع كل إدخال جديد، ويتسم هذا النوع من الذاكرة بالخسارة الصفرية نظريًا. ومع ذلك، تزداد حجم الذاكرة مع إدخال المزيد من الرموز، مما يزيد من تعقيدات دمج الذاكرة مع الإدخال الحالي. تُظهر الصورة التالية الفرق بين آليات الذاكرة بين الانتباه والنموذج المتكرر.

نظرًا لأن ذاكرة نموذج الفضاء الحالة خاسرة بشكل固 hữu، فإنها تفتقر إلى الذاكرة الخاسرة الصفرية للانتباه، ونتيجة لذلك، لا يمكن لنماذج Mamba أن تبرز قوتها في التعامل مع التسلسلات القصيرة، وهو مجال يؤدي فيه آلية الانتباه بسهولة. ومع ذلك، في السيناريوهات التي تتضمن تسلسلات طويلة، يتعثر подход الانتباه بسبب التعقيدات التربيعية. في هذا السيناريو، يظهر إطار Mamba كفاءته في دمج الذاكرة مع الإدخال الحالي، ويتسم بالقدرة على التعامل مع التسلسلات الطويلة بسهولة، مما يشير إلى أن عائلة نماذج Mamba تتوافق جيدًا مع معالجة التسلسلات الطويلة.
كما أنه من الجدير بالذكر أن طبيعة الإطار المتكرر لنموذج الفضاء الحالة يسمح لنماذج Mamba بتعامل فعال مع التسلسلات الطويلة، ولكنه يُحدث تحديدًا معينًا، حيث يمكنه الوصول إلى المعلومات فقط من الوقت الحالي والسابق، ويُطلق على هذا النوع من الخلط العرضي اسم الوضع المتكرر، ويوضح الشكل التالي ذلك. بسبب طبيعته المتكررة، يُعتبر هذا الأسلوب مناسبًا لمهام التوليد التكرري.

يُعتبر الوضع الكامل مناسبًا لمهام الفهم حيث يمكن للنموذج الوصول إلى جميع الإدخالات في نفس الوقت. بالإضافة إلى ذلك، يُعتبر الانتباه في الوضع الكامل بشكل افتراضي، ويمكن تحويله إلى الوضع المتكرر بسهولة عن طريق تطبيق أقنعة الانتباه على خرائط الانتباه، وتنفذ نماذج الشبكات العصبية المتكررة بشكل متكرر بسبب خصائصها المتكررة. لتلخيص الأمور، يُعتبر إطار Mamba مناسبًا لمهام تتميز بالتسلسلات الطويلة أو تتطلب وضع خلط عرضي متكرر.
مهام التعرف على الرؤية، وخلط العُقد المتكرر، والتسلسلات الكبيرة جدًا
كما تمت مناقشته فيما سبق، يسمح وضع الخلط العرضي الكامل بمدى غير مقيد من الخلط، بينما يُحدد الوضع المتكرر الرمز الحالي بالوصول إلى المعلومات فقط من الرموز السابقة. بالإضافة إلى ذلك، يُعتبر التعرف على الرؤية من المهام الفهمية حيث يمكن للنموذج رؤية الصورة بأكملها في نفس الوقت، مما يلغي الحاجة إلى تقييدات على خلط العُقد، ويمكن أن يؤدي فرض قيود إضافية على خلط العُقد إلى تدهور أداء النموذج محتملًا. بشكل عام، يُعتبر الوضع الكامل مناسبًا لمهام الفهم، بينما يُعتبر الوضع المتكرر مناسبًا لمهام التوليد التكرري بشكل أفضل. ويُؤيد هذا الادعاء حقيقة أن نماذج BeRT و ViT تُستخدم بشكل أكبر لمهام الفهم أكثر من نماذج GPT.
التأكيد التجريبي والنتائج
الخطوة التالية هي التحقق من الفرضيات المقترحة من إطار MambaOut تجريبيًا. كما هو موضح في الصورة التالية، يعتمد كتلة Mamba على كتلة الشبكة العصبية المتكررة المُحوسبة، ويمكن اعتبار الهيكل الأعلى لكتلي Mamba والشبكة العصبية المتكررة المُحوسبة كتكامل مبسط لمُخَلِّط العُقد في إطار MetaFormer ووحدة الخطية المتعددة.

توسع كتلة Mamba كتلة الشبكة العصبية المتكررة المُحوسبة بإضافة نموذج الفضاء الحالة، ويتسم وجود نموذج الفضاء الحالة بتمييز كتلة الشبكة العصبية المتكررة المُحوسبة وكتلة Mamba. بالإضافة إلى ذلك، لتحسين السرعة العملية، يقوم إطار MambaOut بتنفيذ فقط التمويج العميق على القنوات الجزئية، كما هو موضح في الخوارزمية التالية، ويتسم تنفيذ كتلة الشبكة العصبية المتكررة المُحوسبة بالبساطة والفعالية.

مهمة تصنيف الصور
يُعتبر إطار ImageNet معيارًا لتصنيف الصور، حيث يتكون من أكثر من ألف فئة شائعة، وأكثر من 1.3 مليون صورة تدريبية، وأكثر من 50 ألف صورة للتحقق. يتضمن تعزيز البيانات المستخدمة في التجربة تقطيع الصور عشوائيًا، ومزيج الصور، وتغيير الألوان، ومسح الصور عشوائيًا، وتمزيق الصور، وتعزيز الصور عشوائيًا. يلخص الجدول التالي أداء عائلة نماذج Mamba، ونموذج MambaOut، والنماذج القائمة على الانتباه والتحويلات على مجموعة بيانات ImageNet. كما هو واضح، يتجاوز إطار MambaOut بدون نموذج الفضاء الحالة نماذج Mamba البصرية بشكل متسق عبر جميع أحجام النماذج.

على سبيل المثال، يُرجع نموذج MambaOut-Small نسبة دقة تصل إلى أكثر من 84٪، وهي أعلى بنسبة 0.4٪ من منافسه المباشر من نماذج Mamba. يدعم هذا النتيجة الفرضية الأولى التي تُفترض أن إدخال نموذج الفضاء الحالة لمهام تصنيف الصور غير ضروري.
مهام الكشف والتقسيم
يُعتبر إطار COCO معيارًا لمهام الكشف والتقسيم. على الرغم من أن إطار MambaOut يمكنه تجاوز أداء بعض نماذج Mamba البصرية، إلا أنه لا يزال يفتقر إلى أداء النماذج البصرية المتقدمة مثل LocalVMamba و VMamba. يُظهر هذا الاختلاف في الأداء بين إطار MambaOut ونموذج Mamba البصري المتقدم الفوائد المحتملة لدمج عائلة نماذج Mamba في مهام الرؤية المتسلسلة الطويلة. ومع ذلك، يُلاحظ أن هناك فجوة كبيرة في الأداء بين النماذج البصرية المتقدمة القائمة على الانتباه والتحويلات ونموذج Mamba البصري.

الآراء النهائية
تُعتبر عائلة نماذج Mamba مناسبة لمهام تتميز بالتسلسلات الطويلة أو المتكررة. يُفترض أن إطار MambaOut أن Mamba غير ضروري لمهام الرؤية لأن تصنيف الصور لا يتوافق مع الخصائص المتسلسلة الطويلة أو المتكررة. على الرغم من أن مهام التقسيم والكشف ليست متكررة، إلا أنها تظهر خصائص متسلسلة طويلة، مما يؤدي إلى افتراض إطار MambaOut إمكانية Mamba لهذه المهام. يتم بناء إطار MambaOut عن طريق تكرار كتل Mamba فوق بعضها البعض مع إزالة نموذج الفضاء الحالة، وهو مُخَلِّط العُقد الأساسي. تدعم النتائج التجريبية الفرضية المقدمة من إطار MambaOut، حيث يتمكن من تجاوز جميع نماذج Mamba البصرية على إطار تصنيف الصور ImageNet، مما يشير إلى أن Mamba غير ضروري لمهام الرؤية. من ناحية أخرى، يُظهر إطار MambaOut عدم القدرة على تكرار الأداء المقدم من نموذج Mamba المتقدم في مهام الكشف والتقسيم، مما يبرز إمكانية عائلة نماذج Mamba في مهام الرؤية المتسلسلة الطويلة.












