اتصل بنا للحصول على مزيد من المعلومات

الذكاء الاصطناعي

MambaOut: هل نحتاج حقًا إلى مامبا للرؤية؟

mm

تم النشر

 on

في أطر التعلم الآلي والذكاء الاصطناعي الحديثة، تعد المحولات واحدة من المكونات الأكثر استخدامًا على نطاق واسع عبر مجالات مختلفة بما في ذلك سلسلة GPT، وBERT في معالجة اللغات الطبيعية، ومحولات الرؤية في مهام رؤية الكمبيوتر. على الرغم من أن تضمين المحولات في بنية النموذج يعطي دفعة كبيرة في أداء النموذج، إلا أن وحدة الانتباه في المحولات تتدرج مع طول التسلسل التربيعي، مما يؤدي إلى تحديات حسابية عالية. على مر السنين، استكشفت نماذج مختلفة استراتيجيات مختلفة لمعالجة التحديات الحسابية بما في ذلك أساليب مثل kernelization، وضغط ذاكرة التاريخ، والحد من نطاق خلط الرمز المميز، والنهج ذات الرتبة المنخفضة. في الآونة الأخيرة، حظيت الشبكات العصبية المتكررة، مثل الأساليب التي تتضمن Mamba وRWKV، باهتمام كبير نظرًا لنتائجها الواعدة في النماذج اللغوية الكبيرة. 

مامبا، عائلة من النماذج لديها بنية مع شبكة عصبية متكررة مثل خلاط الرمز المميز لنموذج مساحة الحالة الذي تم تقديمه مؤخرًا لمعالجة التعقيد التربيعي لآليات الانتباه وتم تطبيقه على مهام الرؤية لاحقًا. لقد اكتشف الباحثون بالفعل طرقًا لدمج Mamba وSSM أو State Space Model في مهام التعرف البصري، ويعد Vision Mamba الذي يتضمن Mamba لتطوير نماذج رؤية متناحية شبيهة بـ Vision Transformer مثالًا رائعًا على ذلك. من ناحية أخرى، يتضمن LocalMamba تحيزات استقرائية محلية لتحسين نماذج Mamba المرئية، ويستخدم إطار عمل VMamba نموذج Mamba الأساسي لبناء نماذج هرمية مشابهة لـ ResNet وAlexNet. ومع ذلك، هل إطار عمل Mamba ضروري حقًا لمهام سياق التعرف البصري؟ يُطرح هذا السؤال لأن أداء مجموعة نماذج Mamba لمهام الرؤية كان مخيبًا للآمال حتى الآن عند مقارنته بالنماذج التقليدية القائمة على الاهتمام والنماذج التلافيفية. 

MambaOut هو عمل يحاول التعمق في جوهر إطار عمل Mamba، والإجابة على ما إذا كان Mamba مناسبًا بشكل مثالي للمهام ذات خصائص الانحدار الذاتي والتسلسل الطويل. يفترض إطار عمل MambaOut أن مامبا ليس ضروريًا لمهام الرؤية نظرًا لأن تصنيف الصور لا يتوافق مع خصائص التسلسل الطويل أو خصائص الانحدار الذاتي. على الرغم من أن مهام التجزئة والكشف ليست أيضًا انحدارًا ذاتيًا، إلا أنها تعرض خصائص تسلسل طويل، مما يدفع إطار عمل MambaOut إلى افتراض إمكانات Mamba لهذه المهام. تم إنشاء إطار عمل MambaOut من خلال تكديس كتل Mamba فوق بعضها البعض أثناء إزالة نموذج مساحة الحالة، وهو خلاط الرمز المميز الخاص به. تدعم النتائج التجريبية الفرضية التي طرحها إطار عمل MambaOut نظرًا لأنه قادر على تجاوز جميع نماذج Mamba المرئية في إطار تصنيف الصور ImageNet، مما يشير إلى أن Mamba ليس ضروريًا لمهام الرؤية. ومن ناحية أخرى، بالنسبة لمهام الكشف والتجزئة، فإن إطار عمل MambaOut غير قادر على تكرار الأداء الذي يقدمه نموذج Mamba الحديث، مما يوضح إمكانات عائلة نماذج Mamba للمهام المرئية طويلة التسلسل. 

تهدف هذه المقالة إلى تغطية إطار عمل MambaOut بعمق، ونستكشف الآلية والمنهجية وبنية الإطار بالإضافة إلى مقارنته بأطر العمل الحديثة. اذا هيا بنا نبدأ. 

MambaOut: هل المامبا ضرورية حقًا للرؤية؟

مع التقدم في تطبيقات وقدرات التعلم الآلي، برزت المحولات باعتبارها العمود الفقري السائد لمجموعة من المهام، مما أدى إلى تشغيل النماذج البارزة بما في ذلك محولات الرؤيةوسلسلة نماذج GPT وBERT والمزيد. ومع ذلك، فإن الخلاط المميز للمحول ينطوي على تعقيد تربيعي فيما يتعلق بطول التسلسل، ويطرح تحديات كبيرة للتسلسلات الأطول. لمعالجة هذه المشكلة، تم تقديم العديد من خلاطات الرموز المميزة ذات التعقيد الخطي لطول الرمز مثل Linformer، وLongformer، وPerformer، وDynamic Convolution، وBig Bird. ومع ذلك، في الآونة الأخيرة، اكتسبت النماذج المشابهة للشبكات العصبية المتكررة أهمية كبيرة نظرًا لقدرتها على التدريب المتوازي، وتقديم أداء فعال على تسلسلات أطول. مسترشدين بالأداء الرائع الذي تقدمه النماذج المشابهة لـ RNN، يحاول الباحثون تقديم واستخدام عائلة نماذج Mamba في مهام التعرف البصري نظرًا لأن الخلاط المميز لنماذج Mamba هو نموذج الفضاء المنظم تحت روح الشبكات العصبية المتكررة . ومع ذلك، تشير النتائج التجريبية إلى أن أطر الرؤية القائمة على نموذج الفضاء الحكومي تؤدي أداءً مخيبًا للآمال عبر مهام الرؤية في العالم الحقيقي عند مقارنتها بالنماذج التلافيفية القائمة على الاهتمام والنماذج الحديثة. 

MambaOut هي محاولة للتحقيق في طبيعة الممبة أفعي سامة مجموعة من النماذج، ويلخص أن Mamba مناسب للمهام التي تكون إما ذات انحدار ذاتي أو ذات تسلسل طويل نظرًا لأن نموذج الفضاء الخاص بالحالة يحتوي على آلية RNN متأصلة. ومع ذلك، فإن غالبية مهام الرؤية لا تحتوي على هاتين الخاصيتين، وعلى أساس بعض التجارب، يقترح موقع MambaOut الفرضيتين التاليتين. أولاً، نموذج مساحة الحالة ليس ضروريًا لتصنيف الصور نظرًا لأن مهمة تصنيف الصور لا تتوافق مع خصائص الانحدار الذاتي أو خصائص التسلسل الطويل. ثانيًا، قد تكون نماذج الفضاء الحالة مفيدة من الناحية النظرية على سبيل المثال التجزئة والتجزئة الدلالية جنبًا إلى جنب مع اكتشاف الكائن، لأنها تتبع خصائص التسلسل الطويل على الرغم من أنها ليست انحدارًا ذاتيًا. خلصت النتائج التجريبية التي أجريت لتحليل الشبكة العصبية المتكررة مثل آلية نموذج الفضاء الحكومي إلى أن إطار عمل مامبا مناسب للمهام ذات خصائص الانحدار الذاتي أو التسلسل الطويل، وغير ضروري لمهام تصنيف الصور. فيما يتعلق بإطار عمل MambaOut نفسه، فهو عبارة عن سلسلة من نماذج Mamba تعتمد على كتل الشبكة العصبية التلافيفية المسورة بدون نموذج مساحة الحالة، وتشير النتائج التجريبية إلى أن إطار عمل MambaOut قادر على التفوق على نماذج Mamba في مهام تصنيف الصور، لكنه يفشل في التكرار الأداء في الكشف عن الصور ومهام التجزئة. 

ما هي المهام التي تناسبها مامبا؟

خلاط الرمز المميز لإطار عمل Mamba هو نموذج مساحة حالة انتقائية يحدد أربعة معلمات تعتمد على الإدخال. الخاصية المتكررة للإطار تميز نماذج الفضاء الحكومية المشابهة لـ RNN عن الاهتمام السببي. يمكن النظر إلى الحالة المخفية على أنها ذاكرة ذات حجم ثابت تقوم بتخزين المعلومات التاريخية. الحجم الثابت يعني أن الذاكرة مفقودة، ولكنه يضمن أيضًا بقاء التعقيد الحسابي لدمج الذاكرة مع الإدخال الحالي ثابتًا. على العكس من ذلك، تقوم طبقات الاهتمام السببية بتخزين جميع المفاتيح والقيم من الرموز المميزة السابقة، وتتوسع عن طريق إضافة مفتاح وقيمة الرمز المميز الحالي مع كل إدخال جديد، وهذه الذاكرة غير قابلة للفقدان، من الناحية النظرية. ومع ذلك، فإن حجم الذاكرة ينمو مع إدخال المزيد من الرموز، مما يزيد من تعقيد دمج الذاكرة مع الإدخال الحالي. يتم توضيح الفرق بين آليات الذاكرة بين الاهتمام السببي والنماذج المشابهة لـ RNN في الشكل التالي. 

نظرًا لأن ذاكرة نموذج الفضاء الخاص بالحالة ضايعة بطبيعتها، فإنها لا ترقى إلى مستوى الذاكرة غير المفقودة للانتباه السببي، ونتيجة لذلك، نماذج مامبا لا يمكن أن يظهر قوته في التعامل مع التسلسلات القصيرة، وهي المنطقة التي تؤدي فيها آلية الانتباه السببي أداءً جيدًا بسهولة. ومع ذلك، في السيناريوهات التي تتضمن تسلسلات طويلة، يتعثر نهج الاهتمام السببي بسبب التعقيد التربيعي. في هذا السيناريو، يعرض إطار عمل Mamba كفاءته في دمج الذاكرة مع المدخلات الحالية، وهو قادر على التعامل مع التسلسلات الطويلة بسلاسة، مما يشير إلى أن عائلة نماذج Mamba مناسبة تمامًا لمعالجة التسلسلات الطويلة. 

ومن الجدير بالذكر أيضًا أنه من ناحية، حيث تسمح الطبيعة المتكررة لنموذج مساحة الحالة لنماذج مامبا بالتعامل بكفاءة مع التسلسلات الطويلة، فإنها تقدم قيودًا معينة حيث يمكنها الوصول إلى المعلومات فقط من الخطوات الزمنية الحالية والسابقة، وهذا النوع من ويسمى خلط الرموز بالوضع السببي، وهو موضح في الشكل التالي. نظرًا لطبيعتها السببية، فإن هذه الطريقة مناسبة مهام توليد الانحدار الذاتي

يعد الوضع المرئي بالكامل مناسبًا لفهم المهام حيث يمكن للنموذج الوصول إلى جميع المدخلات مرة واحدة. علاوة على ذلك، يكون الانتباه في الوضع المرئي بالكامل افتراضيًا، ويمكن تحويله إلى الوضع السببي بسهولة عن طريق تطبيق الأقنعة السببية على خرائط الانتباه، وتعمل النماذج المشابهة لـ RNN بطبيعتها في الوضع السببي نظرًا لخصائصها المتكررة. لتلخيص الأمور، فإن إطار عمل Mamba مناسب للمهام التي تتضمن إما معالجة تسلسلات طويلة، أو المهام التي تتطلب وضع خلط رمزي سببي.

مهام التعرف البصري، ورمز خلط الرموز السببية، والتسلسلات الكبيرة جدًا

كما تمت مناقشته سابقًا، يسمح وضع خلط الرمز المميز المرئي بالكامل بنطاق خلط غير مقيد بينما يحد الوضع السببي من الرمز المميز الحالي للوصول فقط إلى المعلومات من الرموز المميزة السابقة. علاوة على ذلك، يتم تصنيف التعرف البصري على أنه مهمة فهم حيث يمكن للنموذج رؤية الصورة بأكملها مرة واحدة، وهذا يلغي الحاجة إلى فرض قيود على خلط الرموز المميزة، كما أن فرض قيود إضافية على خلط الرموز المميزة يمكن أن يؤدي إلى انخفاض أداء النموذج بشكل محتمل. بشكل عام، يعد الوضع المرئي بالكامل مناسبًا لفهم المهام، بينما يناسب الوضع غير الرسمي مهام الانحدار التلقائي بشكل أفضل. علاوة على ذلك، يتم دعم هذا الادعاء بشكل أكبر من خلال حقيقة أن نماذج BeRT وViT تستخدم لفهم المهام أكثر من نماذج GPT.

التحقق التجريبي والنتائج

والخطوة التالية هي التحقق من الفرضيات التي اقترحها إطار عمل MambaOut تجريبيًا. كما هو موضح في الصورة التالية، تعتمد كتلة Mamba على كتلة الشبكة العصبية التلافيفية المسورة، ويمكن التعامل مع البنية الفوقية لكتل ​​Mamba وGated CNN على أنها تكامل مبسط لخلاط الرمز المميز لإطار عمل MetaFormer، وMLP . 

تعمل كتلة Mamba على توسيع الشبكة العصبية التلافيفية المسورة بنموذج مساحة حالة إضافي، ووجود SSm هو ما يميز شبكة CNN المسورة وكتلة Mamba. علاوة على ذلك، لتحسين السرعة العملية، يقوم إطار عمل MambaOut بإجراء التفاف عميق فقط على القنوات الجزئية، وكما هو موضح في الخوارزمية التالية، فإن تنفيذ كتلة CNN المبوب بسيط، لكنه فعال وأنيق. 

مهمة تصنيف الصور

تعمل ImageNet كمعيار لمهام تصنيف الصور حيث أنها تتكون من أكثر من ألف فئة شائعة، وأكثر من 1.3 مليون صورة تدريبية، وأكثر من 50,000 صورة للتحقق من الصحة. تتكون زيادة البيانات المستخدمة في التجربة من الاقتصاص العشوائي الذي تم تغيير حجمه، والخلط، وارتعاش اللون، والمسح العشوائي، وCutMix، وRand Augment. يلخص الجدول التالي أداء مجموعة نماذج Mamba، ونموذج MambaOut، والنماذج الأخرى القائمة على الاهتمام والالتفاف في مجموعة بيانات ImageNet. كما هو واضح، يتفوق إطار عمل MambaOut بدون نموذج مساحة الحالة على نماذج Mamba المرئية مع SSM باستمرار عبر جميع أحجام النماذج. 

على سبيل المثال، يقدم نموذج MambaOut-Small درجة دقة من أعلى 1 تزيد عن 84%، أي أعلى بنسبة 0.4% من أقرب منافس له من Mamba. تدعم هذه النتيجة بقوة الفرضية الأولى التي تدعي أنه ليس هناك حاجة إلى تقديم نموذج مساحة الحالة لمهام تصنيف الصور. 

اكتشاف الكائنات ومهام تجزئة المثيلات

يعمل COCO كمعيار لاكتشاف الكائنات ومهام تجزئة المثيلات. على الرغم من أن إطار عمل MambaOut قادر على تجاوز أداء بعض نماذج Mamba المرئية، إلا أنه لا يزال أقل من أحدث نماذج Mamba المرئية بما في ذلك LocalVMamba وVMamba. يؤكد التفاوت في أداء MambaOut مقارنة بأحدث النماذج المرئية على فوائد دمج عائلة نماذج Mamba في المهام البصرية طويلة التسلسل. ومع ذلك، تجدر الإشارة إلى أن فجوة كبيرة في الأداء لا تزال موجودة بين أحدث نماذج الالتواء والانتباه الهجين ونماذج مامبا المرئية. 

افكار اخيرة

في هذه المقالة، ناقشنا مفاهيم عائلة نماذج مامبا، وخلصنا إلى أنها مناسبة للمهام التي تنطوي على خصائص الانحدار الذاتي والتسلسل الطويل. MambaOut هو عمل يحاول التعمق في جوهر إطار عمل Mamba، والإجابة على ما إذا كان Mamba مناسبًا بشكل مثالي للمهام ذات خصائص الانحدار الذاتي والتسلسل الطويل. يفترض إطار عمل MambaOut أن مامبا ليس ضروريًا لمهام الرؤية نظرًا لأن تصنيف الصور لا يتوافق مع خصائص التسلسل الطويل أو خصائص الانحدار الذاتي. على الرغم من أن مهام التجزئة والكشف ليست أيضًا انحدارًا ذاتيًا، إلا أنها تعرض خصائص تسلسل طويل، مما يدفع إطار عمل MambaOut إلى افتراض إمكانات Mamba لهذه المهام. تم إنشاء إطار عمل MambaOut من خلال تكديس كتل Mamba فوق بعضها البعض أثناء إزالة نموذج مساحة الحالة، وهو خلاط الرمز المميز الخاص به. تدعم النتائج التجريبية الفرضية التي طرحها إطار عمل MambaOut نظرًا لأنه قادر على تجاوز جميع نماذج Mamba المرئية في إطار تصنيف الصور ImageNet، مما يشير إلى أن Mamba ليس ضروريًا لمهام الرؤية. ومن ناحية أخرى، بالنسبة لمهام الكشف والتجزئة، فإن إطار عمل MambaOut غير قادر على تكرار الأداء الذي يقدمه نموذج Mamba الحديث، مما يوضح إمكانات عائلة نماذج Mamba للمهام المرئية طويلة التسلسل. 

 

"مهندس بالمهنة كاتب عن ظهر قلب". كونال كاتب تقني لديه حب وفهم عميقان للذكاء الاصطناعي والتعلم الآلي ، مكرس لتبسيط المفاهيم المعقدة في هذه المجالات من خلال وثائقه الجذابة والغنية بالمعلومات.