الذكاء الاصطناعي
MoE-LLaVA: مزيج من الخبراء لنماذج لغة الرؤية الكبيرة
أظهرت التطورات الحديثة في نماذج لغة الرؤية الكبيرة (LVLMs) أن توسيع نطاق هذه الأطر يُحسّن الأداء بشكل ملحوظ في مجموعة متنوعة من المهام اللاحقة. وقد حققت نماذج LVLM، بما في ذلك MiniGPT وLLaMA وغيرها، قدراتٍ مذهلة من خلال دمج طبقات الإسقاط البصري ومُشفّر الصور في بنيتها. ومن خلال تطبيق هذه المكونات، تُحسّن نماذج LVLM قدرات الإدراك البصري لنماذج لغة الرؤية الكبيرة (LLMs). ويمكن تحسين الأداء بشكل أكبر من خلال زيادة حجم النموذج وعدد معلماته، بالإضافة إلى توسيع نطاق مجموعة البيانات.
قامت نماذج مثل InternVL بتوسيع برنامج تشفير الصور الخاص بها إلى أكثر من 6 مليار معلمة، بينما قامت نماذج أخرى بتوسيع الواجهة الخلفية لـ LVLM إلى 13 مليار معلمة، مما حقق أداءً فائقًا في مجموعة واسعة من المهام. قامت IDEFICS بتدريب LVLM بأكثر من 80 مليار معلمة. لقد تطابقت طرق القياس هذه أو تجاوزت أداء LLMs المدربة مسبقًا على أكثر من 34 أو 70 أو حتى 100 مليار معلمة. ومع ذلك، فإن التوسع له جانب سلبي: فهو يزيد بشكل كبير من تكاليف التدريب والاستدلال. وذلك لأنه يتطلب أن تكون جميع المعلمات نشطة لكل رمز مميز في الحساب، مما يؤدي إلى احتياجات حسابية عالية، وبالتالي ارتفاع التكاليف.
تتناول هذه المقالة MoE-LLaVA، وهي بنية LVLM متفرقة قائمة على مزيج من الخبراء (MoE) تستخدم استراتيجية تدريب فعالة، MoE-Tuning، لـ LVLMs. يعالج برنامج MoE-Tuning بشكل مبتكر تدهور الأداء في التعلم المتفرق متعدد الوسائط، مما يؤدي إلى نموذج يحتوي على عدد كبير من المعلمات ولكن تكاليف التدريب والاستدلال متسقة. تم تصميم بنية MoE-LLaVA لتنشيط الخبراء المتميزين فقط أثناء النشر، مع إبقاء الباقي غير نشط.
سوف نستكشف إطار عمل MoE-LLaVA، ونفحص آليته ومنهجيته وبنيته وكيفية مقارنته بأطر إنشاء الصور والفيديو الرائدة.
MoE-LLaVA: توسيع نطاق نماذج لغة الرؤية الكبيرة بتكلفة معقولة
بالإضافة إلى الاستفادة من طبقات العرض المرئي وأجهزة تشفير الصور، تعمل نماذج لغة الرؤية الكبيرة أيضًا على زيادة حجم النموذج عن طريق زيادة عدد المعلمات لتحسين أداء النموذج. بعض الأمثلة البارزة لنماذج لغة الرؤية الكبيرة التي اتبعت هذا النهج لتحسين أدائها هي MiniGPT-4، وInternGPT، وInternVL، وغيرها. في تطبيقات العالم الحقيقي، غالبًا ما يصبح توسيع نطاق نموذج لغة كبير أو نموذج لغة رؤية كبير باستخدام بيانات تدريب عالية الجودة أمرًا ضروريًا لتحسين أداء النموذج. على الرغم من أن توسيع حجم النموذج يؤدي إلى تحسين الأداء، إلا أنه يزيد أيضًا من التكاليف الحسابية للتدريب ونشر النموذج، ويزيد من تعقيدات وكفاءة نشر النموذج على الأجهزة المتوازية في وقت واحد. أحد الأسباب الرئيسية وراء زيادة تكاليف التدريب والاستدلال إلى جانب المتطلبات الحسابية هو أن كل رمز مميز في الإطار يتطلب حسابًا مع كل معلمة واحدة داخل النموذج المعروف باسم النموذج الكثيف.
من ناحية أخرى، أظهرت وزارة التعليم أو خليط من النماذج المتخصصة توسيع نطاق فعال للأطر من خلال معالجة البيانات بمساعدة المعلمات النشطة الثابتة، وهو النهج الذي تم اعتماده على نطاق واسع في مجال معالجة اللغات الطبيعية. ومع ذلك، فإن استخدام Mixture of Expert لتدريب نماذج لغة الرؤية الكبيرة المتفرقة بشكل مباشر يمثل تحديًا نظرًا لأن تحويل LLMs إلى LVLMs وتناثر النموذج في نفس الوقت يؤدي إلى تدهور كبير في الأداء. لتنفيذ مزيج من النماذج لتوسيع نطاق LLMs وLVLMs، من الضروري أولاً تهيئة LVLM للتناثر. ولتحقيق ذلك، يقدم إطار MoE-LLaVA MoE-Tuning، وهي استراتيجية تدريب بسيطة وفعالة من ثلاث مراحل.

كما هو موضح في الشكل أعلاه، تقوم عملية ضبط MoE أولاً بتدريب MLP أو Perceptron متعدد الطبقات الذي يكيف الرموز المرئية مع نموذج لغة كبير في المرحلة الأولى. يقوم الإطار بعد ذلك بتدريب معلمات LLM بالكامل لتمكين نموذج لغة الرؤية الكبيرة مسبقًا من خلال قدرات فهم عامة متعددة الوسائط. أخيرًا، في المرحلة الثالثة، يقوم إطار العمل بتكرار شبكة FFN أو شبكة التغذية الأمامية كأوزان التهيئة للخبراء، ويقوم بتدريب خليط طبقات الخبراء فقط. بشكل عام، تساعد عملية التدريب في الانتقال التدريجي للنموذج المتناثر من تهيئة LVLM إلى مزيج متناثر من النماذج المتخصصة.
مع تغطية عملية التدريب، دعونا نسلط بعض الضوء على MoE-LLaVA، وهو خط أساس لنماذج لغة الرؤية الكبيرة مع مزيج من نماذج الخبراء التي تتضمن أجهزة توجيه قابلة للتعلم ونماذج MoE. يتكون نموذج MoE-LLaVA في جوهره من مسارات متفرقة متعددة، ويستخدم إطار العمل هذه المسارات لإرسال كل رمز مميز إلى خبراء مختلفين من خلال جهاز التوجيه القابل للتعلم. تتم بعد ذلك معالجة الرموز المميزة بشكل جماعي بواسطة الخبراء المنشطين مع الحفاظ على صمت المسارات غير النشطة. يقوم إطار العمل بعد ذلك بتكديس طبقات برنامج التشفير Mixture of Expert بشكل متكرر لتوفير مسار متناثر نحو LVLM أكبر وأكثر قوة.

بفضل النهج الذي يطبقه إطار عمل MoE-LLaVA، فهو قادر على التفوق في الأداء على النماذج التي تحتوي على عدد مماثل من المعلمات المنشطة، وتجاوزها بفارق كبير في معيار الهلوسة الكائنية POPE، على الرغم من وجود 2.2 مليار معلمة فقط. علاوة على ذلك، فإن إطار عمل MoE-LLaVA الذي يحتوي على 2.2 مليار معلمة، قادر على تحقيق أداء مماثل لإطار عمل InternVL-Chat-19B مع ما يقرب من 8 أضعاف عدد المعلمات النشطة.
تم تنفيذ نماذج لغة كبيرة قوية تتمتع بإمكانات قوية للتعميم والتعليمات التالية نماذج اللغة ذات الرؤية الكبيرة. قامت برامج LLM المبكرة مثل BLIP بتشفير الإشارات المرئية في سلسلة من الرموز المرئية مما يسمح لها بتكييف الرؤية مع LLMs بنجاح باستخدام طبقات عرض متعددة. وفي الوقت نفسه، تركز الأعمال الأخيرة على تحسين أداء النموذج من خلال تنفيذ أساليب مثل توسيع مجموعة بيانات ضبط التعليمات، وزيادة دقة الصورة، وتحسين استراتيجيات التدريب، ومواءمة المدخلات، وتحسين برامج تشفير الصور، وغير ذلك الكثير. ساعدت هذه الأساليب في تمكين LVLMs من خلال إمكانات فهم بصرية قوية من خلال توسيع مجموعة بيانات الضبط الدقيق للتعليمات المرئية ومقاييس النماذج. علاوة على ذلك، تمتلك بعض أجهزة LVLM أيضًا إمكانات فهم الصور الدقيقة مثل فهم المنطقة ومتعدد المناطق بالإضافة إلى إمكانات التأريض من حيث البكسل. ومع ذلك، فإن التكلفة الحسابية المصاحبة لتوسيع نطاق البيانات والنماذج المرئية الكثيفة غالبًا ما تكون مرتفعة بشكل كبير مما يجعل من الصعب ارتداؤها. من ناحية أخرى، يهدف إطار عمل MoE-LLaVA إلى جعل أبحاث LVLM ميسورة التكلفة من خلال الاستفادة من قدرات نماذج وزارة التعليم.
MoE-LLaVA: الطريقة والهندسة المعمارية
يتكون إطار عمل MoE-LLaVA في جوهره من طبقة عرض مرئية (Multilayer Perceptron)، ومشفر رؤية، وكتل MoE، وكتل LLM متعددة مكدسة، وطبقة تضمين الكلمات.

معمار
يلخص الجدول التالي التكوينات التفصيلية لإطار عمل MoE-LLaVA.

بالنسبة لصورة RGB معينة، يقوم برنامج تشفير الرؤية بمعالجة الصور للحصول على سلسلة من الرموز المرئية مع طبقة عرض مرئية تحدد تسلسل الرموز المرئية لإدخال الصور. تتم معالجة مدخلات النص بواسطة طبقة تضمين الكلمات التي تقوم بعد ذلك بعرضها للحصول على الرموز المميزة للتسلسل. وفي الوقت نفسه، يربط إطار عمل MoE-LLaVA النص والرموز المرئية معًا، ويغذيها إلى LLM. ومع ذلك، يقوم الإطار فقط بتدريب طبقة الإسقاط المرئي باستخدام نموذج اللغة الكبير الذي يتكون من FFN أو الشبكات العصبية Feedforward، وطبقات الانتباه الذاتي متعددة الرؤوس. أخيرًا، يطبق الإطار الاتصالات المتبقية وتطبيع الطبقة على كل كتلة.
من خلال المضي قدمًا، يقوم إطار عمل MoE-LLaVA بتكرار FFN أو الشبكات العصبية Feedforward من المرحلة الثانية لتشكيل مجموعة من الخبراء كخطوة التهيئة. نظرًا لأن جهاز التوجيه عبارة عن طبقة خطية، فإنه يتنبأ باحتمالية تعيين كل رمز مميز لكل خبير. تتم معالجة كل رمز مميز بواسطة خبراء top-k بأقصى احتمال، ويتم حساب المبلغ المرجح بناءً على نتيجة softmax للاحتمالات.
ضبط وزارة التربية
MoE-Tuning عبارة عن استراتيجية تدريب بسيطة وفعالة من ثلاث مراحل تقوم أولاً بتدريب MLP أو Perceptron متعدد الطبقات الذي يكيف الرموز المرئية مع نموذج لغة كبير في المرحلة الأولى. يقوم الإطار بعد ذلك بتدريب معلمات LLM بالكامل لتمكين نموذج لغة الرؤية الكبيرة مسبقًا من خلال قدرات فهم عامة متعددة الوسائط. أخيرًا، في المرحلة الثالثة، يقوم إطار العمل بتكرار شبكة FFN أو شبكة التغذية الأمامية كأوزان التهيئة للخبراء، ويقوم بتدريب خليط طبقات الخبراء فقط.
المرحلة رقم 1
في المرحلة الأولى، الهدف الأساسي هو تكييف رموز الصورة مع نموذج اللغة الكبير الذي يسمح لـ LLM بفهم الأمثلة الموجودة في الصورة. يستخدم إطار عمل MoE-LLaVA إدراكًا متعدد الطبقات لعرض الرموز المميزة للصورة في مجال الإدخال لنموذج اللغة الكبير، ويعامل تصحيحات الصور كرموز نصية زائفة. في هذه المرحلة، يقوم إطار عمل MoE-LLaVA بتدريب LLM على وصف الصور، ولا يطبق طبقات MoE على LLM خلال هذه المرحلة.
المرحلة رقم 2
في المرحلة الثانية، تحاول وزارة التعليم-LLaVA تعزيز قدرات الإطار وإمكانية التحكم فيه من خلال ضبط النموذج ببيانات التعليمات متعددة الوسائط. يحقق إطار عمل MoE-LLaVA ذلك من خلال تعديل LLM ليصبح LVLM يتمتع بقدرات فهم متعددة الوسائط. يستخدم إطار العمل تعليمات أكثر تعقيدًا بما في ذلك التعرف على النص ومهام التفكير المنطقي للصور التي تتطلب أن يمتلك النموذج قدرات أقوى متعددة الوسائط. تقليديًا، تعتبر عملية التدريب على النماذج الكثيفة مكتملة بهذه الخطوة. ومع ذلك، واجه إطار MoE-LLaVA تحديات في تحويل LLM إلى LVLM في وقت واحد مع تناثر LVLM. ولمواجهة هذا التحدي، يستخدم الإطار الأوزان من المرحلة كتهيئة للمرحلة التالية في محاولة للتخفيف من صعوبة التعلم للنموذج المتناثر.
المرحلة رقم 3
في المرحلة الثالثة، يقوم النموذج بتكرار الشبكة العصبية المغذية عدة مرات لتهيئة الخبراء كإجراء تهيئة. يقوم الإطار بعد ذلك بتغذية الرموز المميزة للنص والصور في خليط الطبقات المتخصصة، وبعد ذلك يقوم جهاز التوجيه بحساب الأوزان المطابقة بين الخبراء وكل رمز مميز. تتم بعد ذلك معالجة كل رمز مميز بواسطة خبراء top-k مع حساب الناتج المجمع من خلال الجمع المرجح بناءً على أوزان جهاز التوجيه. بمجرد تنشيط خبراء Top-k، يقوم النموذج بإغلاق الخبراء المتبقين، وهو نهج يزود إطار عمل MoE-LLaVA بمسارات متفرقة محتملة لا حصر لها، وبالتالي يزود النموذج بمجموعة واسعة من القدرات.
MoE-LLaVA: النتائج والتجارب
يعتمد إطار MoE-LLaVA على CLIP-Large باعتباره برنامج تشفير الرؤية مع Perceptron متعدد الطبقات الذي يتكون من طبقتين مع طبقة تنشيط GELU تفصل بين الاثنين. افتراضيًا، يستخدم الإطار استبدالًا متناوبًا للشبكات العصبية المغذية بمزيج من الطبقات المتخصصة، مما يعني أن خليط الطبقات المتخصصة يشكل 50% من إجمالي عدد الطبقات. يحتوي الجدول التالي على مجموعات البيانات المختلفة بالإضافة إلى حجم العينة المستخدمة لتدريب وتقييم إطار عمل MoE-LLaVA.

الإجابة على سؤال الصورة الصفرية
يوضح الشكل التالي أن MoE-LLaVA عبارة عن نموذج متناثر مزود بجهاز توجيه ناعم يعتمد على LVLM. يتم تقييم الإطار على 5 معايير للإجابة على أسئلة الصور، وكما يمكن ملاحظته، يُظهر إطار MoE-LLaVA قدرات رائعة في فهم الصور، ويقدم أداءً مشابهًا لإطار LLaVA 1.5 المتطور على خمسة معايير مختلفة.

تقييم الهلوسة الكائنية
لتقييم هلوسة الكائن، يعتمد إطار عمل MoE-LLaVA خط أنابيب تقييم POPE، وطريقة استعلام قائمة على الاقتراع، ويتم عرض النتائج في الجدول التالي. كما يمكن ملاحظته، من بين جميع الأطر، يقدم MoE-LLaVA أقوى النتائج، مما يشير إلى قدرة الإطار على إنشاء كائنات متوافقة مع صورة الإدخال. بالإضافة إلى ذلك، تجدر الإشارة إلى أن إطار عمل MoE-LLaVA يوازن نسبة نعم بشكل جيد، مما يشير إلى قدرة النموذج المتناثر على تقديم تعليقات دقيقة للسؤال المحدد.

تحتوي الصورة التالية على توزيع عمليات تحميل الخبراء، حيث تمثل الخطوط المتقطعة توزيعًا متوازنًا جيدًا للرموز المميزة بين الطرائق أو الخبراء. يوضح الشكل الأول حجم العمل داخل الخبراء بينما توضح الصور المتبقية أداء الخبراء تجاه الأساليب المختلفة.

علاوة على ذلك، يوضح الشكل التالي توزيع الطرائق بين مختلف الخبراء.

الخلاصة
تحدثنا في هذه المقالة عن MoE-LLaVA، وهو خط أساس لنماذج لغة الرؤية الكبيرة مع مزيج من النماذج المتخصصة التي تتضمن أجهزة توجيه قابلة للتعلم ونماذج MoE. يتكون نموذج MoE-LLaVA في جوهره من مسارات متفرقة متعددة، ويستخدم إطار العمل هذه المسارات لإرسال كل رمز مميز إلى خبراء مختلفين من خلال جهاز التوجيه القابل للتعلم. تتم بعد ذلك معالجة الرموز المميزة بشكل جماعي بواسطة الخبراء المنشطين مع الحفاظ على صمت المسارات غير النشطة. يقوم إطار العمل بعد ذلك بتكديس طبقات برنامج التشفير Mixture of Expert بشكل متكرر لتوفير مسار متناثر نحو LVLM أكبر وأكثر قوة. تعالج استراتيجية الضبط التابعة لوزارة التربية والتعليم القضية الشائعة المتمثلة في تدهور الأداء في التعلم المتفرق متعدد الوسائط بشكل مبتكر، وبالتالي بناء نموذج يحتوي على عدد كبير جدًا من المعلمات ولكن تكاليف التدريب والاستدلال متسقة. تم تصميم بنية إطار عمل MoE-LLaVA بطريقة تقوم فقط بتنشيط الخبراء المتميزين أثناء النشر مع إبقاء الخبراء المتبقين غير نشطين.










