الذكاء الاصطناعي
Uni-MoE: توسيع نطاق برامج LLM الموحدة متعددة الوسائط مع مزيج من الخبراء

وقد سلطت التطورات الأخيرة في بنية وأداء نماذج اللغات الكبيرة متعددة الوسائط أو MLLMs الضوء على أهمية البيانات والنماذج القابلة للتطوير لتحسين الأداء. على الرغم من أن هذا النهج يعزز الأداء، فإنه يتكبد تكاليف حسابية كبيرة تحد من التطبيق العملي وسهولة استخدام هذه الأساليب. على مر السنين، ظهرت نماذج Mixture of Expert أو MoE كنهج بديل ناجح لتوسيع نطاق نماذج النصوص والصور واللغات الكبيرة بكفاءة نظرًا لأن نماذج Mixture of Expert تتميز بتكاليف حسابية أقل بكثير وأداء قوي. ومع ذلك، على الرغم من مزاياها، فإن مزيج النماذج ليس هو النهج المثالي لتوسيع نطاق نماذج اللغات الكبيرة لأنها غالبًا ما تتضمن عددًا أقل من الخبراء، وطرائق محدودة، مما يحد من التطبيقات.
لمواجهة العوائق التي تواجهها الأساليب الحالية، ولتوسيع نطاق نماذج اللغات الكبيرة بكفاءة، سنتحدث في هذه المقالة عن Uni-MoE، وهو نموذج لغة كبير موحد متعدد الوسائط مع بنية MoE أو Mixture of Expert القادرة على التعامل مع مجموعة واسعة من اللغات. مجموعة من الطرائق والخبراء. يطبق إطار عمل Uni-MoE أيضًا مزيجًا متناثرًا من الهندسة المعمارية المتخصصة ضمن نماذج اللغة الكبيرة في محاولة لجعل عملية التدريب والاستدلال أكثر كفاءة من خلال استخدام التوازي النموذجي على مستوى الخبراء وتوازي البيانات. علاوة على ذلك، ومن أجل تعزيز التعميم والتعاون بين الخبراء المتعددين، يقدم إطار Uni-MoE استراتيجية تدريب تقدمية عبارة عن مزيج من ثلاث عمليات مختلفة. في الأول، يحقق إطار عمل Uni-MoE محاذاة عبر الطريقة باستخدام موصلات مختلفة مع بيانات طريقة متقاطعة مختلفة. ثانيًا، يقوم إطار Uni-MoE بتنشيط تفضيلات مكونات الخبراء من خلال تدريب خبراء خاصين بالطريقة المحددة باستخدام بيانات التعليمات المشتركة بين الطرق. أخيرًا، يطبق نموذج Uni-MoE تقنية LoRA أو تقنية التعلم التكيفي منخفض الرتبة على بيانات التعليمات المختلطة متعددة الوسائط لضبط النموذج. عندما تم تقييم إطار Uni-MoE المضبوط للتعليمات على مجموعة شاملة من مجموعات البيانات متعددة الوسائط، سلطت النتائج التجريبية الشاملة الضوء على الميزة الرئيسية لإطار Uni-MoE في تقليل تحيز الأداء في التعامل مع مجموعات البيانات المختلطة متعددة الوسائط بشكل كبير. أشارت النتائج أيضًا إلى تحسن كبير في التعاون متعدد الخبراء والتعميم.
تهدف هذه المقالة إلى تغطية إطار عمل Uni-MoE بعمق، ونستكشف الآلية والمنهجية وبنية الإطار إلى جانب مقارنته بأطر العمل الحديثة. اذا هيا بنا نبدأ.
Uni-MoE: توسيع نطاق LLMs الموحدة متعددة الوسائط
وقد أوضح ظهور نماذج اللغات الكبيرة ومتعددة الوسائط مفتوحة المصدر، بما في ذلك LLama وInstantBlip، النجاح الملحوظ والتقدم في المهام التي تتضمن فهم نص الصورة على مدار السنوات القليلة الماضية. علاوة على ذلك، يعمل مجتمع الذكاء الاصطناعي بنشاط من أجل بناء نموذج لغة كبير موحد ومتعدد الوسائط يمكنه استيعاب مجموعة واسعة من الطرائق بما في ذلك الصورة والنص والصوت والفيديو والمزيد، متجاوزًا نموذج نص الصورة التقليدي. يتمثل النهج الشائع الذي يتبعه مجتمع المصادر المفتوحة لتعزيز قدرات نماذج اللغات الكبيرة متعددة الوسائط في زيادة حجم نماذج أساس الرؤية، ودمجها مع نماذج اللغات الكبيرة التي تحتوي على مليارات المعلمات، واستخدام مجموعات بيانات متعددة الوسائط المتنوعة لتعزيز ضبط التعليمات. وقد سلطت هذه التطورات الضوء على القدرة المتزايدة لنماذج اللغات الكبيرة متعددة الوسائط على التفكير ومعالجة الطرائق المتعددة، مما أظهر أهمية توسيع البيانات التعليمية متعددة الوسائط وقابلية تطوير النماذج.
على الرغم من أن توسيع نطاق النموذج هو أسلوب مجرب ومختبر يحقق نتائج جوهرية، إلا أن توسيع نطاق النموذج يعد عملية مكلفة حسابيًا لكل من عمليتي التدريب والاستدلال.
ولمواجهة مشكلة التكاليف الحسابية المرتفعة، يتجه مجتمع المصادر المفتوحة نحو دمج وزارة التعليم أو خليط من الخبراء بنية النموذج في نماذج اللغات الكبيرة لتعزيز كفاءة التدريب والاستدلال. على عكس نماذج اللغات الكبيرة متعددة الوسائط ونماذج اللغات الكبيرة التي تستخدم جميع المعلمات المتاحة لمعالجة كل إدخال مما يؤدي إلى نهج حسابي كثيف، فإن بنية مزيج الخبراء تتطلب فقط من المستخدمين تنشيط مجموعة فرعية من معلمات الخبراء لكل إدخال. ونتيجة لذلك، يظهر نهج مزيج الخبراء كطريق قابل للتطبيق لتعزيز كفاءة النماذج الكبيرة دون تنشيط المعلمات على نطاق واسع، وتكاليف حسابية عامة عالية. على الرغم من أن الأعمال الحالية قد سلطت الضوء على التنفيذ الناجح والتكامل لنماذج Mixture of Expert في بناء نماذج كبيرة للنص فقط والصور النصية، إلا أن الباحثين لم يستكشفوا بعد إمكانية تطوير بنية Mixture of Expert لإنشاء نماذج كبيرة موحدة ومتعددة الوسائط. نماذج اللغة.
Uni-MoE هو نموذج لغة كبير متعدد الوسائط يستفيد من مزيج متناثر من نماذج الخبراء لتفسير وإدارة طرائق متعددة في محاولة لاستكشاف توسيع نطاق نماذج اللغات الكبيرة متعددة الوسائط الموحدة باستخدام بنية MoE. كما هو موضح في الصورة التالية، يحصل إطار عمل Uni-MoE أولاً على تشفير الطرائق المختلفة باستخدام أدوات التشفير الخاصة بالطريقة، ثم يقوم بتعيين هذه الترميزات في مساحة تمثيل اللغة لنماذج اللغة الكبيرة باستخدام موصلات مصممة مختلفة. تحتوي هذه الموصلات على نموذج محول قابل للتدريب مع إسقاطات خطية لاحقة لتقطير وعرض تمثيلات الإخراج لجهاز التشفير المجمد. يقدم إطار عمل Uni-MoE بعد ذلك مزيجًا متناثرًا من طبقات الخبراء داخل الكتلة الداخلية لنموذج اللغة الكبير الكثيف. ونتيجة لذلك، تتميز كل كتلة قائمة على مزيج من الخبراء بطبقة اهتمام ذاتي مشتركة قابلة للتطبيق عبر جميع الطرائق، وجهاز توجيه متناثر لتخصيص الخبرة على مستوى الرمز المميز، وخبراء متنوعين يعتمدون على شبكة التغذية الأمامية. نظرًا لهذا النهج، فإن إطار عمل Uni-MoE قادر على فهم طرائق متعددة بما في ذلك الكلام والصوت والنص والفيديو والصورة، ولا يتطلب سوى تنشيط المعلمات الجزئية أثناء الاستدلال.
علاوة على ذلك، ومن أجل تعزيز التعاون والتعميم بين الخبراء المتعددين، ينفذ إطار عمل Uni-MoE استراتيجية تدريب من ثلاث مراحل. في المرحلة الأولى، يستخدم الإطار صورة/صوت/كلام واسع النطاق لأزواج اللغات لتدريب الرابط المقابل بسبب تمثيل الطريقة الموحدة في مساحة اللغة لنموذج اللغة الكبير. ثانيًا، يقوم نموذج Uni-MoE بتدريب خبراء خاصين بالأسلوب يستخدمون مجموعات بيانات متعددة الأساليب بشكل منفصل في محاولة لتحسين كفاءة كل خبير في المجال الخاص به. في المرحلة الثالثة، يقوم إطار Uni-MoE بدمج هؤلاء الخبراء المدربين في طبقة خليط الخبراء لنموذج اللغة الكبير، ويدرب إطار Uni-MoE بأكمله باستخدام بيانات التعليمات المختلطة متعددة الوسائط. ولتقليل تكلفة التدريب بشكل أكبر، يستخدم إطار عمل Uni-MoE نهج تعلم LoRA لضبط طبقات الاهتمام الذاتي هذه والخبراء الذين تم ضبطهم مسبقًا.
Uni-MoE: المنهجية والهندسة المعمارية
الدافع الأساسي وراء إطار عمل Uni-MoE هو التكلفة العالية للتدريب والاستدلال لتوسيع نطاق نماذج اللغات الكبيرة متعددة الوسائط إلى جانب كفاءة نماذج Mixture of Expert، واستكشاف إمكانية إنشاء نموذج لغة كبير متعدد الوسائط فعال وقوي وموحد باستخدام ال الهندسة المعمارية لوزارة التربية والتعليم. يعرض الشكل التالي تمثيلاً للبنية المطبقة في إطار Uni-MoE الذي يوضح التصميم الذي يتضمن أجهزة تشفير فردية لطرائق مختلفة، مثل الصوت والكلام والمرئيات بالإضافة إلى موصلات الطريقة الخاصة بها.
يقوم إطار عمل Uni-MoE بعد ذلك بدمج مزيج من بنية الخبراء مع كتل نموذج اللغة الكبيرة الأساسية، وهي عملية حاسمة لتعزيز الكفاءة الشاملة لكل من عملية التدريب والاستدلال. يحقق إطار عمل Uni-MoE ذلك من خلال تنفيذ آلية توجيه متفرقة. يمكن تقسيم عملية التدريب الشاملة لإطار Uni-MoE إلى ثلاث مراحل: محاذاة الوسائط المتعددة، وتدريب الخبراء الخاصين بالطرق، وضبط Uni-MoE باستخدام مجموعة متنوعة من مجموعات بيانات التعليمات متعددة الوسائط. لتحويل مدخلات الوسائط المتنوعة بكفاءة إلى تنسيق لغوي، تم بناء إطار عمل Uni-MoE على رأس LLaVA، وهو إطار لغة مرئي تم تدريبه مسبقًا. يدمج نموذج LLaVA الأساسي CLIP باعتباره برنامج التشفير المرئي الخاص به إلى جانب طبقة عرض خطية تعمل على تحويل ميزات الصورة إلى رموز الصور الناعمة المقابلة لها. علاوة على ذلك، لمعالجة محتوى الفيديو، يختار إطار عمل Uni-MoE ثمانية إطارات تمثيلية من كل فيديو، ويحولها إلى رموز فيديو عن طريق التجميع المتوسط لتجميع صورتها أو تمثيلها القائم على الإطار. بالنسبة للمهام الصوتية، ينشر إطار عمل Uni-MoE جهازي تشفير، BEATs وWhisper encoder لتعزيز استخلاص الميزات. يقوم النموذج بعد ذلك بتقطير ميزات الصوت والكلام المتجه والثابت الطول، وتعيينها في رموز الكلام والصوت الناعم على التوالي عبر طبقة إسقاط خطية.
استراتيجية التدريب
يقدم إطار Uni-MoE استراتيجية تدريب تقدمية للتطوير التدريجي للنموذج. قدمت استراتيجية التدريب التقدمي محاولات لتسخير القدرات المتميزة لمختلف الخبراء، وتعزيز كفاءة التعاون بين الخبراء المتعددين، وتعزيز قابلية التعميم الشامل للإطار. تنقسم عملية التدريب إلى ثلاث مراحل لمحاولة تفعيلها الامتيازات والرهونات البحرية هيكل مبني على رأس مزيج متكامل من الخبراء.
المرحلة 1: محاذاة الوسيلة المتقاطعة
في المرحلة الأولى، يحاول إطار Uni-MoE إنشاء اتصال بين اللغويات والطرائق المختلفة. يحقق إطار عمل Uni-MoE ذلك من خلال ترجمة البيانات المشروطة إلى رموز مميزة عن طريق إنشاء الموصلات. الهدف الأساسي من مرحلة التدريب الأولى هو تقليل فقدان الإنتروبيا التوليدية. ضمن إطار Uni-MoE، تم تحسين LLM لإنشاء أوصاف للمدخلات عبر طرائق مختلفة، ويخضع النموذج فقط الموصلات للتدريب، وهي استراتيجية تمكن إطار Uni-MoE من دمج طرائق مختلفة ضمن إطار لغة موحد.
المرحلة الثانية: خبراء محددون في طريقة التدريب
في المرحلة الثانية، يركز إطار Uni-MoE على تطوير خبراء طريقة واحدة من خلال تدريب النموذج بشكل مخصص على بيانات محددة عبر طريقة. الهدف الأساسي هو تحسين كفاءة كل خبير في مجاله، وبالتالي تعزيز الأداء العام لنظام Mixture of Expert على مجموعة واسعة من البيانات متعددة الوسائط. علاوة على ذلك، يقوم إطار عمل Uni-MoE بتصميم شبكات التغذية الأمامية لتتماشى بشكل أوثق مع خصائص الطريقة مع الحفاظ على فقدان الإنتروبيا التوليدي كتدريب متري بؤري.
المرحلة 3: ضبط Uni-MoE
في المرحلة الثالثة والأخيرة، يقوم إطار Uni-MoE بدمج الأوزان التي ضبطها الخبراء خلال المرحلة الثانية في خليط طبقات الخبراء. يقوم إطار عمل Uni-MoE بعد ذلك بضبط MLLMs باستخدام بيانات التعليمات المختلطة متعددة الوسائط بشكل مشترك. تعكس منحنيات الخسارة في الصورة التالية مدى تقدم عملية التدريب.
كشف التحليل المقارن بين تكوينات Mixture of Expert أن الخبراء الذين صقلوا النموذج خلال مرحلة التدريب الثانية أظهروا ثباتًا معززًا وحققوا تقاربًا أسرع في مجموعات البيانات المختلطة الوسائط. علاوة على ذلك، في المهام التي تتضمن بيانات معقدة متعددة الوسائط بما في ذلك النصوص والصور والصوت ومقاطع الفيديو، أظهر إطار عمل Uni-MoE أداءً تدريبيًا أكثر اتساقًا وتقليل تباين الخسارة عندما وظف أربعة خبراء مقارنةً عندما وظف خبيرين.
Uni-MoE: التجارب والنتائج
يلخص الجدول التالي المواصفات المعمارية لإطار Uni-MoE. الهدف الأساسي لإطار عمل Uni-MoE، المبني على بنية LLaMA-7B، هو توسيع حجم النموذج.
يلخص الجدول التالي تصميم إطار عمل Uni-MoE وتحسينه وفقًا لمهام التدريب المتخصصة. تعتبر هذه المهام مفيدة في تحسين قدرات طبقات MLP، وبالتالي الاستفادة من معرفتهم المتخصصة لتحسين أداء النموذج. يتولى إطار عمل Uni-MoE ثماني مهام خبراء أحادية الطريقة لتوضيح التأثيرات التفاضلية لمنهجيات التدريب المختلفة.
يقوم النموذج بتقييم أداء متغيرات النموذج المختلفة عبر مجموعة متنوعة من المعايير التي تشمل مهمتين لفهم الفيديو، وثلاثة لفهم الصوت، وخمس مهام متعلقة بالكلام. أولاً، تم اختبار النموذج على قدرته على فهم مهام الكلام والصورة والكلام والنص، وترد النتائج في الجدول التالي.
كما يمكن ملاحظته، فإن النماذج الأساسية السابقة تقدم نتائج أقل جودة عبر مهام فهم الكلام مما يؤثر بشكل أكبر على الأداء في مهام التفكير المنطقي للصورة والكلام. تشير النتائج إلى أن إدخال مزيج من بنية الخبراء يمكن أن يعزز إمكانية تعميم MLLMs على مهام الاستدلال غير المرئية بالصوت والصورة. يعرض الجدول التالي النتائج التجريبية لمهام فهم الصورة والنص. وكما يمكن ملاحظته، فإن أفضل النتائج من نماذج Uni-MoE تتفوق على خطوط الأساس، وتتجاوز مهمة الضبط الدقيق بهامش متوسط قدره 4 نقاط.
الخلاصة
تحدثنا في هذه المقالة عن Uni-MoE، وهو نموذج لغة كبير موحد متعدد الوسائط مع بنية MoE أو Mixture of Expert القادرة على التعامل مع مجموعة واسعة من الطرائق والخبراء. يطبق إطار عمل Uni-MoE أيضًا مزيجًا متناثرًا من الهندسة المعمارية المتخصصة ضمن نماذج اللغة الكبيرة في محاولة لجعل عملية التدريب والاستدلال أكثر كفاءة من خلال استخدام التوازي النموذجي على مستوى الخبراء وتوازي البيانات. علاوة على ذلك، ومن أجل تعزيز التعميم والتعاون بين الخبراء المتعددين، يقدم إطار Uni-MoE استراتيجية تدريب تقدمية عبارة عن مزيج من ثلاث عمليات مختلفة. في الأول، يحقق إطار عمل Uni-MoE محاذاة عبر الطريقة باستخدام موصلات مختلفة مع بيانات طريقة متقاطعة مختلفة. ثانيًا، يقوم إطار Uni-MoE بتنشيط تفضيلات مكونات الخبراء من خلال تدريب خبراء خاصين بالطريقة المحددة باستخدام بيانات التعليمات المشتركة بين الطرق. أخيرًا، يطبق نموذج Uni-MoE تقنية LoRA أو تقنية التعلم التكيفي منخفض الرتبة على بيانات التعليمات المختلطة متعددة الوسائط لضبط النموذج.