الذكاء الاصطناعي

Uni-MoE: توسيع نماذج اللغة الكبيرة المتعددة الوسائط مع مزيج من الخبراء

Published May 31, 2024

Updated April 27, 2026

Kunal Kejriwal

التقدم الأخير في بنية وأداء نماذج اللغة الكبيرة المتعددة الوسائط أو MLLMs أبرز أهمية البيانات والنماذج القابلة للتوسيع لتعزيز الأداء. على الرغم من أن هذا النهج يعزز الأداء ، إلا أنه يتحمل تكاليف حسابية كبيرة تحد من الواقعية وسهولة استخدام مثل هذه النهج. على مر السنين ، ظهرت نماذج مزيج الخبراء أو MoE كنهج بديل ناجح لتوسيع نماذج الصور والنص واللغة الكبيرة بشكل فعال منذ أن تتمتع نماذج مزيج الخبراء بتكاليف حسابية منخفضة وأداء قوي. ومع ذلك ، على الرغم من مزاياها ، لا تعتبر نماذج مزيج الخبراء نهجًا مثاليًا لتوسيع نماذج اللغة الكبيرة لأنها غالبًا ما تتضمن خبراء أقل ووسائط محدودة ، مما يحد من التطبيقات.

لمواجهة العقبات التي تواجه النهج الحالية ، وتوسيع نماذج اللغة الكبيرة بشكل فعال ، في هذه المقالة ، سنناقش Uni-MoE ، وهو نموذج لغة كبير متعددة الوسائط موحد مع بنية مزيج الخبراء أو MoE قادر على التعامل مع مجموعة واسعة من الوسائط والخبراء. كما يطبق إطار Uni-MoE بنية مزيج الخبراء النشطة داخل نماذج اللغة الكبيرة في محاولة لجعل عملية التدريب والاستدلال أكثر كفاءة من خلال توظيف موازاة الخبراء على مستوى النموذج وموازاة البيانات. بالإضافة إلى ذلك ، لتعزيز التعميم وتعاون الخبراء المتعددين ، يقدم إطار Uni-MoE استراتيجية تدريب تقدمية وهي مزيج من ثلاثة процесات مختلفة. في الأولى ، يتحقق إطار Uni-MoE من محاذاة الوسائط المتقاطعة باستخدام موصلات مختلفة مع بيانات الوسائط المتقاطعة المختلفة. ثانيًا ، يفعّل إطار Uni-MoE تفضيل مكونات الخبراء من خلال تدريب خبراء محددين بالوسائط مع بيانات تعليم الوسائط المتقاطعة. أخيرًا ، يطبق نموذج Uni-MoE تقنية التعلم التكيفي منخفض الرتبة أو LoRA على بيانات تعليم متعددة الوسائط المخلوطة لتعديل النموذج. عندما تم تقييم إطار Uni-MoE المعدل بالتعليم على مجموعة شاملة من مجموعات البيانات المتعددة الوسائط ، أبرزت النتائج التجريبية الشاملة الميزة الرئيسية لإطار Uni-MoE في تقليل انحياز الأداء في التعامل مع مجموعات بيانات متعددة الوسائط المخلوطة بشكل كبير. كما أشارت النتائج إلى تحسين كبير في تعاون الخبراء المتعددين والتعميم.

يهدف هذا المقال إلى تغطية إطار Uni-MoE بالعمق ، ونستكشف آلياته و منهجيته و بنيته جنبًا إلى جنب مع مقارنته بالإطارات الحديثة. لذا دعونا نبدأ.

Uni-MoE: توسيع نماذج اللغة الكبيرة المتعددة الوسائط

أبرز ظهور نماذج اللغة الكبيرة المتعددة الوسائط المفتوحة المصدر ، بما في ذلك LLama و InstantBlip ، النجاح الكبير والتقدم في المهام المتعلقة بفهم الصور والنص على مدار السنوات القليلة الماضية. بالإضافة إلى ذلك ، تعمل社区 الذكاء الاصطناعي بنشاط على بناء نموذج لغة كبير متعددة الوسائط موحد يمكنه استيعاب مجموعة واسعة من الوسائط ، بما في ذلك الصور والنص والصوت والفيديو وغيرها ، متجاوزًا النموذج التقليدي للصورة والنص. النهج الشائع الذي يتبعه المجتمع المفتوح المصدر لتعزيز قدرات نماذج اللغة الكبيرة المتعددة الوسائط هو زيادة حجم نماذج الأساس للرؤية ، وتكاملها مع نماذج اللغة الكبيرة التي تحتوي على مليارات المعلمات ، و sửة مجموعات بيانات متعددة الوسائط المتنوعة لتعزيز تعليم الإرشاد. أبرزت هذه التطورات القدرة المتزايدة لنماذج اللغة الكبيرة المتعددة الوسائط على التفكير ومعالجة الوسائط المتعددة ، مما يبرز أهمية توسيع بيانات الإرشاد المتعددة الوسائط وقابلية نموذج للتوسيع.

على الرغم من أن توسيع نموذج هو نهج مجرب يولد نتائج كبيرة ، فإن توسيع نموذج هو عملية حسابية مكلفة للغاية لكل من عمليات التدريب والاستدلال.

لمواجهة مشكلة التكاليف الحسابية العالية ، يتجه المجتمع المفتوح المصدر إلى دمج بنية مزيج الخبراء أو MoE في نماذج اللغة الكبيرة لتعزيز كفاءة التدريب والاستدلال. على عكس نماذج اللغة الكبيرة المتعددة الوسائط ونماذج اللغة الكبيرة التي تستخدم جميع المعلمات المتاحة لمعالجة كل إدخال مما يؤدي إلى نهج حسابي كثيف ، تتطلب بنية مزيج الخبراء من المستخدمين فقط تنشيط مجموعة فرعية من معلمات الخبراء لكل إدخال. وبالتالي ، تبرز بنية مزيج الخبراء كطريق قابلة للتوسيع لتعزيز كفاءة النماذج الكبيرة دون تنشيط معلمات واسعة والتكاليف الحسابية العالية. على الرغم من أن الأعمال الحالية أبرزت التطبيق الناجح والتكامل بنية مزيج الخبراء في بناء نماذج كبيرة للنص فقط ونماذج الصور والنص ، لم يقم الباحثون بعد باستكشاف إمكانات تطوير بنية مزيج الخبراء لإنشاء نماذج لغة كبيرة متعددة الوسائط موحدة قوية.

Uni-MoE هو نموذج لغة كبير متعددة الوسائط يعتمد على نماذج مزيج الخبراء النشطة لفهم وإدارة الوسائط المتعددة في محاولة لاستكشاف توسيع نماذج اللغة الكبيرة المتعددة الوسائط الموحدة مع بنية مزيج الخبراء. كما هو موضح في الصورة التالية ، يحصل إطار Uni-MoE أولًا على ترميز الوسائط المختلفة باستخدام مشفرات محددة بالوسائط ، ثم يemap هذه الترميزات إلى مساحة تمثيل اللغة من نماذج اللغة الكبيرة باستخدام موصلات مصممة. تحتوي هذه الموصلات على نموذج تحويل قابل للتدريب مع مشاريع خطية لاحقة لاستخراج ومشروع تمثيلات الإخراج للمشفر المجمد. ثم يقدم إطار Uni-MoE طبقات مزيج الخبراء النشطة داخل الكتلة الداخلية للنموذج الكبير للغة. ونتيجة لذلك ، تتميز كل كتلة مزيج الخبراء بطبقة انتباه ذاتي مشتركة قابلة للتطبيق على جميع الوسائط ، ومتحكم بالتوجيه للتعيين الخبير على مستوى الرمز ، وخبراء متنوعين بناءً على الشبكة التغذوية الأمامية. بفضل هذا النهج ، يمكن لإطار Uni-MoE فهم الوسائط المتعددة ، بما في ذلك الكلام والصوت والنص والفيديو والصورة ، ويتطلب فقط تنشيط معلمات جزئية خلال الاستدلال.

علاوة على ذلك ، لتعزيز تعاون الخبراء المتعددين والتعميم ، يطبق إطار Uni-MoE استراتيجية تدريب تقدمية. في المرحلة الأولى ، يستخدم الإطار أزواجًا واسعة من الصور / الصوت إلى اللغة لتدريب الموصلات المقابلة بسبب التمثيل الموحد للوسائط في مساحة اللغة من النموذج الكبير للغة. ثانيًا ، يتدرب نموذج Uni-MoE خبراء محددين بالوسائط باستخدام مجموعات بيانات متعددة الوسائط بشكل منفصل في محاولة لتعدين مهارة كل خبير داخل نطاقه. في المرحلة الثالثة ، يدمج إطار Uni-MoE الخبراء المدربين في طبقة مزيج الخبراء من النموذج الكبير للغة ، ويتدرب على النموذج بأكمله باستخدام بيانات تعليم متعددة الوسائط المخلوطة. لتقليل تكلفة التدريبさらに ، يemploys إطار Uni-MoE نهج التعلم LoRA لتعديل هذه الطبقات وخبراء مسبقًا.

Uni-MoE : منهجية وبنية

الدافع الأساسي وراء إطار Uni-MoE هو التكلفة الحسابية العالية لتدريب نماذج اللغة الكبيرة المتعددة الوسائط وكفاءة نماذج مزيج الخبراء ، واستكشاف إمكانية إنشاء نموذج لغة كبير متعددة الوسائط موحد وكفء باستخدام بنية مزيج الخبراء. يُظهر الشكل التالي تمثيلًا للبنية المطبقة في إطار Uni-MoE ، مع تصميم يضم مشفرات فردية للوسائط المختلفة ، مثل الصوت والكلام والمرئيات ، مع موصلاتها الخاصة.

ثم يدمج إطار Uni-MoE بنية مزيج الخبراء مع كتل النموذج الكبير للغة ، عملية حاسمة لتعزيز كفاءة التدريب والاستدلال. يحقق إطار Uni-MoE ذلك من خلال تطبيق آلية توجيه نشطة. يمكن تقسيم عملية التدريب الشاملة لإطار Uni-MoE إلى ثلاث مراحل: محاذاة الوسائط المتقاطعة ، تدريب خبراء محددين بالوسائط ، وضبط إطار Uni-MoE باستخدام مجموعة متنوعة من مجموعات بيانات الإرشاد المتعددة الوسائط. لتحويل مدخلات الوسائط المتنوعة إلى صيغة لغوية ، يبني إطار Uni-MoE على LLaVA ، إطار لغة مرئية مسبق التدريب. يدمج نموذج LLaVA الأساسي CLIP كمشفر مرئي ، إلى جانب طبقة مشروع خطية تتحول بين ميزات الصورة ومساهمات الصورة الناعمة.

استراتيجية التدريب

يقدم إطار Uni-MoE استراتيجية تدريب تقدمية لتطوير النموذج تدريجيًا. تحاول استراتيجية التدريب التقدمية المقدمة استغلال القدرات الفريدة للخبراء المختلفين ، وتعزيز كفاءة تعاون الخبراء المتعددين ، وزيادة القابلية العامة للنموذج. يتم تقسيم عملية التدريب إلى ثلاث مراحل في محاولة لتحقيق هيكل MLLM مبني على مزيج الخبراء المتكامل.

المرحلة 1 : محاذاة الوسائط المتقاطعة

في المرحلة الأولى ، يحاول إطار Uni-MoE إنشاء الاتصال بين اللغويات والوسائط المختلفة. يحقق إطار Uni-MoE ذلك من خلال ترجمة بيانات الوسائط إلى رموز ناعمة من خلال بناء موصلات. الهدف الرئيسي للمرحلة الأولى من التدريب هو تقليل فقدان الترميز التوليدي.

المرحلة 2: تدريب خبراء محددين بالوسائط

في المرحلة الثانية ، يركز إطار Uni-MoE على تطوير خبراء وحيد للوسائط من خلال تدريب النموذج بشكل مكرس على بيانات الوسائط المتقاطعة المحددة. الهدف الرئيسي هو تعدين مهارة كل خبير داخل نطاقه ، وبالتالي تعزيز الأداء العام لنظام مزيج الخبراء على مجموعة واسعة من البيانات المتعددة الوسائط. بالإضافة إلى ذلك ، يصمم إطار Uni-MoE الشبكات التغذوية الأمامية لتناسب بشكل أوثق مع سمات الوسائط ، مع الحفاظ على فقدان الترميز التوليدي كأداة تدريب رئيسية.

المرحلة 3: ضبط Uni-MoE

في المرحلة الثالثة والأخيرة ، يدمج إطار Uni-MoE الأوزان المعدلة من قبل الخبراء خلال المرحلة 2 في طبقات مزيج الخبراء. ثم يضبط إطار Uni-MoE نموذج MLLM باستخدام بيانات تعليم متعددة الوسائط المخلوطة بشكل مشترك. منحنيات الفقد في الصورة التالية تعكس تقدم عملية التدريب.

أشارت التحليلات المقارنة بين تكوينات مزيج الخبراء إلى أن الخبراء الذين قام النموذج بتعديلهم خلال المرحلة الثانية من التدريب أظهروا استقرارًا محسّنًا ووصلوا إلى التقارب بشكل أسرع على مجموعات بيانات متعددة الوسائط المخلوطة. بالإضافة إلى ذلك ، في المهام التي تتضمن بيانات متعددة الوسائط المعقدة ، بما في ذلك النص والصور والصوت والفيديو ، أظهر إطار Uni-MoE أداء تدريبي أكثر ثباتًا وانخفاضًا في تباين الفقد عند استخدام أربعة خبراء مقارنةً بالاستخدام عند استخدام خبراءين.

Uni-MoE : التجارب والنتائج

الجدول التالي يلخص مواصفات البنية لإطار Uni-MoE. الهدف الرئيسي لإطار Uni-MoE ، المبني على هيكل LLaMA-7B ، هو توسيع حجم النموذج.

الجدول التالي يلخص تصميم وتنظيم إطار Uni-MoE حسب المهام التدريبية المتخصصة. هذه المهام هي أدوات في تعدين قدرات طبقات MLP ، وبالتالي استغلال معرفتهم المتخصصة لتحسين أداء النموذج.

يقيّم النموذج أداء متغيرات النموذج المختلفة عبر مجموعة متنوعة من المعايير التي تشمل مهام فهم الفيديو ، ومهام فهم الصوت ، ومهام متعلقة بالكلام. أولًا ، يتم اختبار النموذج على قدرته على فهم المهام المتعلقة بالكلام والصورة والنص ، والنتائج مدرجة في الجدول التالي.

كما هو واضح ، فإن نماذج الأساس السابقة تُظهر نتائج أقل عبر مهام فهم الكلام ، مما يؤثر على أدائها في مهام منطوقة الصورة. تشير النتائج إلى أن إدخال بنية مزيج الخبراء يمكن أن يعزز قابلية نماذج اللغة الكبيرة المتعددة الوسائط على المهام غير المنطوقة. يُظهر الجدول التالي النتائج التجريبية على مهام فهم الصورة والنص. كما هو واضح ، تُظهر أفضل النتائج من نماذج Uni-MoE أداءً أفضل من نماذج الأساس ، وتفوق مهمة التعديل بمتوسط هامش يبلغ 4 نقاط.

أفكار ختامية

في هذه المقالة ، ناقشنا Uni-MoE ، وهو نموذج لغة كبير متعددة الوسائط موحد مع بنية مزيج الخبراء أو MoE قادر على التعامل مع مجموعة واسعة من الوسائط والخبراء. كما يطبق إطار Uni-MoE بنية مزيج الخبراء النشطة داخل نماذج اللغة الكبيرة في محاولة لجعل عملية التدريب والاستدلال أكثر كفاءة من خلال توظيف موازاة الخبراء على مستوى النموذج وموازاة البيانات. بالإضافة إلى ذلك ، لتعزيز التعميم وتعاون الخبراء المتعددين ، يقدم إطار Uni-MoE استراتيجية تدريب تقدمية وهي مزيج من ثلاثة процесات مختلفة. في الأولى ، يتحقق إطار Uni-MoE من محاذاة الوسائط المتقاطعة باستخدام موصلات مختلفة مع بيانات الوسائط المتقاطعة المختلفة. ثانيًا ، يفعّل إطار Uni-MoE تفضيل مكونات الخبراء من خلال تدريب خبراء محددين بالوسائط مع بيانات تعليم الوسائط المتقاطعة. أخيرًا ، يطبق نموذج Uni-MoE تقنية التعلم التكيفي منخفض الرتبة أو LoRA على بيانات تعليم متعددة الوسائط المخلوطة لتعديل النموذج.

Related Topics:image generation Large Multimodal Models Mixture of Experts MLLMs Multimodal Large Language Model Uni-MoE vision language model

Kunal Kejriwal

مهندس بالمهنة، كاتب بالقلب. كونال هو كاتب تقني مع حب عميق وفهم لتقنيات الذكاء الاصطناعي والتعلم الآلي، مخصص لتبسيط المفاهيم المعقدة في هذه المجالات من خلال توثيقه الممتع والمعلوماتي.