رطم Mini-Gemini: استكشاف إمكانات نماذج لغة الرؤية متعددة الأنماط - Unite.AI
اتصل بنا للحصول على مزيد من المعلومات

الذكاء الاصطناعي

الجوزاء المصغرة: استخراج إمكانات نماذج لغة الرؤية متعددة الوسائط

mm

تم النشر

 on

الجوزاء المصغرة: استخراج إمكانات نماذج لغة الرؤية متعددة الوسائط

التقدم في نماذج اللغات الكبيرة لقد تسارعت بشكل كبير في تطوير معالجة اللغة الطبيعيةأو البرمجة اللغوية العصبية. أثبت إدخال إطار المحول أنه علامة فارقة، حيث سهل تطوير موجة جديدة من النماذج اللغوية، بما في ذلك OPT وBERT، والتي تظهر فهمًا لغويًا عميقًا. علاوة على ذلك، فإن ظهور GPT، أو نماذج المحولات التوليدية المدربة مسبقًا، قدم نموذجًا جديدًا مع نمذجة الانحدار الذاتي وأنشأ طريقة قوية للتنبؤ باللغة وتوليدها. وقد أدى ظهور نماذج اللغة مثل GPT-4، وChatGPT، وMixtral، وLLaMA، وغيرها إلى زيادة التطور السريع، حيث أظهر كل نموذج أداءً محسنًا في المهام التي تتضمن معالجة لغوية معقدة. ومن بين الأساليب الحالية، برز ضبط التعليمات كأسلوب رئيسي لتحسين مخرجات نماذج اللغات الكبيرة المدربة مسبقًا، وقد أدى دمج هذه النماذج مع أدوات محددة للمهام المرئية إلى تسليط الضوء على قدرتها على التكيف وفتح الأبواب للتطبيقات المستقبلية. وتمتد هذه إلى ما هو أبعد من المعالجة التقليدية القائمة على النصوص لـ LLMs لتشمل التفاعلات متعددة الوسائط.

علاوة على ذلك، أدى التقارب بين معالجة اللغة الطبيعية ونماذج الرؤية الحاسوبية إلى ظهور VLMs، أو نماذج لغة الرؤية، التي تجمع بين النماذج اللغوية ونماذج الرؤية لتحقيق قدرات الفهم والاستدلال عبر الوسائط. لقد لعب تكامل النماذج المرئية واللغوية وظهورها دورًا حاسمًا في تطوير المهام التي تتطلب معالجة اللغة والفهم البصري. أدى ظهور نماذج ثورية مثل CLIP إلى سد الفجوة بين مهام الرؤية ونماذج اللغة، مما يدل على جدوى التطبيقات متعددة الوسائط وعمليتها. تستفيد أطر العمل الأحدث مثل LLaMA وBLIP من بيانات التعليمات المخصصة لوضع استراتيجيات فعالة توضح القدرات القوية للنموذج. بالإضافة إلى ذلك، يعد الجمع بين نماذج اللغة الكبيرة ومخرجات الصور هو محور الأبحاث الحديثة متعددة الوسائط، حيث أصبحت الأساليب الحديثة قادرة على تجاوز التوليد المباشر من خلال استخدام نهج استرجاع الصور لإنتاج مخرجات الصور والنصوص المتداخلة.

ومع ذلك، وعلى الرغم من التقدم السريع في نماذج لغة الرؤية التي تسهل التفكير الأساسي والحوار البصري، لا تزال هناك فجوة كبيرة في الأداء بين النماذج المتقدمة مثل GPT-4 ونماذج لغة الرؤية. Mini-Gemini هي محاولة لتضييق الفجوة الموجودة بين نماذج لغة الرؤية والنماذج الأكثر تقدمًا من خلال استغلال إمكانات VLMs للحصول على أداء أفضل من ثلاثة جوانب: الإنشاء الموجه بـ VLM، والبيانات عالية الجودة، والرموز المرئية عالية الدقة. لتعزيز الرموز المرئية، يقترح إطار عمل Mini-Gemini استخدام برنامج تشفير مرئي إضافي لتحسين الدقة العالية دون زيادة عدد الرموز المرئية. يقوم إطار عمل Mini-Gemini أيضًا ببناء مجموعة بيانات عالية الجودة في محاولة لتعزيز الفهم الدقيق للصور والتوليد القائم على المنطق. بشكل عام، يحاول إطار Mini-Gemini استغلال إمكانات نماذج لغة الرؤية، ويهدف إلى تمكين الأطر الحالية من خلال التفكير في الصورة والفهم والقدرات التوليدية في وقت واحد. تهدف هذه المقالة إلى تغطية إطار Mini-Gemini بعمق، ونستكشف الآلية والمنهجية وبنية الإطار بالإضافة إلى مقارنته بأطر العمل الحديثة. اذا هيا بنا نبدأ. 

Mini-Gemini: تسريع VLMs متعددة الوسائط

على مر السنين، تطورت نماذج اللغة الكبيرة، وهي الآن تفتخر بقدرات رائعة متعددة الوسائط، وأصبحت جزءًا أساسيًا من نماذج لغة الرؤية الحالية. ومع ذلك، توجد فجوة بين الأداء متعدد الوسائط لنماذج اللغة الكبيرة ونماذج لغة الرؤية، حيث تبحث الأبحاث الحديثة عن طرق للجمع بين الرؤية ونماذج اللغة الكبيرة باستخدام الصور ومقاطع الفيديو. بالنسبة لمهام الرؤية نفسها، تعد دقة الصورة عنصرًا حاسمًا صراحةً على الرغم من البيئة المحيطة مع الحد الأدنى من الهلوسة البصرية. ولسد هذه الفجوة، يقوم الباحثون بتطوير نماذج لتحسين الفهم البصري في الوقت الحالي نماذج لغة الرؤية، واثنان من الأساليب الأكثر شيوعًا هما: زيادة الدقة وزيادة عدد الرموز المرئية. على الرغم من أن زيادة عدد الرموز المرئية مع الصور عالية الدقة تعمل على تحسين الفهم البصري، إلا أن التعزيز غالبًا ما يكون مصحوبًا بزيادة المتطلبات الحسابية والتكاليف المرتبطة بها خاصة عند معالجة صور متعددة. علاوة على ذلك، فإن قدرات النماذج الحالية، وجودة البيانات الموجودة، وقابلية التطبيق لا تزال غير كافية لعملية تطوير متسارعة، مما يترك للباحثين السؤال التالي: "كيفية تسريع تطوير نماذج لغة الرؤية بتكاليف مقبولة

يعد إطار Mini-Gemini محاولة للإجابة على السؤال حيث يحاول استكشاف إمكانات نماذج لغة الرؤية من ثلاثة جوانب: الإنشاء الموجه بواسطة VLM أو التطبيقات الموسعة، والبيانات عالية الجودة، والرموز المرئية عالية الدقة. أولاً، يقوم إطار عمل Mini-Gemini بتنفيذ بنية ConvNet لإنشاء مرشحات ذات دقة أعلى بكفاءة، وتعزيز التفاصيل المرئية مع الحفاظ على عدد الرموز المرئية لنموذج اللغة الكبير. يقوم إطار عمل Mini-Gemini بدمج مجموعات البيانات عالية الجودة المتاحة للجمهور في محاولة لتحسين جودة البيانات، ويدمج هذه التحسينات مع أحدث النماذج التوليدية واللغوية الكبيرة في محاولة لتعزيز أداء VLMs وتحسينها. تجربة المستخدم. تمكن الاستراتيجية متعددة الأوجه التي ينفذها إطار Mini-Gemini من استكشاف القدرات الخفية لنماذج لغة الرؤية، وتحقيق تقدم كبير مع قيود واضحة على الموارد. 

بشكل عام، يستخدم إطار عمل Mini-Gemini نموذجًا شاملاً لأي نموذج لأنه قادر على التعامل مع كل من النص والصور كمدخلات ومخرجات. على وجه الخصوص، يقدم إطار عمل Mini-Gemini خط أنابيب فعال لتعزيز الرموز المرئية للصور المدخلة، ويتميز بنظام تشفير مزدوج يتكون من جهازي تشفير مزدوج: جهاز التشفير الأول مخصص للصور عالية الدقة، في حين أن جهاز التشفير الثاني مخصص للصور المنخفضة الدقة. التضمين البصري عالي الجودة. أثناء الاستدلال، تعمل أجهزة التشفير في آلية انتباه، حيث يقوم برنامج التشفير منخفض الدقة بإنشاء استعلامات مرئية، بينما يوفر برنامج التشفير عالي الدقة مفاتيح وقيمًا كمرجع. لزيادة جودة البيانات، يقوم إطار Mini-Gemini بجمع وإنتاج المزيد من البيانات بناءً على الموارد العامة، بما في ذلك التعليمات الموجهة نحو المهام، والبيانات المتعلقة بالتوليد، والاستجابات عالية الدقة، مع زيادة الكمية وتحسين الجودة مما يؤدي إلى تحسين الأداء العام و قدرات النموذج. علاوة على ذلك، يدعم إطار Mini-Gemini إنشاء النصوص والصور المتزامنة نتيجة لتكامل نموذج لغة الرؤية مع النماذج التوليدية المتقدمة. 

ميني الجوزاء: المنهجية والهندسة المعمارية

يعتبر إطار عمل Mini-Gemini في جوهره بسيطًا من الناحية المفاهيمية، ويتكون من ثلاثة مكونات. 

  1. يستخدم الإطار أجهزة ترميز الرؤية المزدوجة لتوفير تضمينات مرئية منخفضة الدقة ومرشحات عالية الدقة. 
  2. يقترح إطار العمل تنفيذ تعدين معلومات التصحيح لإجراء التعدين على مستوى التصحيح بين الاستعلامات المرئية منخفضة الدقة والمناطق عالية الدقة. 
  3. يستخدم إطار Mini-Gemini نموذجًا لغويًا كبيرًا للربط بين النص والصور من أجل التوليد والفهم في وقت واحد. 

التشفير المزدوج الرؤية

يمكن لإطار عمل Mini-Gemini معالجة كل من مدخلات النص والصور، مع خيار التعامل معها إما بشكل فردي أو مجتمعة. كما هو موضح في الصورة التالية، يبدأ إطار Mini-Gemini العملية من خلال استخدام الاستيفاء الخطي لإنشاء صورة منخفضة الدقة من الصورة ذات الدقة العالية المقابلة لها. 

يقوم الإطار بعد ذلك بمعالجة هذه الصور وترميزها في تضمين مرئي متعدد الشبكات في تدفقين متوازيين للصور. وبشكل أكثر تحديدًا، يحافظ إطار Mini-Gemini على خط الأنابيب التقليدي للتدفقات منخفضة الدقة ويستخدم محولًا مرئيًا تم تدريبه مسبقًا بواسطة CLIP لتشفير التضمينات المرئية، مما يسهل النموذج للحفاظ على العلاقة طويلة المدى بين التصحيحات المرئية للتفاعلات اللاحقة بلغة كبيرة عارضات ازياء. بالنسبة للتدفقات عالية الدقة، يعتمد إطار عمل Mini-Gemini على برنامج التشفير المستند إلى CNN أو الشبكات العصبية التلافيفية لمعالجة الصور عالية الدقة والتكيفية والفعالة. 

تعدين معلومات التصحيح

من خلال أجهزة تشفير الرؤية المزدوجة التي تولد تضمينات LR وميزات الموارد البشرية، يقترح إطار عمل Mini-Gemini تنفيذ استخراج معلومات التصحيح بهدف توسيع إمكانات نماذج لغة الرؤية باستخدام الرموز المرئية المحسنة. من أجل الحفاظ على عدد الرموز المرئية لتحقيق الكفاءة في نماذج اللغات الكبيرة، يأخذ إطار عمل Mini-Gemini التضمينات المرئية منخفضة الدقة كاستعلام، ويهدف إلى استرداد الإشارات المرئية ذات الصلة من المرشحين لميزات الموارد البشرية، مع أخذ الإطار خريطة ميزات الموارد البشرية كمفتاح وقيمة.

كما هو موضح في الصورة أعلاه، تلخص الصيغة عملية تحسين وتجميع الإشارات المرئية، مما يؤدي إلى إنشاء رموز مرئية متقدمة لمعالجة نماذج اللغة الكبيرة اللاحقة. تضمن العملية أن إطار العمل قادر على حصر التعدين لكل استعلام في المنطقة الفرعية المقابلة له في خريطة ميزات الموارد البشرية مع عدد الميزات حسب البكسل، مما يؤدي إلى تحسين الكفاءة. نظرًا لهذا التصميم، فإن إطار عمل Mini-Gemini قادر على استخراج تفاصيل ميزات الموارد البشرية دون تعزيز عدد الرموز المرئية، ويحافظ على التوازن بين الجدوى الحسابية وثراء التفاصيل. 

توليد النص والصور

يقوم إطار عمل Mini-Gemini بربط الرموز المرئية ورموز إدخال النص كمدخل لنماذج اللغة الكبيرة من أجل إنشاء الانحدار التلقائي. على عكس نماذج لغة الرؤية التقليدية، يدعم إطار عمل Mini-Gemini إنشاء النص فقط بالإضافة إلى إنشاء صورة نصية كمدخلات ومخرجات، أي أي شيء إلى أي استدلال، وهو نتيجة لهذه الإمكانات المتميزة لفهم نص الصورة والاستدلال بها، Mini-Gemini قادر على إنشاء صور عالية الجودة. على عكس الأعمال الحديثة التي تركز على فجوة المجال بين تضمينات النص لنماذج التوليد ونماذج اللغة الكبيرة، يحاول إطار Mini-Gemini تحسين الفجوة في مجال المطالبات اللغوية من خلال ترجمة تعليمات المستخدم إلى مطالبات عالية الجودة تنتج صورًا ذات صلة بالسياق في نماذج الانتشار الكامن. علاوة على ذلك، من أجل فهم أفضل لضبط التعليمات ومحاذاة الأساليب المتقاطعة، يجمع إطار Mini-Gemini عينات من مجموعات البيانات عالية الجودة المتاحة للجمهور، ويستخدم إطار عمل GPT-4 Turbo لمواصلة إنشاء مجموعة بيانات تتبع تعليمات 13K لدعم إنشاء الصور. 

الجوزاء الصغير: التجارب والنتائج

لتقييم أدائه، يتم إنشاء مثيل لإطار عمل Mini-Gemini باستخدام إطار عمل ConvNext-L المُدرب مسبقًا لمشفر رؤية الموارد البشرية، ومع إطار عمل CLIP المُدرب مسبقًا محول الرؤية لتشفير الرؤية LR. لضمان كفاءة التدريب، يحافظ إطار عمل Mini-Gemini على ثبات جهازي تشفير الرؤية، ويحسن أجهزة عرض استخراج معلومات التصحيح في جميع المراحل، ويحسن نموذج اللغة الكبير أثناء مرحلة ضبط التعليمات نفسها. 

يقارن الجدول التالي أداء إطار عمل Mini-Gemini مع أحدث النماذج عبر إعدادات مختلفة، ويأخذ أيضًا في الاعتبار النماذج الخاصة. كما يمكن ملاحظته، يتفوق Mini-Gemini على الأطر الحالية عبر مجموعة واسعة من LLMs بشكل ثابت عند الدقة العادية، ويظهر أداءً فائقًا عند تهيئته مع Gemma-2B في فئة النماذج الفعالة. علاوة على ذلك، عند استخدام نماذج لغة كبيرة وكبيرة، تكون قابلية التوسع في إطار Mini-Gemini واضحة. 

لتقييم أدائها على الدقة العالية والرموز المرئية الموسعة، يتم إجراء التجارب بحجم إدخال يبلغ 672 لجهاز تشفير الرؤية LR، و1536 لجهاز التشفير المرئي. كما ذكرنا سابقًا، فإن الغرض الرئيسي من برنامج التشفير المرئي للموارد البشرية هو تقديم معلومات عالية الدقة عن المرشحين. كما يمكن ملاحظته، يوفر إطار Mini-Gemini أداءً فائقًا عند مقارنته بأطر العمل الحديثة. 

علاوة على ذلك، لتقييم براعة الفهم البصري لإطار Mini-Gemini في إعدادات العالم الحقيقي، يطبق المطورون النموذج على مجموعة متنوعة من مهام التفكير والفهم كما هو موضح في الصورة التالية. كما يمكن ملاحظته، فإن إطار عمل Mini-Gemini قادر على حل مجموعة واسعة من المهام المعقدة بفضل تنفيذ استخراج معلومات التصحيح والبيانات عالية الجودة. ولكن الأمر الأكثر إثارة للإعجاب هو حقيقة أن إطار عمل Mini-Gemini يوضح إضافة قوية للتفاصيل التي تتجاوز مجرد براعة التعرف، ويصف العناصر المعقدة بشكل معقد. 

يقدم الشكل التالي تقييمًا شاملاً للقدرات التوليدية لإطار Mini-Gemini. 

عند مقارنته بالنماذج الحديثة مثل ChatIllusion وAnyGPT، يُظهر إطار Mini-Gemini قدرات فهم أقوى متعددة الوسائط، مما يسمح له بإنشاء نص إلى صورة التسميات التوضيحية التي تتوافق مع تعليمات الإدخال بشكل أفضل، وتؤدي إلى الحصول على إجابات من الصورة إلى النص مع تشابه مفاهيمي أقوى. الأمر الأكثر إثارة للإعجاب هو حقيقة أن إطار عمل Mini-Gemini يُظهر كفاءة ملحوظة في إنشاء محتوى عالي الجودة باستخدام تعليمات بشرية متعددة النماذج فقط مع بيانات التدريب على النص، وهي القدرة التي توضح التفسير الدلالي القوي لـ Mini-Gemini ومهارات محاذاة الصورة والنص. 

افكار اخيرة

تحدثنا في هذه المقالة عن Mini-Gemini، وهو إطار عمل قوي ومبسط لنماذج لغة الرؤية متعددة الوسائط. الهدف الأساسي لإطار Mini-Gemini هو تسخير القدرات الكامنة لنماذج لغة الرؤية باستخدام بيانات عالية الجودة، والتصميم الاستراتيجي للإطار، ونطاق وظيفي موسع. Mini-Gemini هي محاولة لتضييق الفجوة الموجودة بين نماذج لغة الرؤية والنماذج الأكثر تقدمًا من خلال استغلال إمكانات VLMs للحصول على أداء أفضل من ثلاثة جوانب: الإنشاء الموجه بـ VLM، والبيانات عالية الجودة، والرموز المرئية عالية الدقة. لتعزيز الرموز المرئية، يقترح إطار عمل Mini-Gemini استخدام برنامج تشفير مرئي إضافي لتحسين الدقة العالية دون زيادة عدد الرموز المرئية. يقوم إطار عمل Mini-Gemini أيضًا ببناء مجموعة بيانات عالية الجودة في محاولة لتعزيز الفهم الدقيق للصور والتوليد القائم على المنطق. بشكل عام، يحاول إطار Mini-Gemini استغلال إمكانات نماذج لغة الرؤية، ويهدف إلى تمكين الأطر الحالية من خلال التفكير في الصورة والفهم والقدرات التوليدية في وقت واحد.

"مهندس بالمهنة كاتب عن ظهر قلب". كونال كاتب تقني لديه حب وفهم عميقان للذكاء الاصطناعي والتعلم الآلي ، مكرس لتبسيط المفاهيم المعقدة في هذه المجالات من خلال وثائقه الجذابة والغنية بالمعلومات.