الذكاء الاصطناعي

LLaVA-UHD: نموذج LMM يدرك أي نسبة عرض وصور عالية الدقة

Published June 6, 2024

Updated April 27, 2026

Kunal Kejriwal

LLaVA-UHD: an LMM Perceiving Any Aspect Ratio and High-Resolution Images

شهد التقدم الأخير في النماذج اللغوية الكبيرة زيادة كبيرة في القدرات العقلية والتفاهم والتفاعل بين اللغة والرؤية. تحقق الإطارات الحديثة من ذلك من خلال 투射 الإشارات البصرية إلى النماذج اللغوية الكبيرة أو LLMs لتمكينها من رؤية العالم بصرية، وهي مجموعة من السيناريوهات التي تلعب فيها استراتيجيات التشفير البصري دورًا حاسمًا. ومع ذلك، فإن الصور في العالم الحقيقي لا تحتوي فقط على مجموعة واسعة من السيناريوهات، بل تختلف أيضًا بشكل كبير فيما يتعلق بالدقة والنسبة، مما يشكل تحديات كبيرة للنماذج اللغوية الكبيرة عبر مجالات ومهام مختلفة. لمواجهة التباين الكبير المتمثل في الصور الحقيقية، تدرك النماذج اللغوية الكبيرة الحديثة الصور بدقة منخفضة، أي 224×224، ونسبة ثابتة، أي 1:1. على الرغم من أن التنازل للاستمرار مع الدقة المنخفضة والنسبة الثابتة يزيد من قابليتها للتعميم في التطبيقات الحقيقية، إلا أنه غالبًا ما يؤدي إلى تقليل محتوى الصورة بشكل كبير وأيضًا إلى تشويه الشكل. يؤثر التنازل بشكل كبير على قدرات النماذج الكبيرة متعددة التعلم أو LMMs، خاصة تلك التي تم تحسينها لمهام دقيقة مثل التعرف على الحروف البصرية وفهم الأجسام الصغيرة. بالإضافة إلى ذلك، منذ أن يتم تحديد الدقة والنسبة مسبقًا، يمكن للنماذج أن تتخيل فقط الصور المُبهَمة، مما يؤدي إلى هلوسة النموذج، وهي حالة ينتج فيها النموذج استجابات نصية لا تتمتع بأي أساس حقيقي في الصور.

في هذه المقالة، سنناقش LLaVA-UHD، وهي نهج جديد يأخذ الإطارات LLaVA-1.5 وGPT-4V كمثالين تمثيليين، ويتصرف ليكشف عن العيوب النظامية الجذرية في استراتيجية التشفير البصري الخاصة بهم. إطار LLaVA-UHD، وهو نموذج متعدد التعلم، هو محاولة لمواجهة التحديات. يمكن لإطار LLaVA-UHD رؤية الصور بدقة عالية وأي نسبة. يتم بناء إطار LLaVA-UHD حول ثلاثة مكونات رئيسية. أولًا، استراتيجية تجميع الصور التي تقسم الصور الأصلية إلى شرائح متغيرة الحجم لتعزيز الكفاءة وتوسيع التشفير. ثانيًا، وحدة ضغط تقلل من حجم رموز الصور التي تنتجها المُشفرات البصرية. أخيرًا، مخطط مكاني ينظم رموز الشرائح للنماذج اللغوية الكبيرة. تشير التجارب الشاملة إلى أن إطار LLaVA-UHD يمكن أن يتفوق على النماذج اللغوية الكبيرة الحالية في 9 معايير. بالإضافة إلى ذلك، باستخدام فقط 94% من حساب الاستدلال، يمكن لإطار LLaVA-UHD دعم الصور بدقة 6 مرات أكبر، أي 672×1088.

LLaVA-UHD : رؤية كفؤة للصور بأي نسبة و دقة عالية

لقد أحرزت العقلانية والتفاهم والتفاعل بين اللغة والرؤية تقدمًا كبيرًا في الآونة الأخيرة، ويرجع ذلك في الغالب إلى الدفع الأخير للنماذج اللغوية الكبيرة. في الإطارات الحديثة، يتم تحقيق ذلك عن طريق تغذية الإشارات البصرية إلى النماذج اللغوية الكبيرة أو LLMs لجعلها قادرة على تفسير العالم بصرية، وهي مجموعة متنوعة من السيناريوهات التي تعتمد على استراتيجيات التشفير البصري. الفرق في السيناريو يعكس تغطية ضيقة للنماذج اللغوية الكبيرة عبر مجالات ومهام مختلفة، في حين أن الفرق في الدقة والنسبة يُظهر تباينًا كبيرًا داخل الفئة في الصور الحقيقية، وهو ما يصعب التعامل معه. على عكس الحجم الصغير الذي يقلل من التباين، تتعامل النماذج بعد BERT مع الأهمية من خلال الدقة المنخفضة (على سبيل المثال، 224×224 ل LLaVA-UHD) للصور ونسبة ثابتة، 1:1، لتوفير الصور الحقيقية. على الرغم من أن هذا التنازل مفيد لضمان قابليتها للتعميم في التطبيقات الحقيقية، إلا أنه غالبًا ما يؤدي إلى جعل الصور غامضة جدًا مع تشويه الشكل الشديد. هذا يؤثر بشكل كبير على قدرات النماذج الكبيرة متعددة التعلم أو LMMs (على سبيل المثال، المهام الدقيقة مثل التعرف على الحروف البصرية وفهم الأجسام الصغيرة). منذ أن يتم تحديد الدقة والنسبة مسبقًا، يمكن للنماذج أن تتخيل فقط الصور المُبهَمة، مما يؤدي إلى هلوسة النموذج، وهي حالة ينتج فيها النموذج استجابات نصية لا تتمتع بأي أساس حقيقي في الصور. لماذا لا تدرك نماذج LMMs المعيارية الصور بدقة عالية وتنوع في النسبة؟

هناك两个 سبب رئيسي لعدم قدرة نماذج LMMs المعيارية على رؤية الصور بدقة عالية وتنوع في النسبة. أولًا،由于 أن المُشفرات البصرية يتم تدريبها مسبقًا في دقة معينة، فإن ذلك يجعل من الصعب على النموذج والمُشفر التعامل مع الصور التي تختلف في النسبة والدقة، مما يؤثر بشكل كبير على مرونة النموذج. ثانيًا، يرتبط تشفير الصور عالية الدقة مباشرةً باستخدام المُحول البصري مع تكلفة حسابية كبيرة تتعلق بحجم الصور. بالإضافة إلى ذلك، قد تكون التكاليف الحسابية أعلى بكثير للنموذج اللغوي الكبير لمعالجة عدد كبير من الرموز البصرية للصور عالية الدقة، مما يؤثر بشكل كبير على كفاءة النموذج بشكل عام. لمواجهة هذه التحديات، يأخذ إطار LLaVA-UHD، وهو نموذج متعدد التعلم كبير يدرك الصور بدقة عالية وأي نسبة، الإطارات LLaVA-1.5 وGPT-4V كمثالين تمثيليين، ويتصرف ليكشف عن العيوب النظامية الجذرية في استراتيجية التشفير البصري الخاصة بهم.

تُظهر الصورة أعلاه نتائج تجربة GPT-4V في تحديد عدد الكائنات في الصورة. في جوهره، يتكون إطار LLaVA-UHD من ثلاثة مكونات. أولًا، استراتيجية تجميع الصور التي تقسم الصور الأصلية إلى شرائح متغيرة الحجم لتوسيع التشفير بكفاءة. على عكس النماذج اللغوية الكبيرة الحديثة التي تتناسب مع الصور في دقة وتناسب معين، تمكن الشرائح المتغيرة الحجم التي ينتجها إطار LLaVA-UHD من التكيف الكامل مع الصور الأصلية دون تشويه الأشكال أو إعادة تحجيم أو حشو. ثانيًا، يُقلل النموذج من الرموز البصرية بواسطة طبقة ضغط إلى طول معقول، مما يؤدي إلى تقليل الحساب بشكل كبير للنماذج اللغوية الكبيرة. أخيرًا، ينظم النموذج الرموز المُضغطة للشرائح في مخطط مكاني لإعلام النموذج اللغوي الكبير بمواقع الشرائح في الصور.

LLaVA-UHD : منهجية وهيكل

بناءً على دروس بعض التجارب الطيار لدراسة الإطارات الحالية، بما في ذلك GPT-4V وLLaVA-1.5، يطبق إطار LLaVA-UHD هيكلاً يتكون من ثلاثة مكونات كما هو موضح في الصورة التالية.

أولًا، استراتيجية تجميع الصور التي تقسم الصور الأصلية إلى شرائح متغيرة الحجم لتوسيع التشفير بكفاءة. ثانيًا، وحدة ضغط تقلل من الرموز البصرية التي تنتجها المُشفرات البصرية. أخيرًا، مخطط مكاني ينظم الرموز للشرائح للنماذج اللغوية الكبيرة. دعونا نلقي نظرة مفصلة على هذه المكونات.

تشفير بصرية مُجمّع

من المنهجيات الشائعة للتعامل مع الصور عالية الدقة ذات النسب المختلفة هو تحويل التضمين المكاني للمُحول البصري أو ViT إلى الشكل المستهدف لتشفير مباشر ككل. ومع ذلك، غالبًا ما يرافق تنفيذ هذا النهج تكاليف حسابية عالية، وتؤدي مشاكل خارج التوزيع إلى تدهور الأداء بشكل أكبر. لمواجهة هذا التحدي، يقدم إطار LLaVA-UHD استراتيجية تشفير بصرية مُجمعة تهدف إلى تقسيم الصور الأصلية إلى شرائح متغيرة الحجم، حيث تكون شكل كل شريحة قريبًا جدًا من الإعدادات المسبقة للمُحول البصري. بفضل استخدام الشرائح المتغيرة الحجم، يمكن لإطار LLaVA-UHD تحقيق التكيف الكامل مع الصور الأصلية دون تنفيذ أي تحجيم أو حشو يُشوه الأشكال. بالإضافة إلى ذلك، الهدف الرئيسي لاستراتيجية تقطيع الصور هو تحديد تقسيم للصور عالية الدقة مع تغييرات دقيقة في دقة كل شريحة. لمعرفة الصورة مع دقة معينة (w,h)، ومُحول بصرية تم تدريبه مسبقًا في دقة أخرى، يحدد إطار LLaVA-UHD أولًا الحساب المثالي، أي عدد الشرائح المطلوبة لمعالجة الصورة. ثم يقسم الإطار عدد الشرائح إلى م columns وn صفوف. ثم يحدد الإطار دالة تقييم لقياس الانحراف عن الإعدادات المسبقة للمُحول البصري. نظريًا، يمكن لإطار LLaVA-UHD إثبات أن استراتيجية التقسيم التي يطبقها يضمن تغييرات متوقعة صغيرة وتغييرات أسوأ حالة معقولة مع relação إلى دقة الإعدادات المسبقة للمُحول البصري لكل شريحة.

علاوة على ذلك، تطبق معظم النماذج اللغوية الكبيرة الحالية دقة ثابتة لتشفير شرائح الصور، وهي نهج يمنع التكيف الكامل للنموذج مع الدقة الأصلية لأنها تتوفر فقط على شرائح forme ثابتة مسبقًا. بالإضافة إلى ذلك، تضر دقة الشريحة الثابتة بأداء النموذج وفعاليته وصحته لأنها تؤدي إلى تحجيم أو حشو يُشوه الأشكال بشكل لا مفر منه. لمواجهة هذه القضية، يقترح إطار LLaVA-UHD تشفير شرائح الصور في نسبة معينة حسب استراتيجية التقسيم. بشكل أكثر تحديدًا، يُعدل إطار LLaVA-UHD الصورة الأصلية بشكل متناسب مع نسبة معينة بحيث يتناسب عدد الباتشات مع الميزانية المسبقة للمُحول البصري، أي عدد تتابع التضمين المكاني في المُحول البصري، بشكل أقصى. ثم يُشكل إطار LLaVA-UHD تتابع التضمين المكاني المسبق للمُحول البصري إلى تنسيق ثنائي الأبعاد وفقًا لإعداداته المسبقة.

طبقة الضغط

من المشاكل الشائعة التي تواجهها النماذج اللغوية الكبيرة عند معالجة الصور عالية الدقة هو أن عدد الرموز البصرية التي يجب معالجتها أكبر بكثير (لمحة، ينتج إطار LLaVA-1.5 حوالي 3500 رمز بصرية عند معالجة صورة واحدة بدقة 672×1008)، مما يشكل جزءًا كبيرًا من الموارد الحسابية والتكلفة. لمواجهة هذا التحدي، يطبق إطار LLaVA-UHD طبقة مُشترك مُعاود لضغط الرموز البصرية لكل شريحة من الصورة. ثم يطبق الإطار مجموعة من متجهات الاستعلام عبر الانتباه المتقاطع لتحديث مخرجات الرموز البصرية بواسطة المُشفرات البصرية إلى عدد أقل. عند مقارنة استراتيجية العينة المُستخدمة بواسطة LLaVA-UHD بالاستراتيجيات الشائعة للمُشفرات متعددة الطبقات، يمكن لنهج العينة المُستخدم بواسطة LLaVA-UHD الحفاظ على عدد معقول وثابت من الرموز البصرية بغض النظر عن دقة الصورة، مما يجعل إطار LLaVA-UHD أكثر توافقًا مع مهام معالجة الصور عالية الدقة وفهمها. ليُظهر ذلك، ينتج إطار LLaVA-UHD نفس عدد الرموز عند تشفير صورة بدقة 672×1008 مثل إطار LLaVA-1.5 عند تشفير صورة بدقة 336×336، وهو ما يقرب من 6 مرات أكثر فعالية من منافسه.

مخطط مكاني للشرائح

من الممارسات الضرورية إعلام النموذج اللغوي الكبير بتنظيم الشرائح المكاني لأن تقسيم الصور هو ديناميكي عبر الصور المختلفة. يصمم إطار LLaVA-UHD وينفذ مخططًا مكانيًا يستخدم رمزان خاصان لإعلام النموذج اللغوي الكبير بموقع الشرائح النسبي. تحت هذا المخطط المكاني، يستخدم إطار LLaVA-UHD “,” لفصل تمثيلات الشرائح في صف، ويتفرق الصفوف المختلفة باستخدام “n”.

LLaVA-UHD : التجارب والنتائج

يُقيم إطار LLaVA-UHD مقابل 9 معايير شائعة، بما في ذلك معايير الأسئلة البصرية العامة، ومعايير الأسئلة البصرية القائمة على الحروف، ومعايير الهلوسة، ومعايير شاملة. بالإضافة إلى ذلك، يُقارن إطار LLaVA-UHD بالمعايير القوية، بما في ذلك LLaVA-1.5، وMiniGPT-v2، وInstructBLIP، وBLIP-2، وغيرها.

يُملخص أداء إطار LLaVA-UHD على 9 معايير شائعة، ويُقارن بالمعايير الشائعة في الجدول أدناه.

بناءً على الأداء السابق، يمكن الاستنتاج أن إطار LLaVA-UHD يمكن أن يتفوق على نماذج المعايير القوية على المعايير الشائعة، بما في ذلك المعايير القوية التي تم تدريبها على كمية كبيرة من البيانات، بالإضافة إلى تفوقه على النماذج اللغوية الكبيرة التي تحتاج إلى حسابات كبيرة مثل Fuyu-8B وMonkey وغيرها. ثانيًا، تشير النتائج أيضًا إلى أن إطار LLaVA-UHD يحقق نتائج أفضل بكثير من هيكل LLaVA-1.5، ومن جهة أخرى حيث يدعم LLaVA-1.5 دقة ثابتة 336×336، يدعم إطار LLaVA-UHD صورًا بدقة 672×1088 وأي نسبة، وعدد الرموز البصري相同.

أفكار ختامية

في هذه المقالة، تحدثنا عن LLaVA-UHD، وهي نهج جديد يأخذ الإطارات LLaVA-1.5 وGPT-4V كمثالين تمثيليين، ويتصرف ليكشف عن العيوب النظامية الجذرية في استراتيجية التشفير البصري الخاصة بهم. إطار LLaVA-UHD، وهو نموذج متعدد التعلم، هو محاولة لمواجهة التحديات. يمكن لإطار LLaVA-UHD رؤية الصور بدقة عالية وأي نسبة. يتم بناء إطار LLaVA-UHD حول ثلاثة مكونات رئيسية. أولًا، استراتيجية تجميع الصور التي تقسم الصور الأصلية إلى شرائح متغيرة الحجم لتوسيع التشفير بكفاءة. ثانيًا، وحدة ضغط تقلل من الرموز البصرية التي تنتجها المُشفرات البصرية. أخيرًا، مخطط مكاني ينظم الرموز للشرائح للنماذج اللغوية الكبيرة. تشير التجارب الشاملة إلى أن إطار LLaVA-UHD يمكن أن يتفوق على النماذج اللغوية الكبيرة الحالية في 9 معايير. بالإضافة إلى ذلك، باستخدام فقط 94% من حساب الاستدلال، يمكن لإطار LLaVA-UHD دعم الصور بدقة 6 مرات أكبر، أي 672×1088.

Kunal Kejriwal

مهندس بالمهنة، كاتب بالقلب. كونال هو كاتب تقني مع حب عميق وفهم لتقنيات الذكاء الاصطناعي والتعلم الآلي، مخصص لتبسيط المفاهيم المعقدة في هذه المجالات من خلال توثيقه الممتع والمعلوماتي.