تقارير الصناعة
ألبابا تطلق تقريرًا تقنيًا لـ Qwen3-VL يفصّل تحليل الفيديو لمدة ساعتين

نشر فريق Qwen التابع لألبابا تقريرًا تقنيًا لـ Qwen3-VL في 26 نوفمبر، مما يوفر توثيقًا مفصّلًا للنموذج المفتوح المصدر للرؤية واللغة الذي تم إطلاقه لأول مرة في سبتمبر. يكشف الورقة التي كتبها 64 مؤلفًا عن أن النظام يمكنه معالجة فيديوهات مدتها ساعتان داخل نافذة سياق تتكون من 256000 رمز مع الحفاظ على دقة قريبة من الكمال في تحديد الإطارات المحددة.
حقق النموذج الرائد Qwen3-VL-235B-A22B دقة بنسبة 100٪ في اختبارات “الإبرة في العشب” عند البحث في فيديوهات مدتها 30 دقيقة، وحافظ على دقة 99.5٪ حتى عند مسح فيديوهات مدتها ساعتان تحتوي على ما يقرب من مليون رمز. تستخدم منهجية الاختبار إدراج إطار “إبرة” ذي معنى دلالي في مواقع عشوائية داخل الفيديوهات الطويلة، ثم يُطلب من النموذج العثور على هذا الإطار وتحليله.
تضع هذه القدرة Qwen3-VL كتطور كبير في فهم الفيديو الطويل – مجال حيث عانى معظم نماذج الرؤية واللغة من صعوبة الحفاظ على التحليل المنسق على مدى فترات زمنية مطولة.
أداء البENCHMARK ضد النماذج الرائدة
يوثق التقرير التقني أداء Qwen3-VL عبر معايير تقييم متعددة، مع قوة خاصة في مهام الرياضيات البصرية. سجل النموذج 85.8٪ على MathVista، متجاوزًا 81.3٪ ل GPT-5، وقاد MathVision بنسبة دقة 74.6٪ مقارنةً ب Gemini 2.5 Pro (73.3٪) و GPT-5 (65.8٪).
أثبتت قدرات معالجة المستندات قوة مماثلة. حقق النموذج 96.5٪ على DocVQA لمعالجة المستندات و 875 نقطة على OCRBench، مما يدعم التعرف على النص عبر 39 لغة – أي ما يقرب من أربع مرات تغطية اللغة لنظيره السابق Qwen2.5-VL. تم الحفاظ على أكثر من 70٪ دقة في مهام OCR في 32 لغة من اللغات المدعومة.
تتضمن عائلة النماذج، المتاحة من خلال Hugging Face و Alibaba Cloud، كلاً من المتغيرات الكثيفة (2B و 4B و 8B و 32B معامل) وتكوينات الخبراء المختلطين (30B-A3B و 235B-A22B). يتجاوز المتغير 8B وحده أكثر من 2 مليون تحميل منذ إطلاقه في سبتمبر.
然而، لم تكن النتائج سائدة بشكل موحد. على MMMU-Pro، اختبار متعدد التخصصات معقد، سجل Qwen3-VL 69.3٪ مقارنةً ب 78.4٪ ل GPT-5. حافظ المنافسون التجاريون على مزاياهم في معايير الأسئلة والاجابات الفيديوية العامة، مما يشير إلى أن النموذج يمتاز كمتخصص في الرياضيات البصرية وتحليل المستندات بدلاً من كونه قائدًا عالميًا.
ثلاث تحسينات معمارية
يحدد التقرير التقني ثلاث تحسينات معمارية رئيسية تُ驱ِّع هذه القدرات. أولاً، يُستخدم “التركيب المتشابك MRoPE” لتحل محل أساليب التضمين الموضعي السابقة من خلال توزيع التمثيلات الرياضية بشكل متساوٍ عبر الأبعاد الزمنية والعرض والارتفاع بدلاً من تجميعها حسب البعد. يستهدف هذا التغيير تحسين الأداء على الفيديوهات الطويلة بشكل خاص.
ثانيًا، يدمج DeepStack ميزات Transformer البصرية متعددة المستويات لالتقاط تفاصيل بصرية دقيقة وتightening الصورة-النص. التطور الثالث يتجاوز التضمين الدوري الزمني إلى تحديد زمني نصي صريح، مما يُمكِّن من توجيه زمني أكثر دقة عند حاجة النموذج إلى الإشارة إلى لحظات محددة في المحتوى الفيديوي.
يُظهر النظام أيضًا قدرات الوكيل خارج نطاق الإدراك البصري الخالص. على ScreenSpot Pro، الذي يُقيم الملاحة داخل واجهات المستخدم الرسومية، حقق النموذج 61.8٪ دقة. saw AndroidWorld testing، حيث يجب على النظام تشغيل تطبيقات Android بشكل مستقل، 32B variant reached 63.7٪ دقة.
مناظير المنافسة المفتوحة المصدر
جميع نماذج Qwen3-VL التي تم إصدارها منذ سبتمبر متاحة تحت رخصة Apache 2.0 مع أوزان مفتوحة. تشمل التشكيلة النماذج من المتغير الكompact 2B-parameter مناسب للنشر على الحواف إلى نموذج الرائد 235B-A22B الذي يتطلب موارد حسابية كبيرة – الأخير يزن 471 جيجابايت.
الوقت الذي تم فيه إصدار هذا التوثيق التقني ملحوظ. أظهرت Gemini 1.5 Pro من Google قدرات استخراج إطارات مماثلة من الفيديوهات الطويلة في بداية عام 2024، لكن Qwen3-VL يجلب وظيفية مماثلة إلى النظام البيئي المفتوح المصدر. مع China’s generative AI user base doubling to 515 million في الأشهر القليلة الماضية ونموذج Qwen قد جذب أكثر من 300 مليون تحميل في جميع أنحاء العالم، ألبابا تضع بشكل واضح نماذجها المفتوحة كأساس لتطوير الذكاء الاصطناعي المتعددة الأشكال على مستوى العالم.
النموذج السابق Qwen2.5-VL جمع بالفعل أكثر من 2800 اقتباس في أقل من 10 أشهر، مما يشير إلى تبني بحثي قوي. يجب أن يسرع التقرير التقني المفصّل لـ Qwen3-VL هذا المسار، مما يوفر للباحثين التفاصيل المعمارية والتدريبية اللازمة للبناء عليها أو المنافسة مع هذه القدرات.
ما يعنيه هذا لل مطورين
للفريق الذي يعمل على تحليل الفيديو أو ذكاء المستندات أو تطبيقات الاستدلال البصري، يوفر Qwen3-VL قدرات جاهزة للإنتاج دون اعتمادية على واجهات برمجة التطبيقات. قوة النموذج الخاصة في الرياضيات البصرية تجعله ذا صلة فورية للتكنولوجيا التعليمية وأدوات البحث العلمي وأي تطبيق يتطلب تفسير الرسومات أو المخططات أو التدوين الرياضي داخل الصور.
الفرق بين النماذج المفتوحة والمنغلقة لا يزال ي狭 في مجالات معينة، في حين يبقى كبيرًا في مجالات أخرى. يُظهر Qwen3-VL أن النماذج ذات الأوزان المفتوحة يمكن أن تتطابق أو تتجاوز الأنظمة المملوكة في مهام متخصصة مثل الرياضيات البصرية، حتى لو كانت تُجري في اختبارات المنطق الأوسع نطاقًا.
للمجتمع المفتوح المصدر للذكاء الاصطناعي، يمثل التقرير التقني المفصّل أكثر من مجرد توثيق – إنه خريطة طريق يمكن للفرق الأخرى دراستها وانتقادها والبناء عليها. سواء أدى ذلك إلى تنفيذات منافسة أو بحث مکمل يبقى لمعرفة ما سيحدث، ولكن معيار الذكاء المتعدد الأشكال المفتوح أصبح أعلى بكثير.












