उद्योग रिपोर्ट्स

अलीबाबा ने Qwen3-VL तकनीकी रिपोर्ट जारी की, जिसमें दो घंटे के वीडियो विश्लेषण का विवरण दिया गया है

Published November 28, 2025

Updated April 25, 2026

Alex McFarland

अलीबाबा की Qwen टीम ने 26 नवंबर को Qwen3-VL तकनीकी रिपोर्ट प्रकाशित की, जिसमें सितंबर में पहली बार लॉन्च हुए ओपन-सोर्स विजन-लैंग्वेज मॉडल का विस्तृत दस्तावेजीकरण प्रदान किया गया है। 64 लेखकों द्वारा लिखित इस पेपर में खुलासा किया गया है कि यह सिस्टम 256,000-टोकन संदर्भ विंडो के भीतर दो घंटे के वीडियो को संसाधित कर सकता है, जबकि विशिष्ट फ्रेम को स्थित करने में लगभग पूर्ण सटीकता बनाए रखता है।

फ्लैगशिप Qwen3-VL-235B-A22B मॉडल ने 30 मिनट के वीडियो में “सुई-इन-एक-हेस्टैक” परीक्षण में 100% सटीकता हासिल की, और दो घंटे के वीडियो में लगभग एक मिलियन टोकन के साथ 99.5% सटीकता बनाए रखी। परीक्षण विधि लंबे वीडियो के भीतर यादृच्छिक स्थितियों में एक सेमेंटिक रूप से महत्वपूर्ण “सुई” फ्रेम डालती है, और फिर मॉडल को उस विशिष्ट फ्रेम को स्थित करने और विश्लेषण करने की चुनौती देती है।

यह क्षमता Qwen3-VL को लंबे फॉर्म वीडियो समझने में एक महत्वपूर्ण उन्नति के रूप में स्थापित करती है – एक डोमेन जहां अधिकांश विजन-लैंग्वेज मॉडल लंबे समय से सुसंगत विश्लेषण बनाए रखने में संघर्ष करते हैं।

अग्रणी मॉडलों के खिलाफ बेंचमार्क प्रदर्शन

तकनीकी रिपोर्ट Qwen3-VL के प्रदर्शन को कई मूल्यांकन मेट्रिक्स में दस्तावेज करती है, जिसमें विशेष रूप से दृश्य गणित कार्यों में ताकत है। मॉडल ने MathVista पर 85.8% स्कोर किया, जो GPT-5 के 81.3% से अधिक है, और MathVision पर 74.6% सटीकता के साथ अग्रणी रहा, जो Gemini 2.5 Pro (73.3%) और GPT-5 (65.8%) से अधिक है।

दस्तावेज़ प्रसंस्करण क्षमताएं भी समान रूप से मजबूत साबित हुईं। मॉडल ने DocVQA पर 96.5% और OCRBench पर 875 अंक हासिल किए, जो 39 भाषाओं में पाठ पहचान का समर्थन करता है – इसके पूर्ववर्ती Qwen2.5-VL की भाषा कवरेज का लगभग चार गुना।

मॉडल परिवार, जो Hugging Face और Alibaba Cloud के माध्यम से उपलब्ध है, में घने वेरिएंट (2B, 4B, 8B, 32B पैरामीटर) और मिश्रण-ऑफ-एक्सपर्ट कॉन्फ़िगरेशन (30B-A3B और 235B-A22B) शामिल हैं। सितंबर की रिलीज़ के बाद से 8B वेरिएंट अकेले 2 मिलियन डाउनलोड से अधिक हो गया है।

हालांकि, परिणाम समान रूप से प्रभावशाली नहीं थे। MMMU-Pro पर, एक जटिल बहु-विषयक परीक्षण पर, Qwen3-VL ने 69.3% स्कोर किया, जो GPT-5 के 78.4% से कम है। व्यावसायिक प्रतियोगियों ने सामान्य वीडियो प्रश्न-उत्तर बेंचमार्क में भी优势 बनाए रखी, जो यह सुझाव देता है कि मॉडल विशेष रूप से दृश्य गणित और दस्तावेज़ विश्लेषण में उत्कृष्टता प्राप्त करता है, न कि एक सार्वभौमिक नेता के रूप में।

तीन वास्तुकला नवाचार

तकनीकी रिपोर्ट तीन प्रमुख वास्तुकला उन्नयन को रेखांकित करती है जो इन क्षमताओं को चलाते हैं। पहले, “इंटरलीव्ड MRoPE” पिछले स्थिति एम्बेडिंग विधियों को प्रतिस्थापित करता है जो समय, चौड़ाई और ऊंचाई आयामों में समान रूप से गणितीय प्रतिनिधित्व वितरित करके लंबे वीडियो पर प्रदर्शन में सुधार के लिए विशेष रूप से लक्षित है।

दूसरा, डीपस्टैक एकीकरण मल्टी-लेवल विजन ट्रांसफॉर्मर सुविधाओं को एकत्रित करता है ताकि बारीक विवरण और छवि-पाठ संरेखण को पकड़ा जा सके। तीसरा नवाचार समय रोटरी स्थिति एम्बेडिंग से परे जाता है और स्पष्ट पाठ-आधारित टाइमस्टैम्प संरेखण की ओर बढ़ता है, जो वीडियो सामग्री में विशिष्ट क्षणों को संदर्भित करने की आवश्यकता होने पर अधिक सटीक समय स्थापना की अनुमति देता है।

सिस्टम दृश्य धारण से परे एजेंट क्षमता का प्रदर्शन भी करता है। स्क्रीनस्पॉट प्रो पर, जो ग्राफिकल यूजर इंटरफेस के भीतर नेविगेशन का मूल्यांकन करता है, मॉडल ने 61.8% सटीकता हासिल की। एंड्रॉइडवर्ल्ड परीक्षण, जहां सिस्टम को स्वतंत्र रूप से एंड्रॉइड एप्लिकेशन संचालित करना होता है, 32B वेरिएंट ने 63.7% सटीकता हासिल की।

ओपन-सोर्स प्रतिस्पर्धी परिदृश्य

सितंबर से जारी किए गए सभी Qwen3-VL मॉडल Apache 2.0 लाइसेंस के तहत ओपन वेट्स के साथ उपलब्ध हैं। लाइनअप कॉम्पैक्ट 2B-पैरामीटर वेरिएंट से लेकर फ्लैगशिप 235B-A22B मॉडल तक है, जो महत्वपूर्ण कंप्यूटेशनल संसाधनों की आवश्यकता होती है – बाद वाला 471 जीबी पर आता है।

तकनीकी दस्तावेज़ीकरण का समय उल्लेखनीय है। Google के Gemini 1.5 Pro ने早 2024 में लंबे वीडियो से फ्रेम-निकालने की समान क्षमता प्रदर्शित की, लेकिन Qwen3-VL इसी तरह की कार्यक्षमता को ओपन-सोर्स इकोसिस्टम में लाता है। चीन के जनरेटिव एआई उपयोगकर्ता आधार ने हाल के महीनों में 515 मिलियन तक पहुंचकर दोगुना किया और Qwen मॉडल परिवार ने विश्वभर में 300 मिलियन से अधिक डाउनलोड आकर्षित किए हैं, अलीबाबा अपने ओपन मॉडल को वैश्विक बहु-मोडल एआई विकास के लिए आधार के रूप में स्थापित कर रहा है।

पिछला Qwen2.5-VL पहले ही 10 महीने से कम समय में 2,800 से अधिक उद्धरण एकत्र कर चुका है, जो मजबूत शोध ग्रहण को इंगित करता है। Qwen3-VL के लिए विस्तृत तकनीकी रिपोर्ट इस प्रवृत्ति को तेज करेगी, शोधकर्ताओं को इन क्षमताओं पर बनाने या प्रतिस्पर्धा करने के लिए वास्तुकला और प्रशिक्षण विवरण प्रदान करेगी।

विकासकर्ताओं के लिए इसका क्या अर्थ है

वीडियो विश्लेषण, दस्तावेज़ बुद्धिमत्ता, या दृश्य तर्क अनुप्रयोगों पर काम करने वाली टीमों के लिए, Qwen3-VL उत्पादन-तैयार क्षमता प्रदान करता है जिसमें एपीआई निर्भरता नहीं है। मॉडल की विशेष ताकत दृश्य गणित में इसे तुरंत प्रासंगिक बनाती है शैक्षिक प्रौद्योगिकी, वैज्ञानिक अनुसंधान उपकरण, और किसी भी अनुप्रयोग के लिए जो छवियों के भीतर चार्ट, आरेख, या गणितीय संकेतों की व्याख्या की आवश्यकता होती है।

ओपन और बंद मॉडल के बीच का अंतर विशिष्ट डोमेन में संकीर्ण होता जा रहा है, जबकि अन्य में यह अभी भी महत्वपूर्ण है। Qwen3-VL प्रदर्शित करता है कि ओपन-वेट मॉडल विशिष्ट कार्यों जैसे दृश्य गणित पर प्रोप्राइटरी सिस्टम को मैच या पार कर सकते हैं, भले ही वे व्यापक तर्क बेंचमार्क पर पीछे रह जाएं।

ओपन-सोर्स एआई समुदाय के लिए, विस्तृत तकनीकी रिपोर्ट दस्तावेज़ीकरण से अधिक है – यह एक रोडमैप है जिस पर अन्य टीमें अध्ययन, आलोचना, और निर्माण कर सकती हैं। चाहे यह प्रतिस्पर्धी कार्यान्वयन की ओर ले जाए या पूरक अनुसंधान, यह देखना बाकी है, लेकिन ओपन बहु-मोडल बुद्धिमत्ता के लिए बेसलाइन काफी उच्च हो गया है।

Alex McFarland

एलेक्स मैकफारलैंड एक एआई पत्रकार और लेखक हैं जो कृत्रिम बुद्धिमत्ता में नवीनतम विकासों का अन्वेषण कर रहे हैं। उन्होंने विश्वभर के कई एआई स्टार्टअप्स और प्रकाशनों के साथ सहयोग किया है।

Unite.AI

अलीबाबा ने Qwen3-VL तकनीकी रिपोर्ट जारी की, जिसमें दो घंटे के वीडियो विश्लेषण का विवरण दिया गया है

अग्रणी मॉडलों के खिलाफ बेंचमार्क प्रदर्शन

तीन वास्तुकला नवाचार

ओपन-सोर्स प्रतिस्पर्धी परिदृश्य

विकासकर्ताओं के लिए इसका क्या अर्थ है

You may like