рдЙрджреНрдпреЛрдЧ рд░рд┐рдкреЛрд░реНрдЯреНрд╕
рдЕрд▓реАрдмрд╛рдмрд╛ рдиреЗ Qwen3-VL рддрдХрдиреАрдХреА рд░рд┐рдкреЛрд░реНрдЯ рдЬрд╛рд░реА рдХреА, рдЬрд┐рд╕рдореЗрдВ рджреЛ рдШрдВрдЯреЗ рдХреЗ рд╡реАрдбрд┐рдпреЛ рд╡рд┐рд╢реНрд▓реЗрд╖рдг рдХрд╛ рд╡рд┐рд╡рд░рдг рджрд┐рдпрд╛ рдЧрдпрд╛ рд╣реИ

अलीबाबा की Qwen टीम ने 26 नवंबर को Qwen3-VL तकनीकी रिपोर्ट प्रकाशित की, जिसमें सितंबर में पहली बार लॉन्च हुए ओपन-सोर्स विजन-लैंग्वेज मॉडल का विस्तृत दस्तावेजीकरण प्रदान किया गया है। 64 लेखकों द्वारा लिखित इस पेपर में खुलासा किया गया है कि यह सिस्टम 256,000-टोकन संदर्भ विंडो के भीतर दो घंटे के वीडियो को संसाधित कर सकता है, जबकि विशिष्ट फ्रेम को स्थित करने में लगभग पूर्ण सटीकता बनाए रखता है।
फ्लैगशिप Qwen3-VL-235B-A22B मॉडल ने 30 मिनट के वीडियो में “सुई-इन-एक-हेस्टैक” परीक्षण में 100% सटीकता हासिल की, और दो घंटे के वीडियो में लगभग एक मिलियन टोकन के साथ 99.5% सटीकता बनाए रखी। परीक्षण विधि लंबे वीडियो के भीतर यादृच्छिक स्थितियों में एक सेमेंटिक रूप से महत्वपूर्ण “सुई” फ्रेम डालती है, और फिर मॉडल को उस विशिष्ट फ्रेम को स्थित करने और विश्लेषण करने की चुनौती देती है।
यह क्षमता Qwen3-VL को लंबे फॉर्म वीडियो समझने में एक महत्वपूर्ण उन्नति के रूप में स्थापित करती है – एक डोमेन जहां अधिकांश विजन-लैंग्वेज मॉडल लंबे समय से सुसंगत विश्लेषण बनाए रखने में संघर्ष करते हैं।
अग्रणी मॉडलों के खिलाफ बेंचमार्क प्रदर्शन
तकनीकी रिपोर्ट Qwen3-VL के प्रदर्शन को कई मूल्यांकन मेट्रिक्स में दस्तावेज करती है, जिसमें विशेष रूप से दृश्य गणित कार्यों में ताकत है। मॉडल ने MathVista पर 85.8% स्कोर किया, जो GPT-5 के 81.3% से अधिक है, और MathVision पर 74.6% सटीकता के साथ अग्रणी रहा, जो Gemini 2.5 Pro (73.3%) और GPT-5 (65.8%) से अधिक है।
दस्तावेज़ प्रसंस्करण क्षमताएं भी समान रूप से मजबूत साबित हुईं। मॉडल ने DocVQA पर 96.5% और OCRBench पर 875 अंक हासिल किए, जो 39 भाषाओं में पाठ पहचान का समर्थन करता है – इसके पूर्ववर्ती Qwen2.5-VL की भाषा कवरेज का लगभग चार गुना।
मॉडल परिवार, जो Hugging Face और Alibaba Cloud के माध्यम से उपलब्ध है, में घने वेरिएंट (2B, 4B, 8B, 32B पैरामीटर) और मिश्रण-ऑफ-एक्सपर्ट कॉन्फ़िगरेशन (30B-A3B और 235B-A22B) शामिल हैं। सितंबर की रिलीज़ के बाद से 8B वेरिएंट अकेले 2 मिलियन डाउनलोड से अधिक हो गया है।
हालांकि, परिणाम समान रूप से प्रभावशाली नहीं थे। MMMU-Pro पर, एक जटिल बहु-विषयक परीक्षण पर, Qwen3-VL ने 69.3% स्कोर किया, जो GPT-5 के 78.4% से कम है। व्यावसायिक प्रतियोगियों ने सामान्य वीडियो प्रश्न-उत्तर बेंचमार्क में भी优势 बनाए रखी, जो यह सुझाव देता है कि मॉडल विशेष रूप से दृश्य गणित और दस्तावेज़ विश्लेषण में उत्कृष्टता प्राप्त करता है, न कि एक सार्वभौमिक नेता के रूप में।
तीन वास्तुकला नवाचार
तकनीकी रिपोर्ट तीन प्रमुख वास्तुकला उन्नयन को रेखांकित करती है जो इन क्षमताओं को चलाते हैं। पहले, “इंटरलीव्ड MRoPE” पिछले स्थिति एम्बेडिंग विधियों को प्रतिस्थापित करता है जो समय, चौड़ाई और ऊंचाई आयामों में समान रूप से गणितीय प्रतिनिधित्व वितरित करके लंबे वीडियो पर प्रदर्शन में सुधार के लिए विशेष रूप से लक्षित है।
दूसरा, डीपस्टैक एकीकरण मल्टी-लेवल विजन ट्रांसफॉर्मर सुविधाओं को एकत्रित करता है ताकि बारीक विवरण और छवि-पाठ संरेखण को पकड़ा जा सके। तीसरा नवाचार समय रोटरी स्थिति एम्बेडिंग से परे जाता है और स्पष्ट पाठ-आधारित टाइमस्टैम्प संरेखण की ओर बढ़ता है, जो वीडियो सामग्री में विशिष्ट क्षणों को संदर्भित करने की आवश्यकता होने पर अधिक सटीक समय स्थापना की अनुमति देता है।
सिस्टम दृश्य धारण से परे एजेंट क्षमता का प्रदर्शन भी करता है। स्क्रीनस्पॉट प्रो पर, जो ग्राफिकल यूजर इंटरफेस के भीतर नेविगेशन का मूल्यांकन करता है, मॉडल ने 61.8% सटीकता हासिल की। एंड्रॉइडवर्ल्ड परीक्षण, जहां सिस्टम को स्वतंत्र रूप से एंड्रॉइड एप्लिकेशन संचालित करना होता है, 32B वेरिएंट ने 63.7% सटीकता हासिल की।
ओपन-सोर्स प्रतिस्पर्धी परिदृश्य
सितंबर से जारी किए गए सभी Qwen3-VL मॉडल Apache 2.0 लाइसेंस के तहत ओपन वेट्स के साथ उपलब्ध हैं। लाइनअप कॉम्पैक्ट 2B-पैरामीटर वेरिएंट से लेकर फ्लैगशिप 235B-A22B मॉडल तक है, जो महत्वपूर्ण कंप्यूटेशनल संसाधनों की आवश्यकता होती है – बाद वाला 471 जीबी पर आता है।
तकनीकी दस्तावेज़ीकरण का समय उल्लेखनीय है। Google के Gemini 1.5 Pro ने早 2024 में लंबे वीडियो से फ्रेम-निकालने की समान क्षमता प्रदर्शित की, लेकिन Qwen3-VL इसी तरह की कार्यक्षमता को ओपन-सोर्स इकोसिस्टम में लाता है। चीन के जनरेटिव एआई उपयोगकर्ता आधार ने हाल के महीनों में 515 मिलियन तक पहुंचकर दोगुना किया और Qwen मॉडल परिवार ने विश्वभर में 300 मिलियन से अधिक डाउनलोड आकर्षित किए हैं, अलीबाबा अपने ओपन मॉडल को वैश्विक बहु-मोडल एआई विकास के लिए आधार के रूप में स्थापित कर रहा है।
पिछला Qwen2.5-VL पहले ही 10 महीने से कम समय में 2,800 से अधिक उद्धरण एकत्र कर चुका है, जो मजबूत शोध ग्रहण को इंगित करता है। Qwen3-VL के लिए विस्तृत तकनीकी रिपोर्ट इस प्रवृत्ति को तेज करेगी, शोधकर्ताओं को इन क्षमताओं पर बनाने या प्रतिस्पर्धा करने के लिए वास्तुकला और प्रशिक्षण विवरण प्रदान करेगी।
विकासकर्ताओं के लिए इसका क्या अर्थ है
वीडियो विश्लेषण, दस्तावेज़ बुद्धिमत्ता, या दृश्य तर्क अनुप्रयोगों पर काम करने वाली टीमों के लिए, Qwen3-VL उत्पादन-तैयार क्षमता प्रदान करता है जिसमें एपीआई निर्भरता नहीं है। मॉडल की विशेष ताकत दृश्य गणित में इसे तुरंत प्रासंगिक बनाती है शैक्षिक प्रौद्योगिकी, वैज्ञानिक अनुसंधान उपकरण, और किसी भी अनुप्रयोग के लिए जो छवियों के भीतर चार्ट, आरेख, या गणितीय संकेतों की व्याख्या की आवश्यकता होती है।
ओपन और बंद मॉडल के बीच का अंतर विशिष्ट डोमेन में संकीर्ण होता जा रहा है, जबकि अन्य में यह अभी भी महत्वपूर्ण है। Qwen3-VL प्रदर्शित करता है कि ओपन-वेट मॉडल विशिष्ट कार्यों जैसे दृश्य गणित पर प्रोप्राइटरी सिस्टम को मैच या पार कर सकते हैं, भले ही वे व्यापक तर्क बेंचमार्क पर पीछे रह जाएं।
ओपन-सोर्स एआई समुदाय के लिए, विस्तृत तकनीकी रिपोर्ट दस्तावेज़ीकरण से अधिक है – यह एक रोडमैप है जिस पर अन्य टीमें अध्ययन, आलोचना, और निर्माण कर सकती हैं। चाहे यह प्रतिस्पर्धी कार्यान्वयन की ओर ले जाए या पूरक अनुसंधान, यह देखना बाकी है, लेकिन ओपन बहु-मोडल बुद्धिमत्ता के लिए बेसलाइन काफी उच्च हो गया है।












