Connect with us

рдЕрд▓реАрдмрд╛рдмрд╛ рдиреЗ Qwen3-VL рддрдХрдиреАрдХреА рд░рд┐рдкреЛрд░реНрдЯ рдЬрд╛рд░реА рдХреА, рдЬрд┐рд╕рдореЗрдВ рджреЛ рдШрдВрдЯреЗ рдХреЗ рд╡реАрдбрд┐рдпреЛ рд╡рд┐рд╢реНрд▓реЗрд╖рдг рдХрд╛ рд╡рд┐рд╡рд░рдг рджрд┐рдпрд╛ рдЧрдпрд╛ рд╣реИ

рдЙрджреНрдпреЛрдЧ рд░рд┐рдкреЛрд░реНрдЯреНрд╕

рдЕрд▓реАрдмрд╛рдмрд╛ рдиреЗ Qwen3-VL рддрдХрдиреАрдХреА рд░рд┐рдкреЛрд░реНрдЯ рдЬрд╛рд░реА рдХреА, рдЬрд┐рд╕рдореЗрдВ рджреЛ рдШрдВрдЯреЗ рдХреЗ рд╡реАрдбрд┐рдпреЛ рд╡рд┐рд╢реНрд▓реЗрд╖рдг рдХрд╛ рд╡рд┐рд╡рд░рдг рджрд┐рдпрд╛ рдЧрдпрд╛ рд╣реИ

mm

अलीबाबा की Qwen टीम ने 26 नवंबर को Qwen3-VL तकनीकी रिपोर्ट प्रकाशित की, जिसमें सितंबर में पहली बार लॉन्च हुए ओपन-सोर्स विजन-लैंग्वेज मॉडल का विस्तृत दस्तावेजीकरण प्रदान किया गया है। 64 लेखकों द्वारा लिखित इस पेपर में खुलासा किया गया है कि यह सिस्टम 256,000-टोकन संदर्भ विंडो के भीतर दो घंटे के वीडियो को संसाधित कर सकता है, जबकि विशिष्ट फ्रेम को स्थित करने में लगभग पूर्ण सटीकता बनाए रखता है।

फ्लैगशिप Qwen3-VL-235B-A22B मॉडल ने 30 मिनट के वीडियो में “सुई-इन-एक-हेस्टैक” परीक्षण में 100% सटीकता हासिल की, और दो घंटे के वीडियो में लगभग एक मिलियन टोकन के साथ 99.5% सटीकता बनाए रखी। परीक्षण विधि लंबे वीडियो के भीतर यादृच्छिक स्थितियों में एक सेमेंटिक रूप से महत्वपूर्ण “सुई” फ्रेम डालती है, और फिर मॉडल को उस विशिष्ट फ्रेम को स्थित करने और विश्लेषण करने की चुनौती देती है।

यह क्षमता Qwen3-VL को लंबे फॉर्म वीडियो समझने में एक महत्वपूर्ण उन्नति के रूप में स्थापित करती है – एक डोमेन जहां अधिकांश विजन-लैंग्वेज मॉडल लंबे समय से सुसंगत विश्लेषण बनाए रखने में संघर्ष करते हैं।

अग्रणी मॉडलों के खिलाफ बेंचमार्क प्रदर्शन

तकनीकी रिपोर्ट Qwen3-VL के प्रदर्शन को कई मूल्यांकन मेट्रिक्स में दस्तावेज करती है, जिसमें विशेष रूप से दृश्य गणित कार्यों में ताकत है। मॉडल ने MathVista पर 85.8% स्कोर किया, जो GPT-5 के 81.3% से अधिक है, और MathVision पर 74.6% सटीकता के साथ अग्रणी रहा, जो Gemini 2.5 Pro (73.3%) और GPT-5 (65.8%) से अधिक है।

दस्तावेज़ प्रसंस्करण क्षमताएं भी समान रूप से मजबूत साबित हुईं। मॉडल ने DocVQA पर 96.5% और OCRBench पर 875 अंक हासिल किए, जो 39 भाषाओं में पाठ पहचान का समर्थन करता है – इसके पूर्ववर्ती Qwen2.5-VL की भाषा कवरेज का लगभग चार गुना।

मॉडल परिवार, जो Hugging Face और Alibaba Cloud के माध्यम से उपलब्ध है, में घने वेरिएंट (2B, 4B, 8B, 32B पैरामीटर) और मिश्रण-ऑफ-एक्सपर्ट कॉन्फ़िगरेशन (30B-A3B और 235B-A22B) शामिल हैं। सितंबर की रिलीज़ के बाद से 8B वेरिएंट अकेले 2 मिलियन डाउनलोड से अधिक हो गया है।

हालांकि, परिणाम समान रूप से प्रभावशाली नहीं थे। MMMU-Pro पर, एक जटिल बहु-विषयक परीक्षण पर, Qwen3-VL ने 69.3% स्कोर किया, जो GPT-5 के 78.4% से कम है। व्यावसायिक प्रतियोगियों ने सामान्य वीडियो प्रश्न-उत्तर बेंचमार्क में भी优势 बनाए रखी, जो यह सुझाव देता है कि मॉडल विशेष रूप से दृश्य गणित और दस्तावेज़ विश्लेषण में उत्कृष्टता प्राप्त करता है, न कि एक सार्वभौमिक नेता के रूप में।

तीन वास्तुकला नवाचार

तकनीकी रिपोर्ट तीन प्रमुख वास्तुकला उन्नयन को रेखांकित करती है जो इन क्षमताओं को चलाते हैं। पहले, “इंटरलीव्ड MRoPE” पिछले स्थिति एम्बेडिंग विधियों को प्रतिस्थापित करता है जो समय, चौड़ाई और ऊंचाई आयामों में समान रूप से गणितीय प्रतिनिधित्व वितरित करके लंबे वीडियो पर प्रदर्शन में सुधार के लिए विशेष रूप से लक्षित है।

दूसरा, डीपस्टैक एकीकरण मल्टी-लेवल विजन ट्रांसफॉर्मर सुविधाओं को एकत्रित करता है ताकि बारीक विवरण और छवि-पाठ संरेखण को पकड़ा जा सके। तीसरा नवाचार समय रोटरी स्थिति एम्बेडिंग से परे जाता है और स्पष्ट पाठ-आधारित टाइमस्टैम्प संरेखण की ओर बढ़ता है, जो वीडियो सामग्री में विशिष्ट क्षणों को संदर्भित करने की आवश्यकता होने पर अधिक सटीक समय स्थापना की अनुमति देता है।

सिस्टम दृश्य धारण से परे एजेंट क्षमता का प्रदर्शन भी करता है। स्क्रीनस्पॉट प्रो पर, जो ग्राफिकल यूजर इंटरफेस के भीतर नेविगेशन का मूल्यांकन करता है, मॉडल ने 61.8% सटीकता हासिल की। एंड्रॉइडवर्ल्ड परीक्षण, जहां सिस्टम को स्वतंत्र रूप से एंड्रॉइड एप्लिकेशन संचालित करना होता है, 32B वेरिएंट ने 63.7% सटीकता हासिल की।

ओपन-सोर्स प्रतिस्पर्धी परिदृश्य

सितंबर से जारी किए गए सभी Qwen3-VL मॉडल Apache 2.0 लाइसेंस के तहत ओपन वेट्स के साथ उपलब्ध हैं। लाइनअप कॉम्पैक्ट 2B-पैरामीटर वेरिएंट से लेकर फ्लैगशिप 235B-A22B मॉडल तक है, जो महत्वपूर्ण कंप्यूटेशनल संसाधनों की आवश्यकता होती है – बाद वाला 471 जीबी पर आता है।

तकनीकी दस्तावेज़ीकरण का समय उल्लेखनीय है। Google के Gemini 1.5 Pro ने早 2024 में लंबे वीडियो से फ्रेम-निकालने की समान क्षमता प्रदर्शित की, लेकिन Qwen3-VL इसी तरह की कार्यक्षमता को ओपन-सोर्स इकोसिस्टम में लाता है। चीन के जनरेटिव एआई उपयोगकर्ता आधार ने हाल के महीनों में 515 मिलियन तक पहुंचकर दोगुना किया और Qwen मॉडल परिवार ने विश्वभर में 300 मिलियन से अधिक डाउनलोड आकर्षित किए हैं, अलीबाबा अपने ओपन मॉडल को वैश्विक बहु-मोडल एआई विकास के लिए आधार के रूप में स्थापित कर रहा है।

पिछला Qwen2.5-VL पहले ही 10 महीने से कम समय में 2,800 से अधिक उद्धरण एकत्र कर चुका है, जो मजबूत शोध ग्रहण को इंगित करता है। Qwen3-VL के लिए विस्तृत तकनीकी रिपोर्ट इस प्रवृत्ति को तेज करेगी, शोधकर्ताओं को इन क्षमताओं पर बनाने या प्रतिस्पर्धा करने के लिए वास्तुकला और प्रशिक्षण विवरण प्रदान करेगी।

विकासकर्ताओं के लिए इसका क्या अर्थ है

वीडियो विश्लेषण, दस्तावेज़ बुद्धिमत्ता, या दृश्य तर्क अनुप्रयोगों पर काम करने वाली टीमों के लिए, Qwen3-VL उत्पादन-तैयार क्षमता प्रदान करता है जिसमें एपीआई निर्भरता नहीं है। मॉडल की विशेष ताकत दृश्य गणित में इसे तुरंत प्रासंगिक बनाती है शैक्षिक प्रौद्योगिकी, वैज्ञानिक अनुसंधान उपकरण, और किसी भी अनुप्रयोग के लिए जो छवियों के भीतर चार्ट, आरेख, या गणितीय संकेतों की व्याख्या की आवश्यकता होती है।

ओपन और बंद मॉडल के बीच का अंतर विशिष्ट डोमेन में संकीर्ण होता जा रहा है, जबकि अन्य में यह अभी भी महत्वपूर्ण है। Qwen3-VL प्रदर्शित करता है कि ओपन-वेट मॉडल विशिष्ट कार्यों जैसे दृश्य गणित पर प्रोप्राइटरी सिस्टम को मैच या पार कर सकते हैं, भले ही वे व्यापक तर्क बेंचमार्क पर पीछे रह जाएं।

ओपन-सोर्स एआई समुदाय के लिए, विस्तृत तकनीकी रिपोर्ट दस्तावेज़ीकरण से अधिक है – यह एक रोडमैप है जिस पर अन्य टीमें अध्ययन, आलोचना, और निर्माण कर सकती हैं। चाहे यह प्रतिस्पर्धी कार्यान्वयन की ओर ले जाए या पूरक अनुसंधान, यह देखना बाकी है, लेकिन ओपन बहु-मोडल बुद्धिमत्ता के लिए बेसलाइन काफी उच्च हो गया है।

рдПрд▓реЗрдХреНрд╕ рдореИрдХрдлрд╛рд░рд▓реИрдВрдб рдПрдХ рдПрдЖрдИ рдкрддреНрд░рдХрд╛рд░ рдФрд░ рд▓реЗрдЦрдХ рд╣реИрдВ рдЬреЛ рдХреГрддреНрд░рд┐рдо рдмреБрджреНрдзрд┐рдорддреНрддрд╛ рдореЗрдВ рдирд╡реАрдирддрдо рд╡рд┐рдХрд╛рд╕реЛрдВ рдХрд╛ рдЕрдиреНрд╡реЗрд╖рдг рдХрд░ рд░рд╣реЗ рд╣реИрдВред рдЙрдиреНрд╣реЛрдВрдиреЗ рд╡рд┐рд╢реНрд╡рднрд░ рдХреЗ рдХрдИ рдПрдЖрдИ рд╕реНрдЯрд╛рд░реНрдЯрдЕрдкреНрд╕ рдФрд░ рдкреНрд░рдХрд╛рд╢рдиреЛрдВ рдХреЗ рд╕рд╛рде рд╕рд╣рдпреЛрдЧ рдХрд┐рдпрд╛ рд╣реИред