行业报告
阿里巴巴发布 Qwen3-VL 技术报告,详细介绍两小时视频分析能力

阿里巴巴的 Qwen 团队于 11 月 26 日发布了 Qwen3-VL 技术报告,提供了对开源视觉语言模型的详细文档,该模型于 9 月首次发布。该报告由 64 位作者撰写,揭示了该系统可以在 256,000 个标记的上下文窗口内处理两小时的视频,同时保持近乎完美的准确性来定位特定的帧。
旗舰 Qwen3-VL-235B-A22B 模型在“针在干草堆”测试中实现了 100% 的准确率,当搜索 30 分钟的视频时,即使在扫描包含约一百万个标记的两小时视频时,也保持了 99.5% 的准确率。测试方法是在长视频中随机插入一个语义上重要的“针”帧,然后挑战模型定位和分析该特定帧。
这种能力将 Qwen3-VL 定位为长视频理解领域的重大进步——这是大多数视觉语言模型难以保持长时间内的一致分析的领域。
与领先模型的基准性能比较
技术报告记录了 Qwen3-VL 在多个评估指标上的性能,特别是在视觉数学任务中表现出色。该模型在 MathVista 上获得了 85.8% 的分数,超过了 GPT-5 的 81.3%,并在 MathVision 上获得了 74.6% 的准确率,超过了 Gemini 2.5 Pro(73.3%)和 GPT-5(65.8%)。
文档处理能力同样强大。该模型在 DocVQA 上实现了 96.5% 的准确率,用于文档理解,并在 OCRBench 上获得了 875 分,支持 39 种语言的文本识别——几乎是其前身 Qwen2.5-VL 的四倍。其中 32 种语言的 OCR 任务保持了超过 70% 的准确率。
该模型家族通过 Hugging Face 和 阿里云 提供,包括密集变体(2B、4B、8B、32B 参数)和混合专家配置(30B-A3B 和 235B-A22B)。自 9 月发布以来,8B 变体单独超过了 200 万次下载。
然而,结果并非在所有方面都占据主导地位。在 MMMU-Pro,这是一个复杂的多学科测试,Qwen3-VL 的得分为 69.3%,而 GPT-5 的得分为 78.4%。商业竞争对手在通用视频问答基准测试中保持了优势,表明该模型在视觉数学和文档分析方面表现出色,而不是在所有方面都表现出色。
三项架构创新
技术报告概述了三项关键的架构升级,这些升级推动了这些能力。首先,“交错 MRoPE”取代了以前的位置嵌入方法,通过均匀地将数学表示分布在时间、宽度和高度维度上,而不是按维度分组。这一变化特别针对长视频的性能改进。
第二,DeepStack 集成融合了多级视觉变换器特征,以捕捉细粒度的视觉细节并紧密地对齐图像和文本。第三项创新超越了时间旋转位置嵌入,采用了基于文本的时间戳对齐,使得当模型需要引用视频内容中的特定时刻时,能够实现更精确的时间定位。
该系统还展示了超越纯粹感知的代理能力。在 ScreenSpot Pro 上,该系统评估了在图形用户界面中的导航,模型实现了 61.8% 的准确率。AndroidWorld 测试中,系统必须独立操作 Android 应用,32B 变体实现了 63.7% 的准确率。
开源竞争格局
自 9 月发布以来,所有 Qwen3-VL 模型都在 Apache 2.0 许可下发布,提供开源权重。产品线从适合边缘部署的紧凑 2B 参数变体到需要大量计算资源的旗舰 235B-A22B 模型——后者重达 471 GB。
此次技术文档的时机值得注意。2024 年初,Google 的 Gemini 1.5 Pro 在长视频中展示了类似的帧提取能力,但 Qwen3-VL 将类似的功能带到了开源生态系统中。随着 中国的生成式 AI 用户群体在近几个月内翻倍增长至 5.15 亿,Qwen 模型家族在全球吸引了超过 3 亿次下载,阿里巴巴明显将其开源模型定位为全球多模态 AI 开发的基础。
之前的 Qwen2.5-VL 在不到 10 个月的时间内已经积累了超过 2,800 次引用,表明研究采用率很高。Qwen3-VL 的详细技术报告应该会加速这一趋势,为研究人员提供了构建或竞争这些能力所需的架构和训练细节。
这对开发人员意味着什么
对于从事视频分析、文档智能或视觉推理应用的团队,Qwen3-VL 提供了生产就绪的功能,而无需依赖 API。该模型在视觉数学方面的特定优势使其对教育技术、科学研究工具以及任何需要解释图表、图表或图像中的数学符号的应用程序都具有即刻的相关性。
开源模型和闭源模型之间的差距在某些领域继续缩小,同时在其他领域仍然存在显著差距。Qwen3-VL 表明,开源模型可以在专门任务(如视觉数学)上匹配或超过专有系统,即使在更广泛的推理基准测试中仍然落后。
对于开源 AI 社区,详细的技术报告代表的不仅仅是文档——它是一张其他团队可以研究、批评和改进的路线图。无论这是否会导致竞争性实现或补充性研究,都有待观察,但开源多模态智能的基准已经大大提高了。社区中,详细的技术报告代表的不仅仅是文档——它是一张其他团队可以研究、批评和改进的路线图。无论这是否会导致竞争性实现或补充性研究,都有待观察,但开源多模态智能的基准已经大大提高了。












