行业报告

阿里巴巴发布 Qwen3-VL 技术报告，详细介绍两小时视频分析能力

Published November 28, 2025

Updated May 17, 2026

Alex McFarland

阿里巴巴的 Qwen 团队于 11 月 26 日发布了 Qwen3-VL 技术报告，提供了对开源视觉语言模型的详细文档，该模型于 9 月首次发布。该报告由 64 位作者撰写，揭示了该系统可以在 256,000 个标记的上下文窗口内处理两小时的视频，同时保持近乎完美的准确性来定位特定的帧。

旗舰 Qwen3-VL-235B-A22B 模型在“针在干草堆”测试中实现了 100% 的准确率，当搜索 30 分钟的视频时，即使在扫描包含约一百万个标记的两小时视频时，也保持了 99.5% 的准确率。测试方法是在长视频中随机插入一个语义上重要的“针”帧，然后挑战模型定位和分析该特定帧。

这种能力将 Qwen3-VL 定位为长视频理解领域的重大进步——这是大多数视觉语言模型难以保持长时间内的一致分析的领域。

与领先模型的基准性能比较

技术报告记录了 Qwen3-VL 在多个评估指标上的性能，特别是在视觉数学任务中表现出色。该模型在 MathVista 上获得了 85.8% 的分数，超过了 GPT-5 的 81.3%，并在 MathVision 上获得了 74.6% 的准确率，超过了 Gemini 2.5 Pro（73.3%）和 GPT-5（65.8%）。

文档处理能力同样强大。该模型在 DocVQA 上实现了 96.5% 的准确率，用于文档理解，并在 OCRBench 上获得了 875 分，支持 39 种语言的文本识别——几乎是其前身 Qwen2.5-VL 的四倍。其中 32 种语言的 OCR 任务保持了超过 70% 的准确率。

该模型家族通过 Hugging Face 和阿里云提供，包括密集变体（2B、4B、8B、32B 参数）和混合专家配置（30B-A3B 和 235B-A22B）。自 9 月发布以来，8B 变体单独超过了 200 万次下载。

然而，结果并非在所有方面都占据主导地位。在 MMMU-Pro，这是一个复杂的多学科测试，Qwen3-VL 的得分为 69.3%，而 GPT-5 的得分为 78.4%。商业竞争对手在通用视频问答基准测试中保持了优势，表明该模型在视觉数学和文档分析方面表现出色，而不是在所有方面都表现出色。

三项架构创新

技术报告概述了三项关键的架构升级，这些升级推动了这些能力。首先，“交错 MRoPE”取代了以前的位置嵌入方法，通过均匀地将数学表示分布在时间、宽度和高度维度上，而不是按维度分组。这一变化特别针对长视频的性能改进。

第二，DeepStack 集成融合了多级视觉变换器特征，以捕捉细粒度的视觉细节并紧密地对齐图像和文本。第三项创新超越了时间旋转位置嵌入，采用了基于文本的时间戳对齐，使得当模型需要引用视频内容中的特定时刻时，能够实现更精确的时间定位。

该系统还展示了超越纯粹感知的代理能力。在 ScreenSpot Pro 上，该系统评估了在图形用户界面中的导航，模型实现了 61.8% 的准确率。AndroidWorld 测试中，系统必须独立操作 Android 应用，32B 变体实现了 63.7% 的准确率。

开源竞争格局

自 9 月发布以来，所有 Qwen3-VL 模型都在 Apache 2.0 许可下发布，提供开源权重。产品线从适合边缘部署的紧凑 2B 参数变体到需要大量计算资源的旗舰 235B-A22B 模型——后者重达 471 GB。

此次技术文档的时机值得注意。2024 年初，Google 的 Gemini 1.5 Pro 在长视频中展示了类似的帧提取能力，但 Qwen3-VL 将类似的功能带到了开源生态系统中。随着中国的生成式 AI 用户群体在近几个月内翻倍增长至 5.15 亿，Qwen 模型家族在全球吸引了超过 3 亿次下载，阿里巴巴明显将其开源模型定位为全球多模态 AI 开发的基础。

之前的 Qwen2.5-VL 在不到 10 个月的时间内已经积累了超过 2,800 次引用，表明研究采用率很高。Qwen3-VL 的详细技术报告应该会加速这一趋势，为研究人员提供了构建或竞争这些能力所需的架构和训练细节。

这对开发人员意味着什么

对于从事视频分析、文档智能或视觉推理应用的团队，Qwen3-VL 提供了生产就绪的功能，而无需依赖 API。该模型在视觉数学方面的特定优势使其对教育技术、科学研究工具以及任何需要解释图表、图表或图像中的数学符号的应用程序都具有即刻的相关性。

开源模型和闭源模型之间的差距在某些领域继续缩小，同时在其他领域仍然存在显著差距。Qwen3-VL 表明，开源模型可以在专门任务（如视觉数学）上匹配或超过专有系统，即使在更广泛的推理基准测试中仍然落后。

对于开源 AI 社区，详细的技术报告代表的不仅仅是文档——它是一张其他团队可以研究、批评和改进的路线图。无论这是否会导致竞争性实现或补充性研究，都有待观察，但开源多模态智能的基准已经大大提高了。社区中，详细的技术报告代表的不仅仅是文档——它是一张其他团队可以研究、批评和改进的路线图。无论这是否会导致竞争性实现或补充性研究，都有待观察，但开源多模态智能的基准已经大大提高了。

Alex McFarland

Alex McFarland 是一名人工智能记者和作家，探索最新的人工智能发展。他曾与世界各地的众多人工智能初创公司和出版物合作。

Unite.AI

阿里巴巴发布 Qwen3-VL 技术报告，详细介绍两小时视频分析能力

与领先模型的基准性能比较

三项架构创新

开源竞争格局

这对开发人员意味着什么

You may like