Connect with us

行业报告

阿里巴巴发布 Qwen3-VL 技术报告,详细介绍两小时视频分析

mm

阿里巴巴的 Qwen 团队于 11 月 26 日发布了 Qwen3-VL 技术报告,提供了对开放源代码视觉语言模型的详细文档,该模型于 9 月首次发布。由 64 位作者撰写的论文揭示,该系统可以在 256,000 个标记的上下文窗口内处理两小时的视频,同时保持近乎完美的准确性来定位特定的帧。

旗舰 Qwen3-VL-235B-A22B 模型在“寻找针在 haystack 中”的测试中实现了 100% 的准确率,当搜索 30 分钟的视频时,并且即使在扫描包含大约一百万个标记的两小时视频时,也保持了 99.5% 的准确率。测试方法是在长视频的随机位置插入一个语义上有意义的“针”帧,然后挑战模型定位和分析该特定帧。

这种能力将 Qwen3-VL 定位为长视频理解领域的重大进步——这是大多数视觉语言模型难以在长时间内保持连贯分析的领域。

基准性能与领先模型的比较

技术报告记录了 Qwen3-VL 在多个评估指标上的性能,特别是在视觉数学任务中表现出色。该模型在 MathVista 上得分为 85.8%,超过了 GPT-5 的 81.3%,并在 MathVision 上领先 Gemini 2.5 Pro(73.3%)和 GPT-5(65.8%),准确率为 74.6%。

文档处理能力同样强大。该模型在 DocVQA 上实现了 96.5% 的准确率,用于文档理解,并在 OCRBench 上获得了 875 分,支持 39 种语言的文本识别——几乎是其前身 Qwen2.5-VL 的四倍。超过 70% 的准确率在 32 种支持语言的 OCR 任务中保持。

通过 Hugging FaceAlibaba Cloud 提供的模型家族,包括密集变体(2B、4B、8B、32B 参数)和混合专家配置(30B-A3B 和 235B-A22B)。自 9 月发布以来,8B 变体单独超过 200 万次下载。

然而,结果并非完全占据优势。 在复杂的多学科测试 MMMU-Pro 上,Qwen3-VL 得分为 69.3%,而 GPT-5 得分为 78.4%。商业竞争对手在一般视频问答基准测试中保持了优势,表明该模型在视觉数学和文档分析方面表现出色,而不是在所有方面都表现出色。

三项架构创新

技术报告概述了三项关键的架构升级,这些升级推动了这些功能。首先,“交错 MRoPE”取代了以前的位置嵌入方法,通过在时间、宽度和高度维度上均匀分布数学表示,而不是按维度分组。这一变化专门针对长视频的性能改进。

第二,DeepStack 集成融合了多级视觉 Transformer 特征,以捕获细粒度的视觉细节和图像文本对齐。第三项创新超越了时间旋转位置嵌入,采用了显式基于文本的时间戳对齐,实现了在模型需要引用视频内容的特定时刻时更精确的时间定位。

该系统还展示了超越纯粹感知的代理能力。在 ScreenSpot Pro 上,该模型实现了 61.8% 的准确率,用于评估图形用户界面的导航,而 AndroidWorld 测试中,系统必须独立操作 Android 应用程序,32B 变体达到 63.7% 的准确率。

开源竞争格局

自 9 月以来发布的所有 Qwen3-VL 模型都在 Apache 2.0 许可下提供开源权重。产品线从适合边缘部署的紧凑 2B 参数变体到需要大量计算资源的旗舰 235B-A22B 模型——后者重达 471 GB。

此次技术文档的时机值得注意。早在 2024 年初,Google 的 Gemini 1.5 Pro 就展示了从长视频中提取帧的类似功能,但 Qwen3-VL 将类似的功能带到了开源生态系统中。随着 中国的生成式 AI 用户群在近几个月内增加了一倍,达到 5,150 万,以及 Qwen 模型家族在全球吸引了超过 3 亿次下载,阿里巴巴显然将其开源模型定位为全球多模态 AI 开发的基础。

之前的 Qwen2.5-VL 已经在不到 10 个月的时间内积累了超过 2,800 次引用,表明研究采用率很高。Qwen3-VL 的详细技术报告应该会加速这一趋势,为研究人员提供了构建或竞争这些功能所需的架构和训练细节。

这对开发人员意味着什么

对于从事视频分析、文档智能或视觉推理应用的团队,Qwen3-VL 提供了无需 API 依赖的生产就绪功能。该模型在视觉数学方面的特定优势使其对教育技术、科学研究工具和任何需要在图像中解释图表、图表或数学符号的应用程序都具有立即的相关性。

开源模型和闭源模型之间的差距在某些领域正在缩小,而在其他领域仍然很大。Qwen3-VL 表明,开源权重模型可以在视觉数学等专门任务上匹配或超过专有系统,即使它们在更广泛的推理基准测试中落后。

对于开源 AI 社区,详细的技术报告代表的不仅仅是文档——它是一份其他团队可以研究、批评和改进的路线图。无论这是否会导致竞争实现或补充研究尚待观察,但开源多模态智能的基准已经大大提高。

Alex McFarland 是一名人工智能记者和作家,探索最新的人工智能发展。他曾与世界各地的众多人工智能初创公司和出版物合作。