关注我们.

行业报告

阿里巴巴发布Qwen3-VL技术报告,详细介绍两小时视频分析

mm

阿里巴巴旗下Qwen团队发布了 Qwen3-VL技术报告 11月26日,一篇论文详细阐述了该开源视觉语言模型,该模型于9月首次发布。这篇由64位作者共同撰写的论文揭示,该系统能够在25.6万个标记的上下文窗口中处理长达两小时的视频,同时在定位特定帧方面保持近乎完美的精度。

旗舰 Qwen3-VL-235B-A22B 该模型在“大海捞针”测试中搜索30分钟视频时达到了100%的准确率,即使扫描包含约一百万个词元的两小时视频,准确率也保持在99.5%。该测试方法是在长视频的随机位置插入一个语义上重要的“针”帧,然后要求模型定位并分析该特定帧。

这一能力使 Qwen3-VL 成为长视频理解领域的一项重大进步——在这个领域,大多数视觉语言模型都难以在较长的时间范围内保持连贯的分析。

与领先型号的基准性能对比

该技术报告记录了Qwen3-VL在多项评估指标上的表现,尤其在视觉数学任务方面表现出色。该模型在MathVista测试中得分85.8%,超过了GPT-5的81.3%,并且在MathVision测试中以74.6%的准确率领先于Gemini 2.5 Pro(73.3%)和GPT-5(65.8%)。

文档处理能力同样表现出色。该模型在DocVQA文档理解测试中取得了96.5%的准确率,在OC​​RBench测试中获得了875分,支持39种语言的文本识别——语言覆盖范围几乎是其前代产品Qwen2.5-VL的四倍。在其中32种支持的语言中,OCR任务的准确率均保持在70%以上。

该模型家庭,可通过以下方式获得 拥抱脸阿里巴巴云该模型包含密集型变体(2B、4B、8B、32B 参数)和混合专家配置(30B-A3B 和 235B-A22B)。仅 8B 变体自 9 月发布以来下载量就已超过 200 万次。

然而,测试结果并非完全占优。在复杂的跨学科测试 MMMU-Pro 上,Qwen3-VL 的得分为 69.3%,而 GPT-5 的得分为 78.4%。商业竞争对手在通用视频问答基准测试中也保持优势,这表明该模型更擅长视觉数学和文档分析,而非成为全能领导者。

三项建筑创新

该技术报告概述了推动这些功能实现的三个关键架构升级。首先,“交错式 MRoPE”取代了之前的位置嵌入方法,它将数学表示均匀分布在时间、宽度和高度三个维度上,而不是按维度分组。这一改变旨在提升长视频的性能。

其次,DeepStack 集成融合了多层 Vision Transformer 功能,能够捕捉精细的视觉细节并提升图像与文本的对齐精度。第三项创新超越了时间旋转位置嵌入,实现了基于文本的显式时间戳对齐,从而在模型需要参考视频内容中的特定时刻时,能够实现更精确的时间定位。

该系统还展现了超越纯粹感知能力的智能体功能。在评估图形用户界面导航的 ScreenSpot Pro 测试中,该模型达到了 61.8% 的准确率。在 AndroidWorld 测试中,系统必须独立运行 Android 应用程序,32B 版本达到了 63.7% 的准确率。

开源软件竞争格局

自 9 月以来发布的所有 Qwen3-VL 模型均采用 Apache 2.0 许可证,并开放权重。产品线涵盖了从适用于边缘部署的紧凑型 2B 参数版本到需要大量计算资源的旗舰级 235B-A22B 模型(后者大小达 471 GB)。

这份技术文档的发布时机值得关注。谷歌的 Gemini 1.5 Pro 在 2024 年初展示了类似的从长视频中提取帧的功能,而 Qwen3-VL 则将类似的功能带到了开源生态系统中。 中国生成式人工智能用户数量翻番,达到515亿。 近几个月来,Qwen 模型家族在全球的下载量已超过 300 亿次,阿里巴巴显然正在将其开放模型定位为全球多模态人工智能发展的基础。

之前的 Qwen2.5-VL 版本在不到 10 个月的时间里就已经获得了超过 2,800 次引用,表明其在研究领域得到了广泛应用。Qwen3-VL 的详细技术报告将进一步加速这一趋势,为研究人员提供所需的架构和培训细节,以便他们能够在此基础上进行开发或与之竞争。

这对开发人员意味着什么

对于从事视频分析、文档智能或视觉推理应用开发的团队而言,Qwen3-VL 提供无需 API 依赖即可投入生产使用的功能。该模型在视觉数学方面的优势使其能够立即应用于教育技术、科学研究工具以及任何需要解读图像中图表、示意图或数学符号的应用。

在某些特定领域,开放模型和封闭模型之间的差距持续缩小,但在其他领域,差距仍然显著。Qwen3-VL 测试表明,即使在更广泛的推理基准测试中落后于专有系统,开放权重模型在视觉数学等专业任务上也能达到甚至超越专有系统的性能。

对于开源人工智能社区而言,这份详尽的技术报告不仅仅是一份文档,更是一份可供其他团队学习、评判和借鉴的路线图。它最终会催生出相互竞争的实现方案还是互补的研究成果,目前尚不得而知,但开放式多模态智能的基准线无疑已被大幅提升。

Alex McFarland 是一位人工智能记者和作家,致力于探索人工智能的最新发展。他与全球众多人工智能初创公司和出版物合作。