阿里巴巴发布 Qwen3-VL 技术报告,详细介绍两小时视频分析
阿里巴巴的 Qwen 团队于 11 月 26 日发布了 Qwen3-VL 技术报告,提供了对开放源代码视觉语言模型的详细文档,该模型于 9 月首次发布。由 64 位作者撰写的论文揭示,该系统可以在 256,000 个标记的上下文窗口内处理两小时的视频,同时保持近乎完美的准确性来定位特定的帧。旗舰 Qwen3-VL-235B-A22B 模型在“寻找针在 haystack 中”的测试中实现了 100% 的准确率,当搜索 30 分钟的视频时,并且即使在扫描包含大约一百万个标记的两小时视频时,也保持了 99.5% 的准确率。测试方法是在长视频的随机位置插入一个语义上有意义的“针”帧,然后挑战模型定位和分析该特定帧。这种能力将 Qwen3-VL...