Connect with us

AlibabaはQwen3-VL技術報告書を公開、2時間のビデオ分析の詳細を公開

業界レポート

AlibabaはQwen3-VL技術報告書を公開、2時間のビデオ分析の詳細を公開

mm

AlibabaのQwenチームは、9月に初めて公開されたオープンソースのビジョン言語モデルについて、Qwen3-VL技術報告書を11月26日に公開しました。64人の著者が参加したこの論文では、システムが256,000トークンのコンテキストウィンドウ内で2時間のビデオを処理しながら、特定のフレームを特定する際の精度をほぼ完全に維持できることを明らかにしています。

フラグシップモデルQwen3-VL-235B-A22Bは、30分間のビデオの「針の中の麦芽」テストで100%の精度を達成し、約100万トークンを含む2時間のビデオをスキャンする際でも99.5%の精度を維持しました。テスト方法では、長いビデオの中にランダムな位置に意味のある「針」フレームを挿入し、モデルにその特定のフレームを特定して分析するように挑戦します。

この機能により、Qwen3-VLは長時間のビデオ理解における重要な進歩となります。これは、ほとんどのビジョン言語モデルが長時間の分析を維持するのに苦労している分野です。

ベンチマークパフォーマンス

技術報告書では、Qwen3-VLのパフォーマンスが複数の評価指標にわたって記載されており、特に視覚的な数学タスクにおいて強みを示しています。モデルはMathVistaで85.8%のスコアを達成し、GPT-5の81.3%を上回り、MathVisionでは74.6%の精度を達成し、Gemini 2.5 Pro(73.3%)とGPT-5(65.8%)をリードしました。

ドキュメント処理機能も同様に強力でした。モデルはDocVQAで96.5%、OCRBenchで875点を達成し、39言語に対するテキスト認識をサポートしました。これは、前身のQwen2.5-VLの言語カバレッジのほぼ4倍に相当します。サポートされる言語のうち32言語では、OCRTaskで70%以上の精度を維持しました。

モデルファミリーは、Hugging FaceAlibaba Cloudを介して利用可能であり、密なバリアント(2B、4B、8B、32Bパラメータ)と専門家の混合構成(30B-A3Bと235B-A22B)が含まれます。8Bバリアント aloneは、9月のリリース以来200万回以上ダウンロードされています。

ただし、結果は一様に支配的ではありませんでした。MMM-U-Proという複雑な多分野テストでは、Qwen3-VLは69.3%のスコアを達成し、GPT-5の78.4%を下回りました。商用コンペティターも、一般的なビデオ質問回答ベンチマークで優位性を維持しており、モデルは視覚的な数学とドキュメント分析のスペシャリストとして優れていることを示しています。

3つのアーキテクチャ上の革新

技術報告書では、3つの重要なアーキテクチャのアップグレードがこれらの機能を駆り立てていることを説明しています。まず、「交互のMRoPE」は、以前の位置埋めめ込み方法を置き換え、時間、幅、高さの次元にわたって数学的表現を均等に分散させます。これは、長時間のビデオでのパフォーマンスの向上を特にターゲットにしています。

2番目に、DeepStack統合は、多レベルのVision Transformer機能を融合して、微細な視覚的な詳細を捉え、画像とテキストの整列を強化します。3番目の革新は、時間回転位置埋めめ込みを超えて、明示的なテキストベースのタイムスタンプ整列を可能にし、モデルがビデオコンテンツ内の特定の瞬間を参照する必要がある場合に、より正確な時間基準を可能にします。

システムは純粋な認識を超えたエージェント機能も実証しています。ScreenSpot Proでは、グラフィカルユーザーインターフェイス内のナビゲーションを評価し、モデルは61.8%の精度を達成しました。AndroidWorldテストでは、システムがAndroidアプリケーションを独立して操作する必要があり、32Bバリアントは63.7%の精度を達成しました。

オープンソース競合環境

9月以降にリリースされたすべてのQwen3-VLモデルは、Apache 2.0ライセンスの下でオープンソースの重みで利用可能です。ラインナップは、エッジ展開に適したコンパクトな2Bパラメーターバリアントから、重要な計算リソースを必要とするフラグシップ235B-A22Bモデルまで範囲にわたります。後者は471 GBのサイズです。

技術文書のタイミングは注目に値します。GoogleのGemini 1.5 Proは、2024年初頭に長時間のビデオからフレーム抽出の類似の機能を実証しましたが、Qwen3-VLは同等の機能をオープンソースエコシステムに導入しました。 中国のジェネレーティブAIユーザーベースは6か月で515万人に倍増し、Qwenモデルファミリーは世界中で3億回以上ダウンロードされており、Alibabaは明らかにオープンモデルをグローバルマルチモーダルAI開発の基盤として位置付けているようです。

以前のQwen2.5-VLは、10か月未満で2,800回以上の引用を受けており、強力な研究採用を示しています。Qwen3-VLの詳細な技術報告書は、このトラジェクトリを加速させるでしょう。研究者は、これらの機能を構築または競合するために必要なアーキテクチャとトレーニングの詳細を提供します。

開発者への意味

ビデオ分析、ドキュメントインテリジェンス、または視覚的推論アプリケーションを開発しているチームにとって、Qwen3-VLはAPI依存関係なしでプロダクションレディ機能を提供します。モデルの特に視覚的な数学における強みにより、教育技術、科学研究ツール、または画像内のグラフ、図、または数学的表記の解釈を必要とするあらゆるアプリケーションにとって、すぐに利用可能な関連性を提供します。

オープンソースモデルとクローズドモデルとの間のギャップは、特定のドメインでは狭まり、他のドメインでは依然として大きいままです。Qwen3-VLは、視覚的な数学などの特定のタスクではオープンモデルがプロプライエタリシステムに匹敵または上回ることができることを示していますが、より広範な推論ベンチマークでは後ろに続いています。

オープンソースAIコミュニティにとって、詳細な技術報告書は文書化以上のものです。道筋を示しており、他のチームが研究し、批判し、構築することができます。競合する実装や補足的な研究につながるかどうかはまだ見えてきませんが、オープンマルチモーダルインテリジェンスの基準は大幅に高まりました。

Alex McFarlandは、人工知能の最新の開発を探求するAIジャーナリスト兼ライターです。彼は、世界中の数多くのAIスタートアップや出版物と共同しています。