Connect with us

Alibaba veröffentlicht Qwen3-VL-Technischer Bericht mit Details zur zweistündigen Videoanalyse

Branchenberichte

Alibaba veröffentlicht Qwen3-VL-Technischer Bericht mit Details zur zweistündigen Videoanalyse

mm

Alibaba’s Qwen-Team hat den Qwen3-VL-Technischen Bericht am 26. November veröffentlicht und damit detaillierte Dokumentationen des Open-Source-Vision-Language-Modells bereitgestellt, das erstmals im September gestartet wurde. Der 64-seitige Bericht zeigt, dass das System zwei Stunden lange Videos innerhalb eines 256.000-Token-Kontextfensters verarbeiten kann, während es nahezu perfekte Genauigkeit bei der Lokalisierung spezifischer Frames beibehält.

Das Flaggschiff Qwen3-VL-235B-A22B-Modell erreichte 100% Genauigkeit in “Nadel-im-Heuhaufen”-Tests bei der Suche nach 30-minütigen Videos und hielt bei der Scannung von zwei Stunden langen Videos mit etwa einer Million Tokens eine Genauigkeit von 99,5%. Die Testmethodik fügt einen semantisch signifikanten “Nadel”-Frame an zufälligen Positionen innerhalb langer Videos ein und fordert das Modell dann auf, diesen spezifischen Frame zu lokalisieren und zu analysieren.

Diese Fähigkeit positioniert Qwen3-VL als bedeutenden Fortschritt im Verständnis von Langform-Videos – einem Bereich, in dem die meisten Vision-Language-Modelle Schwierigkeiten haben, eine kohärente Analyse über längere Zeiträume hinweg beizubehalten.

Benchmark-Leistung im Vergleich zu führenden Modellen

Der technische Bericht dokumentiert Qwen3-VLs Leistung über mehrere Bewertungsmetriken hinweg, mit besonderer Stärke in visuellen Mathematik-Aufgaben. Das Modell erreichte 85,8% auf MathVista, was GPT-5s 81,3% übertraf, und führte MathVision mit 74,6% Genauigkeit an, verglichen mit Gemini 2.5 Pro (73,3%) und GPT-5 (65,8%).

Die Dokumentenverarbeitungsfähigkeiten erwiesen sich als ähnlich stark. Das Modell erreichte 96,5% auf DocVQA für die Dokumentenverständnis und 875 Punkte auf OCRBench, was die Texterkennung in 39 Sprachen unterstützt – fast viermal so viele Sprachen wie sein Vorgänger Qwen2.5-VL. Über 70% Genauigkeit wurde bei OCR-Aufgaben in 32 dieser unterstützten Sprachen beibehalten.

Die Modellfamilie, die über Hugging Face und Alibaba Cloud verfügbar ist, umfasst sowohl dichte Varianten (2B, 4B, 8B, 32B Parameter) als auch Mixture-of-Experts-Konfigurationen (30B-A3B und 235B-A22B). Die 8B-Variante allein hat seit der Veröffentlichung im September über 2 Millionen Downloads überschritten.

Die Ergebnisse waren jedoch nicht einheitlich dominant. Bei MMMU-Pro, einem komplexen multidisziplinären Test, erreichte Qwen3-VL 69,3% im Vergleich zu GPT-5s 78,4%. Kommerzielle Konkurrenten behielten auch Vorteile in allgemeinen Video-Fragen-Beantwortungsbenchmarks, was darauf hindeutet, dass das Modell als Spezialist in visueller Mathematik und Dokumentenanalyse hervorragt, anstatt ein universeller Anführer zu sein.

Drei architektonische Innovationen

Der technische Bericht skizziert drei wichtige architektonische Upgrades, die diese Fähigkeiten antreiben. Erstens ersetzt “interleaved MRoPE” vorherige Positionseingabe-Methoden, indem mathematische Darstellungen gleichmäßig über Zeit-, Breite- und Höhendimensionen verteilt werden, anstatt sie nach Dimension zu gruppieren. Diese Änderung zielt speziell auf eine verbesserte Leistung bei langen Videos ab.

Zweitens integriert DeepStack multi-level Vision Transformer-Features, um feinkörnige visuelle Details zu erfassen und die Bild-Text-Übereinstimmung zu verbessern. Die dritte Innovation geht über temporäre Rotary-Positionseingaben hinaus und ermöglicht eine explizite textbasierte Zeitstempel-Übereinstimmung, was eine präzisere zeitliche Verankerung ermöglicht, wenn das Modell auf bestimmte Momente im Videoverlauf verweisen muss.

Das System zeigt auch Agentenfähigkeiten jenseits der reinen Wahrnehmung. Bei ScreenSpot Pro, das die Navigation innerhalb von grafischen Benutzeroberflächen bewertet, erreichte das Modell 61,8% Genauigkeit. AndroidWorld-Tests, bei denen das System unabhängig Android-Anwendungen bedienen muss, sah die 32B-Variante 63,7% Genauigkeit erreichen.

Die Open-Source-Wettbewerbslandschaft

Alle seit September veröffentlichten Qwen3-VL-Modelle sind unter der Apache 2.0-Lizenz mit offenen Gewichten verfügbar. Die Palette reicht vom kompakten 2B-Parameter-Modell, das für die Edge-Entwicklung geeignet ist, bis zum Flaggschiff-235B-A22B-Modell, das erhebliche Rechenressourcen erfordert – letzteres wiegt 471 GB.

Die Zeitplanung dieser technischen Dokumentation ist bemerkenswert. Google’s Gemini 1.5 Pro demonstrierte ähnliche Frame-Extraktionsfähigkeiten aus langen Videos Anfang 2024, aber Qwen3-VL bringt vergleichbare Funktionalität in das Open-Source-Ökosystem. Mit Chinas generativer AI-Nutzerbasis, die in den letzten Monaten auf 515 Millionen angewachsen ist und der Qwen-Modellfamilie, die weltweit über 300 Millionen Downloads angezogen hat, positioniert Alibaba offensichtlich seine offenen Modelle als Grundlage für die globale multimodale AI-Entwicklung.

Der vorherige Qwen2.5-VL hat bereits über 2.800 Zitate in weniger als 10 Monaten angehäuft, was eine starke Forschungsadoption zeigt. Der detaillierte technische Bericht für Qwen3-VL sollte diese Entwicklung beschleunigen und Forschern die architektonischen und Trainingsdetails liefern, die erforderlich sind, um diese Fähigkeiten zu nutzen oder zu konkurrieren.

Was dies für Entwickler bedeutet

Für Teams, die an Videoanalyse, Dokumentenintelligenz oder visueller Argumentation arbeiten, bietet Qwen3-VL produktionsreife Fähigkeiten ohne API-Abhängigkeiten. Die besondere Stärke des Modells in visueller Mathematik macht es sofort relevant für Bildungstechnologie, wissenschaftliche Forschungswerkzeuge und jede Anwendung, die die Interpretation von Diagrammen, Grafiken oder mathematischer Notation in Bildern erfordert.

Die Lücke zwischen offenen und geschlossenen Modellen schließt sich in bestimmten Bereichen, bleibt jedoch in anderen erheblich. Qwen3-VL zeigt, dass offene Modelle mit offenen Gewichten spezielle Aufgaben wie visuelle Mathematik meistern oder sogar übertreffen können, während sie in breiteren Denkbenchmarks zurückbleiben.

Für die Open-Source-AI-Gemeinschaft stellt der detaillierte technische Bericht mehr als nur eine Dokumentation dar – es ist eine Roadmap, die andere Teams studieren, kritisieren und darauf aufbauen können. Ob dies zu konkurrierenden Implementierungen oder komplementären Forschungen führt, bleibt abzuwarten, aber der Baseline für offene multimodale Intelligenz hat sich erheblich erhöht.

Alex McFarland ist ein KI-Journalist und Schriftsteller, der die neuesten Entwicklungen im Bereich der künstlichen Intelligenz erforscht. Er hat mit zahlreichen KI-Startups und Veröffentlichungen weltweit zusammengearbeitet.