Suivez nous sur

Alibaba publie un rapport technique sur Qwen3-VL détaillant une analyse vidéo de deux heures

Rapports de l'industrie

Alibaba publie un rapport technique sur Qwen3-VL détaillant une analyse vidéo de deux heures

mm

L'Ă©quipe Qwen d'Alibaba a publiĂ© le Rapport technique Qwen3-VL Le 26 novembre, une documentation dĂ©taillĂ©e du modèle vision-langage open source, lancĂ© initialement en septembre, a Ă©tĂ© publiĂ©e. Cet article, signĂ© par 64 auteurs, rĂ©vèle que le système peut traiter des vidĂ©os de deux heures dans une fenĂŞtre contextuelle de 256 000 jetons, tout en conservant une prĂ©cision quasi parfaite dans la localisation d'images spĂ©cifiques.

Le vaisseau amiral Qwen3-VL-235B-A22B Le modèle a atteint une prĂ©cision de 100 % lors des tests de recherche d'une aiguille dans une botte de foin sur des vidĂ©os de 30 minutes, et a conservĂ© une prĂ©cision de 99.5 % mĂŞme lors de l'analyse de vidĂ©os de deux heures contenant environ un million de mots clĂ©s. La mĂ©thodologie de test consiste Ă  insĂ©rer une image clĂ© sĂ©mantiquement significative (« aiguille Â») Ă  des positions alĂ©atoires dans de longues vidĂ©os, puis Ă  mettre le modèle au dĂ©fi de localiser et d'analyser cette image spĂ©cifique.

Cette capacité positionne Qwen3-VL comme une avancée significative dans la compréhension des vidéos longues, un domaine où la plupart des modèles vision-langage ont eu du mal à maintenir une analyse cohérente sur des périodes prolongées.

Performances de référence par rapport aux modèles leaders

Le rapport technique documente les performances de Qwen3-VL sur plusieurs indicateurs d'évaluation, notamment ses excellentes aptitudes en mathématiques visuelles. Le modèle a obtenu un score de 85.8 % sur MathVista, dépassant ainsi les 81.3 % de GPT-5, et a devancé MathVision avec une précision de 74.6 %, contre 73.3 % pour Gemini 2.5 Pro et 65.8 % pour GPT-5.

Les capacités de traitement de documents se sont également révélées performantes. Le modèle a obtenu un score de 96.5 % au test DocVQA pour la compréhension de documents et de 875 points au test OCRBench, prenant en charge la reconnaissance de texte dans 39 langues – soit près de quatre fois la couverture linguistique de son prédécesseur, Qwen2.5-VL. Un taux de précision supérieur à 70 % a été maintenu pour les tâches d'OCR dans 32 de ces langues.

La gamme de modèles, disponible via Étreindre le visage et Cloud AlibabaCe logiciel inclut des variantes denses (paramètres 2B, 4B, 8B et 32B) ainsi que des configurations hybrides (30B-A3B et 235B-A22B). La variante 8B a à elle seule dépassé les 2 millions de téléchargements depuis sa sortie en septembre.

Cependant, les résultats n'ont pas été uniformément supérieurs. Sur MMMU-Pro, un test multidisciplinaire complexe, Qwen3-VL a obtenu un score de 69.3 % contre 78.4 % pour GPT-5. Les concurrents commerciaux ont également conservé des avantages dans les tests de réponse aux questions vidéo, ce qui suggère que le modèle excelle davantage en tant que spécialiste des mathématiques visuelles et de l'analyse de documents qu'en tant que leader universel.

Trois innovations architecturales

Le rapport technique dĂ©crit trois amĂ©liorations architecturales majeures Ă  l'origine de ces fonctionnalitĂ©s. Premièrement, la mĂ©thode « MRoPE entrelacĂ©e Â» remplace les mĂ©thodes d'intĂ©gration de position prĂ©cĂ©dentes en rĂ©partissant uniformĂ©ment les reprĂ©sentations mathĂ©matiques selon les dimensions temporelle, de largeur et de hauteur, au lieu de les regrouper par dimension. Ce changement vise spĂ©cifiquement Ă  amĂ©liorer les performances sur les vidĂ©os longues.

Deuxièmement, l'intégration de DeepStack fusionne les fonctionnalités multiniveaux de Vision Transformer pour capturer les détails visuels les plus fins et améliorer l'alignement image-texte. Troisièmement, l'innovation va au-delà des représentations temporelles de position rotative pour proposer un alignement temporel explicite basé sur le texte, permettant un ancrage temporel plus précis lorsque le modèle doit faire référence à des moments spécifiques du contenu vidéo.

Le système démontre également des capacités d'agent allant au-delà de la simple perception. Sur ScreenSpot Pro, qui évalue la navigation au sein d'interfaces graphiques, le modèle a atteint une précision de 61.8 %. Lors des tests AndroidWorld, où le système doit exécuter des applications Android de manière autonome, la variante 32B a atteint une précision de 63.7 %.

Le paysage concurrentiel de l'open source

Tous les modèles Qwen3-VL publiés depuis septembre sont disponibles sous licence Apache 2.0 avec des poids libres. La gamme s'étend de la variante compacte à 2 milliards de paramètres, idéale pour les déploiements en périphérie, au modèle phare 235B-A22B, qui exige d'importantes ressources de calcul (471 Go).

La publication de cette documentation technique à ce moment précis est remarquable. Le Gemini 1.5 Pro de Google a démontré des capacités d'extraction d'images similaires à partir de longues vidéos début 2024, mais Qwen3-VL apporte des fonctionnalités comparables à l'écosystème open-source. Le nombre d'utilisateurs d'IA générative en Chine a doublé pour atteindre 515 millions. Ces derniers mois, et alors que la famille de modèles Qwen a attiré plus de 300 millions de téléchargements dans le monde, Alibaba positionne clairement ses modèles ouverts comme la base du développement mondial de l'IA multimodale.

La version prĂ©cĂ©dente de Qwen2.5-VL a dĂ©jĂ  cumulĂ© plus de 2 800 citations en moins de 10 mois, tĂ©moignant d'une forte adoption par la recherche. Le rapport technique dĂ©taillĂ© de Qwen3-VL devrait accĂ©lĂ©rer cette progression, en fournissant aux chercheurs les informations architecturales et de formation nĂ©cessaires pour dĂ©velopper ces fonctionnalitĂ©s ou les Ă©galer.

Ce que cela signifie pour les développeurs

Pour les équipes travaillant sur des applications d'analyse vidéo, d'intelligence documentaire ou de raisonnement visuel, Qwen3-VL offre des fonctionnalités prêtes à l'emploi et sans dépendance à une API. Sa capacité à traiter des données mathématiques visuelles le rend immédiatement pertinent pour les technologies éducatives, les outils de recherche scientifique et toute application nécessitant l'interprétation de graphiques, de diagrammes ou de notations mathématiques dans des images.

L'écart entre les modèles ouverts et fermés continue de se réduire dans certains domaines, tout en restant important dans d'autres. Qwen3-VL démontre que les modèles à pondération ouverte peuvent égaler, voire surpasser, les systèmes propriétaires sur des tâches spécialisées comme les mathématiques visuelles, même s'ils sont moins performants sur des tests de raisonnement plus généraux.

Pour la communautĂ© de l'IA open source, ce rapport technique dĂ©taillĂ© reprĂ©sente bien plus qu'une simple documentation : c'est une feuille de route que d'autres Ă©quipes peuvent Ă©tudier, analyser et sur laquelle elles peuvent s'appuyer. Reste Ă  savoir si cela dĂ©bouchera sur des implĂ©mentations concurrentes ou des recherches complĂ©mentaires, mais le niveau de rĂ©fĂ©rence pour l'intelligence multimodale ouverte vient de progresser considĂ©rablement.

Alex McFarland est un journaliste et écrivain en IA qui explore les derniers développements en matière d'intelligence artificielle. Il a collaboré avec de nombreuses startups et publications d'IA dans le monde entier.