Informes del sector

Alibaba lanza el informe técnico Qwen3-VL con detalles de análisis de video de dos horas

Published November 28, 2025

Updated April 25, 2026

Alex McFarland

El equipo Qwen de Alibaba publicó el informe técnico Qwen3-VL el 26 de noviembre, proporcionando una documentación detallada del modelo de visión-lenguaje de código abierto que se lanzó por primera vez en septiembre. El artículo de 64 autores revela que el sistema puede procesar videos de dos horas dentro de una ventana de contexto de 256.000 tokens mientras mantiene una precisión casi perfecta al localizar marcos específicos.

El modelo insignia Qwen3-VL-235B-A22B logró una precisión del 100% en las pruebas “aguja en un pajar” al buscar videos de 30 minutos, y se mantuvo en una precisión del 99,5% incluso al escanear videos de dos horas que contenían aproximadamente un millón de tokens. La metodología de prueba inserta un marco “aguja” semánticamente significativo en posiciones aleatorias dentro de videos largos, y luego desafía al modelo a localizar y analizar ese marco específico.

Esta capacidad posiciona a Qwen3-VL como un avance significativo en la comprensión de videos de larga duración, un dominio donde la mayoría de los modelos de visión-lenguaje han luchado por mantener un análisis coherente durante períodos de tiempo extendidos.

Rendimiento de referencia contra modelos líderes

El informe técnico documenta el rendimiento de Qwen3-VL en varias métricas de evaluación, con una fuerza particular en tareas de matemáticas visuales. El modelo obtuvo un 85,8% en MathVista, superando el 81,3% de GPT-5, y lideró MathVision con una precisión del 74,6% en comparación con Gemini 2.5 Pro (73,3%) y GPT-5 (65,8%).

Las capacidades de procesamiento de documentos resultaron igualmente fuertes. El modelo alcanzó un 96,5% en DocVQA para la comprensión de documentos y 875 puntos en OCRBench, lo que admite el reconocimiento de texto en 39 idiomas, casi cuatro veces la cobertura de idiomas de su predecesor Qwen2.5-VL. Se mantuvo una precisión superior al 70% en tareas de OCR en 32 de esos idiomas admitidos.

La familia de modelos, disponible a través de Hugging Face y Alibaba Cloud, incluye tanto variantes densas (2B, 4B, 8B, 32B parámetros) como configuraciones de mezcla de expertos (30B-A3B y 235B-A22B). La variante de 8B sola ha superado los 2 millones de descargas desde su lanzamiento en septiembre.

Sin embargo, los resultados no fueron uniformemente dominantes. En MMMU-Pro, una prueba compleja y multidisciplinaria, Qwen3-VL obtuvo un 69,3% en comparación con el 78,4% de GPT-5. Los competidores comerciales también mantuvieron ventajas en las pruebas de respuesta a preguntas de video en general, lo que sugiere que el modelo sobresale como especialista en matemáticas visuales y análisis de documentos en lugar de un líder universal.

Tres innovaciones arquitectónicas

El informe técnico describe tres mejoras arquitectónicas clave que impulsan estas capacidades. En primer lugar, “interleaved MRoPE” reemplaza los métodos de incrustación de posición anteriores distribuyendo las representaciones matemáticas de manera uniforme en las dimensiones de tiempo, ancho y altura en lugar de agruparlas por dimensión. Este cambio se dirige específicamente a mejorar el rendimiento en videos largos.

En segundo lugar, la integración de DeepStack fusiona las características de Vision Transformer de varios niveles para capturar detalles visuales finos y ajustar la alineación de imagen-texto. La tercera innovación va más allá de las incrustaciones de posición rotativas temporales para una alineación de timestamp basada en texto explícita, lo que permite una fundamentación temporal más precisa cuando el modelo necesita hacer referencia a momentos específicos en el contenido del video.

El sistema también demuestra capacidades de agente más allá de la percepción pura. En ScreenSpot Pro, que evalúa la navegación dentro de interfaces de usuario gráficas, el modelo alcanzó una precisión del 61,8%. Las pruebas de AndroidWorld, donde el sistema debe operar aplicaciones de Android de forma independiente, vieron que la variante de 32B alcanzó una precisión del 63,7%.

El paisaje competitivo de código abierto

Todos los modelos Qwen3-VL lanzados desde septiembre están disponibles bajo la licencia Apache 2.0 con pesos abiertos. La línea de productos abarca desde la variante compacta de 2B parámetros adecuada para la implementación de borde hasta el modelo insignia de 235B-A22B que requiere recursos computacionales significativos, este último pesa 471 GB.

El momento de esta documentación técnica es notable. Google’s Gemini 1.5 Pro demostró capacidades de extracción de marcos similares de videos largos a principios de 2024, pero Qwen3-VL trae funcionalidad comparable al ecosistema de código abierto. Con China’s generative AI user base doubling to 515 million en los últimos meses y la familia de modelos Qwen habiendo atraído más de 300 millones de descargas en todo el mundo, Alibaba está posicionando claramente sus modelos abiertos como la base para el desarrollo de inteligencia artificial multimodal global.

El informe técnico detallado para Qwen3-VL debería acelerar esa trayectoria, proporcionando a los investigadores los detalles arquitectónicos y de capacitación necesarios para construir sobre o competir con estas capacidades.

Qué significa esto para los desarrolladores

Para los equipos que trabajan en análisis de video, inteligencia de documentos o aplicaciones de razonamiento visual, Qwen3-VL ofrece capacidades listas para producción sin dependencias de API. La fuerza particular del modelo en matemáticas visuales lo hace inmediatamente relevante para la tecnología educativa, las herramientas de investigación científica y cualquier aplicación que requiera la interpretación de gráficos, diagramas o notación matemática dentro de imágenes.

La brecha entre los modelos abiertos y cerrados continúa cerrándose en dominios específicos, mientras permanece sustancial en otros. Qwen3-VL demuestra que los modelos de peso abierto pueden igualar o superar a los sistemas propietarios en tareas especializadas como las matemáticas visuales, incluso mientras siguen rezagados en pruebas de razonamiento más amplias.

Para la comunidad de inteligencia artificial de código abierto, el informe técnico detallado representa más que una documentación, es una hoja de ruta que otros equipos pueden estudiar, criticar y construir sobre ella. Ya sea que esto conduzca a implementaciones competitivas o a investigaciones complementarias, el nivel de base para la inteligencia multimodal abierta acaba de subir considerablemente.