Галузеві звіти

Alibaba випускає технічний звіт Qwen3-VL, у якому описано аналіз відео за два години

Published November 28, 2025

Updated April 25, 2026

Alex McFarland

Команда Qwen компанії Alibaba опублікувала технічний звіт Qwen3-VL 26 листопада, надаючи детальну документацію відкритої моделі бачення та мови, яка вперше була випущена у вересні. У звіті 64 авторів розкривається здатність системи обробляти відео тривалістю два години у вікні контексту з 256 000 токенів, зберігаючи майже ідеальну точність при знаходженні конкретних кадрів.

Флагманська модель Qwen3-VL-235B-A22B досягла 100% точності у тестах “іголка в копиці сіна” при пошуку відео тривалістю 30 хвилин, а також зберегла 99,5% точності навіть при скануванні відео тривалістю два години, що містять приблизно один мільйон токенів. Методологія тестування вставляє семантично значущий “іголковий” кадр у випадкові позиції довгих відео, а потім викликає модель, щоб знайти та проаналізувати конкретний кадр.

Ця здатність позиціонує Qwen3-VL як значний прорив у розумінні довгих відео – області, де більшість моделей бачення та мови мали труднощі у підтриманні послідовного аналізу протягом тривалих періодів часу.

Бенчмарк-виступ проти провідних моделей

Технічний звіт документує результати Qwen3-VL за різними метриками оцінки, з особливою силою у візуальних математичних завданнях. Модель набрала 85,8% на MathVista, перевершивши GPT-5 з 81,3%, і лідирувала у MathVision з 74,6% точності порівняно з Gemini 2.5 Pro (73,3%) і GPT-5 (65,8%).

Спроможності обробки документів виявилися подібно сильними. Модель досягла 96,5% на DocVQA для розуміння документів і 875 балів на OCRBench, підтримуючи розпізнавання тексту для 39 мов – майже у чотири рази більше мовної підтримки, ніж у попередньої моделі Qwen2.5-VL. Більше 70% точності було збережено для завдань OCR у 32 із цих підтримуваних мов.

Сімейство моделей, доступне через Hugging Face і Alibaba Cloud, включає як щільні варіанти (2B, 4B, 8B, 32B параметрів), так і конфігурації суміші експертів (30B-A3B і 235B-A22B). Варіант 8B сам по собі перевищив 2 мільйони завантажень з моменту випуску у вересні.

Однак, результати не були однозначно домінуючими. На MMMU-Pro, складному мультидисциплінарному тесті, Qwen3-VL набрав 69,3% порівняно з 78,4% у GPT-5. Комерційні конкуренти також зберегли переваги у загальних відео-тестах з питань-відповідей, що свідчить про те, що модель excels як спеціаліст у візуальних математичних та аналізах документів, а не універсальний лідер.

Три архітектурних інновації

Технічний звіт описує три ключові архітектурні оновлення, які забезпечують ці можливості. По-перше, “інтерлейкований MRoPE” замінює попередні методи позиційного вбудовування шляхом розподілу математичних представлень рівномірно у часі, ширині та висоті розмірів, а не групування їх за розміром. Ця зміна конкретно спрямована на покращення результатів на довгих відео.

По-друге, інтеграція DeepStack об’єднує багаторівневі функції Vision Transformer для захоплення тонких візуальних деталей та зміцнення зображення-текстового вирівнювання. Третя інновація переходить від тимчасових ротаційних позиційних вбудовувань до явного текстового таймстемп-вирівнювання, що дозволяє більш точно тимчасове закріплення, коли модель потребує посилатися на конкретні моменти відео-контенту.

Система також демонструє агентські можливості за межами чистого сприйняття. На ScreenSpot Pro, який оцінює навігацію у графічних інтерфейсах користувача, модель досягла 61,8% точності. Тестування AndroidWorld, де система повинна самостійно оперувати застосунками Android, показало, що варіант 32B досяг 63,7% точності.

Відкритий джерельний конкурентний ландшафт

Всі моделі Qwen3-VL, випущені з вересня, доступні під ліцензією Apache 2.0 з відкритими вагами. Лінійка охоплює компактний варіант 2B-параметра, придатний для розгортання на краю, до флагманської моделі 235B-A22B, яка вимагає значних обчислювальних ресурсів – остання важить 471 ГБ.

Тимінг цієї технічної документації є помітним. Google’s Gemini 1.5 Pro продемонстрував подібні можливості витягування кадрів з довгих відео на початку 2024 року, але Qwen3-VL приносить порівняльну функціональність до відкритого джерельного екосистеми. З кількість користувачів генерації AI у Китаї подвоїлася до 515 мільйонів за останні місяці та сімейство моделей Qwen, яке вже привернуло понад 300 мільйонів завантажень у світі, Alibaba явно позиціонує свої відкриті моделі як основу для глобального розвитку багатомодального AI.

Попередня модель Qwen2.5-VL вже накопичила понад 2800 цитат за менш ніж 10 місяців, що свідчить про сильне дослідження. Детальний технічний звіт для Qwen3-VL повинен прискорити цю траєкторію, надаючи дослідникам архітектурні та навчальні деталі, необхідні для побудови або конкуренції з цими можливостями.

Що це означає для розробників

Для команд, які працюють над відео-аналізом, інтелектом документів або візуальною логікою, Qwen3-VL пропонує готові до виробництва можливості без залежності від API. Особлива сила моделі у візуальних математичних завданнях робить її негайно актуальною для освітніх технологій, наукових дослідницьких інструментів та будь-якої програми, яка вимагає інтерпретації діаграм, математичної нотації чи графіків у зображеннях.

Пропуск між відкритими та закритими моделями продовжує звужуватися у певних областях, залишаючись суттєвим у інших. Qwen3-VL демонструє, що відкриті моделі з вагами можуть відповідати або перевершувати пропріетарні системи на спеціалізованих завданнях, таких як візуальні математичні завдання, навіть якщо вони відстають у більш широких тестах на розуміння.

Для відкритого джерельного спільноти AI детальний технічний звіт представляє не тільки документацію – це дорожня карта, яку інші команди можуть вивчити, розкритикувати та побудувати на основі неї. Чи це призведе до конкуруючих реалізацій чи додаткових досліджень, залишається невідомим, але базовий рівень відкритого багатомодального інтелекту刚 значно підвищився.