Connect with us

Laporan industri

Alibaba Merilis Laporan Teknis Qwen3-VL yang Menjelaskan Analisis Video Dua Jam

mm

Tim Qwen Alibaba menerbitkan laporan teknis Qwen3-VL pada 26 November, memberikan dokumentasi rinci tentang model visi-bahasa sumber terbuka yang pertama kali diluncurkan pada September. Makalah 64 penulis ini mengungkapkan bahwa sistem dapat memproses video dua jam dalam jendela konteks 256.000-token sambil mempertahankan akurasi hampir sempurna dalam menemukan bingkai tertentu.

Model bendera Qwen3-VL-235B-A22B mencapai akurasi 100% dalam tes “jarum di tumpukan jerami” ketika mencari video 30 menit, dan tetap pada akurasi 99,5% bahkan ketika memindai video dua jam yang berisi sekitar satu juta token. Metodologi tes ini memasukkan bingkai “jarum” yang semantis signifikan pada posisi acak dalam video panjang, kemudian menantang model untuk menemukan dan menganalisis bingkai tersebut.

Kemampuan ini menempatkan Qwen3-VL sebagai kemajuan signifikan dalam pemahaman video panjang – domain di mana sebagian besar model visi-bahasa telah bergelut untuk mempertahankan analisis koheren selama waktu yang lama.

Kinerja Benchmark Melawan Model Terkemuka

Laporan teknis mendokumentasikan kinerja Qwen3-VL di berbagai metrik evaluasi, dengan kekuatan khusus dalam tugas matematika visual. Model ini mencetak 85,8% pada MathVista, melebihi 81,3% GPT-5, dan memimpin MathVision dengan akurasi 74,6% dibandingkan dengan Gemini 2,5 Pro (73,3%) dan GPT-5 (65,8%).

Kemampuan pemrosesan dokumen terbukti sama kuat. Model ini mencapai 96,5% pada DocVQA untuk pemahaman dokumen dan 875 poin pada OCRBench, mendukung pengenalan teks di 39 bahasa – hampir empat kali lipat cakupan bahasa dari pendahulunya Qwen2,5-VL. Lebih dari 70% akurasi dipertahankan pada tugas OCR di 32 bahasa yang didukung.

Keluarga model, yang tersedia melalui Hugging Face dan Alibaba Cloud, termasuk varian padat (2B, 4B, 8B, 32B parameter) dan konfigurasi campuran-ahli (30B-A3B dan 235B-A22B). Varian 8B saja telah melebihi 2 juta unduhan sejak rilis September.

Namun, hasilnya tidak seragam dominan. Pada MMMU-Pro, tes multidisiplin yang kompleks, Qwen3-VL mencetak 69,3% dibandingkan dengan 78,4% GPT-5. Peserta komersial juga mempertahankan keunggulan dalam benchmark pertanyaan video umum, menunjukkan bahwa model ini unggul sebagai spesialis dalam analisis matematika visual dan dokumen daripada pemimpin universal.

Tiga Inovasi Arsitektur

Laporan teknis menguraikan tiga peningkatan arsitektur kunci yang mendorong kemampuan ini. Pertama, “interleaved MRoPE” menggantikan metode penyematan posisi sebelumnya dengan mendistribusikan representasi matematika secara merata di seluruh dimensi waktu, lebar, dan tinggi daripada mengelompokkannya berdasarkan dimensi. Perubahan ini secara khusus menargetkan kinerja yang ditingkatkan pada video panjang.

Kedua, integrasi DeepStack meleburkan fitur Transformer Visi multi-level untuk menangkap detail visual halus dan mengencangkan perpaduan gambar-teks. Inovasi ketiga melampaui penyematan posisi rotary temporal ke perpaduan timestamp berbasis teks yang eksplisit, memungkinkan pemahaman temporal yang lebih presisi ketika model perlu merujuk pada momen tertentu dalam konten video.

Sistem ini juga menunjukkan kemampuan agen di luar persepsi murni. Pada ScreenSpot Pro, yang mengevaluasi navigasi dalam antarmuka pengguna grafis, model mencapai akurasi 61,8%. Pengujian AndroidWorld, di mana sistem harus beroperasi secara independen aplikasi Android, melihat varian 32B mencapai akurasi 63,7%.

Lanskap Kompetitif Sumber Terbuka

Semua model Qwen3-VL yang dirilis sejak September tersedia di bawah lisensi Apache 2,0 dengan bobot terbuka. Jajaran ini membentang dari varian kompak 2B-parameter yang cocok untuk penerapan edge hingga model bendera 235B-A22B yang memerlukan sumber daya komputasi yang signifikan – yang terakhir memiliki berat 471 GB.

Waktu dokumentasi teknis ini cukup menonjol. Google’s Gemini 1,5 Pro menunjukkan kemampuan ekstraksi bingkai serupa dari video panjang pada awal 2024, tetapi Qwen3-VL membawa fungsionalitas yang setara ke ekosistem sumber terbuka. Dengan basis pengguna AI generatif China yang meningkat dua kali lipat menjadi 515 juta dalam beberapa bulan terakhir dan model Qwen telah menarik lebih dari 300 juta unduhan di seluruh dunia, Alibaba jelas memposisikan model terbukanya sebagai landasan untuk pengembangan AI multimodal global.

Model Qwen2,5-VL sebelumnya telah mengumpulkan lebih dari 2.800 kutipan dalam waktu kurang dari 10 bulan, menunjukkan adopsi penelitian yang kuat. Laporan teknis rinci untuk Qwen3-VL harus mempercepat jalur tersebut, memberikan peneliti dengan detail arsitektur dan pelatihan yang diperlukan untuk membangun atau bersaing dengan kemampuan ini.

Apa yang Dimaksud untuk Pengembang

Untuk tim yang bekerja pada analisis video, kecerdasan dokumen, atau aplikasi penalaran visual, Qwen3-VL menawarkan kemampuan siap produksi tanpa ketergantungan API. Kekuatan model khusus dalam matematika visual membuatnya relevan langsung untuk teknologi pendidikan, alat penelitian ilmiah, dan aplikasi apa pun yang memerlukan interpretasi grafik, diagram, atau notasi matematika dalam gambar.

Jarak antara model terbuka dan tertutup terus menyempit di domain tertentu sambil tetap substansial di lainnya. Qwen3-VL menunjukkan bahwa model berbobot terbuka dapat menyaingi atau melampaui sistem propietary pada tugas khusus seperti matematika visual, bahkan ketika mereka ketinggalan dalam benchmark penalaran yang lebih luas.

Untuk komunitas AI sumber terbuka, laporan teknis rinci ini mewakili lebih dari sekedar dokumentasi – ini adalah peta jalan yang dapat dipelajari, dikritik, dan dibangun oleh tim lain. Apakah itu mengarah pada implementasi yang bersaing atau penelitian komplementer masih harus dilihat, tetapi baseline untuk kecerdasan multimodal terbuka baru saja meningkat secara signifikan.

Alex McFarland adalah seorang jurnalis dan penulis AI yang menjelajahi perkembangan terbaru dalam kecerdasan buatan. Ia telah berkolaborasi dengan berbagai startup dan publikasi AI di seluruh dunia.