Toimialaraportit
Alibaba julkaisee Qwen3-VL:n teknisen raportin, jossa käsitellään kahta tunnin videon analyysiä

Alibaban Qwen-tiimi julkaisi Qwen3-VL:n teknisen raportin 26. marraskuuta, jossa esitetään yksityiskohtaiset dokumentit avoimen lähdekoodin visio-kieli mallista, joka julkaistiin ensimmäisen kerran syyskuussa. 64 kirjoittajan raportti paljastaa, että järjestelmä pystyy prosessoimaan kaksi tunnin videoita 256 000 tokenin kontekstiruudun sisällä säilyttäen lähes täydellisen tarkkuuden tietyn kehyksen sijainnin määrittämisessä.
Lipun Qwen3-VL-235B-A22B-malli saavutti 100 %:n tarkkuuden “neula-heinäkasassa”-testeissä, kun haettiin 30 minuutin videoita, ja se säilyi 99,5 %:n tarkkuudella jopa skannaamalla kaksi tunnin videoita, jotka sisälsivät noin miljoona tokenia. Testimenetelmä lisää semanttisesti merkittävän “neula”-kehyksen satunnaisiin asemiin pitkiin videoihin ja haastaa mallin löytämään ja analysoimaan kyseisen kehyksen.
Tämä kyky asettaa Qwen3-VL:n merkittävän edistysaskeleen pitkän videon ymmärtämisessä – alueella, jossa useimmat visio-kieli mallit ovat kamppailleet ymmärtämisen ylläpitämisen laajassa aikajaksossa.
Vertailu johtaviin malleihin
Tekninen raportti dokumentoi Qwen3-VL:n suorituskyvyn useilla arviointimittareilla, erityisesti vahvassa visuaalisessa matematiikassa. Malli saavutti 85,8 %:n MathVistassa, joka ylittää GPT-5:n 81,3 %:n, ja se johti MathVisionissa 74,6 %:n tarkkuudella verrattuna Gemini 2.5 Pro:han (73,3 %) ja GPT-5:een (65,8 %).
Asiakirjan prosessointikapasiteetit osoittautuivat samoin vahvoiksi. Malli saavutti 96,5 %:n DocVQA:ssa asiakirjan ymmärtämisessä ja 875 pistettä OCRBenchissä, jossa tuettiin tekstin tunnistamista 39 kielellä – lähes neljä kertaa enemmän kuin edeltäjänsä Qwen2.5-VL. Yli 70 %:n tarkkuus säilyi OCR-tehtävissä 32:lla tuetuista kielellä.
Malli perhe, joka on saatavilla Hugging Facen ja Alibaba Cloudin kautta, sisältää sekä tiheät variantit (2B, 4B, 8B, 32B parametreja) että asiantuntijoiden sekoituskonfiguraatioita (30B-A3B ja 235B-A22B). 8B-variantti yksin on ylittänyt 2 miljoonan latauksen syyskuun julkaisun jälkeen.
Kuitenkin tulokset eivät olleet yhdenmukaisesti hallitsevia. MMMU-Pro:ssa, monitieteisessä testissä, Qwen3-VL saavutti 69,3 %:n verrattuna GPT-5:n 78,4 %:iin. Kaupalliset kilpailijat myös säilyttivät etuja yleisissä videokysymys-vastaus -benchmarkeissa, mikä viittaa siihen, että malli erikoistuu visuaalisen matematiikan ja asiakirjan analyysin asiantuntijaksi eikä yleiseksi johtajaksi.
Kolme arkkitehtuurin innovaatiota
Tekninen raportti esittää kolme avainarkkitehtuurin päivitystä, jotka ajavat näitä kykyjä. Ensinnäkin, “interleaved MRoPE” korvaa aiemmat position-embedded-menetelmät jakamalla matemaattiset edustukset tasaisesti ajan, leveyden ja korkeuden ulottuvuuksissa eikä ryhmitä niitä ulottuvuuden mukaan. Tämä muutos kohdistaa erityisesti parantamaan suorituskykyä pitkillä videoilla.
Toiseksi, DeepStack-integraatio yhdistää monitasoisen Vision Transformer -ominaisuudet pyydystääksesi hienorakeiset visuaaliset yksityiskohdat ja kiristääksesi kuva-teksti -sopimusta. Kolmas innovaatio siirtyy temporal rotary position -embeddedista eksplisiittiseen tekstipohjaiseen aikaleiman sopimukseen, mahdollistaen tarkemman aikaisen perustan, kun malli tarvitsee viitata tiettyyn hetkeen videomateriaalissa.
Järjestelmä osoittaa myös agenttikykyjä puhtaan havainnon ulkopuolella. ScreenSpot Pro:ssa, jossa arvioidaan navigointia graafisissa käyttöliittymissä, malli saavutti 61,8 %:n tarkkuuden. AndroidWorld-testissä, jossa järjestelmä on toimittava itsenäisesti Android-sovelluksissa, 32B-variantti saavutti 63,7 %:n tarkkuuden.
Avoimen lähdekoodin kilpailukenttä
Kaikki Qwen3-VL-mallit, jotka on julkaistu syyskuun jälkeen, ovat saatavilla Apache 2.0 -lisenssillä avoimilla painoilla. Valikoima kattaa kompaktin 2B-parametrin variantin, joka on sovelias reunaympäristöön, ja lippulaiva 235B-A22B-mallin, joka vaatii merkittäviä laskentaresursseja – jälkimmäinen painaa 471 GB.
Tämän teknisen dokumentaation ajoitus on merkittävä. Google Gemini 1.5 Pro osoitti samanlaisia kehyksen poistamiskykyjä pitkistä videoista alkuvuonna 2024, mutta Qwen3-VL tuo vastaavan toiminnallisuuden avoimen lähdekoodin ekosysteemiin. Kiinan generatiivisen AI-käyttäjäkunnan kasvaessa 515 miljoonaan, mikä on kaksinkertaistunut kuuden kuukauden aikana, ja Qwen-malliperheen kerättyä yli 300 miljoonan latauksen maailmanlaajuisesti, Alibaba asettaa selvästi avoimia mallejaan globaalin multimodaalisen AI-kehityksen perustaksi.
Edellinen Qwen2.5-VL on jo kerryttänyt yli 2800 viitettä alle 10 kuukauden aikana, mikä osoittaa vahvan tutkimusotteen. Yksityiskohtainen tekninen raportti Qwen3-VL:stä tulisi kiihdyttää tätä kehitystä, tarjoamalla tutkijoille arkkitehtuurin ja koulutusyksityiskohdat, joita tarvitaan rakentamaan näiden kykyjen päälle tai kilpailemaan niiden kanssa.
Mitä tämä merkitsee kehittäjille
Tiimille, jotka työskentelevät videon analyysin, asiakirjan älykkyyden, visuaalisen päättelyn sovellusten parissa, Qwen3-VL tarjoaa tuotantovalmiit kyvyt ilman API-riippuvuutta. Mallin erityinen vahvuus visuaalisessa matematiikassa tekee siitä välittömästi merkityksellisen koulutusteknologiaan, tieteellisiin tutkimusvälineisiin ja mihin tahansa sovellukseen, joka vaatii tulkintaa kaavioista, diagrammeista tai matemaattisista merkinnöistä kuvissa.
Erityisenä huomionarvoisena on, että avoimien ja suljettujen mallien välinen kuilu on kapeampi joissakin alueissa, mutta edelleen merkittävä muissa. Qwen3-VL osoittaa, että avoimilla painoilla varustetut mallit voivat vastata tai ylittää omistajaohjattuja järjestelmiä erikoistuneissa tehtävissä, kuten visuaalisessa matematiikassa, vaikka ne jäävät jälkeen laajemmissa päättelybenchmarkeissa.
Avoimen lähdekoodin AI-yhteisölle yksityiskohtainen tekninen raportti edustaa enemmän kuin dokumentaatiota – se on tiekartta, jonka muut tiimit voivat tutkia, arvostella ja rakentaa sen päälle. Se, johtuuko tämä kilpaileviin toteutuksiin tai täydentäviin tutkimuksiin, on nähtävissä, mutta avoimen multimodaalisen älykkyyden perustaso on siirtynyt merkittävästi ylöspäin.












