Toimialaraportit
Alibaba julkaisee Qwen3-VL:n teknisen raportin, jossa käydään tarkasti läpi kahden tunnin videon analyysi

Alibaban Qwen-tiimi julkaisi Qwen3-VL:n teknisen raportin 26. marraskuuta, ja siinä esitetään yksityiskohtainen dokumentaatio avoimesta visio-kieli-mallista, joka julkaistiin ensimmäisen kerran syyskuussa. 64 kirjoittajan raportti paljastaa, että järjestelmä pystyy käsittelemään kahden tunnin videoita 256 000 -tokenin kontekstiruudun sisällä säilyttäen lähes täydellisen tarkkuuden tiettyjen kehysten sijainnissa.
Lippulaiva Qwen3-VL-235B-A22B -malli saavutti 100 %:n tarkkuuden “neula-heinäkasassa” -testeissä, kun haettiin 30 minuutin videoita, ja se säilyi 99,5 %:n tarkkuudella jopa skannaamalla kahden tunnin videoita, jotka sisälsivät noin miljoona merkintää. Testimenetelmä lisää semanttisesti merkittävän “neula”-kehyksen satunnaisiin asemiin pitkiin videoihin ja haastaa mallin löytämään ja analysoimaan kyseisen kehyksen.
Tämä kyky asettaa Qwen3-VL:n merkittävän edistysaskeleen pitkän aikavälin videon ymmärtämisessä – alueella, jossa useimmat visio-kieli-mallit ovat kamppailleet ymmärryksensä ylläpitämisessä pitkinä aikajaksoina.
Vertailu johtaviin malleihin
Tekninen raportti dokumentoi Qwen3-VL:n suorituskyvyn useilla arviointimittareilla, erityisesti vahvassa visuaalisessa matematiikassa. Malli saavutti 85,8 %:n MathVistassa, joka ylittää GPT-5:n 81,3 %:n, ja se johti MathVisionissa 74,6 %:n tarkkuudella verrattuna Gemini 2.5 Pro (73,3 %) ja GPT-5 (65,8 %).
Asiakirjan prosessointikapasiteetit osoittautuivat yhtä vahvaksi. Malli saavutti 96,5 %:n DocVQA:ssa asiakirjan ymmärtämisessä ja 875 pistettä OCRBenchissä, joka tukee tekstin tunnistamista 39 kielellä – lähes neljä kertaa enemmän kuin edeltävässä Qwen2.5-VL-mallissa. Yli 70 %:n tarkkuus säilyi OCR-tehtävissä 32:lla tuetusta kielestä.
Malliperhe, joka on saatavilla Hugging Face ja Alibaba Cloud -palveluissa, sisältää sekä tiheät variantit (2B, 4B, 8B, 32B parametrejä) että asiantuntijamiksauksia (30B-A3B ja 235B-A22B). 8B-variantti yksin on ylittänyt 2 miljoonan latauksen syyskuun julkaisun jälkeen.
Tulokset eivät kuitenkaan olleet yhdenmukaisesti hallitsevia. MMMU-Prossa, monitieteisessä testissä, Qwen3-VL saavutti 69,3 %:n verrattuna GPT-5:n 78,4 %:iin. Kaupalliset kilpailijat säilyttivät myös etuja yleisissä video-vastausmallissa, mikä osoittaa, että malli erottuu visuaalisessa matematiikassa ja asiakirjan analyysissä erikoisosaajana eikä yleisenä johtajana.
Kolme arkkitehtuurin uudistusta
Tekninen raportti esittää kolme avainarkkitehtuurin parannusta, jotka ajavat näitä kykyjä. Ensinnäkin “interleaved MRoPE” korvaa edelliset sijaintitunnistusmenetelmät jakamalla matemaattiset edustukset tasaisesti ajan, leveyden ja korkeuden ulottuvuuksissa eikä ryhmittele niitä ulottuvuuden mukaan. Tämä muutos kohdistuu erityisesti pitkien videoiden parantamiseen.
Toiseksi DeepStack-integrointi yhdistää monitasoiset Vision Transformer -ominaisuudet havainnoimaan hienojakoisia visuaalisia yksityiskohtia ja kiristämään kuva-teksti -sopimusta. Kolmas innovaatio siirtyy temporal rotary position embeddingsista eksplisiittiseen tekstipohjaiseen aikaleiman sopimukseen, mikä mahdollistaa tarkemman aikajärjestyksen, kun malli tarvitsee viitata tiettyyn hetkeen videomateriaalissa.
Järjestelmä osoittaa myös agenttikykyjä puhtaan havainnon ulottuvilla. ScreenSpot Prossa, jossa arvioidaan navigointia graafisissa käyttöliittymissä, malli saavutti 61,8 %:n tarkkuuden. AndroidWorld-testissä, jossa järjestelmän on toimittava itsenäisesti Android-sovelluksissa, 32B-variantti saavutti 63,7 %:n tarkkuuden.
Avoin kilpailukenttä
Kaikki Qwen3-VL-mallit, jotka on julkaistu syyskuun jälkeen, ovat saatavilla Apache 2.0 -lisenssillä avoimilla painoilla. Mallivalikoima kattaa compact 2B-parametrin variantin, joka on sovellettavissa reunalle, lippulaiva 235B-A22B-malliin, joka vaatii merkittäviä laskentaresursseja – jälkimmäinen painaa 471 GB.
Teknisen dokumentaation ajankohta on merkittävä. Google Gemini 1.5 Pro osoitti samanlaisia kehyspoimintakykyjä pitkistä videoista alkuvuonna 2024, mutta Qwen3-VL tuo vastaavan toiminnallisuuden avoimeen ekosysteemiin. Kiinan generatiivisen AI-käyttäjäkunta on kasvanut 515 miljoonaan viime kuukausien aikana, ja Qwen-malliperhe on houkutellut yli 300 miljoonaa latausta maailmanlaajuisesti, Alibaba asemoi avoimia mallejaan globaalin monimodaalisen AI-kehityksen perustaksi.
Edellinen Qwen2.5-VL on jo kerännyt yli 2 800 viitettä alle 10 kuukauden aikana, mikä osoittaa vahvan tutkimusotteen. Yksityiskohtainen tekninen raportti Qwen3-VL:stä voi kiihdyttää tätä kehitystä, tarjoamalla tutkijoille arkkitehtuurin ja koulutuksen yksityiskohdat, joita voidaan hyödyntää tai kilpailla näiden kykyjen kanssa.
Mitä tämä tarkoittaa kehittäjille
Tiimille, jotka työskentelevät videon analyysissä, asiakirjan älykkyydessä tai visuaalisessa päättelyssä, Qwen3-VL tarjoaa tuotantovalmiit kyvyt ilman API-riippuvuutta. Mallin erityinen vahvuus visuaalisessa matematiikassa tekee siitä välittömästi relevantin koulutusteknologiaan, tieteellisiin tutkimustyökaluihin ja mihin tahansa sovellukseen, joka vaatii tulkintaa kaavioista, kaavoista tai matemaattisista merkinnöistä kuvissa.
Ero avoimien ja suljettujen mallien välillä kapenee tiettyjen aihealueiden osalta, mutta se säilyy merkittävänä muissa. Qwen3-VL osoittaa, että avoimilla painoilla varustetut mallit voivat vastata tai ylittää omistajaohjelmistojärjestelmiä erikoistuneissa tehtävissä, kuten visuaalisessa matematiikassa, vaikka ne jäävät jälkeen laajemmissa päättelykokeissa.
Avoimen lähdekoodin AI-yhteisölle yksityiskohtainen tekninen raportti edustaa enemmän kuin dokumentaatiota – se on tiekartta, jonka muut tiimit voivat tutkia, arvostella ja kehittää. Se, johtuuko tästä kilpailevista toteutuksista vai täydentävistä tutkimuksista, on nähtävissä, mutta avoimen monimodaalisen älykkyyden perusta on siirtynyt merkittävästi eteenpäin.












