Connect with us

Bransjerapporter

Alibaba Publiserer Qwen3-VL Teknisk Rapport som Beskriver To-Timers Videoanalyse

mm

Alibaba’s Qwen-team publiserte Qwen3-VL teknisk rapport den 26. november, og gir detaljert dokumentasjon av den åpne visjon-språkmodellen som først ble lansert i september. Den 64-forfatterne papiret avslører at systemet kan prosessere to-timers videoer innenfor en 256 000-token kontekstvindu, samtidig som det opprettholder nesten perfekt nøyaktighet i å finne bestemte rammeverk.

Flaggskipet Qwen3-VL-235B-A22B-modellen oppnådde 100 % nøyaktighet i “needle-in-a-haystack”-tester når det søkte etter 30-minutters videoer, og holdt seg på 99,5 % nøyaktighet selv når det scannet to-timers videoer som inneholdt omtrent en million token. Testmetoden setter inn en semantisk betydning “needle”-ramme på tilfeldige posisjoner innenfor lange videoer, og utfordrer modellen til å finne og analysere denne bestemte rammen.

Dette plasserer Qwen3-VL som en betydelig fremgang i forståelse av lange videoer – et domene hvor de fleste visjon-språkmodellene har slitt med å opprettholde koherent analyse over lengre tidsperioder.

Benchmark Ytelse Mot Ledende Modeller

Den tekniske rapporten dokumenterer Qwen3-VLs ytelse over flere evalueringer, med særlig styrke i visuelle matematisk oppgaver. Modellen scoret 85,8 % på MathVista, og overgikk GPT-5s 81,3 %, og ledet MathVision med 74,6 % nøyaktighet sammenlignet med Gemini 2,5 Pro (73,3 %) og GPT-5 (65,8 %).

Dokumentbehandlingskapasiteter viste seg å være like sterke. Modellen oppnådde 96,5 % på DocVQA for dokumentforståelse og 875 poeng på OCRBench, og støttet tekstgjenkjenning på 39 språk – nesten fire ganger språkdekningen til dens forgjenger Qwen2,5-VL. Over 70 % nøyaktighet ble opprettholdt på OCR-oppdrag i 32 av disse støttede språkene.

Modellfamilien, som er tilgjengelig gjennom Hugging Face og Alibaba Cloud, inkluderer både tette variasjoner (2B, 4B, 8B, 32B parametre) og mixture-of-experts-konfigurasjoner (30B-A3B og 235B-A22B). Den 8B-varianten alene har overskredet 2 millioner nedlastinger siden september-utgivelsen.

Men resultater var ikke uniformt dominante. På MMMU-Pro, et komplekst multidisciplinært test, scoret Qwen3-VL 69,3 % sammenlignet med GPT-5s 78,4 %. Kommersielle konkurrenter holdt også fordeler i generelle video-spørsmål-benchmark, noe som tyder på at modellen utmerker seg som en spesialist i visuell matematikk og dokumentanalyse fremfor en universell leder.

Tre Arkitektoniske Innovasjoner

Den tekniske rapporten omhandler tre nøkkelarkitektoniske oppgraderinger som driver disse kapasitetene. Først erstatter “interleaved MRoPE” tidligere posisjonsinnleggelsesmetoder ved å distribuere matematiske representasjoner jevnt over tid, bredde og høyde-dimensjoner, fremfor å gruppere dem etter dimensjon. Denne endringen tar sikte på å forbedre ytelsen på lange videoer.

Andre, DeepStack-integrasjon fusjonerer multi-nivå Vision Transformer-egenskaper for å fange fine-grained visuelle detaljer og stramme bilde-tekst-justering. Den tredje innovasjonen går utover tids-rotasjonsposisjonsinnleggelse til eksplisitt tekst-basert tidsstempel-justering, og muliggjør mer presis tidsmessig grunnlag når modellen må henvisere til bestemte øyeblikk i videoinnholdet.

Systemet demonstrerer også agent-kapasiteter utover ren persepsjon. På ScreenSpot Pro, som evaluerer navigasjon innenfor grafiske brukergrensesnitt, oppnådde modellen 61,8 % nøyaktighet. AndroidWorld-testing, hvor systemet må operere Android-applikasjoner uavhengig, så den 32B-varianten nådde 63,7 % nøyaktighet.

Det Åpne Konkurranselandskapet

Alle Qwen3-VL-modeller utgitt siden september er tilgjengelige under Apache 2,0-lisensen med åpne vekter. Linjeopptaket spenner fra den kompakte 2B-parameter-varianten som er egnet for kant-utplassering til den flaggskip-235B-A22B-modellen som krever betydelige beregningsressurser – den siste veier 471 GB.

Tidspunktet for denne tekniske dokumentasjonen er merkbart. Google’s Gemini 1,5 Pro viste lignende ramme-ekstraksjonskapasiteter fra lange videoer tidlig i 2024, men Qwen3-VL bringer sammenlignbar funksjonalitet til det åpne økosystemet. Med Kinas generative AI-brukerbase doblet til 515 millioner i løpet av de siste månedene, og Qwen-modellfamilien har tiltrukket over 300 millioner nedlastinger verden over, posisjonerer Alibaba tydelig sine åpne modeller som grunnlaget for globalt multimodalt AI-utvikling.

Den forrige Qwen2,5-VL har allerede samlet over 2 800 sitater på under 10 måneder, noe som indikerer sterk forskningsadopsjon. Den detaljerte tekniske rapporten for Qwen3-VL bør akselerere denne banen, og gir forskerne de arkitektoniske og treningdetaljene som trengs for å bygge på eller konkurrere med disse kapasitetene.

Hva Dette Betyr For Utviklere

For team som arbeider med videoanalyse, dokumentintelligens eller visuell resonnering-applikasjoner, tilbyr Qwen3-VL produksjonsklare kapasiteter uten API-avhengighet. Modellens spesielle styrke i visuell matematikk gjør den umiddelbart relevant for utdanningsteknologi, vitenskapelige forskningstøy og alle applikasjoner som krever tolkning av diagram, grafikk eller matematiske notasjoner innenfor bilder.

Gapet mellom åpne og lukkede modeller fortsetter å snevre inn i bestemte domener, samtidig som det forblir betydelig i andre. Qwen3-VL demonstrerer at åpne vektmodeller kan matche eller overgå proprietære systemer på spesialiserte oppgaver som visuell matematikk, selv om de sporer på bredere resonneringsbenchmark.

For det åpne AI-samfunnet representerer den detaljerte tekniske rapporten mer enn dokumentasjon – det er en veikart som andre team kan studere, kritisere og bygge på. Uansett om det fører til konkurrerende implementeringer eller komplementær forskning, har baseline for åpen multimodal intelligens nettopp flyttet seg betydelig høyere.

Alex McFarland er en AI-journalist og forfatter som utforsker de nyeste utviklingene innen kunstig intelligens. Han har samarbeidet med tallrike AI-startups og publikasjoner verden over.