דוחות תעשייה

Alibaba משחררת דו”ח טכני Qwen3-VL המפרט אנליזה של וידאו בת שעתיים

Published November 28, 2025

Updated April 25, 2026

Alex McFarland

צוות Qwen של Alibaba פרסם את דו”ח הטכני Qwen3-VL ב-26 בנובמבר, ובו מסמכים מפורטים של מודל הראייה-שפה הפתוח, שהושק לראשונה בספטמבר. מאמר ה-64 מחברים חושף כי המערכת יכולה לעבד וידאו בני שעתיים בתוך חלון הקשר של 256,000 טוקנים, תוך קיום דיוק כמעט מושלם באיתור פריימים ספציפיים.

הדגם הדגל Qwen3-VL-235B-A22B השיג דיוק של 100% במבחני “מחט בערמת תבן” כאשר חיפש וידאו בני 30 דקות, והחזיק בדיוק של 99.5% אפילו כאשר סרק וידאו בני שעתיים המכילים כמיליון טוקנים. שיטת הבדיקה מחדירה פריים “מחט” סמנטית בעמדות אקראיות בתוך וידאו ארוכים, ואז מאתגרת את המודל לאתר ולנתח את הפריים הספציפי.

יכולת זו מעמידה את Qwen3-VL כהתקדמות משמעותית בהבנת וידאו ארוך-טווח – תחום בו מודלים רבים של ראייה-שפה התקשו לשמור על ניתוח עקבי במשך זמן ארוך.

ביצועים במבחנים מול מודלים מובילים

דו”ח הטכני מתעד את ביצועי Qwen3-VL במספר רב של מדדים, עם חוזק מיוחד במשימות מתמטיות חזותיות. המודל קיבל 85.8% ב-MathVista, ועקף את GPT-5 עם 81.3%, והוביל ב-MathVision עם דיוק של 74.6% לעומת Gemini 2.5 Pro (73.3%) ו-GPT-5 (65.8%).

יכולות עיבוד מסמכים הוכחו כחזקות באותה מידה. המודל השיג 96.5% ב-DocVQA להבנת מסמכים ו-875 נקודות ב-OCRBench, תוך תמיכה בזיהוי טקסט ב-39 שפות – כמעט פי ארבעה מכיסוי השפות של קודמו Qwen2.5-VL. דיוק של מעל 70% נשמר במשימות OCR ב-32 מתוך השפות התומכות.

משפחת המודלים, הזמינה דרך Hugging Face ו-Alibaba Cloud, כוללת גם וריאנטים צפופים (2B, 4B, 8B, 32B פרמטרים) וקונפיגורציות מומחים (30B-A3B ו-235B-A22B). הווריאנט 8B לבדו עבר 2 מיליון הורדות מאז השחרור בספטמבר.

עם זאת, התוצאות לא היו דומיננטיות באופן אחיד. ב-MMMU-Pro, מבחן רב-תחומי מורכב, Qwen3-VL קיבל 69.3% לעומת 78.4% של GPT-5. מתחרים מסחריים גם כן שמרו על יתרונות בבנכים כלליים לשאילתות וידאו, מה שמרמז כי המודל מצטיין כמומחה במתמטיקה חזותית וניתוח מסמכים ולא כמנהיג אוניברסלי.

שלושה חידושים ארכיטקטוניים

דו”ח הטכני מתאר שלושה שיפורים ארכיטקטוניים מפתח המניעים את היכולות הללו. ראשית, “MRoPE משולב” מחליף שיטות השתלת מיקום קודמות על ידי הפצה אחידה של ייצוגים מתמטיים לאורך ממדי זמן, רוחב וגובה, במקום קבוצתם לפי מימד. שינוי זה מיועד במיוחד לשיפור הביצועים על וידאו ארוכים.

שנית, אינטגרציה של DeepStack ממזגת תכונות מרובות רמות של Vision Transformer כדי ללכוד פרטים חזותיים עדינים ולחזק את ההתאמה בין תמונה לטקסט. החידוש השלישי עובר מעבר להשתלת מיקום רוטרית זמנית להתאמה מפורשת של טקסט-זמן, מה שמאפשר הינף זמני מדויק יותר כאשר המודל צריך להתייחס לרגעים ספציפיים בתוכן הווידאו.

המערכת הוכיחה גם יכולות סוכן מעבר לתפיסה טהורה. ב- ScreenSpot Pro, המערכת לבדיקת ניווט בממשקי משתמש גרפיים, המודל השיג דיוק של 61.8%. ב-AndroidWorld, שבו המערכת צריכה להפעיל אפליקציות אנדרואיד באופן עצמאי, הווריאנט 32B הגיע לדיוק של 63.7%.

נוף תחרותי של קוד פתוח

כל המודלים Qwen3-VL ששוחררו מאז ספטמבר זמינים תחת רישיון Apache 2.0 עם משקלים פתוחים. הקו המוצרים משתרע מווריאנט קומפקטי 2B-פרמטרים המתאים לפריסה בקצה, ועד לדגם הדגל 235B-A22B, הדורש משאבים חישוביים משמעותיים – האחרון שוקל 471 GB.

זמנו של הדו”ח הטכני הזה מהותי. Google’s Gemini 1.5 Pro הפגין יכולות דומות של איתור פריימים מווידאו ארוכים בתחילת 2024, אך Qwen3-VL מביא תכונות דומות לנוף הקוד הפתוח. עם משתמשי ג’נרטיב AI בסין שהגיעו ל-515 מיליון, פי שניים בחצי שנה ומודל Qwen שמשך יותר מ-300 מיליון הורדות ברחבי העולם, Alibaba בבירור מעמידה את המודלים הפתוחים שלה כבסיס לפיתוח AI רב-מודאלי גלובלי.

Qwen2.5-VL הקודם כבר אסף יותר מ-2,800 ציטוטים בפחות מ-10 חודשים, מה שמרמז על אימוץ מחקר חזק. הדו”ח הטכני המפורט עבור Qwen3-VL אמור לזרז מהלך זה, ולספק לחוקרים את הפרטים הארכיטקטוניים והאימון הדרושים כדי לבנות עליהם או להתחרות.

מה זה אומר למפתחים

עבור צוותים העובדים על אנליזה של וידאו, תבונה של מסמכים או יישומים של היגיון חזותי, Qwen3-VL מציע יכולות מוכנות-לייצור ללא תלות ב-API. חוזקו המיוחד של המודל במתמטיקה חזותית הופך אותו לרלוונטי מיידית לטכנולוגיה חינוכית, כלים מדעיים וכל יישום הדורש פרשנות של תרשימים, תרשימים או סימון מתמטי בתוך תמונות.

הפער בין מודלים פתוחים לסגורים ממשיך להצטמצם בתחומים מסוימים, בעודו נשאר משמעותי באחרים. Qwen3-VL הוכיח כי מודלים עם משקלים פתוחים יכולים לעמוד בקנה אחד עם מערכות פרופריטריות במשימות מיוחדות כגון מתמטיקה חזותית, אף על פי שהם מאחור בבנכים רחבים יותר.

עבור קהילת AI הפתוח, דו”ח הטכני המפורט מייצג יותר מתיעוד – זהו מפה דרכים שצוותים אחרים יכולים ללמוד, לבקר ולבנות עליה. האם זה יוביל ליישומים תחרותיים או מחקר משלים, נשאר לראות, אך הבסיס לאינטליגנציה רב-מודאלית פתוחה זז קדימה בצורה משמעותית.