הזווית של Anderson

אתגר הכתיבה של וידאו ביותר מ-1fps

Published March 19, 2025

Updated April 26, 2026

Martin Anderson

Trails in a basketball scene - source: https://www.youtube.com/watch?v=ORfjgE6n2Pc

היכולת של מערכות למידת מכונה לזהות את האירועים שמתרחשים בתוך וידאו היא חיונית לעתיד של ייצור וידאו מבוסס AI – לא רק משום שנתוני וידאו דורשים כותרות מדויקות על מנת לייצר מודלים שמתאימים לבקשת המשתמש, ואינם מתאפיינים ב- הזיות מוגזמות.

דוגמא לסכמת כתיבה מפרויקט VidReCap של גוגל. מקור: https://sites.google.com/view/vidrecap

כתיבה ידנית של היקף הווידאו הדרוש לאימון נתונים יעיל היא מחשבה בלתי נסבלת. אף על פי שניתן לאמן מערכות AI לכתיבת וידאו אוטומטית, עדיין נדרשים הרבה דוגמאות מיוצרות אנושית כעובדה, למטרת גיוון וכיסוי.

יותר מכך, כמעט כל מודל כתיבת וידאו מבוסס AI פועל ב-1fps, שאינו קצב צילום צפוף מספיק כדי להבחין בשינויים במגוון רב של תרחישים: שינויים פתאומיים בביטויים זעירים למערכות זיהוי רגשות; אירועים מהירים בספורטאים בעלי מהירות גבוהה כגון כדורסל; תנועות אלימות; חיתוכים מהירים בסרטים דרמטיים, שם מערכות כגון PySceneDetect עשויות לא לזהות אותם (או לא משמשות); ועוד רבים מהתרחישים בהם חלון הקשב צריך להיות רב יותר.

לחץ לשחק. פעולה מהירה אך משמעותית במה שיכול להיות אחד הספורטאים האיטיים בעולם, כאלכס היגינס זוכה באליפות העולם נגד ריי ריארדון ב-1982. מקור: https://www.youtube.com/watch?v=_1PuqKno_Ok

הילך מהר ושבור היגיון

קצב נמוך זה הוא הסטנדרט לסיבות לוגיסטיות רבות. למשל, כתיבת וידאו היא פעילות רעיונית, בין אם המערכת לומדת פריים אחד בכל פעם, או שהיא משתמשת בשיטות שונות להתאים סמנטית רצף של פריימים לרצף כותרות מפורש. בכל מקרה, חלון ההקשר מוגבל בהכרח על ידי מגבלות חומרה.

סיבה נוספת לכך ש-1fps הוא הסטנדרט הנוכחי היא שווידאו לא בדרך כלל מלאים באירועים מהירים; על כן, זה מיותר לתת 300 פריימים של שולחן ביליארד סטטי את אותה תשומת לב כמו הרגע המיידי בו כדור שחור מנצח את האליפות (ראו דוגמה לעיל).

היא אפשרית להשתמש ברמזים משניים רחבים יותר כדי לזהות רגעים מכריעים בווידאו ספורט, כגון תגובת הקהל המתמשכת לפעולה מהירה במשחק כדורסל. הוא, רמזים כאלה עשויים להתרחש בגלל סיבות אחרות (כגון פציעות שחקנים בלתי צפויות), ואין לסמוך עליהם. זוהי דוגמה אחת לכיצד נתוני וידאו מסומנים לא נכון יכולים להוביל למודל וידאו יוצר שמתאווה או מפרש פקודות לא נכון, כלומר, משום שהמודל עשוי להראות פציעת שחקן כאשר הוא התבקש לייצר פעולה מהירה (משום ש’רמז משני’ של עוררות הקהל לא היה בלעדי לסוג מסוים של אירוע).

זוהי בעיקר בעיה ‘תקציבית’, ובדרכים אחרות – בעיה הליכית. מסגרות עד כה פעלו על עיקרון שמסגרות מפתח דלילות יכולות ללכוד בצורה יעילה מידע חיוני, אך זה יותר יעיל בקביעת סוגה והיבטים אחרים של נושא הווידאו, מאחר שהראיות, במקרה זה, נמשכות על פני מספר פריימים.

F-16

מאמר חדש מסין מציע פתרון, בדמות המודל הרב-מודאלי הראשון (MLLM, או פשוט LLM) שיכול לנתח וידאו ב-16fps במקום התקן של 1fps, תוך הימנעות מהמלכודות העיקריות של הגברת קצב הניתוח.

בניסויים, המחברים טוענים כי המערכת החדשה, בשם F-16, עולה על מודלים פרופריטריים מתקדמים כגון GPT-4o ו-Gemini-1.5 pro. כאשר מודלים אחרים נוכחיים הצליחו לעמוד בתוצאות של F-16 בניסויים, המודלים המתחרים היו הרבה יותר גדולים ולא נוחים.

אף על פי ש-F-16 אומנה על חומרה רצינית (כפי שנבדוק בעתיד), היסקוס הרגיל הרבה פחות דורש. לכן, אנו יכולים לקוות כי הקוד (המובטח לשחרור קרוב) יהיה מסוגל לרוץ על GPU בינוני או גבוה.

מה שנדרש לחיוניות של סצנת החובבים (וכולל סצנת VFX מקצועית, רוב הזמן) הוא מודל כתיבת וידאו מסוג זה שיכול לפעול, אולי מקוטע, על מערכות צרכניות, כך שכל סצנת הווידאו היוצרת לא תהגר למערכות מבוססות API, או תאלץ את הצרכנים לחבר מסגרות מקומיות לשירותי GPU מקוונים מסחריים.

מעבר להגדלת קנה המידה

המחברים מציינים כי גישה זו היא חלופה מעשית להגדלת נתונים. ניתן גם להסיק כי אם הייתם הולכים להשליך יותר נתונים על הבעיה, זו עדיין גישה מעדיפה, משום שהמערכת החדשה מבחינה בין אירועים בצורה יותר גרנולרית.

הם מצהירים:

‘דגימת קצב פריימים נמוך יכולה להוביל לאובדן מידע חזותי ביקורתי, במיוחד בווידאו עם סצנות משתנות במהירות, פרטים מורכבים או תנועה מהירה. בנוסף, אם מסגרות מפתח מאובדות, והמודל מאומן על תוויות המסתמכות על מידע מסגרות מפתח, הוא עלול להתקשות לסנכרן את חיזוייו עם התוכן הצפוי, מה שעלול להוביל ל- הזיות וביצועים מופחתים…

‘… F-16 משיג ביצועים SOTA בשאילתות וידאו כלליות בין מודלים בגודל דומה, והוא מפגן יתרון ברור בהבנת וידאו בקצב גבוה, ועולה על מודלים מסחריים כגון GPT-4o. עבודה זו פותחת כיוונים חדשים לקידום הבנת וידאו בקצב גבוה במחקר MLLM.’

המאמר החדש כותרתו שיפור הבנת וידאו LLM עם 16 פריימים לשנייה, ומגיע משמונה מחברים מאוניברסיטת Tsinghua ו-ByteDance.

שיטה

מכיוון שפריימים רצופים מכילים לעיתים קרובות מידע מיותר, F-16 מיישם מיישם מקביל לקצב גבוה לדחוס ולקודד פרטים תנועה מרכזיים בעודו שומר על סמנטיקה חזותית. כל פריים מעובד תחילה על ידי מקודד תמונה מוכשר, מוציא ייצוגי תכונות לפני שהוא מועבר למקביל המבוסס על יחידות ליניאריות של שגיאות גאוס (GELUs).

ארכיטקטורת F-16 עובדת ב-16 FPS, לוכדת יותר פריימים מאשר מודלים בקצב נמוך, ומקביל הקצב הגבוה שומר על סמנטיקה חזותית בעודו מקודד בצורה יעילה תנועה דינמית ללא הוספת טוקנים חזותיים נוספים. מקור: https://arxiv.org/pdf/2503.13956

כדי להתמודד עם הגידול במספר הפריימים בצורה יעילה, F-16 קובץ פריימים לחלונות עיבוד קטנים, ממזג תכונות חזותיות באמצעות MLP בן שלוש שכבות, עוזר לשמור רק על הפרטים התנועה הרלוונטיים ביותר, ומקטין שחזור מיותר, בעודו שומר על זרימת הזמן של פעולות. שכבת מקס-פולינג מרחבית מקטינה עוד יותר את מספר הטוקנים, תוך שמירה על עלויות חישוביות בגבולות.

הטוקנים הווידאו המעובדים מוזנים אז ל-LLM Qwen2-7B, שיוצר תגובות טקסטואליות על בסיס התכונות החזותיות המוצאות ופרומפט משתמש נתון.

על ידי הצגת קלט וידאו בדרך זו, F-16 מאפשר, טוענים המחברים, הכרה מדויקת יותר של אירועים בסצנות דינמיות, תוך שמירה על יעילות.

הגרסה הקצרה

F-16 מרחיב מודל LLM מוכשר, LLaVA-OneVision, לעבד וידאו על ידי הפיכת צינור הקלט החזותי. בעוד מודלי LLM סטנדרטיים מטפלים בפריימים בודדים, מקביל הקצב הגבוה של F-16 מפורמט מחדש מספר פריימים לצורה שהמודל יכול לעבד בצורה יעילה יותר; זה מונע מהמערכת להיות מוצפת במידע מיותר, בעודו שומר על אותות תנועה חיוניים להבנת וידאו מדויקת.

כדי להבטיח תאימות עם הבסיס המבוסס תמונה, F-16 משתמש מחדש בפרמטרים מוכשרים מחדש על ידי הפיכת המקביל ל- תת-מטריצות. גישה זו מאפשרת לו לשלב ידע ממודלים בודדי פריים בעודו מסתגל לקלט וידאו רציף.

המקביל ראשון דוחס רצפי פריימים לפורמט מותאם ל-LLM, שומר על התכונות המידעניות ביותר, בעודו מזניח פרטים לא הכרחיים. עיצוב הארכיטקטורה מאפשר למערכת לעבד וידאו בקצב גבוה, תוך שמירה על דרישות חישוביות בגבולות, אותו המחברים טוענים כראיה שהגדלת קנה המידה אינה הדרך היחידה (או הטובה ביותר) קדימה לכתיבת וידאו.

שינוי קצב

מכיוון שעיבוד וידאו ב-16 FPS משפר את הבנת התנועה, אך מגדיל את העלויות החישוביות, במיוחד במהלך היסקוס, F-16 מציג שיטת פענוח קצב פריימים משתנה, המאפשרת לו לכוונן את קצב הפריימים באופן דינמי ללא אימון מחדש.

המקבילים היחידים ובקצב גבוה הזמינים ל-F-16.

גמישות זו מאפשרת למודל לפעול בצורה יעילה בקצבים נמוכים יותר, כאשר דיוק גבוה אינו נדרש, ומקטינה את עומס החישוב.

בזמן בדיקה, כאשר נבחר קצב פריימים נמוך יותר, F-16 משתמש מחדש בפרמטרים של המקביל המאומן, על ידי חזרה על פריימים קלט להתאמה לממדים הצפויים. זה מבטיח כי המודל עדיין יכול לעבד וידאו בצורה יעילה, בלי לשנות את הארכיטקטורה שלו.

בניגוד לדגימה נאיבית (כלומר, פשוט הסרת פריימים), שעלולה לאבד פרטים תנועה ביקורתיים, שיטה זו שומרת על ייצוגי תנועה שהמקביל למד, ושומרת על דיוק, אפילו בקצבים נמוכים.

נתונים ובדיקות

F-16 נבנה על Qwen2-7B, והרחיב את LLaVA-OneVision באמצעות SigLIP כמקודד תמונה. עם פריימים וידאו מדגמים ב-16 FPS, עד 1,760 פריימים יכולים להירכש מכל וידאו. לווידאו ארוכים יותר, פריימים נדגמו באופן אחיד (כלומר, בצורה דלילה יותר).

לאימון, F-16 השתמש באותם נתוני וידאו כלליים כמו LLaVA-Video, כולל LLaVA-Video-178K, NExT-QA, ActivityNet-QA, ו- PerceptionTest.

F-16 גם עבר עידון עדין על נתוני ספורטאים בקצב גבוה FineGym, Diving48, ו- SoccerNet. המחברים גם אספו אוסף של 276 משחקי NBA ששוחקו בין 13 ל-25 בנובמבר 2024, בדגש על האם ירייה הייתה מוצלחת (משימה הדורשת עיבוד בקצב גבוה).

המודל נבדק באמצעות נתוני בדיקת NSVA, עם ביצועים שנמדדו על ידי F1 score.

מודלים של התעמלות וקפיצה למים נבדקו על פי דיוק הכרת אירועים, בעוד מודלים של כדורגל וכדורסל עקבו את המסירות ותוצאות הירי.

המודל אומן ל- אפוקה אחת, באמצעות 128 NVIDIA H100 GPUs (וב-80GB סטנדרטי של VRAM לכל GPU, זה כלל שימוש ב-10.24 טרה-בייט של זיכרון GPU; אפילו לפי סטנדרטים אחרונים, זהו אחד ה- GPU המקיף ביותר שפגשתי בעקבות ספרות מחקר ראייה ממוחשבת). קצב למידה של 2×10⁻⁵ שימש במהלך האימון.

בנוסף, LoRA עובד עדין על נתוני ספורט, LoRA adapters שומשו עם 64 GPUs ל-5 אפוכות. כאן, רק ה- LLM אומן, תוך שהמקודד התמונה נשאר קפוא.

מסגרות מנוגדות שנבדקו בסבב הראשוני ל’הבנת וידאו כללית’ היו GPT-4o; Gemini-1.5-Pro; Qwen2-VL-7B; VideoLLaMA2-7B; VideoChat2-HD-7B; LLaVA-OV-7B; MiniCPM-V2.6-8B; LLaVA-Video-7B; ו- NVILA-7B;

המודלים נבדקו על Video-MME; VideoVista; TemporalBench; MotionBench; Next-QA; MLVU; ו- LongVideoBench.

השוואה של תוצאות שאילתות וידאו בין מודלים, המראה את מגבלות FPS וביצועים על מגוון בנקי מבחן. F-16 משיג SOTA בין מודלים 7B על Video-MME, NQA, TPB, ו- MB, ומתחרה במודלים מסחריים כגון GPT-4o ו- Gemini-1.5-Pro.

מתוך תוצאות אלו, המחברים מצהירים:

‘ב- Video-MME Short, Medium, ו- NeXT-QA – כל אחד מהם עוצב להבנת וידאו קצר, מודלנו עולה על המודל SOTA הקודם ב-7B בדיוק של 3.2%, 1.0%, ו- 0.9%, מה שמדגיש את הביצועים החזקים שלו על וידאו קצר.

‘לבנקי מבחן המעריכים הבנת וידאו ארוכה, כגון Video-MME Long, LongVideoBench, ו- MLVU, האתגר גדול יותר בגלל דגימת פריימים דלילה יותר, הגורמת לפריימים בתוך חלון העיבוד להציג שינויים משמעותיים יותר.

‘זה מגדיל את הקושי למיישר המודאליות לקודד בצורה י

Martin Anderson

כותב על למידת מכונה, מומחה תחום בסינתזה של תמונות אנושיות. לשעבר ראש תוכן מחקר ב- Metaphysic.ai.
אתר אישי: martinanderson.ai
צור קשר: [email protected]
טוויטר: @manders_ai