ืืืืืืช ืฉื Anderson
AI ืืืขืืืฃ ืืงืจืื ืืช ืืกืคืจ ืืืฉืจ ืืฆืคืืช ืืกืจื

זה מפתיע כמה קשה לגרום למודלים של AI לצפות ולהעיר על תוכן וידאו אמיתי, אפילו אם הם נועדו למשימה זו. הם מעדיפים את המילה הכתובה.
אם אתה ניסה להעלות קטע וידאו קצר ל-ChatGPT, או למודל ראייה/שפה פופולרי דומה, אתה עשוי להיות מופתע לגלות שהם לא יכולים באמת לפרש וידאו. בעוד שמודלים כגון ChatGPT-4o+ מסוגלים לנתח פריימים בודדים – בצורת תמונות, כגון JPEG ו-PNG – הם מעדיפים שהמשתמש יחלץ את הפריימים בעצמו ויעלה אותם כתמונות (אותן הם מוכנים להעיר עליהן).
במקרה של סדרת OpenAI GPT, ניתן, באופן מעייף, לחלץ רצף מלא של פריימים מקטע וידאו ולהאכיל אותם ל-ChatGPT, למטרות, למשל, יצירת עקבות סיפור AI-יוצרות עבור הווידאו:
![ืชืืื ืืช ืืงืื ืืชืื ืืืจืื ืฉื OpenAI ืขื ืคืจืกืื ื ืืกืืจืืช ืืจืืืืช ืขืืืจ ืคืืชืื ืขืงืืืช ืคืจืฉื ืืช AI-ืืืฆืจืืช ืขืืืจ ืงืืข ืืืืื. [ ืืงืืจ ] https://cookbook.openai.com/examples/gpt_with_vision_for_video_understanding](https://www.unite.ai/wp-content/uploads/2025/10/openai-gpt-frame-parsing.jpg)
תמונות וקוד מתוך הדרכה של OpenAI על פרסינג מסגרות מרובות עבור פיתוח עקבות פרשנות AI-יוצרות עבור קטע וידאו. מקור
אבל זה נופל על המשתמש לבצע את ההמרה מווידאו לפריימים, הן על ידי קריאה לפונקציות ברוטינה גדולה יותר, כפי שנראה לעיל, או על ידי חליצת הפריימים עם FFMPEG או פתרונות עריכת וידאו חינמיים ובתשלום.
עד לרמה מסוימת, אולי אפילו רמה גדולה, המגבלות על ניתוח וידאו במוצרים בקנה מידה גדול כגון ChatGPT תלויות ב שימוש במשאבים: רק כלי אחד מודל AI עם אוסף של קודקי וידאו הפופולריים ביותר, והקצאת משאבי חישוב לתהליך הכבד והצריכה ה-CPU של החלת הפריימים, אינו שיקול קטן, אם מאות מיליוני משתמשים מחליטים להתחיל להשתמש באפשרויות אלו כל יום.
בנוסף, ניתוח זמני יכול לצייר תמונה שונה מאוד מאשר פריים בודד (תדמיין מישהו נכנס לבית במצב רוח טוב ואז מגלה גופה); לכן, בחשיבה על ה-“checksum” הזמני השלם של אפילו קטע וידאו קצר, הוא משימה דורשנית וצריכה משאבים – כמו גם תחום מחקר מיוחד, למשל עם המשך פיתוח המסגרות כגון Optical Flow – שבעצם “מפרס” אורך וידאו כך שניתן להתייחס אליו ולפעול עליו כאילו היה מסמך סטטי:

תרשימי Optical flow מדגימים כיצד התנועה עוקבת בין פריימים ברצף וידאו, עם וקטורים ירוקים המראים כיוון ועוצמה של התנועה. מיפויים אלה מספקים את הרציפות הזמנית הנדרשת עבור VLMs ויכולים גם לשמש כמדריכים מבניים ב-VFX workflows. מקור
נוח להישען על תקציר
מודלים כגון Google’s Notebook LM והכניסות האחרונות של ChatGPT מסוגלים לקרוא מטא-נתונים (כלומר, תוכן טקסט משובץ שמקשר את הווידאו באיזושהו דרך), הם לא אוסרים על העלאת קובץ וידאו; ולפעמים, הם אפילו ינסו לפרש וידאו שאין לו נתונים כאלה.
במקרה הבא, העליתי קטע וידאו אקראי של 6 שניות מהסרט האיטלקי יד האל (2021) ל-NotebookLM, תוך הבטחה שהקטע לא הכיל שום טקסט שימושי, הן במטא-נתונים והן בשם הקובץ.
NotebookLM המשיך לדמיין חומר באופן מוחלט לא קשור לווידאו*, יחד עם פודקאסט ראש בראש מושמע לא קשור:

רגע יומיומי בקטע וידאו בן 6 שניות מסרט איטלקי מוטען באופן קיצוני על ידי NotebookLM. מקור: Google NotebookLM
Notebook, כמו ChatGPT, תקבל וידאו של YouTube כקלט, אך רק אם הווידאו מציג שכבת טקסט מפורשת ו/או כתוביות (לא כתוביות רסטריות שנשרפו לתוך הווידאו).
בדרך זו, העבודה הקשה של צפייה בתוכן הווידאו וביצוע פרשנות סמנטית שלו (הכרח משפטי עבור YouTube, בגלל אמצעי הגנת הזכויות יוצרים שלו, ומערכת זיהוי דמיון המיועדת), נעשית ברגע שהקובץ הועלה, כאשר הקליפ היה יכול לקבל את המשאבים הנדרשים.
פרשנות וידאו אמיתית היא יקרה ומייגעת, ומתברר שאפילו מודלים שאומנו במיוחד לבצע משימה זו מעדיפים לקרוא טקסט מאשר לצפות בווידאו.
TL;DW
זה, על פי מאמר חדש מאוניברסיטת בריסטול בבריטניה, בשם וידאו אינו שווה אלף מילים, שבו שני המחברים מסיקים כי מודלים חדישים של VLMs – מודלים שנועדו במיוחד להיות מסוגלים לנתח וידאו בדרך מאמצת יותר, ולהשתתף ב שאילתות וידאו – גם הם מסתמכים על מידע טקסטואלי כאשר אפשר.
כאשר ניתנו להם תמונות נעות ושאילתות ותשובות טקסטואליות, מחברי המאמר מצאו כי המודלים בדרך כלל התבססו על דפוסים בטקסט, ולא על מה שקורה על המסך – במקרים רבים, הם ביצעו טוב כמו כאשר השאילתה נלקחה במקום.
במה שנראה כקיצור דרך או מעיד או הונאה, מה שהיה הכי חשוב לרוב המודלים היה לאתר דפוסים בתשובות האפשריות; רק כאשר המשימה הופכת לקשה יותר, על ידי הוספת יותר אפשרויות תשובה, ה-AI התחילו לשלם תשומת לב רצינית יותר לווידאו.
המחברים נתנו מבחני VQA תחת מגוון תנאים לשישה מודלי VLMs שונים, באורכי הקשר שונים, על ארבעה מאגרי נתונים מתאימים; ומצאו כי התוצאות הראו כי המודלים תלויים יותר בטקסט מאשר בתוכן הווידאו.

דוגמה מהמחקר המראה כיצד מודל ניתוח וידאו שוקל מה הוא רואה לעומת מה שהוא קורא. הקליפ מראה אדם אורג במבוק, אך המודל מייחס חשיבות רבה יותר לטקסט השאילתה והתשובה מאשר לפריימים הווידאו עצמם. הילוכים כחולים מסמנים איברים התומכים בתשובה הנבחרת, בעוד הילוכים אדומים מסמנים אלה שמושכים אותה בכיוון ההפוך, מה שממחיש כיצד התובנות של המודל מתרכזות במילים ולא בתמונות הנעות. מקור












