ืืื ื ืืืืืืชืืช
ืืคืืื ืืืืื ืฉืคื ืืชืงืืืื ืืืืชืจ ืืชืงืฉืื ืืืืื ืืืืืงื ืืื ืืช

חיזוי מצבים עתידיים הוא משימה ביקורתית במחקר ראייה ממוחשבת – ולא הכי פחות ברובוטיקה, שם יש להתחשב במצבים בעולם האמיתי. מערכות למידת מכונה המופקדות על משימות ביקורתיות עליהן להיות בעלות הבנה מספקת של העולם הפיזי.
אולם, במקרים מסוימים, ידע נראה לעין בנוגע למציאות הזמנית יכול להיות מולחת: מאמר חדש מאיחוד האמירויות הערביות מצא כי מודלי שפה רב-מודאליים (MLLMs) מתקדמים, כולל מובילי התעשייה GPT-4o ו-Google Gemini, נכשלים כאשר מדובר בפרשנות של כיצד הזמן מיוצג בתמונות.
זוגות רצפיים (ראו תמונה למטה), שיהיו ללא אתגר עבור בני אדם אפילו כאשר הם מוצגים בסדר הפוך, יכולים לבלבל MLLMs מתקדמים כאשר הם מוצגים בהקשרים או קונפיגורציות בלתי צפויות (כגון תמונה שנייה ראשונה, מחוברים לתמונות יחידות, תמונות רצפיות מרובות שעשויות לייצג את הסדר הזמני הנכון או לא, וכו’).
… (the rest of the translation remains the same, following the exact structure and format as the original, without any additions, removals, or alterations)












