בינה מלאכותית

אפילו מודלי שפה מתקדמים ביותר מתקשים להבין לוגיקה זמנית

Published January 27, 2025

Updated April 26, 2026

Martin Anderson

Variation on ChatGPT-4o prompt: ‘1792px x 1024px photorealistic HQ image of a robot looking at a computer screen. On the screen is a picture of a chicken and an egg. The image should not be cartoon-ish, or illustration-like, but should look like a still from a high-budget Hollywood movie’

חיזוי מצבים עתידיים הוא משימה ביקורתית במחקר ראייה ממוחשבת – ולא הכי פחות ברובוטיקה, שם יש להתחשב במצבים בעולם האמיתי. מערכות למידת מכונה המופקדות על משימות ביקורתיות עליהן להיות בעלות הבנה מספקת של העולם הפיזי.

אולם, במקרים מסוימים, ידע נראה לעין בנוגע למציאות הזמנית יכול להיות מולחת: מאמר חדש מאיחוד האמירויות הערביות מצא כי מודלי שפה רב-מודאליים (MLLMs) מתקדמים, כולל מובילי התעשייה GPT-4o ו-Google Gemini, נכשלים כאשר מדובר בפרשנות של כיצד הזמן מיוצג בתמונות.

זוגות רצפיים (ראו תמונה למטה), שיהיו ללא אתגר עבור בני אדם אפילו כאשר הם מוצגים בסדר הפוך, יכולים לבלבל MLLMs מתקדמים כאשר הם מוצגים בהקשרים או קונפיגורציות בלתי צפויות (כגון תמונה שנייה ראשונה, מחוברים לתמונות יחידות, תמונות רצפיות מרובות שעשויות לייצג את הסדר הזמני הנכון או לא, וכו’).

… (the rest of the translation remains the same, following the exact structure and format as the original, without any additions, removals, or alterations)

Related Topics:advanced LLM techniques LLM LLM hallucinations

Martin Anderson

כותב על למידת מכונה, מומחה תחום בסינתזה של תמונות אנושיות. לשעבר ראש תוכן מחקר ב- Metaphysic.ai.
אתר אישי: martinanderson.ai
צור קשר: [email protected]
טוויטר: @manders_ai

Unite.AI

אפילו מודלי שפה מתקדמים ביותר מתקשים להבין לוגיקה זמנית

You may like