מנהיגי דעה

כישלון ה-LLMs במתמטיקה ואיך לפתור אותו

Published December 5, 2024

Updated April 27, 2026

Peter Relan, Chairman of MathGPT.ai

המתמטיקה תמיד הציבה אתגר משמעותי למודלים של AI. רכישת מתמטיקה דורשת מיומנויות חשיבה מורכבות, ועבור AI, משימה זו היא כלום פשוטה. זה יוצר בעיה ענקית, בהתחשב בחשיבות של בקיאות מתמטית להצלחה מקצועית, אישית ואקדמית.

למרות יכולותיהן המרשימות, מודלים גדולים של שפה (LLMs) לעיתים קרובות מתקשים עם משימות מתמטיות מורכבות, כגון גאומטריה, הדורשות מיומנויות חשיבה מתקדמות. זה מוביל אותנו לשאלה הקריטית: כמה מיכולתו המתמטית של מודל AI נובעת מחשיבה אמיתית לעומת זיכרון בלבד של נתוני אימון?

ממצאים אחרונים מ-Apple מראים כי אפילו כאשר מתמקדים בבעיות מילוליות של מתמטיקה בבית הספר, המודלים המתוחכמים ביותר אינם מונעים לחלוטין על ידי “חשיבה”.

לקיחת זאת צעד אחד קדימה, צוות ה-R&D ב-MathGPT.ai העניק אור חדש על תחומים של אלגברה עד למתמטיקה של חשבון אינפיניטסימלי שדורשים את השיפור הרב ביותר.

נתונים אלו חקרו כיצד וריאציות בהקשר של בעיה ושפה משפיעות על ביצועי המודל לאורך LLMs שונים, כולל מודלים o1-preview ו-o1-mini האחרונים של OpenAI. הממצאים חשפו מגמה מודאגת: דיוק ירד באופן עקבי ככל שבעיות סטו משאלות המקוריות הזמינות בנתוני האימון של LLMs, עם ירידה חדה בביצועים על בנכים מתמטיים מאתגרים יותר מעבר לרמת המתמטיקה של בית הספר.

דילמת הזיכרון מול החשיבה

החקירה התמקדה בשלושה גורמים מפתח:

השימוש בבנכים מתמטיים מאתגרים יותר ממתמטיקה של בית הספר
חקירת “1-shot prompt” עם קרבה קיצונית לבעיה הנבדקת
יישום אסטרטגיית “best of n” ל-n ניסיונות באותה בעיה – בעצם הצבעה של רוב להיפטרות מחריגים סטטיסטיים, בזמן היסטוריה.

התוצאות היו מרתקות ומודאגות. גבולות של וריאציה של בעיה נדחפו, מה שהראה ירידה עקבית בביצועי מודל AI ככל שהמשוואות המתמטיות הפכו למורכבות יותר.

אתגר מאגר הנתונים MATH

מאגר הנתונים MATH הופעל, הידוע בשל בעיות ברמת בית הספר התיכון, בניגוד למאגר הנתונים Grade School Math 8K, המכיל 8,500 בעיות ברמת יסודי שונות לינגוויסטית. מאגר הנתונים MATH מציג בעיות ברמת בית הספר התיכון יותר מאתגרות לבחינת ביצועי המודל לאורך רמות קושי שונות, מפני אלגברה ועד תורת המספרים. בחירה זו איפשרה ל-MathGPT.ai לבחון טוב יותר את ביצועי המודל לאורך רמות קושי שונות.

בבדיקות, בעוד ערכים מספריים ותשובות סופיות נותרו ללא שינוי, השתנו השפה, המשתנים וההקשר של הבעיות. למשל, סצנה של “כלב הולך” עשויה להפוך לבעיה של “מכונת כביסה”. שיטה זו עזרה למתן הקומפלקסיות הגוברת של מאגר הנתונים MATH בעודה מאתגרת את יכולות החשיבה של המודלים.

תוצאות מרשימות

התוצאות היו מוחצות. אפילו המודלים המתוחכמים ביותר התקשו כאשר הוצגו בגרסאות שונות של בעיות שכנראה פגשו בנתוני האימון שלהם. למשל, דיוק המודל o1-mini ירד מ-93.66% בשאלות המקוריות ל-88.54% בגרסה המאתגרת ביותר. המודל o1-preview חווה ירידה דומה, יורד מ-91.22% ל-82.93% – ירידה חדה מספיק כדי להדגיש פערים קריטיים בעמידותם.

ממצאים אלו תואמים ובונים על מחקר קודם של Apple, המדגים כי המגבלות בחשיבה המתמטית של AI הופכות לבולטות יותר ככל שהבעיות גדלות במורכבות ודורשות הבנה עמוקה יותר מאשר זיהוי תבניות.

הדרך קדימה

כאשר אנו ממשיכים לדחוף את גבולות החשיבה של LLM, חשוב להכיר בפוטנציאל המדהים שלה ובמגבלות הנוכחיות. מחקר חדש מדגיש את הצורך בחדשנות מתמשכת בפיתוח מודלי AI המסוגלים לנוע מעבר לזיהוי תבניות לכיוון יכולות פתרון בעיות חזקות וכלליות יותר.

זה בא בזמן ביקורתי, במיוחד בחינוך גבוה, שם AI משמש יותר ויותר כעזר למורה בכיתה ובו-זמנית בתי ספר רואים שיעורי כישלון גבוהים בקרב תלמידי מתמטיקה שאינם מוכנים לקורסים.

השגת יכולות קוגניטיביות דומות לאלו של בני אדם או אינטליגנציה כללית ב-AI דורשת לא רק התקדמות טכנולוגית אלא גם הבנה עדינה של איך לגשר על הפער בין זיכרון לחשיבה אמיתית.

אם נצליח בנתיב זה, אני בטוח שנוכל לשנות את חייהם של מיליוני תלמידים ואפילו מקצועות לשים את חייהם על מסלול חדש לגמרי.

Unite.AI

כישלון ה-LLMs במתמטיקה ואיך לפתור אותו

דילמת הזיכרון מול החשיבה

אתגר מאגר הנתונים MATH

תוצאות מרשימות

הדרך קדימה

You may like