विचार नेता

एलएलएम्स की गणित में विफलता और इसका समाधान कैसे करें

Published December 5, 2024

Updated April 27, 2026

Peter Relan, Chairman of MathGPT.ai

गणित ने हमेशा एआई मॉडल के लिए एक महत्वपूर्ण चुनौती पेश की है। गणित पर अधिकार प्राप्त करने के लिए जटिल तर्क कौशल की आवश्यकता होती है, और एआई के लिए यह कार्य सरल नहीं है। यह एक बड़ी समस्या पैदा करता है क्योंकि पेशेवर, व्यक्तिगत और शैक्षिक सफलता के लिए गणितीय प्रवीणता का महत्व दिया जाता है।

अपनी उल्लेखनीय क्षमताओं के बावजूद, बड़े भाषा मॉडल (एलएलएम) अक्सर जटिल गणितीय कार्यों के साथ संघर्ष करते हैं, जैसे कि ज्यामिति, जो उन्नत तर्क कौशल की मांग करते हैं। यह हमें एक महत्वपूर्ण प्रश्न के पास ले जाता है: कितना एक एआई मॉडल की गणितीय क्षमता वास्तविक तर्क से उत्पन्न होती है बनाम केवल प्रशिक्षण डेटा की याददाश्त?

एप्पल के हाल के निष्कर्ष दिखाते हैं कि जब ग्रेड स्कूल गणित शब्द समस्याओं पर ध्यान केंद्रित किया जाता है, तो सबसे उन्नत मॉडल पूरी तरह से “तर्क” से चलने वाले नहीं होते हैं।

इसे एक कदम आगे बढ़ाते हुए, MathGPT.ai की आरएंडडी टीम ने बीजगणित से कैलकुलस स्तर के गणित के क्षेत्रों पर नई रोशनी डाली जिनमें सबसे अधिक सुधार की आवश्यकता है।

इस डेटा ने दिखाया कि समस्या संदर्भ और भाषा में भिन्नता एलएलएम्स के प्रदर्शन को कैसे प्रभावित करती है, जिसमें ओपनएआई के नवीनतम ओ1-पूर्वावलोकन और ओ1-मिनी मॉडल शामिल हैं। निष्कर्षों से पता चला कि एक चिंताजनक प्रवृत्ति है: सटीकता लगातार कम हो जाती है क्योंकि समस्याएं मूल प्रश्नों से विचलित होती हैं जो एलएलएम्स के प्रशिक्षण डेटा में उपलब्ध हैं, ग्रेड स्कूल गणित स्तर से ऊपर अधिक चुनौतीपूर्ण गणितीय बेंचमार्क पर प्रदर्शन तेजी से गिर जाता है।

याद और तर्क की दुविधा

जांच में तीन मुख्य कारकों पर ध्यान केंद्रित किया गया:

ग्रेड स्कूल गणित से अधिक चुनौतीपूर्ण गणितीय बेंचमार्क का उपयोग करना
एक “1-शॉट प्रोम्प्ट” की खोज करना जो परीक्षण समस्या के बहुत करीब है
एक “सर्वश्रेष्ठ एन” रणनीति को लागू करना एक ही समस्या के लिए एन प्रयास – वास्तव में एक बहुमत मतदान को सांख्यिकीय विचलन को खत्म करने के लिए, अनुमान समय पर।

परिणाम दोनों आकर्षक और चिंताजनक थे। समस्या भिन्नता की सीमाएं धकेल दी गईं, जो दिखाती हैं कि जैसे ही गणितीय समीकरण अधिक जटिल हो जाते हैं, एआई मॉडल का प्रदर्शन लगातार कम हो जाता है।

माथ डेटासेट चुनौती

माथ डेटासेट को तैनात किया गया था, जो अपनी चुनौतीपूर्ण उच्च विद्यालय स्तर की समस्याओं के लिए जाना जाता है, ग्रेड स्कूल मैथ 8के डेटासेट के विपरीत, जिसमें 8,500 भाषाई रूप से विविध प्राथमिक स्तर की समस्याएं हैं। माथ डेटासेट मॉडल प्रदर्शन की जांच करने के लिए पूर्व-बीजगणित से संख्या सिद्धांत तक विभिन्न कठिनाई स्तरों पर अधिक चुनौतीपूर्ण उच्च विद्यालय स्तर के प्रश्न प्रस्तुत करता है। यह विकल्प मैथजीपीटी.एआई को विभिन्न कठिनाई स्तरों पर मॉडल प्रदर्शन की बेहतर जांच करने की अनुमति देता है।

परीक्षण में, जबकि संख्यात्मक मान और अंतिम उत्तर अपरिवर्तित रहे, हमने समस्याओं की भाषा, चर और संदर्भ को बदल दिया। उदाहरण के लिए, एक “कुत्ते की पैदल दूरी” परिदृश्य को “वॉशिंग मशीन” समस्या में बदल दिया जा सकता है। इस विधि ने माथ डेटासेट की बढ़ी हुई जटिलता को कम करने में मदद की जबकि फिर भी मॉडल की तर्क क्षमताओं को चुनौती दी।

प्रकट परिणाम

परिणाम आकर्षक थे। सबसे उन्नत मॉडल भी संघर्ष करते थे जब उन्हें समस्याओं के संस्करणों का सामना करना पड़ता था जिन्हें उन्होंने अपने प्रशिक्षण डेटा में मिलकर देखा होगा। उदाहरण के लिए, इसके ओ1-मिनी मॉडल की सटीकता मूल प्रश्नों पर 93.66% से गिरकर सबसे चुनौतीपूर्ण संस्करण पर 88.54% हो गई। ओ1-पूर्वावलोकन मॉडल ने एक समान गिरावट का अनुभव किया, 91.22% से 82.93% तक गिर गया – एक तेज गिरावट जो उनकी लचीलेपन में महत्वपूर्ण अंतराल को उजागर करती है।

ये निष्कर्ष एप्पल के पहले के शोध के साथ संरेखित होते हैं और दिखाते हैं कि एआई की गणितीय तर्क सीमाएं अधिक स्पष्ट हो जाती हैं क्योंकि समस्याएं जटिल हो जाती हैं और गहरी समझ की मांग करती हैं न कि पैटर्न मान्यता की।

आगे का मार्ग

जैसे ही हम एलएलएम तर्क की सीमाओं को आगे बढ़ाते हैं, यह पहचानना महत्वपूर्ण है कि इसकी अविश्वसनीय क्षमता और वर्तमान सीमाएं दोनों हैं। नए शोध में एआई मॉडल विकसित करने में नवाचार की आवश्यकता पर प्रकाश डाला गया है जो पैटर्न मान्यता से परे जाने और अधिक मजबूत और सार्वभौमिक समस्या-समाधान कौशल प्राप्त करने में सक्षम हों।

यह विशेष रूप से उच्च शिक्षा में एक महत्वपूर्ण समय पर आता है, जहां एआई का उपयोग कक्षा में एक प्रशिक्षक की सहायता के रूप में अधिक भारी मात्रा में किया जा रहा है, जबकि स्कूल उन छात्रों के बीच उच्च विफलता दर देखते हैं जो गणित पाठ्यक्रमों के लिए तैयार नहीं हैं।

मानव जैसी संज्ञानात्मक क्षमताओं या एआई में सामान्य बुद्धिमत्ता प्राप्त करने के लिए न केवल तकनीकी प्रगति की आवश्यकता है, बल्कि याद और वास्तविक तर्क के बीच के अंतर को पाटने के तरीके की एक सूक्ष्म समझ की भी आवश्यकता है।

यदि हम इस पथ पर सफल होते हैं, तो मुझे विश्वास है कि हम लाखों छात्रों और यहां तक कि पेशेवरों के जीवन को बदल सकते हैं और उनके जीवन को पूरी तरह से नए मार्ग पर रख सकते हैं।

Unite.AI

एलएलएम्स की गणित में विफलता और इसका समाधान कैसे करें

याद और तर्क की दुविधा

माथ डेटासेट चुनौती

प्रकट परिणाम

आगे का मार्ग

You may like