рд╡рд┐рдЪрд╛рд░ рдиреЗрддрд╛
рдПрд▓рдПрд▓рдПрдореНрд╕ рдХреА рдЧрдгрд┐рдд рдореЗрдВ рд╡рд┐рдлрд▓рддрд╛ рдФрд░ рдЗрд╕рдХрд╛ рд╕рдорд╛рдзрд╛рди рдХреИрд╕реЗ рдХрд░реЗрдВ
गणित ने हमेशा एआई मॉडल के लिए एक महत्वपूर्ण चुनौती पेश की है। गणित पर अधिकार प्राप्त करने के लिए जटिल तर्क कौशल की आवश्यकता होती है, और एआई के लिए यह कार्य सरल नहीं है। यह एक बड़ी समस्या पैदा करता है क्योंकि पेशेवर, व्यक्तिगत और शैक्षिक सफलता के लिए गणितीय प्रवीणता का महत्व दिया जाता है।
अपनी उल्लेखनीय क्षमताओं के बावजूद, बड़े भाषा मॉडल (एलएलएम) अक्सर जटिल गणितीय कार्यों के साथ संघर्ष करते हैं, जैसे कि ज्यामिति, जो उन्नत तर्क कौशल की मांग करते हैं। यह हमें एक महत्वपूर्ण प्रश्न के पास ले जाता है: कितना एक एआई मॉडल की गणितीय क्षमता वास्तविक तर्क से उत्पन्न होती है बनाम केवल प्रशिक्षण डेटा की याददाश्त?
एप्पल के हाल के निष्कर्ष दिखाते हैं कि जब ग्रेड स्कूल गणित शब्द समस्याओं पर ध्यान केंद्रित किया जाता है, तो सबसे उन्नत मॉडल पूरी तरह से “तर्क” से चलने वाले नहीं होते हैं।
इसे एक कदम आगे बढ़ाते हुए, MathGPT.ai की आरएंडडी टीम ने बीजगणित से कैलकुलस स्तर के गणित के क्षेत्रों पर नई रोशनी डाली जिनमें सबसे अधिक सुधार की आवश्यकता है।
इस डेटा ने दिखाया कि समस्या संदर्भ और भाषा में भिन्नता एलएलएम्स के प्रदर्शन को कैसे प्रभावित करती है, जिसमें ओपनएआई के नवीनतम ओ1-पूर्वावलोकन और ओ1-मिनी मॉडल शामिल हैं। निष्कर्षों से पता चला कि एक चिंताजनक प्रवृत्ति है: सटीकता लगातार कम हो जाती है क्योंकि समस्याएं मूल प्रश्नों से विचलित होती हैं जो एलएलएम्स के प्रशिक्षण डेटा में उपलब्ध हैं, ग्रेड स्कूल गणित स्तर से ऊपर अधिक चुनौतीपूर्ण गणितीय बेंचमार्क पर प्रदर्शन तेजी से गिर जाता है।
याद और तर्क की दुविधा
जांच में तीन मुख्य कारकों पर ध्यान केंद्रित किया गया:
- ग्रेड स्कूल गणित से अधिक चुनौतीपूर्ण गणितीय बेंचमार्क का उपयोग करना
- एक “1-शॉट प्रोम्प्ट” की खोज करना जो परीक्षण समस्या के बहुत करीब है
- एक “सर्वश्रेष्ठ एन” रणनीति को लागू करना एक ही समस्या के लिए एन प्रयास – वास्तव में एक बहुमत मतदान को सांख्यिकीय विचलन को खत्म करने के लिए, अनुमान समय पर।
परिणाम दोनों आकर्षक और चिंताजनक थे। समस्या भिन्नता की सीमाएं धकेल दी गईं, जो दिखाती हैं कि जैसे ही गणितीय समीकरण अधिक जटिल हो जाते हैं, एआई मॉडल का प्रदर्शन लगातार कम हो जाता है।
माथ डेटासेट चुनौती
माथ डेटासेट को तैनात किया गया था, जो अपनी चुनौतीपूर्ण उच्च विद्यालय स्तर की समस्याओं के लिए जाना जाता है, ग्रेड स्कूल मैथ 8के डेटासेट के विपरीत, जिसमें 8,500 भाषाई रूप से विविध प्राथमिक स्तर की समस्याएं हैं। माथ डेटासेट मॉडल प्रदर्शन की जांच करने के लिए पूर्व-बीजगणित से संख्या सिद्धांत तक विभिन्न कठिनाई स्तरों पर अधिक चुनौतीपूर्ण उच्च विद्यालय स्तर के प्रश्न प्रस्तुत करता है। यह विकल्प मैथजीपीटी.एआई को विभिन्न कठिनाई स्तरों पर मॉडल प्रदर्शन की बेहतर जांच करने की अनुमति देता है।
परीक्षण में, जबकि संख्यात्मक मान और अंतिम उत्तर अपरिवर्तित रहे, हमने समस्याओं की भाषा, चर और संदर्भ को बदल दिया। उदाहरण के लिए, एक “कुत्ते की पैदल दूरी” परिदृश्य को “वॉशिंग मशीन” समस्या में बदल दिया जा सकता है। इस विधि ने माथ डेटासेट की बढ़ी हुई जटिलता को कम करने में मदद की जबकि फिर भी मॉडल की तर्क क्षमताओं को चुनौती दी।
प्रकट परिणाम
परिणाम आकर्षक थे। सबसे उन्नत मॉडल भी संघर्ष करते थे जब उन्हें समस्याओं के संस्करणों का सामना करना पड़ता था जिन्हें उन्होंने अपने प्रशिक्षण डेटा में मिलकर देखा होगा। उदाहरण के लिए, इसके ओ1-मिनी मॉडल की सटीकता मूल प्रश्नों पर 93.66% से गिरकर सबसे चुनौतीपूर्ण संस्करण पर 88.54% हो गई। ओ1-पूर्वावलोकन मॉडल ने एक समान गिरावट का अनुभव किया, 91.22% से 82.93% तक गिर गया – एक तेज गिरावट जो उनकी लचीलेपन में महत्वपूर्ण अंतराल को उजागर करती है।
ये निष्कर्ष एप्पल के पहले के शोध के साथ संरेखित होते हैं और दिखाते हैं कि एआई की गणितीय तर्क सीमाएं अधिक स्पष्ट हो जाती हैं क्योंकि समस्याएं जटिल हो जाती हैं और गहरी समझ की मांग करती हैं न कि पैटर्न मान्यता की।
आगे का मार्ग
जैसे ही हम एलएलएम तर्क की सीमाओं को आगे बढ़ाते हैं, यह पहचानना महत्वपूर्ण है कि इसकी अविश्वसनीय क्षमता और वर्तमान सीमाएं दोनों हैं। नए शोध में एआई मॉडल विकसित करने में नवाचार की आवश्यकता पर प्रकाश डाला गया है जो पैटर्न मान्यता से परे जाने और अधिक मजबूत और सार्वभौमिक समस्या-समाधान कौशल प्राप्त करने में सक्षम हों।
यह विशेष रूप से उच्च शिक्षा में एक महत्वपूर्ण समय पर आता है, जहां एआई का उपयोग कक्षा में एक प्रशिक्षक की सहायता के रूप में अधिक भारी मात्रा में किया जा रहा है, जबकि स्कूल उन छात्रों के बीच उच्च विफलता दर देखते हैं जो गणित पाठ्यक्रमों के लिए तैयार नहीं हैं।
मानव जैसी संज्ञानात्मक क्षमताओं या एआई में सामान्य बुद्धिमत्ता प्राप्त करने के लिए न केवल तकनीकी प्रगति की आवश्यकता है, बल्कि याद और वास्तविक तर्क के बीच के अंतर को पाटने के तरीके की एक सूक्ष्म समझ की भी आवश्यकता है।
यदि हम इस पथ पर सफल होते हैं, तो मुझे विश्वास है कि हम लाखों छात्रों और यहां तक कि पेशेवरों के जीवन को बदल सकते हैं और उनके जीवन को पूरी तरह से नए मार्ग पर रख सकते हैं।










