कृत्रिम बुद्धिमत्ता

रजत से सोने तक: कैसे डीपमाइंड की एआई ने गणित ओलंपियाड पर कब्जा किया

Published July 24, 2025

Updated April 26, 2026

Dr. Tehseen Zia

डीपमाइंड की एआई ने केवल एक साल की अवधि में गणितीय तर्क में उल्लेखनीय प्रगति की है। 2024 में अंतर्राष्ट्रीय गणित ओलंपियाड (आईएमओ) में रजत पदक हासिल करने के बाद, उनकी एआई प्रणाली ने 2025 में स्वर्ण पदक हासिल किया। यह तेजी से प्रगति जटिल, अमूर्त समस्याओं का सामना करने में कृत्रिम बुद्धिमत्ता की बढ़ती क्षमताओं को दर्शाती है जिनमें मानव जैसी रचनात्मकता और अंतर्दृष्टि की आवश्यकता होती है। यह लेख बताएगा कि डीपमाइंड ने यह परिवर्तन कैसे हासिल किया, इसके पीछे की तकनीकी और रणनीतिक पसंद, और इन प्रगति के व्यापक निहितार्थ।

आईएमओ का महत्व

अंतर्राष्ट्रीय गणित ओलंपियाड, जिसकी स्थापना 1959 में हुई थी, को विश्व स्तर पर हाई स्कूल के छात्रों के लिए गणित प्रतियोगिता के रूप में मान्यता प्राप्त है। प्रत्येक वर्ष, दुनिया भर के शीर्ष छात्र बीजगणित, ज्यामिति, संख्या सिद्धांत और संयोजन विज्ञान में छह कठिन समस्याओं का सामना करते हैं। इन समस्याओं को हल करने के लिए गणना से बहुत अधिक की आवश्यकता होती है; प्रतिभागियों को वास्तविक गणितीय रचनात्मकता, कठोर तर्कसंगत सोच और सुंदर प्रमाणों का निर्माण करने की क्षमता प्रदर्शित करनी होती है।

कृत्रिम बुद्धिमत्ता के लिए, आईएमओ एक अनोखी चुनौती प्रस्तुत करता है। जबकि एआई ने पैटर्न पहचान, डेटा विश्लेषण और यहां तक कि जैसे जटिल खेलों में महारत हासिल की है गो और शतरंज, ओलंपियाड गणित रचनात्मक, अमूर्त तर्क और नए विचारों के संश्लेषण की मांग करता है, जो पारंपरिक रूप से मानव बुद्धिमत्ता के हिस्से माने जाते हैं। नतीजतन, आईएमओ मानव जैसी तर्कसंगतता हासिल करने के लिए एआई कितना करीब है, इसका मूल्यांकन करने के लिए एक प्राकृतिक परीक्षण मैदान बन गया है।

2024 का रजत पदक ब्रेकथ्रू

2024 में, डीपमाइंड ने आईएमओ-स्तरीय समस्याओं का सामना करने के लिए दो एआई प्रणालियों की शुरुआत की: अल्फाप्रूफ और अल्फाज्यामिति 2। दोनों प्रणालियां “न्यूरो-प्रतीकात्मक” एआई के उदाहरण हैं, जो बड़े भाषा मॉडल (एलएलएम) की ताकत को प्रतीकात्मक तर्क की कठोरता के साथ जोड़ती हैं।

अल्फाप्रूफ गणितीय बयानों को साबित करने के लिए डिज़ाइन किया गया था लीन का उपयोग करके, एक औपचारिक गणितीय भाषा। इसमें जेमिनी, डीपमाइंड के बड़े भाषा मॉडल, और अल्फाजीरो को जोड़ा गया था, जो एक पुनरावृत्ति सीखने वाला इंजन है जो बोर्ड गेम में अपनी सफलता के लिए जाना जाता है। इस सेटिंग में, जेमिनी की भूमिका प्राकृतिक भाषा समस्याओं को लीन में अनुवादित करना और तर्कसंगत कदमों को उत्पन्न करके प्रमाण देने का प्रयास करना था। अल्फाप्रूफ को विभिन्न गणितीय अनुशासनों और कठिनाइयों में लाखों नमूना समस्याओं पर प्रशिक्षित किया गया था। प्रणाली ने स्वयं को सुधारा bằng बढ़ती जटिलता के गणितीय बयानों को साबित करने का प्रयास करके, जैसे अल्फाजीरो ने स्वयं के खिलाफ खेलकर सीखा।

अल्फाज्यामिति 2 ज्यामिति समस्याओं को हल करने के लिए डिज़ाइन किया गया था। यहां, जेमिनी की भाषा समझ ने एआई को सहायक निर्माण की भविष्यवाणी करने में सक्षम बनाया, जबकि एक प्रतीकात्मक तर्क इंजन ने तर्कसंगत निष्कर्षों का प्रबंधन किया। इस हाइब्रिड दृष्टिकोण ने अल्फाज्यामिति को ज्यामितीय समस्याओं का सामना करने में सक्षम बनाया जो पारंपरिक मशीन तर्क के दायरे से परे थीं।

एक साथ, इन प्रणालियों ने छह में से चार आईएमओ समस्याओं को हल किया: बीजगणित में दो, संख्या सिद्धांत में एक, और ज्यामिति में एक, 42 में से 28 का स्कोर हासिल किया। यह प्रदर्शन एक महत्वपूर्ण मील का पत्थर था, क्योंकि यह पहली बार था जब एक एआई ने आईएमओ में रजत पदक स्तर हासिल किया था। हालांकि, इस सफलता ने समस्याओं को औपचारिक गणितीय भाषाओं में अनुवादित करने के लिए मानव विशेषज्ञों पर बहुत अधिक निर्भर किया। उन्हें विशाल गणना संसाधनों की भी आवश्यकता थी, जिसने प्रत्येक समस्या के लिए दिनों के लिए प्रसंस्करण समय लिया।

स्वर्ण पदक के पीछे तकनीकी नवाचार

डीपमाइंड का रजत से स्वर्ण पदक प्रदर्शन तक का संक्रमण कई महत्वपूर्ण तकनीकी सुधारों से प्रेरित था।

1. प्रमाणों के माध्यम के रूप में प्राकृतिक भाषा

सबसे महत्वपूर्ण परिवर्तन औपचारिक भाषाओं में विशेषज्ञ अनुवाद की आवश्यकता वाली प्रणालियों से प्राकृतिक भाषा को प्रमाणों के माध्यम के रूप में मानने की ओर स्थानांतरण था। यह परिवर्तन एक उन्नत संस्करण के माध्यम से प्राप्त किया गया था जेमिनी से सुसज्जित डीप थिंक क्षमताओं के साथ। लीन में समस्याओं को परिवर्तित करने के बजाय, मॉडल पाठ को सीधे संसाधित करता है, अनौपचारिक रेखाचित्र उत्पन्न करता है, आंतरिक रूप से महत्वपूर्ण चरणों को औपचारिक रूप देता है, और एक परिष्कृत अंग्रेजी प्रमाण उत्पन्न करता है। मानव प्रतिक्रिया से पुनरावृत्ति सीखने (आरएलएचएफ) का उपयोग तार्किक रूप से सुसंगत, संक्षिप्त और प्रस्तुत समाधानों को पुरस्कृत करने के लिए किया गया था।

जेमिनी डीप थिंक सार्वजनिक संस्करण से दो मुख्य तरीकों से भिन्न है। पहला, यह प्रति प्रश्न अधिक संदर्भ विंडो और अधिक कम्प्यूटिंग टोकन आवंटित करता है, जिससे मॉडल को बहु-पृष्ठ श्रृंखला को बनाए रखने में सक्षम बनाता है। दूसरा, यह समानांतर तर्क का उपयोग करता है, जहां संभावित समाधानों के लिए सैकड़ों सट्टा धागे उत्पन्न किए जाते हैं। एक हल्का पर्यवेक्षक तब सबसे आशाजनक मार्गों को रैंक और बढ़ावा देता है, मोंटे कार्लो ट्री सर्च से अवधारणाओं को उधार लेता है लेकिन पाठ पर लागू किया जाता है। यह दृष्टिकोण मानव टीमों की नकल करता है जो विचारों पर विचार करती हैं, अनुत्पादक विचारों को त्यागती हैं और सुंदर समाधानों पर एकजुट होती हैं।

2. प्रशिक्षण और पुनरावृत्ति सीखना

जेमिनी डीप थिंक को प्रशिक्षित करने में मॉडल को अगले चरणों की भविष्यवाणी करने के लिए फाइन-ट्यून करना शामिल था, न कि अंतिम उत्तर। इस उद्देश्य के लिए, 100,000 उच्च-गुणवत्ता वाले ओलंपियाड और अंडरग्रेजुएट प्रतियोगिता समाधानों का संग्रह किया गया था। संग्रह मुख्य रूप से सार्वजनिक गणित मंचों, अर्क्सिव प्रीप्रिंट और कॉलेज समस्या सेट से एकत्र किया गया था। मानव मेंटरों ने प्रशिक्षण उदाहरणों की समीक्षा की ताकि तर्कहीन या अपूर्ण प्रमाणों को फिल्टर किया जा सके। पुनरावृत्ति सीखने ने मॉडल को परिष्कृत करने में मदद की, इसे संक्षिप्त और सटीक प्रमाणों की ओर धकेलते हुए। प्रारंभिक संस्करणों ने अत्यधिक वाक्प्रवाह प्रमाण उत्पन्न किए, लेकिन अतिरिक्त वाक्यांशों पर दंड ने आउटपुट को काट दिया।

पारंपरिक फाइन-ट्यूनिंग के विपरीत, जो अक्सर द्विआधारी प्रतिक्रिया के साथ संघर्ष करता है जहां प्रतिक्रिया है या नहीं, डीपमाइंड ने एक चरण-वार पुरस्कार प्रणाली को लागू किया, जहां प्रत्येक सत्यापित उप-लेमा ने समग्र स्कोर में योगदान दिया। यह पुरस्कार तंत्र जेमिनी को मार्गदर्शन करता है, भले ही पूर्ण प्रमाण असामान्य हो। प्रशिक्षण प्रक्रिया तीन महीने तक चली और लगभग 25 मिलियन टीपीयू-घंटे का उपयोग किया।

3. विशाल समानांतरीकरण

समानांतरीकरण ने डीपमाइंड की प्रगति में भी एक महत्वपूर्ण भूमिका निभाई। प्रत्येक समस्या ने समानांतर में कई तर्क शाखाएं उत्पन्न कीं, संसाधन गतिशील रूप से अधिक आशाजनक मार्गों में स्थानांतरित हो गए जब अन्य ठप हो गए। यह गतिशील अनुसूची विशेष रूप से संयोजन समस्याओं के लिए लाभदायक थी, जिनके पास बड़े समाधान स्थान हैं। यह दृष्टिकोण मानवों की तरह है जो पूर्ण प्रेरणा में प्रतिबद्ध होने से पहले सहायक असमानताओं का परीक्षण करते हैं। जबकि यह तकनीक गणनात्मक रूप से महंगी थी, यह डीपमाइंड के टीपीयू वी5 क्लस्टर का उपयोग करके प्रबंधनीय थी।

डीपमाइंड tại आईएमओ 2025

प्रतियोगिता की अखंडता बनाए रखने के लिए, डीपमाइंड ने आईएमओ से तीन सप्ताह पहले मॉडल के वजन को जमाया ताकि आधिकारिक समस्याओं को प्रशिक्षण सेट में रिसाव रोका जा सके। उन्होंने पहले से प्रकाशित ओलंपियाड प्रश्नों के समाधान वाले डेटा को भी फिल्टर किया।

प्रतियोगिता के दौरान, जेमिनी डीप थिंक को छह आधिकारिक समस्याओं को मूल पाठ प्रारूप में प्रदान किया गया, बिना इंटरनेट तक पहुंच के। प्रणाली एक क्लस्टर पर संचालित हुई जो प्रति प्रक्रिया एक मानक लैपटॉप की गणना शक्ति का अनुकरण करने के लिए कॉन्फ़िगर की गई थी। पूरी समस्या-समाधान प्रक्रिया तीन घंटे से कम समय में पूरी हुई, जो समय सीमा के भीतर थी। उत्पन्न प्रमाणों को आईएमओ समन्वयकों को बिना किसी बदलाव के प्रस्तुत किया गया।

जेमिनी डीप थिंक ने पहली पांच समस्याओं पर पूर्ण अंक हासिल किए। अंतिम प्रश्न, जो एक चुनौतीपूर्ण संयोजन समस्या थी, हालांकि, दोनों एआई और 94% मानव प्रतिभागियों को चकमा दिया। इसके बावजूद, एआई ने 42 में से 35 का स्कोर हासिल करके स्वर्ण पदक हासिल किया। यह स्कोर पिछले वर्ष के रजत प्रदर्शन से सात अंक अधिक था। पर्यवेक्षकों ने बाद में एआई के प्रमाणों को ‘दिलIGENT’ और ‘पूर्ण’ के रूप में वर्णित किया, यह नोट करते हुए कि वे मानव प्रतिभागियों से अपेक्षित कठोर न्यायसंगतता का पालन करते थे।

एआई और गणित के लिए निहितार्थ

डीपमाइंड की उपलब्धि एआई और गणित दोनों के लिए एक महत्वपूर्ण मील का पत्थर है। एआई के लिए, आईएमओ पर महारत हासिल करना कृत्रिम सामान्य बुद्धिमत्ता (एजीआई) की ओर एक कदम है, जहां प्रणालियां मानव द्वारा की जा सकने वाली किसी भी बौद्धिक कार्य को कर सकती हैं। जटिल गणितीय समस्याओं को हल करने के लिए तर्क और समझ की आवश्यकता होती है, जो सामान्य बुद्धिमत्ता के मूल घटक हैं। यह सफलता संकेत देती है कि एआई अधिक मानव जैसी संज्ञानात्मक क्षमताओं की ओर बढ़ रहा है।

गणित के लिए, एआई प्रणालियां जैसे जेमिनी डीप थिंक गणितज्ञों के लिए अमूल्य उपकरण बन सकती हैं। वे नए क्षेत्रों की खोज में, अनुमानों की पुष्टि करने और यहां तक कि नए सिद्धांतों की खोज में सहायता कर सकते हैं। प्रमाण निर्माण के अधिक उबाऊ पहलुओं को स्वचालित करके, एआई मानव गणितज्ञों को उच्च-स्तरीय अवधारणात्मक कार्य पर ध्यान केंद्रित करने के लिए स्वतंत्र करता है। इसके अलावा, इन एआई प्रणालियों के लिए विकसित तकनीक गणितीय अनुसंधान में नए तरीकों को प्रेरित कर सकती है जो मानव प्रयास के माध्यम से संभव नहीं हो सकते हैं।

हालांकि, गणित में एआई की प्रगति शैक्षिक सेटिंग्स और प्रतियोगिताओं में इसकी भूमिका के बारे में प्रश्न भी उठाती है। जैसे-जैसे एआई की क्षमताएं बढ़ती हैं, गणित शिक्षा और प्रतियोगिता की प्रकृति को बदलने के इसके संभावित प्रभाव पर बहस होगी।

आगे देखें

आईएमओ स्वर्ण जीतना एक महत्वपूर्ण मील का पत्थर है, लेकिन कई गणितीय चुनौतियां अभी भी वर्तमान एआई प्रणालियों की पहुंच से बाहर हैं। हालांकि, केवल एक वर्ष में रजत से स्वर्ण तक की तेजी से प्रगति एआई नवाचारों और विकास की तेजी से त्वरण को दर्शाती है। यदि यह गति जारी रहती है, तो एआई प्रणालियां जल्द ही गणित की कुछ सबसे प्रसिद्ध अनसुलझी समस्याओं का सामना कर सकती हैं। जबकि यह प्रश्न अनसुलझा है कि क्या एआई मानव रचनात्मकता को बदल देगा या बढ़ाएगा, 2025 का आईएमओ यह स्पष्ट संकेत देता है कि कृत्रिम बुद्धिमत्ता ने तार्किक तर्क में महत्वपूर्ण प्रगति की है।