Connect with us

AlphaEvolve: Google DeepMind की AGI की ओर एक क्रांतिकारी पहल

AGI

AlphaEvolve: Google DeepMind की AGI की ओर एक क्रांतिकारी पहल

mm

Google DeepMind ने AlphaEvolve का अनावरण किया है, जो एक विकासवादी कोडिंग एजेंट है जिसे नए एल्गोरिदम और वैज्ञानिक समाधानों को स्वायत्त रूप से खोजने के लिए डिज़ाइन किया गया है। AlphaEvolve: A Coding Agent for Scientific and Algorithmic Discovery शीर्षक वाले पेपर में प्रस्तुत, यह शोध आर्टिफिशियल जनरल इंटेलिजेंस (AGI) और यहां तक कि आर्टिफिशियल सुपरइंटेलिजेंस (ASI) की दिशा में एक आधारभूत कदम का प्रतिनिधित्व करता है। स्थिर फाइन-ट्यूनिंग या मानव-लेबल किए गए डेटासेट पर निर्भर रहने के बजाय, AlphaEvolve एक पूरी तरह से अलग रास्ता अपनाता है—जो स्वायत्त रचनात्मकता, एल्गोरिदमिक नवाचार और निरंतर आत्म-सुधार पर केंद्रित है।

AlphaEvolve के केंद्र में लार्ज लैंग्वेज मॉडल (LLMs) द्वारा संचालित एक स्व-निहित विकासवादी पाइपलाइन है। यह पाइपलाइन केवल आउटपुट उत्पन्न नहीं करती—यह पीढ़ियों में कोड को उत्परिवर्तित, मूल्यांकन, चयन और सुधार करती है। AlphaEvolve एक प्रारंभिक प्रोग्राम से शुरू होता है और सावधानीपूर्वक संरचित परिवर्तनों को शामिल करके इसे पुनरावृत्त रूप से परिष्कृत करता है।

ये परिवर्तन LLM-जनित डिफ़्स के रूप में लेते हैं—कोड संशोधन जो एक भाषा मॉडल द्वारा पिछले उदाहरणों और स्पष्ट निर्देशों के आधार पर सुझाए जाते हैं। सॉफ्टवेयर इंजीनियरिंग में एक ‘डिफ़’ दो फ़ाइल संस्करणों के बीच के अंतर को संदर्भित करता है, जो आमतौर पर हटाई या बदली जाने वाली लाइनों और जोड़ी जाने वाली नई लाइनों को हाइलाइट करता है। AlphaEvolve में, LLM इन डिफ़्स को वर्तमान प्रोग्राम का विश्लेषण करके और एक प्रॉम्प्ट के आधार पर छोटे संपादनों का प्रस्ताव करके उत्पन्न करता है—जिसमें प्रदर्शन मेट्रिक्स और पिछले सफल संपादन शामिल होते हैं, जैसे कि एक फ़ंक्शन जोड़ना, एक लूप को अनुकूलित करना, या एक हाइपरपैरामीटर बदलना।

प्रत्येक संशोधित प्रोग्राम को तब कार्य के अनुरूप स्वचालित मूल्यांकनकर्ताओं का उपयोग करके परीक्षण किया जाता है। सबसे प्रभावी उम्मीदवारों को भविष्य की पुनरावृत्तियों के लिए प्रेरणा के रूप में संग्रहीत, संदर्भित और पुनर्संयोजित किया जाता है। समय के साथ, यह विकासवादी लूप तेजी से परिष्कृत एल्गोरिदम के उद्भव की ओर ले जाता है—जो अक्सर मानव विशेषज्ञों द्वारा डिज़ाइन किए गए एल्गोरिदम से आगे निकल जाते हैं।

AlphaEvolve के पीछे के विज्ञान को समझना

अपने मूल में, AlphaEvolve विकासवादी कम्प्यूटेशन के सिद्धांतों पर बनाया गया है—जैविक विकास से प्रेरित आर्टिफिशियल इंटेलिजेंस का एक उपक्षेत्र। सिस्टम कोड के एक बुनियादी कार्यान्वयन से शुरू होता है, जिसे यह एक प्रारंभिक “जीव” मानता है। पीढ़ियों के माध्यम से, AlphaEvolve इस कोड को संशोधित करता है—विविधताएं या “उत्परिवर्तन” शुरू करता है—और प्रत्येक विविधता की फिटनेस का एक सुपरिभाषित स्कोरिंग फ़ंक्शन का उपयोग करके मूल्यांकन करता है। सर्वोत्तम प्रदर्शन करने वाले वेरिएंट बच जाते हैं और अगली पीढ़ी के लिए टेम्पलेट के रूप में कार्य करते हैं।

यह विकासवादी लूप निम्नलिखित के माध्यम से समन्वित होता है:

  • प्रॉम्प्ट सैंपलिंग: AlphaEvolve पहले के सफल कोड नमूनों, प्रदर्शन मेट्रिक्स और कार्य-विशिष्ट निर्देशों का चयन और एम्बेड करके प्रॉम्प्ट्स का निर्माण करता है।
  • कोड उत्परिवर्तन और प्रस्ताव: सिस्टम डिफ़्स के रूप में वर्तमान कोडबेस में विशिष्ट संशोधन उत्पन्न करने के लिए शक्तिशाली LLMs—Gemini 2.0 Flash और Pro—के मिश्रण का उपयोग करता है।
  • मूल्यांकन तंत्र: एक स्वचालित मूल्यांकन फ़ंक्शन प्रत्येक उम्मीदवार के प्रदर्शन का आकलन करता है उसे निष्पादित करके और स्केलर स्कोर लौटाकर।
  • डेटाबेस और नियंत्रक: एक वितरित नियंत्रक इस लूप का संचालन करता है, परिणामों को एक विकासवादी डेटाबेस में संग्रहीत करता है और MAP-Elites जैसे तंत्रों के माध्यम से अन्वेषण और दोहन के बीच संतुलन बनाता है।

यह प्रतिक्रिया-समृद्ध, स्वचालित विकासवादी प्रक्रिया मानक फाइन-ट्यूनिंग तकनीकों से मौलिक रूप से भिन्न है। यह AlphaEvolve को नए, उच्च-प्रदर्शन वाले, और कभी-कभी अप्रत्याशित समाधान उत्पन्न करने के लिए सशक्त बनाती है—मशीन लर्निंग स्वायत्त रूप से क्या हासिल कर सकती है, उसकी सीमा को आगे बढ़ाती है।

AlphaEvolve की RLHF से तुलना

AlphaEvolve के नवाचार की सराहना करने के लिए, इसकी तुलना रिइन्फोर्समेंट लर्निंग फ्रॉम ह्यूमन फीडबैक (RLHF) से करना महत्वपूर्ण है, जो बड़े भाषा मॉडल को फाइन-ट्यून करने के लिए उपयोग की जाने वाली एक प्रमुख पद्धति है।

RLHF में, मानव प्राथमिकताओं का उपयोग एक रिवार्ड मॉडल को प्रशिक्षित करने के लिए किया जाता है, जो रिइन्फोर्समेंट लर्निंग एल्गोरिदम जैसे प्रॉक्सिमल पॉलिसी ऑप्टिमाइजेशन (PPO) के माध्यम से एक LLM की सीखने की प्रक्रिया को निर्देशित करता है। RLHF मॉडल के संरेखण और उपयोगिता में सुधार करता है, लेकिन इसमें प्रतिक्रिया डेटा उत्पन्न करने के लिए व्यापक मानव भागीदारी की आवश्यकता होती है और यह आमतौर पर एक स्थिर, एक-बार की फाइन-ट्यूनिंग व्यवस्था में काम करता है।

इसके विपरीत, AlphaEvolve:

  • लूप से मानव प्रतिक्रिया को हटाकर मशीन-निष्पादित मूल्यांकनकर्ताओं को प्राथमिकता देता है।
  • विकासवादी चयन के माध्यम से निरंतर सीखने का समर्थन करता है।
  • स्टोकेस्टिक उत्परिवर्तन और अतुल्यकालिक निष्पादन के कारण बहुत व्यापक समाधान स्थानों का अन्वेषण करता है।
  • केवल संरेखित ही नहीं, बल्कि नवीन और वैज्ञानिक रूप से महत्वपूर्ण समाधान उत्पन्न कर सकता है।

जहां RLHF व्यवहार को फाइन-ट्यून करता है, वहीं AlphaEvolve खोजता और आविष्कार करता है। यह अंतर AGI की ओर भविष्य के प्रक्षेपवक्रों पर विचार करते समय महत्वपूर्ण है: AlphaEvolve केवल बेहतर भविष्यवाणियां नहीं करता—यह सत्य तक पहुंचने के नए रास्ते ढूंढता है।

अनुप्रयोग और सफलताएं

1. एल्गोरिदमिक खोज और गणितीय प्रगति

AlphaEvolve ने मूल एल्गोरिदमिक समस्याओं में अपनी क्रांतिकारी खोजों की क्षमता का प्रदर्शन किया है। सबसे उल्लेखनीय रूप से, इसने केवल 48 स्केलर गुणन का उपयोग करके दो 4×4 कॉम्प्लेक्स-वैल्यूड मैट्रिक्स को गुणा करने के लिए एक नया एल्गोरिदम खोजा—जो Strassen के 1969 के 49 गुणन के परिणाम को पार कर गया और 56 वर्ष पुरानी सैद्धांतिक सीमा को तोड़ दिया। AlphaEvolve ने इसे उन्नत टेंसर अपघटन तकनीकों के माध्यम से हासिल किया, जिसे इसने कई पुनरावृत्तियों में विकसित किया, कई अत्याधुनिक दृष्टिकोणों से बेहतर प्रदर्शन किया।

मैट्रिक्स गुणन से परे, AlphaEvolve ने गणितीय शोध में पर्याप्त योगदान दिया। इसका मूल्यांकन कॉम्बिनेटरिक्स, नंबर थ्योरी और ज्यामिति जैसे क्षेत्रों में 50 से अधिक खुली समस्याओं पर किया गया। इसने लगभग 75% मामलों में सर्वोत्तम ज्ञात परिणामों से मेल खाया और लगभग 20% में उन्हें पार किया। इन सफलताओं में Erdős’s Minimum Overlap Problem में सुधार, 11 आयामों में Kissing Number Problem का एक सघन समाधान, और अधिक कुशल ज्यामितीय पैकिंग कॉन्फ़िगरेशन शामिल थे। ये परिणाम मानवीय हस्तक्षेप के बिना स्वायत्त गणितीय अन्वेषक के रूप में कार्य करने की इसकी क्षमता को रेखांकित करते हैं—तेजी से इष्टतम समाधानों को परिष्कृत, पुनरावृत्त और विकसित करते हुए।

2. Google के कम्प्यूट स्टैक में अनुकूलन

AlphaEvolve ने Google के बुनियादी ढांचे में ठोस प्रदर्शन सुधार भी दिए हैं:

  • डेटा सेंटर शेड्यूलिंग में, इसने एक नया ह्यूरिस्टिक खोजा जिसने जॉब प्लेसमेंट में सुधार किया, पहले से अटके हुए कम्प्यूट संसाधनों का 0.7% पुनर्प्राप्त किया।
  • Gemini के ट्रेनिंग कर्नेल के लिए, AlphaEvolve ने

//www.futurist.ai">फ्यूचरिस्ट के रूप में, वे इस बात की खोज के प्रति समर्पित हैं कि ये नवाचार हमारी दुनिया को कैसे आकार देंगे। इसके अतिरिक्त, वे Securities.io के संस्थापक हैं, जो अत्याधुनिक प्रौद्योगिकियों में निवेश पर केंद्रित एक प्लेटफॉर्म है जो भविष्य को पुनः परिभाषित कर रही हैं और संपूर्ण क्षेत्रों को पुनः आकार दे रही हैं।