AGI

AlphaEvolve: Google DeepMind की AGI की ओर एक क्रांतिकारी पहल

Published May 17, 2025

Updated March 29, 2026

Antoine Tardif, CEO & Founder of Unite.AI

Google DeepMind ने AlphaEvolve का अनावरण किया है, जो एक विकासवादी कोडिंग एजेंट है जिसे नए एल्गोरिदम और वैज्ञानिक समाधानों को स्वायत्त रूप से खोजने के लिए डिज़ाइन किया गया है। “AlphaEvolve: A Coding Agent for Scientific and Algorithmic Discovery“ शीर्षक वाले पेपर में प्रस्तुत, यह शोध आर्टिफिशियल जनरल इंटेलिजेंस (AGI) और यहां तक कि आर्टिफिशियल सुपरइंटेलिजेंस (ASI) की दिशा में एक आधारभूत कदम का प्रतिनिधित्व करता है। स्थिर फाइन-ट्यूनिंग या मानव-लेबल किए गए डेटासेट पर निर्भर रहने के बजाय, AlphaEvolve एक पूरी तरह से अलग रास्ता अपनाता है—जो स्वायत्त रचनात्मकता, एल्गोरिदमिक नवाचार और निरंतर आत्म-सुधार पर केंद्रित है।

AlphaEvolve के केंद्र में लार्ज लैंग्वेज मॉडल (LLMs) द्वारा संचालित एक स्व-निहित विकासवादी पाइपलाइन है। यह पाइपलाइन केवल आउटपुट उत्पन्न नहीं करती—यह पीढ़ियों में कोड को उत्परिवर्तित, मूल्यांकन, चयन और सुधार करती है। AlphaEvolve एक प्रारंभिक प्रोग्राम से शुरू होता है और सावधानीपूर्वक संरचित परिवर्तनों को शामिल करके इसे पुनरावृत्त रूप से परिष्कृत करता है।

ये परिवर्तन LLM-जनित डिफ़्स के रूप में लेते हैं—कोड संशोधन जो एक भाषा मॉडल द्वारा पिछले उदाहरणों और स्पष्ट निर्देशों के आधार पर सुझाए जाते हैं। सॉफ्टवेयर इंजीनियरिंग में एक ‘डिफ़’ दो फ़ाइल संस्करणों के बीच के अंतर को संदर्भित करता है, जो आमतौर पर हटाई या बदली जाने वाली लाइनों और जोड़ी जाने वाली नई लाइनों को हाइलाइट करता है। AlphaEvolve में, LLM इन डिफ़्स को वर्तमान प्रोग्राम का विश्लेषण करके और एक प्रॉम्प्ट के आधार पर छोटे संपादनों का प्रस्ताव करके उत्पन्न करता है—जिसमें प्रदर्शन मेट्रिक्स और पिछले सफल संपादन शामिल होते हैं, जैसे कि एक फ़ंक्शन जोड़ना, एक लूप को अनुकूलित करना, या एक हाइपरपैरामीटर बदलना।

प्रत्येक संशोधित प्रोग्राम को तब कार्य के अनुरूप स्वचालित मूल्यांकनकर्ताओं का उपयोग करके परीक्षण किया जाता है। सबसे प्रभावी उम्मीदवारों को भविष्य की पुनरावृत्तियों के लिए प्रेरणा के रूप में संग्रहीत, संदर्भित और पुनर्संयोजित किया जाता है। समय के साथ, यह विकासवादी लूप तेजी से परिष्कृत एल्गोरिदम के उद्भव की ओर ले जाता है—जो अक्सर मानव विशेषज्ञों द्वारा डिज़ाइन किए गए एल्गोरिदम से आगे निकल जाते हैं।

AlphaEvolve के पीछे के विज्ञान को समझना

अपने मूल में, AlphaEvolve विकासवादी कम्प्यूटेशन के सिद्धांतों पर बनाया गया है—जैविक विकास से प्रेरित आर्टिफिशियल इंटेलिजेंस का एक उपक्षेत्र। सिस्टम कोड के एक बुनियादी कार्यान्वयन से शुरू होता है, जिसे यह एक प्रारंभिक “जीव” मानता है। पीढ़ियों के माध्यम से, AlphaEvolve इस कोड को संशोधित करता है—विविधताएं या “उत्परिवर्तन” शुरू करता है—और प्रत्येक विविधता की फिटनेस का एक सुपरिभाषित स्कोरिंग फ़ंक्शन का उपयोग करके मूल्यांकन करता है। सर्वोत्तम प्रदर्शन करने वाले वेरिएंट बच जाते हैं और अगली पीढ़ी के लिए टेम्पलेट के रूप में कार्य करते हैं।

यह विकासवादी लूप निम्नलिखित के माध्यम से समन्वित होता है:

प्रॉम्प्ट सैंपलिंग: AlphaEvolve पहले के सफल कोड नमूनों, प्रदर्शन मेट्रिक्स और कार्य-विशिष्ट निर्देशों का चयन और एम्बेड करके प्रॉम्प्ट्स का निर्माण करता है।
कोड उत्परिवर्तन और प्रस्ताव: सिस्टम डिफ़्स के रूप में वर्तमान कोडबेस में विशिष्ट संशोधन उत्पन्न करने के लिए शक्तिशाली LLMs—Gemini 2.0 Flash और Pro—के मिश्रण का उपयोग करता है।
मूल्यांकन तंत्र: एक स्वचालित मूल्यांकन फ़ंक्शन प्रत्येक उम्मीदवार के प्रदर्शन का आकलन करता है उसे निष्पादित करके और स्केलर स्कोर लौटाकर।
डेटाबेस और नियंत्रक: एक वितरित नियंत्रक इस लूप का संचालन करता है, परिणामों को एक विकासवादी डेटाबेस में संग्रहीत करता है और MAP-Elites जैसे तंत्रों के माध्यम से अन्वेषण और दोहन के बीच संतुलन बनाता है।

यह प्रतिक्रिया-समृद्ध, स्वचालित विकासवादी प्रक्रिया मानक फाइन-ट्यूनिंग तकनीकों से मौलिक रूप से भिन्न है। यह AlphaEvolve को नए, उच्च-प्रदर्शन वाले, और कभी-कभी अप्रत्याशित समाधान उत्पन्न करने के लिए सशक्त बनाती है—मशीन लर्निंग स्वायत्त रूप से क्या हासिल कर सकती है, उसकी सीमा को आगे बढ़ाती है।

AlphaEvolve की RLHF से तुलना

AlphaEvolve के नवाचार की सराहना करने के लिए, इसकी तुलना रिइन्फोर्समेंट लर्निंग फ्रॉम ह्यूमन फीडबैक (RLHF) से करना महत्वपूर्ण है, जो बड़े भाषा मॉडल को फाइन-ट्यून करने के लिए उपयोग की जाने वाली एक प्रमुख पद्धति है।

RLHF में, मानव प्राथमिकताओं का उपयोग एक रिवार्ड मॉडल को प्रशिक्षित करने के लिए किया जाता है, जो रिइन्फोर्समेंट लर्निंग एल्गोरिदम जैसे प्रॉक्सिमल पॉलिसी ऑप्टिमाइजेशन (PPO) के माध्यम से एक LLM की सीखने की प्रक्रिया को निर्देशित करता है। RLHF मॉडल के संरेखण और उपयोगिता में सुधार करता है, लेकिन इसमें प्रतिक्रिया डेटा उत्पन्न करने के लिए व्यापक मानव भागीदारी की आवश्यकता होती है और यह आमतौर पर एक स्थिर, एक-बार की फाइन-ट्यूनिंग व्यवस्था में काम करता है।

इसके विपरीत, AlphaEvolve:

लूप से मानव प्रतिक्रिया को हटाकर मशीन-निष्पादित मूल्यांकनकर्ताओं को प्राथमिकता देता है।
विकासवादी चयन के माध्यम से निरंतर सीखने का समर्थन करता है।
स्टोकेस्टिक उत्परिवर्तन और अतुल्यकालिक निष्पादन के कारण बहुत व्यापक समाधान स्थानों का अन्वेषण करता है।
केवल संरेखित ही नहीं, बल्कि नवीन और वैज्ञानिक रूप से महत्वपूर्ण समाधान उत्पन्न कर सकता है।

जहां RLHF व्यवहार को फाइन-ट्यून करता है, वहीं AlphaEvolve खोजता और आविष्कार करता है। यह अंतर AGI की ओर भविष्य के प्रक्षेपवक्रों पर विचार करते समय महत्वपूर्ण है: AlphaEvolve केवल बेहतर भविष्यवाणियां नहीं करता—यह सत्य तक पहुंचने के नए रास्ते ढूंढता है।

अनुप्रयोग और सफलताएं

1. एल्गोरिदमिक खोज और गणितीय प्रगति

AlphaEvolve ने मूल एल्गोरिदमिक समस्याओं में अपनी क्रांतिकारी खोजों की क्षमता का प्रदर्शन किया है। सबसे उल्लेखनीय रूप से, इसने केवल 48 स्केलर गुणन का उपयोग करके दो 4×4 कॉम्प्लेक्स-वैल्यूड मैट्रिक्स को गुणा करने के लिए एक नया एल्गोरिदम खोजा—जो Strassen के 1969 के 49 गुणन के परिणाम को पार कर गया और 56 वर्ष पुरानी सैद्धांतिक सीमा को तोड़ दिया। AlphaEvolve ने इसे उन्नत टेंसर अपघटन तकनीकों के माध्यम से हासिल किया, जिसे इसने कई पुनरावृत्तियों में विकसित किया, कई अत्याधुनिक दृष्टिकोणों से बेहतर प्रदर्शन किया।

मैट्रिक्स गुणन से परे, AlphaEvolve ने गणितीय शोध में पर्याप्त योगदान दिया। इसका मूल्यांकन कॉम्बिनेटरिक्स, नंबर थ्योरी और ज्यामिति जैसे क्षेत्रों में 50 से अधिक खुली समस्याओं पर किया गया। इसने लगभग 75% मामलों में सर्वोत्तम ज्ञात परिणामों से मेल खाया और लगभग 20% में उन्हें पार किया। इन सफलताओं में Erdős’s Minimum Overlap Problem में सुधार, 11 आयामों में Kissing Number Problem का एक सघन समाधान, और अधिक कुशल ज्यामितीय पैकिंग कॉन्फ़िगरेशन शामिल थे। ये परिणाम मानवीय हस्तक्षेप के बिना स्वायत्त गणितीय अन्वेषक के रूप में कार्य करने की इसकी क्षमता को रेखांकित करते हैं—तेजी से इष्टतम समाधानों को परिष्कृत, पुनरावृत्त और विकसित करते हुए।

2. Google के कम्प्यूट स्टैक में अनुकूलन

AlphaEvolve ने Google के बुनियादी ढांचे में ठोस प्रदर्शन सुधार भी दिए हैं:

डेटा सेंटर शेड्यूलिंग में, इसने एक नया ह्यूरिस्टिक खोजा जिसने जॉब प्लेसमेंट में सुधार किया, पहले से अटके हुए कम्प्यूट संसाधनों का 0.7% पुनर्प्राप्त किया।
Gemini के ट्रेनिंग कर्नेल के लिए, AlphaEvolve ने

Related Topics:AGI AlphaEvolve ASI DeepMind

Antoine Tardif, CEO & Founder of Unite.AI

//www.futurist.ai">फ्यूचरिस्ट के रूप में, वे इस बात की खोज के प्रति समर्पित हैं कि ये नवाचार हमारी दुनिया को कैसे आकार देंगे। इसके अतिरिक्त, वे Securities.io के संस्थापक हैं, जो अत्याधुनिक प्रौद्योगिकियों में निवेश पर केंद्रित एक प्लेटफॉर्म है जो भविष्य को पुनः परिभाषित कर रही हैं और संपूर्ण क्षेत्रों को पुनः आकार दे रही हैं।