कृत्रिम बुद्धिमत्ता

स्वच्छ वातावरण में एआई एजेंटों को प्रशिक्षित करना उन्हें अराजकता में उत्कृष्ट बनाता है

Published February 4, 2025

Updated April 26, 2026

Alex McFarland

अधिकांश एआई प्रशिक्षण एक सरल सिद्धांत का पालन करता है: अपनी प्रशिक्षण स्थितियों को वास्तविक दुनिया से मिलाएं। लेकिन एमआईटी से नए शोध एआई विकास में इस मूलभूत धारणा को चुनौती दे रहे हैं।

उनकी खोज? एआई प्रणाली अक्सर अप्रत्याशित स्थितियों में बेहतर प्रदर्शन करती हैं जब उन्हें स्वच्छ, सरल वातावरण में प्रशिक्षित किया जाता है – न कि जटिल स्थितियों में जिनका सामना वे तैनाती में करेंगे। यह खोज न केवल आश्चर्यजनक है – यह एआई प्रणालियों को बनाने के तरीके के बारे में हमारी सोच को बदल सकता है।

शोध दल ने पैक-मैन और पोंग जैसे क्लासिक गेम के साथ काम करते हुए इस पैटर्न को पाया। जब उन्होंने एक एआई को गेम के एक अनुमानित संस्करण में प्रशिक्षित किया और फिर इसे एक अप्रत्याशित संस्करण में परीक्षण किया, तो यह लगातार अप्रत्याशित स्थितियों में प्रशिक्षित एआई से बेहतर प्रदर्शन किया।

इन गेमिंग परिदृश्यों के बाहर, खोज का एआई विकास के भविष्य पर महत्वपूर्ण प्रभाव है, रोबोटिक्स से लेकर जटिल निर्णय लेने वाली प्रणालियों तक।

पारंपरिक दृष्टिकोण

अब तक, एआई प्रशिक्षण के लिए मानक दृष्टिकोण एक स्पष्ट तर्क का पालन किया गया है: यदि आप चाहते हैं कि एक एआई जटिल स्थितियों में काम करे, तो इसे उन्हीं स्थितियों में प्रशिक्षित करें।

इसके परिणामस्वरूप:

वास्तविक दुनिया की जटिलता से मेल खाने के लिए डिज़ाइन किए गए प्रशिक्षण पर्यावरण
कई चुनौतीपूर्ण परिदृश्यों में परीक्षण
वास्तविक प्रशिक्षण स्थितियों को बनाने में भारी निवेश

लेकिन इस दृष्टिकोण में एक मूलभूत समस्या है: जब आप शुरू से ही एआई प्रणालियों को शोरदार, अप्रत्याशित स्थितियों में प्रशिक्षित करते हैं, तो वे मूल पैटर्न सीखने के लिए संघर्ष करती हैं। पर्यावरण की जटिलता उनकी मूल सिद्धांतों को समझने की क्षमता में हस्तक्षेप करती है।

यह कई प्रमुख चुनौतियां पैदा करता है:

प्रशिक्षण काफी कम कुशल हो जाता है
प्रणाली आवश्यक पैटर्न की पहचान करने में परेशानी होती है
प्रदर्शन अक्सर अपेक्षाओं पर खरा नहीं उतरता
संसाधन आवश्यकताएं नाटकीय रूप से बढ़ जाती हैं

शोध दल की खोज एक बेहतर दृष्टिकोण का सुझाव देती है जो सरलीकृत वातावरण से शुरू होता है जो एआई प्रणालियों को मूल अवधारणाओं को महारत हासिल करने देता है trước कि जटिलता को पेश किया जाए। यह प्रभावी शिक्षण विधियों को दर्पण देता है, जहां मूलभूत कौशल जटिल स्थितियों से निपटने के लिए एक आधार बनाते हैं।

इनडोर-ट्रेनिंग प्रभाव: एक विरोधाभासी खोज

आइए देखें कि एमआईटी शोधकर्ता वास्तव में क्या पाया।

शोध दल ने अपने प्रयोगों के लिए दो प्रकार के एआई एजेंट डिज़ाइन किए:

सीखने योग्य एजेंट: वे शोरदार वातावरण में प्रशिक्षित और परीक्षण किए गए
सामान्यीकरण एजेंट: वे स्वच्छ वातावरण में प्रशिक्षित हुए और फिर शोरदार में परीक्षण किया गया

इन एजेंटों के सीखने को समझने के लिए, टीम ने मार्कोव निर्णय प्रक्रिया (एमडीपी) नामक एक ढांचे का उपयोग किया। एक एमडीपी को एक नक्शे के रूप में सोचें जो सभी संभावित स्थितियों और क्रियाओं को दर्शाता है जो एक एआई ले सकता है, साथ ही उन क्रियाओं के संभावित परिणाम भी होते हैं।

उन्होंने तब “नॉइज़ इंजेक्शन” नामक एक तकनीक विकसित की ताकि वे इन वातावरणों में कितना अप्रत्याशितता पैदा कर सकते हैं इसे सावधानी से नियंत्रित कर सकें। इससे उन्हें एक ही वातावरण के विभिन्न संस्करण बनाने की अनुमति मिली जिसमें अप्रत्याशितता के विभिन्न स्तर थे।

इन प्रयोगों में “शोर” क्या है? यह कोई भी तत्व है जो परिणामों को कम अनुमानित बनाता है:

क्रियाएं हमेशा एक ही परिणाम नहीं देती हैं
चीजों की गति में यादृच्छिक भिन्नता
अप्रत्याशित राज्य परिवर्तन

जब उन्होंने अपने परीक्षण चलाए, तो कुछ अप्रत्याशित हुआ। सामान्यीकरण एजेंट – जो स्वच्छ, अनुमानित वातावरण में प्रशिक्षित किए गए थे – अक्सर शोरदार स्थितियों में बेहतर प्रदर्शन करते थे जिन स्थितियों के लिए विशेष रूप से प्रशिक्षित एजेंटों की तुलना में उन्हें प्रशिक्षित किया गया था।

यह प्रभाव इतना आश्चर्यजनक था कि शोधकर्ताओं ने इसे “इनडोर-ट्रेनिंग प्रभाव” नाम दिया, जो एआई प्रणालियों को प्रशिक्षित करने के बारे में वर्षों की पारंपरिक बुद्धिमत्ता को चुनौती देता है।

अपनी समझ को बेहतर बनाने के लिए गेमिंग

शोध दल ने अपनी बात साबित करने के लिए क्लासिक गेम का रुख किया। क्यों गेम? क्योंकि वे नियंत्रित वातावरण प्रदान करते हैं जहां आप माप सकते हैं कि एक एआई कितनी अच्छी तरह प्रदर्शन करता है।

पैक-मैन में, उन्होंने दो अलग-अलग दृष्टिकोणों का परीक्षण किया:

पारंपरिक विधि: एक एआई को एक संस्करण में प्रशिक्षित करें जहां भूतों की गति अप्रत्याशित है
नया तरीका: पहले एक सरल संस्करण में प्रशिक्षित करें, फिर अप्रत्याशित में परीक्षण करें

उन्होंने पोंग के साथ समान परीक्षण किए, जिसमें पैडल नियंत्रणों के प्रति प्रतिक्रिया को बदल दिया गया। इन गेम में “शोर” क्या है? उदाहरणों में शामिल हैं:

पैक-मैन में भूत जो कभी-कभी टेलीपोर्ट हो जाते हैं
पोंग में पैडल जो हमेशा नियमित रूप से प्रतिक्रिया नहीं देते हैं
गेम तत्वों की गति में यादृच्छिक भिन्नता

परिणाम स्पष्ट थे:

स्वच्छ वातावरण में प्रशिक्षित एआई ने अधिक मजबूत रणनीतियों को सीखा। जब उन्हें अप्रत्याशित स्थितियों का सामना करना पड़ा, तो वे अपने समकक्षों की तुलना में बेहतर अनुकूलन किया जो शोरदार स्थितियों में प्रशिक्षित थे।

संख्या ने इसका समर्थन किया। दोनों गेम के लिए, शोधकर्ताओं ने पाया:

उच्च औसत स्कोर
अधिक सुसंगत प्रदर्शन
नए स्थितियों के अनुकूलन में सुधार

टीम ने “अन्वेषण पैटर्न” को मापा – प्रशिक्षण के दौरान एआई ने विभिन्न रणनीतियों का प्रयास कैसे किया। स्वच्छ वातावरण में प्रशिक्षित एआई ने समस्या समाधान के लिए अधिक व्यवस्थित दृष्टिकोण विकसित किया, जो बाद में अप्रत्याशित स्थितियों से निपटने के लिए महत्वपूर्ण साबित हुआ।

सफलता के पीछे का विज्ञान समझना

इनडोर-ट्रेनिंग प्रभाव के पीछे की यांत्रिकी दिलचस्प है। मुख्य बात यह नहीं है कि स्वच्छ बनाम शोरदार वातावरण – यह एआई प्रणालियों के निर्माण के बारे में है।

जब एजेंट स्वच्छ वातावरण में अन्वेषण करते हैं, तो वे कुछ महत्वपूर्ण विकसित करते हैं: स्पष्ट अन्वेषण पैटर्न। इसे एक मानसिक मानचित्र बनाने की तरह सोचें। शोर के बिना, ये एजेंट क्या काम करता है और क्या नहीं इसका बेहतर मानचित्र बनाते हैं।

शोध ने तीन मूल सिद्धांतों का खुलासा किया:

पैटर्न मान्यता: स्वच्छ वातावरण में एजेंट तेजी से वास्तविक पैटर्न की पहचान करते हैं, यादृच्छिक भिन्नताओं से विचलित नहीं होते हैं
रणनीति विकास: वे जटिल स्थितियों में ले जाने वाली अधिक मजबूत रणनीतियों का निर्माण करते हैं
अन्वेषण की दक्षता: वे प्रशिक्षण के दौरान अधिक उपयोगी राज्य-क्रिया जोड़े की खोज करते हैं

डेटा अन्वेषण पैटर्न के बारे में कुछ उल्लेखनीय दिखाता है। जब शोधकर्ताओं ने यह देखा कि एजेंट अपने वातावरण का अन्वेषण कैसे करते हैं, तो उन्होंने एक स्पष्ट संबंध पाया: समान अन्वेषण पैटर्न वाले एजेंट, जहां भी उन्हें प्रशिक्षित किया गया था, बेहतर प्रदर्शन किया।

वास्तविक दुनिया का प्रभाव

इस रणनीति के निहितार्थ गेम परिदृश्यों से परे हैं।

निर्माण के लिए रोबोट को प्रशिक्षित करने पर विचार करें: इसके बजाय तुरंत जटिल फैक्ट्री सिमुलेशन में उन्हें डालने के, हम शायद पहले सरलीकृत कार्यों के संस्करणों से शुरू कर सकते हैं। शोध सुझाव देता है कि वे वास्तविक दुनिया की जटिलता को बेहतर तरीके से संभालेंगे।

वर्तमान अनुप्रयोगों में शामिल हो सकते हैं:

रोबोटिक्स विकास
स्व-ड्राइविंग वाहन प्रशिक्षण
एआई निर्णय लेने वाली प्रणाली
गेम एआई विकास

यह सिद्धांत एआई प्रशिक्षण के तरीके को भी बेहतर बना सकता है। कंपनियां संभावित रूप से:

प्रशिक्षण संसाधनों को कम करें
अधिक अनुकूलन योग्य प्रणाली बनाएं
अधिक विश्वसनीय एआई समाधान बनाएं

इस क्षेत्र में अगले चरण संभवतः अन्वेषण करेंगे:

सरल से जटिल वातावरण में प्रगति का अनुकूलन
पर्यावरणीय जटिलता को मापने और नियंत्रित करने के नए तरीके
उभरते एआई क्षेत्रों में अनुप्रयोग

नीचे की पंक्ति

पैक-मैन और पोंग में जो आश्चर्यजनक खोज शुरू हुई थी, वह एआई विकास को बदलने वाले सिद्धांत में विकसित हुई है। इनडोर-ट्रेनिंग प्रभाव दिखाता है कि बेहतर एआई प्रणालियों का निर्माण करने का मार्ग हमारी अपेक्षा से सरल हो सकता है – मूल बातों से शुरू करें, मूलभूत सिद्धांतों को महारत हासिल करें, फिर जटिलता से निपटें। यदि कंपनियां इस दृष्टिकोण को अपनाती हैं, तो हम प्रत्येक उद्योग में तेजी से विकास चक्र और अधिक क्षमता वाली एआई प्रणालियों को देख सकते हैं।

एआई प्रणालियों का निर्माण और काम करने वालों के लिए, संदेश स्पष्ट है: कभी-कभी आगे बढ़ने का सबसे अच्छा तरीका प्रशिक्षण में वास्तविक दुनिया की हर जटिलता को पुन: बनाना नहीं है। इसके बजाय, पहले नियंत्रित वातावरण में मजबूत नींव बनाने पर ध्यान दें। डेटा दिखाता है कि मजबूत मूल कौशल अक्सर जटिल स्थितियों में बेहतर अनुकूलन की ओर ले जाते हैं। इस स्थान को देखते रहें – हम इस सिद्धांत के एआई विकास में सुधार के तरीके को समझना शुरू कर रहे हैं।