Connect with us

DeepMind рдиреЗ рдРрд╕реА AI рдмрдирд╛рдИ рдЬреЛ рд╣рд┐рдкреНрдкреЛрдХреИрдореНрдкрд╕ рдХреА рддрд░рд╣ рдпрд╛рджреЗрдВ рджреЛрд╣рд░рд╛рддреА рд╣реИ

рдХреГрддреНрд░рд┐рдо рдмреБрджреНрдзрд┐рдорддреНрддрд╛

DeepMind рдиреЗ рдРрд╕реА AI рдмрдирд╛рдИ рдЬреЛ рд╣рд┐рдкреНрдкреЛрдХреИрдореНрдкрд╕ рдХреА рддрд░рд╣ рдпрд╛рджреЗрдВ рджреЛрд╣рд░рд╛рддреА рд╣реИ

mm

मानव मस्तिष्क अक्सर अतीत की यादों (आभासी रूप से) बिना किसी प्रेरणा के याद करता है। जैसे हम अपने दिन भर में जाते हैं, हमारे जीवन से यादों के आकस्मिक फ्लैश होते हैं। जबकि यादों के इस आकस्मिक संयोजन ने लंबे समय से तंत्रिका विज्ञानियों को आकर्षित किया है, एआई अनुसंधान कंपनी DeepMind ने हाल ही में एक पत्र प्रकाशित किया जिसमें बताया गया है कि उनकी एक एआई ने इस अजीब पैटर्न को दोहराया है।

मस्तिष्क में यादों का संयोजन, न्यूरल रिप्ले, हिप्पोकैम्पस से जुड़ा हुआ है। हिप्पोकैम्पस एक समुद्री घोड़े के आकार का निर्माण है जो लिम्बिक प्रणाली से संबंधित है, और यह नई यादों के गठन से संबंधित है, साथ ही यादों से उत्पन्न होने वाली भावनाओं से। हिप्पोकैम्पस (मस्तिष्क के प्रत्येक गोलार्ध में एक) की भूमिका के वर्तमान सिद्धांत बताते हैं कि हिप्पोकैम्पस के विभिन्न क्षेत्र विभिन्न प्रकार की यादों को संभालने के लिए जिम्मेदार होते हैं। उदाहरण के लिए, स्थानिक स्मृति को हिप्पोकैम्पस के पीछे के क्षेत्र में संभाला जाता है।

जैसा कि जीसस रॉड्रिग्ज द्वारा बताया गया है, डॉ जॉन ओ’कीफ हिप्पोकैम्पस की हमारी समझ में कई योगदानों के लिए जिम्मेदार है, जिनमें हिप्पोकैम्पल “स्थान” कोशिकाएं शामिल हैं। हिप्पोकैम्पस में स्थान कोशिकाएं विशिष्ट पर्यावरण में उत्तेजना से ट्रिगर होती हैं। एक उदाहरण के रूप में, चूहों पर प्रयोगों से पता चला कि विशिष्ट न्यूरॉन्स तब आग लग जाते हैं जब चूहे कertain हिस्सों से गुजरते हैं। शोधकर्ताओं ने चूहों की निगरानी जारी रखी जब वे आराम कर रहे थे, और उन्होंने पाया कि मेज़ के एक हिस्से को दर्शाने वाले समान पैटर्न के न्यूरॉन्स आग लग जाते हैं, हालांकि वे तेजी से आग लग जाते हैं। चूहों को लगता है कि वे अपनी यादों को अपने दिमाग में दोहरा रहे हैं।

मानव में, यादों को याद करना सीखने की प्रक्रिया का एक महत्वपूर्ण हिस्सा है, लेकिन जब एआई को सीखने में सक्षम करने की कोशिश की जाती है, तो यह घटना को पुन: बनाना मुश्किल होता है।

DeepMind टीम ने पुनरावृत्ति सीखने का उपयोग करके यादों को दोहराने की घटना को पुन: बनाने का प्रयास किया। पुनरावृत्ति सीखने के अल्गोरिदम काम करते हैं जब वे अपने आसपास के वातावरण के साथ बातचीत से प्रतिक्रिया प्राप्त करते हैं, जब वे कार्रवाई करते हैं जो उन्हें वांछित लक्ष्य के करीब लाती है। इस संदर्भ में, पुनरावृत्ति सीखने वाले एजेंट घटनाओं को रिकॉर्ड करता है और बाद में उन्हें प्ले बैक करता है, जिससे प्रणाली को पिछले अनुभवों को याद रखने में अधिक कुशलता से सुधार करने के लिए प्रोत्साहित किया जाता है।

DeepMind ने एक पुनरावृत्ति बफर का उपयोग करके पुनरावृत्ति सीखने के अल्गोरिदम में अनुभवों को दोहराने की क्षमता जोड़ी, जो प्रणाली को विशिष्ट समय पर यादों/रिकॉर्ड किए गए अनुभवों को प्ले बैक करेगा। प्रणाली के कुछ संस्करणों में अनुभवों को यादृच्छिक क्रम में प्ले बैक किया गया था, जबकि अन्य मॉडलों में पूर्व-चयनित प्ले बैक क्रम थे। जबकि शोधकर्ताओं ने पुनरावृत्ति एजेंटों के लिए प्ले बैक क्रम के साथ प्रयोग किया, उन्होंने अनुभवों को दोहराने के विभिन्न तरीकों के साथ भी प्रयोग किया।

पुनरावृत्ति अल्गोरिदम को याद किए गए अनुभव प्रदान करने के लिए दो प्राथमिक तरीके हैं। ये तरीके कल्पना पुनरावृत्ति विधि और मूवी पुनरावृत्ति विधि हैं। DeepMind पत्र दोनों रणनीतियों का वर्णन करने के लिए एक रूपक का उपयोग करता है:

“मान लें कि आप घर आते हैं और, अपने आश्चर्य और निराशा के लिए, अपने सुंदर लकड़ी के फर्श पर पानी जमा होते हुए पाते हैं। डाइनिंग रूम में कदम रखते ही, आप एक टूटा हुआ फूलदान पाते हैं। फिर आप एक चीत्कार सुनते हैं, और आप पेटियो दरवाजे से बाहर देखते हैं और अपने कुत्ते को बहुत दोषी देखते हैं।”

जैसा कि रॉड्रिग्ज द्वारा बताया गया है, कल्पना पुनरावृत्ति विधि घटनाओं को उस क्रम में रिकॉर्ड नहीं करती है जिसमें वे अनुभव किए गए थे। इसके बजाय, घटनाओं के बीच एक संभावित कारण का अनुमान लगाया जाता है। घटनाएं एजेंट की दुनिया की समझ के आधार पर अनुमानित होती हैं। दूसरी ओर, मूवी पुनरावृत्ति विधि घटनाओं को उस क्रम में संग्रहीत करती है जिसमें वे हुईं, और उत्तेजना के क्रम – “पानी बहना, टूटा हुआ फूलदान, कुत्ता” को प्ले बैक करती है। घटनाओं का क्रमिक क्रम संरक्षित है।

तंत्रिका विज्ञान के क्षेत्र से शोध से पता चलता है कि मूवी पुनरावृत्ति विधि संकल्पनाओं के बीच संघों के निर्माण और घटनाओं के बीच न्यूरॉन्स के संबंध के लिए महत्वपूर्ण है। हालांकि, कल्पना पुनरावृत्ति विधि एजेंट को तर्कसंगत रूप से नए क्रम बनाने में मदद कर सकती है। उदाहरण के लिए, एजेंट यह तर्क दे सकता है कि यदि एक बैरल तेल के लिए है जैसे एक फूलदान पानी के लिए है, तो एक बैरल एक कुत्ते के बजाय एक फैक्ट्री रोबोट द्वारा छोड़ा जा सकता है। वास्तव में, जब DeepMind ने कल्पना पुनरावृत्ति विधि की संभावनाओं की जांच की, तो उन्होंने पाया कि उनका सीखने वाला एजेंट पिछले अनुभवों को ध्यान में रखते हुए प्रभावशाली और नवाचारी क्रम बनाने में सक्षम था।

वर्तमान में पुनरावृत्ति सीखने में यादों के क्षेत्र में ज्यादातर प्रगति मूवी रणनीति के साथ की जा रही है, हालांकि शोधकर्ताओं ने हाल ही में कल्पना रणनीति के साथ प्रगति करना शुरू किया है। दोनों एआई स्मृति विधियों के शोध न केवल पुनरावृत्ति सीखने वाले एजेंटों के प्रदर्शन में सुधार कर सकते हैं, बल्कि वे हमें मानव मस्तिष्क के कार्य के बारे में नए दृष्टिकोण प्राप्त करने में भी मदद कर सकते हैं।

рдмреНрд▓реЙрдЧрд░ рдФрд░ рдкреНрд░реЛрдЧреНрд░рд╛рдорд░ рдЬрд┐рдирдХреА рд╡рд┐рд╢реЗрд╖рдЬреНрдЮрддрд╛ рдореИрд╢реАрди рд▓рд░реНрдирд┐рдВрдЧ рдФрд░ рдбреАрдк рд▓рд░реНрдирд┐рдВрдЧ рд╡рд┐рд╖рдпреЛрдВ рдореЗрдВ рд╣реИред рдбреИрдирд┐рдпрд▓ рджреВрд╕рд░реЛрдВ рдХреЛ рд╕рд╛рдорд╛рдЬрд┐рдХ рдХрд▓реНрдпрд╛рдг рдХреЗ рд▓рд┐рдП рдПрдЖрдИ рдХреА рд╢рдХреНрддрд┐ рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рдиреЗ рдореЗрдВ рдорджрдж рдХрд░рдирд╛ рдЪрд╛рд╣рддрд╛ рд╣реИред

рд╡рд┐рдЬреНрдЮрд╛рдкрди рдкреНрд░рдХрдЯреАрдХрд░рдг: Unite.AI рд╕рдЯреАрдХ рдЬрд╛рдирдХрд╛рд░реА рдФрд░ рд╕рдорд╛рдЪрд╛рд░ рдкреНрд░рджрд╛рди рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдХрдареЛрд░ рд╕рдВрдкрд╛рджрдХреАрдп рдорд╛рдирдХреЛрдВ рдХреЗ рдкреНрд░рддрд┐ рдкреНрд░рддрд┐рдмрджреНрдз рд╣реИред рдЬрдм рдЖрдк рдЙрди рдЙрддреНрдкрд╛рджреЛрдВ рдХреЗ рд▓рд┐рдВрдХ рдкрд░ рдХреНрд▓рд┐рдХ рдХрд░рддреЗ рд╣реИрдВ рдЬрд┐рдирдХреА рд╣рдордиреЗ рд╕рдореАрдХреНрд╖рд╛ рдХреА рд╣реИ, рддреЛ рд╣рдореЗрдВ рдореБрдЖрд╡рдЬрд╛ рдорд┐рд▓ рд╕рдХрддрд╛ рд╣реИред