рд╡рд┐рдЪрд╛рд░ рдиреЗрддрд╛

рдЬрдм рдПрдЖрдИ рдорд╛рдирд╡реЛрдВ рдХреА рддрд░рд╣ рд╕реЛрдЪрддрд╛ рд╣реИ: рдПрд▓рдПрд▓рдПрдо рдФрд░ рдПрдЬреЗрдВрдЯреНрд╕ рдХреЗ рджрд┐рдорд╛рдЧ рдХрд╛ рдЕрдиреНрд╡реЗрд╖рдг

mm

आज, एलएलएम और एजेंट्स सीखते हैं, विश्लेषण करते हैं, और निर्णय लेते हैं जो उनकी एल्गोरिदमिक “सोच” और मानव मस्तिष्क के बीच की रेखा को धुंधला कर सकते हैं। वे जिस तरीके से बनाए गए हैं, वे पहले से ही हमारी संज्ञानात्मक प्रक्रियाओं की नकल करते हैं, और उनके प्रशिक्षण का स्तर मानव अनुभव से कई गुना अधिक है। यह सवाल उठता है: क्या हम एक ऐसा उपकरण बना रहे हैं जो हमारी क्षमताओं को बढ़ाता है, या क्या हम एक नए प्रकार के मस्तिष्क को जन्म दे रहे हैं जिसके परिणाम अभी भी अनुमानित नहीं हैं?

मॉडल कैसे सोचते हैं

एलएलएम और एजेंट्स की अवधारणाओं के बीच अंतर करना महत्वपूर्ण है। एक कंप्यूटर के साथ एक तुलना करने के लिए, एक एलएलएम एक घटक की तरह हो सकता है, जैसे कि प्रोसेसर। एक एजेंट, हालांकि, पूरी प्रणाली है, एक “मदरबोर्ड” जिसमें विभिन्न मॉड्यूल जुड़े होते हैं: मेमोरी, ग्राफिक्स कार्ड, और नेटवर्क। इसी तरह, एक एजेंट एक जटिल प्रणाली है जो एक या एक से अधिक एलएलएम को शामिल कर सकती है, जो निर्णय लेने के तंत्र और बाहरी वातावरण के साथ बातचीत करने के लिए उपकरणों के साथ पूरक होती है।

यदि हम एक एकल एलएलएम के काम को देखते हैं, तो यह सभी पैटर्न मिलाने तक सीमित है। हालांकि, जब एक एजेंट कई एलएलएम को जोड़ता है, तो हम कह सकते हैं कि यह “सोचता” है, हालांकि यह प्रक्रिया अभी भी पैटर्न पर आधारित है। एजेंट मॉडल के बीच बातचीत की तर्क का निर्माण करता है: उदाहरण के लिए, एक एलएलएम कार्य का विश्लेषण करता है, और इसके आधार पर एजेंट निर्धारित करता है कि दूसरे एलएलएम को क्या करना चाहिए।

मानव सोच भी इसी तरह काम करती है: हम जमा किए गए ज्ञान और पैटर्न पर भरोसा करते हैं, उन्हें सही समय पर चुनते हैं, उन्हें संसाधित करते हैं, और निष्कर्ष निकालते हैं। इस प्रक्रिया को तर्क कहा जाता है।

चैटजीपीटी, एक मानव की तरह, दो प्रकार की स्मृति है: अल्पकालिक और दीर्घकालिक। अंतर यह है कि मनुष्यों में, इन स्मृति स्तरों तक पहुंच अधिक जटिल और हमेशा रैखिक नहीं होती है।

अल्पकालिक स्मृति वह जानकारी है जिस पर हम वर्तमान में काम कर रहे हैं। एक व्यक्ति के लिए, यह पांच मिनट पहले क्या कहा गया था: वे इसे याद रख सकते हैं या नहीं। जीपीटी, हालांकि, अपने “संदर्भ विंडो” के भीतर सब कुछ हमेशा ध्यान में रखता है – यह इस डेटा को छोड़ नहीं सकता या अनदेखा नहीं कर सकता।

मानव में दीर्घकालिक स्मृति उन यादों से बनी होती है जो हमेशा सक्रिय नहीं होती हैं और केवल विशिष्ट ट्रिगर्स के साथ ही सामने आती हैं: एक बचपन की याद, एक आघात, या उदाहरण के लिए, एक मनोवैज्ञानिक के साथ काम करना। जीपीटी में एक समान तर्क है: यह स्वयं जानकारी को “याद” नहीं करता है जब तक कि यह विशेष रूप से सक्रिय नहीं किया जाता है। उदाहरण के लिए, “मुझसे कभी यह प्रश्न न पूछें” या “मुझसे हमेशा औपचारिक रूप से संबोधन करें” जैसे निर्देश दीर्घकालिक स्मृति में संग्रहीत किए जा सकते हैं और प्रत्येक सत्र के दौरान लागू किए जा सकते हैं।

दीर्घकालिक स्मृति का एक और उदाहरण सहेजे गए दस्तावेज हैं। मान लें कि आपने जीपीटी में एक निर्देश अपलोड किया है कि विपणन अनुसंधान कैसे आयोजित किया जाए। मॉडल इसे स्मृति में संग्रहीत कर सकता है, लेकिन इसका मतलब यह नहीं है कि यह हर प्रश्न के साथ उस दस्तावेज को संदर्भित करेगा। यदि आप पूछते हैं, “क्या आप चंद्रमा पर एक टॉर्च की रोशनी डाल सकते हैं?” जीपीटी अनदेखा करेगा। लेकिन अगर अनुरोध में दस्तावेज के पाठ के साथ मेल खाने वाले कीवर्ड हैं, तो मॉडल इसे “याद” कर सकता है।

यह तंत्र आरएजी (रिट्रीवल-ऑगमेंटेड जेनरेशन) के माध्यम से लागू किया जाता है, जिसमें मॉडल वेक्टर डेटाबेस के माध्यम से संबंधित संकेतों द्वारा ट्रिगर की गई संग्रहीत जानकारी तक पहुंच प्राप्त करता है।

इस प्रकार, यह कहा जा सकता है कि मॉडल वास्तव में स्मृति रखता है, लेकिन यह मानव स्मृति से अलग, अधिक औपचारिक तर्क के अनुसार काम करता है।

एआई के साथ बातचीत कभी-कभी चिकित्सीय महसूस होती है, और अन्य समय में ठंडी और रोबोटिक क्यों लगती है

आधुनिक भाषा मॉडल बहुत बड़े हैं: वे एक विशाल मात्रा में डेटा, ज्ञान, और संदर्भ संग्रहीत करते हैं। यह सभी जानकारी थीमेटिक और सेमेंटिक क्षेत्रों में व्यवस्थित होती है, जिन्हें “क्लस्टर” कहा जाता है। मॉडल को विभिन्न स्रोतों पर प्रशिक्षित किया गया है, जिनमें कथा, वैज्ञानिक लेख, और यूट्यूब टिप्पणियां शामिल हैं।

जब आप एआई के साथ बातचीत करते हैं, तो आपका प्रश्न (प्रॉम्प्ट) मॉडल को एक निश्चित क्लस्टर की ओर निर्देशित करता है।

उदाहरण के लिए, यदि आप लिखते हैं: “आप न्यूयॉर्क में 20 वर्षों के अनुभव वाले एक वास्तविक संपत्ति वकील हैं, मुझे एक अपार्टमेंट खरीदने में मदद करें,” मॉडल एक से अधिक क्लस्टर को एक साथ सक्रिय करता है: वकील → न्यूयॉर्क → वास्तविक संपत्ति। परिणामस्वरूप, आपको एक सुसंगत, प्रासंगिक और यथार्थवादी प्रतिक्रिया मिलती है, जैसे कि आप वास्तव में एक अनुभवी पेशेवर से परामर्श कर रहे हों।

यदि प्रश्न अधिक व्यक्तिगत या दार्शनिक विषयों से संबंधित है, जैसे कि आत्म-विकास या भावनाएं, तो मॉडल “स्थानांतरित” होता है अन्य क्लस्टर में: मनोविज्ञान, दर्शन, या आंतरिक कार्य। इस मामले में, इसके उत्तर आश्चर्यजनक रूप से मानवीय और यहां तक कि चिकित्सीय भी लग सकते हैं।

हालांकि, जब प्रश्न अत्यधिक सामान्य या अस्पष्ट होता है, तो मॉडल अपनी क्लस्टर संरचना में “खो” जाता है और एक डिफ़ॉल्ट प्रतिक्रिया देता है, जो औपचारिक, अलग और भावनात्मक स्वर से रहित होती है।

एआई की प्रतिक्रिया की शैली और गहराई इस बात पर निर्भर करती है कि आप अपने प्रॉम्प्ट के साथ इसे किस क्लस्टर में निर्देशित करते हैं।

मॉडल प्रशिक्षण और आरएलएचएफ का दर्शन

कृत्रिम बुद्धिमत्ता में सीखने के विभिन्न दृष्टिकोण हैं। यह एक दर्शन नहीं है, बल्कि एक रणनीति है।

क्लासिक विकल्प पर्यवेक्षित सीखना है, जहां मॉडल को एक प्रश्न और सही उत्तर दिया जाता है। यह सीखता है कि क्या सही माना जाता है और फिर भविष्य में समान समाधानों को पुन: प्रस्तुत करता है।

एक अन्य दृष्टिकोण आरएलएचएफ (मानव प्रतिक्रिया से प्रबलित सीखना) है। यह एक अलग शैली है: मॉडल कुछ करने का प्रयास करता है, सफल क्रियाओं के लिए एक “पुरस्कार” प्राप्त करता है, और अपने व्यवहार को समायोजित करता है। धीरे-धीरे, यह एक प्रभावी रणनीति विकसित करता है।

आरएलएचएफ की तुलना कच्चे माल को तैयार उत्पाद में बदलने की प्रक्रिया से की जा सकती है। एक मॉडल को उपयोग करने योग्य बनाने के लिए, मानव प्रतिक्रिया के साथ एक विशाल कार्य की आवश्यकता होती है।

कल्पना करें कि मैं आपको एक वस्तु दिखाता हूं, लेकिन सीधे इसका नाम नहीं बताता। आप सोचते हैं: “क्या यह एक सिगरेट केस है? एक कार्डहोल्डर?” मैं केवल संकेत देता हूं: “निकट”, “दूर”, “60% हाँ”। सैकड़ों ऐसे पुनरावृत्ति के बाद, आप अनुमान लगाते हैं: “अरे, यह एक पर्स है।”

एलएलएम इसी तरह से प्रशिक्षित होते हैं। मानव, संकेतक, और सामान्य रूप से पेशेवर मूल्यांकन करते हैं: यह उत्तर अच्छा है, यह बुरा है, और स्कोर असाइन करते हैं। कंपनियां जैसे कीमाकर, जो उच्च गुणवत्ता वाले डेटा एनोटेशन और सत्यापन में माहिर हैं, इस प्रक्रिया में एक महत्वपूर्ण भूमिका निभाती हैं। प्रतिक्रिया सामान्य उपयोगकर्ताओं से भी आती है: पसंद, शिकायतें, और प्रतिक्रियाएं। मॉडल इन संकेतों को व्याख्या करता है, व्यवहारिक पैटर्न बनाता है।

मॉडल प्रशिक्षण व्यावहारिक रूप से कैसे दिखता है

एक स्पष्ट उदाहरण ओपनएआई के प्रयोग है जिसमें एजेंटों को “हाइड एंड सीक” खेल में प्रबलित सीखने का उपयोग करके प्रशिक्षित किया जाता है।

दो टीमें भाग लेती हैं: “खोजकर्ता” (लाल) और “छिपने वाले” (नीले)। नियम सरल हैं: यदि एक खोजकर्ता एक छिपने वाले को पकड़ता है, तो वे एक अंक अर्जित करते हैं; यदि नहीं, तो वे एक अंक खो देते हैं। शुरू में, एजेंटों के पास केवल बुनियादी शारीरिक क्षमताएं होती हैं, जैसे कि दौड़ना और कूदना, बिना किसी पूर्व-निर्धारित रणनीति के।

शुरुआत में, खोजकर्ता अस्त-व्यस्त कार्य करते हैं, और विरोधियों को पकड़ना अक्सर संयोग से होता है। लेकिन लाखों पुनरावृत्तियों के बाद, उनका व्यवहार विकसित होता है। छिपने वाले आसपास की वस्तुओं का उपयोग दरवाजों को ब्लॉक करने और बाधाओं का निर्माण करने के लिए करना शुरू कर देते हैं। ये कौशल बिना किसी सीधे प्रोग्रामिंग के, केवल पुनरावृत्ति और सफलता के लिए पुरस्कार के माध्यम से उभरते हैं।

इसके जवाब में, खोजकर्ता कूदने का उपयोग करना शुरू कर देते हैं, एक क्षमता जो शुरू से ही उपलब्ध थी लेकिन पहले अनदेखी की गई थी। कई असफलताओं के बाद, कूदने का यादृच्छिक उपयोग इसके रणनीतिक मूल्य का खुलासा करता है। फिर छिपने वाले अपनी रक्षा को और अधिक जटिल बनाना शुरू कर देते हैं, खोजकर्ताओं की दृष्टि रेखा से वस्तुओं को हटा देते हैं और अधिक विश्वसनीय आश्रय बनाते हैं।

प्रयोग से पता चलता है कि परीक्षण, त्रुटि, पुरस्कार, और दंड के अरबों चक्रों के माध्यम से, जटिल सहयोगी व्यवहार बन सकता है बिना डेवलपर हस्तक्षेप के। इसके अलावा, एजेंटों ने समन्वय में कार्य करना शुरू कर दिया, भले ही संचार तंत्र प्रोग्राम नहीं किए गए थे, क्योंकि टीम वर्क अधिक प्रभावी साबित हुआ।

एलएलएम के साथ भी ऐसा ही है। यह असंभव है कि सभी परिदृश्यों को स्क्रिप्ट किया जाए: दुनिया में बहुत सारी स्थितियां और परिवर्तनशीलता है। इसलिए, हम मॉडल को निश्चित नियम नहीं सिखाते; हम इसे सीखने का तरीका सिखाते हैं।

यह आरएलएचएफ का मूल्य है। इसके बिना, एक एलएलएम और एजेंट केवल एक पाठ पुस्तकालय बने रहते हैं। इसके साथ, यह एक संवादी साथी बन जाता है जो अनुकूलन, स्वयं-सुधार, और वास्तव में विकास करने में सक्षम है।

आगे क्या है?

कई लोग आश्चर्यचकित हैं कि क्या एलएलएम और एजेंट विकास के परिणामस्वरूप अवांछनीय या यहां तक कि खतरनाक परिणाम हो सकते हैं।

यह समझना महत्वपूर्ण है कि आज हम जो देख रहे हैं वह एक एमवीपी नहीं है, बल्कि एक प्रोटोटाइप है।

वास्तविक क्रांति यह नहीं होगी कि यह एक सुंदर पत्र लिखने में मदद करता है या इसे फ्रेंच में अनुवादित करता है। ये छोटी चीजें हैं। मुख्य दिशा माइक्रोटास्क और दिनचर्या प्रक्रियाओं का स्वचालन है, जिससे मानव को केवल वास्तव में रचनात्मक, बौद्धिक कार्य या आराम के लिए समय मिलता है।

वास्तविक नवाचार एजेंटों के आसपास केंद्रित हैं, जो स्वतंत्र रूप से सोच सकते हैं, कार्य कर सकते हैं, और निर्णय ले सकते हैं एक व्यक्ति के बजाय। यह वह जगह है जहां ओपनएआई, गूगल, मेटा, और अन्य कंपनियां आज अपने प्रयासों पर ध्यान केंद्रित कर रही हैं।

बड़े भाषा मॉडल केवल नींव हैं। भविष्य वास्तव में एजेंटों में निहित है जो एक गतिशील दुनिया में रहने, प्रतिक्रिया प्राप्त करने, और परिवर्तनों के अनुकूल होने के लिए प्रशिक्षित हैं।

рдорд╛рдЗрдХрд▓ рдПрдмреНрд░рд╛рдореЛрд╡ рдЗрдВрдЯреНрд░реЛрд╕реНрдкреЗрдХреНрдЯрд░ рдХреЗ рд╕рдВрд╕реНрдерд╛рдкрдХ рдФрд░ рд╕реАрдИрдУ рд╣реИрдВ, рдЬреЛ рдПрдВрдЯрд░рдкреНрд░рд╛рдЗрдЬ-рдЧреНрд░реЗрдб рд▓реЗрдмрд▓рд┐рдВрдЧ рдЯреВрд▓реНрд╕ рдмрдирд╛рдиреЗ рдХреЗ рд▓рд┐рдП рд╕реЙрдлреНрдЯрд╡реЗрдпрд░ рдЗрдВрдЬреАрдирд┐рдпрд░рд┐рдВрдЧ рдФрд░ рдХрдВрдкреНрдпреВрдЯрд░ рд╡рд┐рдЬрди рдПрдЖрдИ рд╕рд┐рд╕реНрдЯрдо рдореЗрдВ 15+ рд╡рд░реНрд╖реЛрдВ рдХрд╛ рдЕрдиреБрднрд╡ рд▓рд╛рддреЗ рд╣реИрдВред

рдорд╛рдЗрдХрд▓ рдиреЗ рдЕрдкрдирд╛ рдХрд░рд┐рдпрд░ рдПрдХ рд╕реЙрдлреНрдЯрд╡реЗрдпрд░ рдЗрдВрдЬреАрдирд┐рдпрд░ рдФрд░ рдЖрд░рдПрдВрдбрдбреА рдкреНрд░рдмрдВрдзрдХ рдХреЗ рд░реВрдк рдореЗрдВ рд╢реБрд░реВ рдХрд┐рдпрд╛, рдЬрд┐рд╕рдореЗрдВ рд╕реНрдХреЗрд▓реЗрдмрд▓ рдбреЗрдЯрд╛ рд╕рд┐рд╕реНрдЯрдо рдмрдирд╛рдП рдФрд░ рдХреНрд░реЙрд╕-рдлрдВрдХреНрд╢рдирд▓ рдЗрдВрдЬреАрдирд┐рдпрд░рд┐рдВрдЧ рдЯреАрдореЛрдВ рдХрд╛ рдкреНрд░рдмрдВрдзрди рдХрд┐рдпрд╛ред 2025 рддрдХ, рдЙрдиреНрд╣реЛрдВрдиреЗ Keymakr рдХреЗ рд╕реАрдИрдУ рдХреЗ рд░реВрдк рдореЗрдВ рдХрд╛рд░реНрдп рдХрд┐рдпрд╛, рдПрдХ рдбреЗрдЯрд╛ рд▓реЗрдмрд▓рд┐рдВрдЧ рд╕реЗрд╡рд╛ рдХрдВрдкрдиреА, рдЬрд╣рд╛рдВ рдЙрдиреНрд╣реЛрдВрдиреЗ рдорд╛рдирд╡-рдЗрди-рдж-рд▓реВрдк рд╡рд░реНрдХрдлреНрд▓реЛ, рдЙрдиреНрдирдд рдХреНрдпреВрдП рд╕рд┐рд╕реНрдЯрдо рдФрд░ рдмрдбрд╝реЗ рдкреИрдорд╛рдиреЗ рдкрд░ рдХрдВрдкреНрдпреВрдЯрд░ рд╡рд┐рдЬрди рдФрд░ рд╕реНрд╡рд╛рдпрддреНрддрддрд╛ рдбреЗрдЯрд╛ рдЖрд╡рд╢реНрдпрдХрддрд╛рдУрдВ рдХрд╛ рд╕рдорд░реНрдерди рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рд╡рд┐рд╢реЗрд╖ рдЯреВрд▓рд┐рдВрдЧ рдХреА рдкioneeredред

рдЙрдирдХреЗ рдкрд╛рд╕ рдХрдВрдкреНрдпреВрдЯрд░ рд╡рд┐рдЬреНрдЮрд╛рди рдореЗрдВ рдмреАрдПрд╕рд╕реА рдФрд░ рдЗрдВрдЬреАрдирд┐рдпрд░рд┐рдВрдЧ рдФрд░ рд░рдЪрдирд╛рддреНрдордХ рдХрд▓рд╛рдУрдВ рдореЗрдВ рдкреГрд╖реНрдарднреВрдорд┐ рд╣реИ, рдЬреЛ рдХрдард┐рди рд╕рдорд╕реНрдпрд╛рдУрдВ рдХрд╛ рд╕рдорд╛рдзрд╛рди рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдПрдХ рдмрд╣реБрд╕реНрддрд░реАрдп рджреГрд╖реНрдЯрд┐рдХреЛрдг рд▓рд╛рддреА рд╣реИред рдорд╛рдЗрдХрд▓ рдкреНрд░реМрджреНрдпреЛрдЧрд┐рдХреА рдирд╡рд╛рдЪрд╛рд░, рд░рдгрдиреАрддрд┐рдХ рдЙрддреНрдкрд╛рдж рдиреЗрддреГрддреНрд╡ рдФрд░ рд╡рд╛рд╕реНрддрд╡рд┐рдХ рджреБрдирд┐рдпрд╛ рдХреЗ рдкреНрд░рднрд╛рд╡ рдХреЗ рдмреАрдЪ рд░рд╣рддреЗ рд╣реИрдВ, рд╕реНрд╡рд╛рдпрддреНрдд рдкреНрд░рдгрд╛рд▓рд┐рдпреЛрдВ рдФрд░ рдмреБрджреНрдзрд┐рдорд╛рди рд╕реНрд╡рдЪрд╛рд▓рди рдХреЗ рдЕрдЧрд▓реЗ рдореЛрд░реНрдЪреЗ рдХреЛ рдЖрдЧреЗ рдмрдврд╝рд╛рддреЗ рд╣реИрдВред