рд╡рд┐рдЪрд╛рд░ рдиреЗрддрд╛
рдЬрдм рдПрдЖрдИ рдорд╛рдирд╡реЛрдВ рдХреА рддрд░рд╣ рд╕реЛрдЪрддрд╛ рд╣реИ: рдПрд▓рдПрд▓рдПрдо рдФрд░ рдПрдЬреЗрдВрдЯреНрд╕ рдХреЗ рджрд┐рдорд╛рдЧ рдХрд╛ рдЕрдиреНрд╡реЗрд╖рдг

आज, एलएलएम और एजेंट्स सीखते हैं, विश्लेषण करते हैं, और निर्णय लेते हैं जो उनकी एल्गोरिदमिक “सोच” और मानव मस्तिष्क के बीच की रेखा को धुंधला कर सकते हैं। वे जिस तरीके से बनाए गए हैं, वे पहले से ही हमारी संज्ञानात्मक प्रक्रियाओं की नकल करते हैं, और उनके प्रशिक्षण का स्तर मानव अनुभव से कई गुना अधिक है। यह सवाल उठता है: क्या हम एक ऐसा उपकरण बना रहे हैं जो हमारी क्षमताओं को बढ़ाता है, या क्या हम एक नए प्रकार के मस्तिष्क को जन्म दे रहे हैं जिसके परिणाम अभी भी अनुमानित नहीं हैं?
मॉडल कैसे सोचते हैं
एलएलएम और एजेंट्स की अवधारणाओं के बीच अंतर करना महत्वपूर्ण है। एक कंप्यूटर के साथ एक तुलना करने के लिए, एक एलएलएम एक घटक की तरह हो सकता है, जैसे कि प्रोसेसर। एक एजेंट, हालांकि, पूरी प्रणाली है, एक “मदरबोर्ड” जिसमें विभिन्न मॉड्यूल जुड़े होते हैं: मेमोरी, ग्राफिक्स कार्ड, और नेटवर्क। इसी तरह, एक एजेंट एक जटिल प्रणाली है जो एक या एक से अधिक एलएलएम को शामिल कर सकती है, जो निर्णय लेने के तंत्र और बाहरी वातावरण के साथ बातचीत करने के लिए उपकरणों के साथ पूरक होती है।
यदि हम एक एकल एलएलएम के काम को देखते हैं, तो यह सभी पैटर्न मिलाने तक सीमित है। हालांकि, जब एक एजेंट कई एलएलएम को जोड़ता है, तो हम कह सकते हैं कि यह “सोचता” है, हालांकि यह प्रक्रिया अभी भी पैटर्न पर आधारित है। एजेंट मॉडल के बीच बातचीत की तर्क का निर्माण करता है: उदाहरण के लिए, एक एलएलएम कार्य का विश्लेषण करता है, और इसके आधार पर एजेंट निर्धारित करता है कि दूसरे एलएलएम को क्या करना चाहिए।
मानव सोच भी इसी तरह काम करती है: हम जमा किए गए ज्ञान और पैटर्न पर भरोसा करते हैं, उन्हें सही समय पर चुनते हैं, उन्हें संसाधित करते हैं, और निष्कर्ष निकालते हैं। इस प्रक्रिया को तर्क कहा जाता है।
चैटजीपीटी, एक मानव की तरह, दो प्रकार की स्मृति है: अल्पकालिक और दीर्घकालिक। अंतर यह है कि मनुष्यों में, इन स्मृति स्तरों तक पहुंच अधिक जटिल और हमेशा रैखिक नहीं होती है।
अल्पकालिक स्मृति वह जानकारी है जिस पर हम वर्तमान में काम कर रहे हैं। एक व्यक्ति के लिए, यह पांच मिनट पहले क्या कहा गया था: वे इसे याद रख सकते हैं या नहीं। जीपीटी, हालांकि, अपने “संदर्भ विंडो” के भीतर सब कुछ हमेशा ध्यान में रखता है – यह इस डेटा को छोड़ नहीं सकता या अनदेखा नहीं कर सकता।
मानव में दीर्घकालिक स्मृति उन यादों से बनी होती है जो हमेशा सक्रिय नहीं होती हैं और केवल विशिष्ट ट्रिगर्स के साथ ही सामने आती हैं: एक बचपन की याद, एक आघात, या उदाहरण के लिए, एक मनोवैज्ञानिक के साथ काम करना। जीपीटी में एक समान तर्क है: यह स्वयं जानकारी को “याद” नहीं करता है जब तक कि यह विशेष रूप से सक्रिय नहीं किया जाता है। उदाहरण के लिए, “मुझसे कभी यह प्रश्न न पूछें” या “मुझसे हमेशा औपचारिक रूप से संबोधन करें” जैसे निर्देश दीर्घकालिक स्मृति में संग्रहीत किए जा सकते हैं और प्रत्येक सत्र के दौरान लागू किए जा सकते हैं।
दीर्घकालिक स्मृति का एक और उदाहरण सहेजे गए दस्तावेज हैं। मान लें कि आपने जीपीटी में एक निर्देश अपलोड किया है कि विपणन अनुसंधान कैसे आयोजित किया जाए। मॉडल इसे स्मृति में संग्रहीत कर सकता है, लेकिन इसका मतलब यह नहीं है कि यह हर प्रश्न के साथ उस दस्तावेज को संदर्भित करेगा। यदि आप पूछते हैं, “क्या आप चंद्रमा पर एक टॉर्च की रोशनी डाल सकते हैं?” जीपीटी अनदेखा करेगा। लेकिन अगर अनुरोध में दस्तावेज के पाठ के साथ मेल खाने वाले कीवर्ड हैं, तो मॉडल इसे “याद” कर सकता है।
यह तंत्र आरएजी (रिट्रीवल-ऑगमेंटेड जेनरेशन) के माध्यम से लागू किया जाता है, जिसमें मॉडल वेक्टर डेटाबेस के माध्यम से संबंधित संकेतों द्वारा ट्रिगर की गई संग्रहीत जानकारी तक पहुंच प्राप्त करता है।
इस प्रकार, यह कहा जा सकता है कि मॉडल वास्तव में स्मृति रखता है, लेकिन यह मानव स्मृति से अलग, अधिक औपचारिक तर्क के अनुसार काम करता है।
एआई के साथ बातचीत कभी-कभी चिकित्सीय महसूस होती है, और अन्य समय में ठंडी और रोबोटिक क्यों लगती है
आधुनिक भाषा मॉडल बहुत बड़े हैं: वे एक विशाल मात्रा में डेटा, ज्ञान, और संदर्भ संग्रहीत करते हैं। यह सभी जानकारी थीमेटिक और सेमेंटिक क्षेत्रों में व्यवस्थित होती है, जिन्हें “क्लस्टर” कहा जाता है। मॉडल को विभिन्न स्रोतों पर प्रशिक्षित किया गया है, जिनमें कथा, वैज्ञानिक लेख, और यूट्यूब टिप्पणियां शामिल हैं।
जब आप एआई के साथ बातचीत करते हैं, तो आपका प्रश्न (प्रॉम्प्ट) मॉडल को एक निश्चित क्लस्टर की ओर निर्देशित करता है।
उदाहरण के लिए, यदि आप लिखते हैं: “आप न्यूयॉर्क में 20 वर्षों के अनुभव वाले एक वास्तविक संपत्ति वकील हैं, मुझे एक अपार्टमेंट खरीदने में मदद करें,” मॉडल एक से अधिक क्लस्टर को एक साथ सक्रिय करता है: वकील → न्यूयॉर्क → वास्तविक संपत्ति। परिणामस्वरूप, आपको एक सुसंगत, प्रासंगिक और यथार्थवादी प्रतिक्रिया मिलती है, जैसे कि आप वास्तव में एक अनुभवी पेशेवर से परामर्श कर रहे हों।
यदि प्रश्न अधिक व्यक्तिगत या दार्शनिक विषयों से संबंधित है, जैसे कि आत्म-विकास या भावनाएं, तो मॉडल “स्थानांतरित” होता है अन्य क्लस्टर में: मनोविज्ञान, दर्शन, या आंतरिक कार्य। इस मामले में, इसके उत्तर आश्चर्यजनक रूप से मानवीय और यहां तक कि चिकित्सीय भी लग सकते हैं।
हालांकि, जब प्रश्न अत्यधिक सामान्य या अस्पष्ट होता है, तो मॉडल अपनी क्लस्टर संरचना में “खो” जाता है और एक डिफ़ॉल्ट प्रतिक्रिया देता है, जो औपचारिक, अलग और भावनात्मक स्वर से रहित होती है।
एआई की प्रतिक्रिया की शैली और गहराई इस बात पर निर्भर करती है कि आप अपने प्रॉम्प्ट के साथ इसे किस क्लस्टर में निर्देशित करते हैं।
मॉडल प्रशिक्षण और आरएलएचएफ का दर्शन
कृत्रिम बुद्धिमत्ता में सीखने के विभिन्न दृष्टिकोण हैं। यह एक दर्शन नहीं है, बल्कि एक रणनीति है।
क्लासिक विकल्प पर्यवेक्षित सीखना है, जहां मॉडल को एक प्रश्न और सही उत्तर दिया जाता है। यह सीखता है कि क्या सही माना जाता है और फिर भविष्य में समान समाधानों को पुन: प्रस्तुत करता है।
एक अन्य दृष्टिकोण आरएलएचएफ (मानव प्रतिक्रिया से प्रबलित सीखना) है। यह एक अलग शैली है: मॉडल कुछ करने का प्रयास करता है, सफल क्रियाओं के लिए एक “पुरस्कार” प्राप्त करता है, और अपने व्यवहार को समायोजित करता है। धीरे-धीरे, यह एक प्रभावी रणनीति विकसित करता है।
आरएलएचएफ की तुलना कच्चे माल को तैयार उत्पाद में बदलने की प्रक्रिया से की जा सकती है। एक मॉडल को उपयोग करने योग्य बनाने के लिए, मानव प्रतिक्रिया के साथ एक विशाल कार्य की आवश्यकता होती है।
कल्पना करें कि मैं आपको एक वस्तु दिखाता हूं, लेकिन सीधे इसका नाम नहीं बताता। आप सोचते हैं: “क्या यह एक सिगरेट केस है? एक कार्डहोल्डर?” मैं केवल संकेत देता हूं: “निकट”, “दूर”, “60% हाँ”। सैकड़ों ऐसे पुनरावृत्ति के बाद, आप अनुमान लगाते हैं: “अरे, यह एक पर्स है।”
एलएलएम इसी तरह से प्रशिक्षित होते हैं। मानव, संकेतक, और सामान्य रूप से पेशेवर मूल्यांकन करते हैं: यह उत्तर अच्छा है, यह बुरा है, और स्कोर असाइन करते हैं। कंपनियां जैसे कीमाकर, जो उच्च गुणवत्ता वाले डेटा एनोटेशन और सत्यापन में माहिर हैं, इस प्रक्रिया में एक महत्वपूर्ण भूमिका निभाती हैं। प्रतिक्रिया सामान्य उपयोगकर्ताओं से भी आती है: पसंद, शिकायतें, और प्रतिक्रियाएं। मॉडल इन संकेतों को व्याख्या करता है, व्यवहारिक पैटर्न बनाता है।
मॉडल प्रशिक्षण व्यावहारिक रूप से कैसे दिखता है
एक स्पष्ट उदाहरण ओपनएआई के प्रयोग है जिसमें एजेंटों को “हाइड एंड सीक” खेल में प्रबलित सीखने का उपयोग करके प्रशिक्षित किया जाता है।
दो टीमें भाग लेती हैं: “खोजकर्ता” (लाल) और “छिपने वाले” (नीले)। नियम सरल हैं: यदि एक खोजकर्ता एक छिपने वाले को पकड़ता है, तो वे एक अंक अर्जित करते हैं; यदि नहीं, तो वे एक अंक खो देते हैं। शुरू में, एजेंटों के पास केवल बुनियादी शारीरिक क्षमताएं होती हैं, जैसे कि दौड़ना और कूदना, बिना किसी पूर्व-निर्धारित रणनीति के।
शुरुआत में, खोजकर्ता अस्त-व्यस्त कार्य करते हैं, और विरोधियों को पकड़ना अक्सर संयोग से होता है। लेकिन लाखों पुनरावृत्तियों के बाद, उनका व्यवहार विकसित होता है। छिपने वाले आसपास की वस्तुओं का उपयोग दरवाजों को ब्लॉक करने और बाधाओं का निर्माण करने के लिए करना शुरू कर देते हैं। ये कौशल बिना किसी सीधे प्रोग्रामिंग के, केवल पुनरावृत्ति और सफलता के लिए पुरस्कार के माध्यम से उभरते हैं।
इसके जवाब में, खोजकर्ता कूदने का उपयोग करना शुरू कर देते हैं, एक क्षमता जो शुरू से ही उपलब्ध थी लेकिन पहले अनदेखी की गई थी। कई असफलताओं के बाद, कूदने का यादृच्छिक उपयोग इसके रणनीतिक मूल्य का खुलासा करता है। फिर छिपने वाले अपनी रक्षा को और अधिक जटिल बनाना शुरू कर देते हैं, खोजकर्ताओं की दृष्टि रेखा से वस्तुओं को हटा देते हैं और अधिक विश्वसनीय आश्रय बनाते हैं।
प्रयोग से पता चलता है कि परीक्षण, त्रुटि, पुरस्कार, और दंड के अरबों चक्रों के माध्यम से, जटिल सहयोगी व्यवहार बन सकता है बिना डेवलपर हस्तक्षेप के। इसके अलावा, एजेंटों ने समन्वय में कार्य करना शुरू कर दिया, भले ही संचार तंत्र प्रोग्राम नहीं किए गए थे, क्योंकि टीम वर्क अधिक प्रभावी साबित हुआ।
एलएलएम के साथ भी ऐसा ही है। यह असंभव है कि सभी परिदृश्यों को स्क्रिप्ट किया जाए: दुनिया में बहुत सारी स्थितियां और परिवर्तनशीलता है। इसलिए, हम मॉडल को निश्चित नियम नहीं सिखाते; हम इसे सीखने का तरीका सिखाते हैं।
यह आरएलएचएफ का मूल्य है। इसके बिना, एक एलएलएम और एजेंट केवल एक पाठ पुस्तकालय बने रहते हैं। इसके साथ, यह एक संवादी साथी बन जाता है जो अनुकूलन, स्वयं-सुधार, और वास्तव में विकास करने में सक्षम है।
आगे क्या है?
कई लोग आश्चर्यचकित हैं कि क्या एलएलएम और एजेंट विकास के परिणामस्वरूप अवांछनीय या यहां तक कि खतरनाक परिणाम हो सकते हैं।
यह समझना महत्वपूर्ण है कि आज हम जो देख रहे हैं वह एक एमवीपी नहीं है, बल्कि एक प्रोटोटाइप है।
वास्तविक क्रांति यह नहीं होगी कि यह एक सुंदर पत्र लिखने में मदद करता है या इसे फ्रेंच में अनुवादित करता है। ये छोटी चीजें हैं। मुख्य दिशा माइक्रोटास्क और दिनचर्या प्रक्रियाओं का स्वचालन है, जिससे मानव को केवल वास्तव में रचनात्मक, बौद्धिक कार्य या आराम के लिए समय मिलता है।
वास्तविक नवाचार एजेंटों के आसपास केंद्रित हैं, जो स्वतंत्र रूप से सोच सकते हैं, कार्य कर सकते हैं, और निर्णय ले सकते हैं एक व्यक्ति के बजाय। यह वह जगह है जहां ओपनएआई, गूगल, मेटा, और अन्य कंपनियां आज अपने प्रयासों पर ध्यान केंद्रित कर रही हैं।
बड़े भाषा मॉडल केवल नींव हैं। भविष्य वास्तव में एजेंटों में निहित है जो एक गतिशील दुनिया में रहने, प्रतिक्रिया प्राप्त करने, और परिवर्तनों के अनुकूल होने के लिए प्रशिक्षित हैं।












