विचार नेता

जब एआई मानवों की तरह सोचता है: एलएलएम और एजेंट्स के दिमाग का अन्वेषण

Published August 21, 2025

Updated May 18, 2026

Michael Abramov, Founder and CEO of Introspector

आज, एलएलएम और एजेंट्स सीखते हैं, विश्लेषण करते हैं, और निर्णय लेते हैं जो उनकी एल्गोरिदमिक “सोच” और मानव मस्तिष्क के बीच की रेखा को धुंधला कर सकते हैं। वे जिस तरीके से बनाए गए हैं, वे पहले से ही हमारी संज्ञानात्मक प्रक्रियाओं की नकल करते हैं, और उनके प्रशिक्षण का स्तर मानव अनुभव से कई गुना अधिक है। यह सवाल उठता है: क्या हम एक ऐसा उपकरण बना रहे हैं जो हमारी क्षमताओं को बढ़ाता है, या क्या हम एक नए प्रकार के मस्तिष्क को जन्म दे रहे हैं जिसके परिणाम अभी भी अनुमानित नहीं हैं?

मॉडल कैसे सोचते हैं

एलएलएम और एजेंट्स की अवधारणाओं के बीच अंतर करना महत्वपूर्ण है। एक कंप्यूटर के साथ एक तुलना करने के लिए, एक एलएलएम एक घटक की तरह हो सकता है, जैसे कि प्रोसेसर। एक एजेंट, हालांकि, पूरी प्रणाली है, एक “मदरबोर्ड” जिसमें विभिन्न मॉड्यूल जुड़े होते हैं: मेमोरी, ग्राफिक्स कार्ड, और नेटवर्क। इसी तरह, एक एजेंट एक जटिल प्रणाली है जो एक या एक से अधिक एलएलएम को शामिल कर सकती है, जो निर्णय लेने के तंत्र और बाहरी वातावरण के साथ बातचीत करने के लिए उपकरणों के साथ पूरक होती है।

यदि हम एक एकल एलएलएम के काम को देखते हैं, तो यह सभी पैटर्न मिलाने तक सीमित है। हालांकि, जब एक एजेंट कई एलएलएम को जोड़ता है, तो हम कह सकते हैं कि यह “सोचता” है, हालांकि यह प्रक्रिया अभी भी पैटर्न पर आधारित है। एजेंट मॉडल के बीच बातचीत की तर्क का निर्माण करता है: उदाहरण के लिए, एक एलएलएम कार्य का विश्लेषण करता है, और इसके आधार पर एजेंट निर्धारित करता है कि दूसरे एलएलएम को क्या करना चाहिए।

मानव सोच भी इसी तरह काम करती है: हम जमा किए गए ज्ञान और पैटर्न पर भरोसा करते हैं, उन्हें सही समय पर चुनते हैं, उन्हें संसाधित करते हैं, और निष्कर्ष निकालते हैं। इस प्रक्रिया को तर्क कहा जाता है।

चैटजीपीटी, एक मानव की तरह, दो प्रकार की स्मृति है: अल्पकालिक और दीर्घकालिक। अंतर यह है कि मनुष्यों में, इन स्मृति स्तरों तक पहुंच अधिक जटिल और हमेशा रैखिक नहीं होती है।

अल्पकालिक स्मृति वह जानकारी है जिस पर हम वर्तमान में काम कर रहे हैं। एक व्यक्ति के लिए, यह पांच मिनट पहले क्या कहा गया था: वे इसे याद रख सकते हैं या नहीं। जीपीटी, हालांकि, अपने “संदर्भ विंडो” के भीतर सब कुछ हमेशा ध्यान में रखता है – यह इस डेटा को छोड़ नहीं सकता या अनदेखा नहीं कर सकता।

मानव में दीर्घकालिक स्मृति उन यादों से बनी होती है जो हमेशा सक्रिय नहीं होती हैं और केवल विशिष्ट ट्रिगर्स के साथ ही सामने आती हैं: एक बचपन की याद, एक आघात, या उदाहरण के लिए, एक मनोवैज्ञानिक के साथ काम करना। जीपीटी में एक समान तर्क है: यह स्वयं जानकारी को “याद” नहीं करता है जब तक कि यह विशेष रूप से सक्रिय नहीं किया जाता है। उदाहरण के लिए, “मुझसे कभी यह प्रश्न न पूछें” या “मुझसे हमेशा औपचारिक रूप से संबोधन करें” जैसे निर्देश दीर्घकालिक स्मृति में संग्रहीत किए जा सकते हैं और प्रत्येक सत्र के दौरान लागू किए जा सकते हैं।

दीर्घकालिक स्मृति का एक और उदाहरण सहेजे गए दस्तावेज हैं। मान लें कि आपने जीपीटी में एक निर्देश अपलोड किया है कि विपणन अनुसंधान कैसे आयोजित किया जाए। मॉडल इसे स्मृति में संग्रहीत कर सकता है, लेकिन इसका मतलब यह नहीं है कि यह हर प्रश्न के साथ उस दस्तावेज को संदर्भित करेगा। यदि आप पूछते हैं, “क्या आप चंद्रमा पर एक टॉर्च की रोशनी डाल सकते हैं?” जीपीटी अनदेखा करेगा। लेकिन अगर अनुरोध में दस्तावेज के पाठ के साथ मेल खाने वाले कीवर्ड हैं, तो मॉडल इसे “याद” कर सकता है।

यह तंत्र आरएजी (रिट्रीवल-ऑगमेंटेड जेनरेशन) के माध्यम से लागू किया जाता है, जिसमें मॉडल वेक्टर डेटाबेस के माध्यम से संबंधित संकेतों द्वारा ट्रिगर की गई संग्रहीत जानकारी तक पहुंच प्राप्त करता है।

इस प्रकार, यह कहा जा सकता है कि मॉडल वास्तव में स्मृति रखता है, लेकिन यह मानव स्मृति से अलग, अधिक औपचारिक तर्क के अनुसार काम करता है।

एआई के साथ बातचीत कभी-कभी चिकित्सीय महसूस होती है, और अन्य समय में ठंडी और रोबोटिक क्यों लगती है

आधुनिक भाषा मॉडल बहुत बड़े हैं: वे एक विशाल मात्रा में डेटा, ज्ञान, और संदर्भ संग्रहीत करते हैं। यह सभी जानकारी थीमेटिक और सेमेंटिक क्षेत्रों में व्यवस्थित होती है, जिन्हें “क्लस्टर” कहा जाता है। मॉडल को विभिन्न स्रोतों पर प्रशिक्षित किया गया है, जिनमें कथा, वैज्ञानिक लेख, और यूट्यूब टिप्पणियां शामिल हैं।

जब आप एआई के साथ बातचीत करते हैं, तो आपका प्रश्न (प्रॉम्प्ट) मॉडल को एक निश्चित क्लस्टर की ओर निर्देशित करता है।

उदाहरण के लिए, यदि आप लिखते हैं: “आप न्यूयॉर्क में 20 वर्षों के अनुभव वाले एक वास्तविक संपत्ति वकील हैं, मुझे एक अपार्टमेंट खरीदने में मदद करें,” मॉडल एक से अधिक क्लस्टर को एक साथ सक्रिय करता है: वकील → न्यूयॉर्क → वास्तविक संपत्ति। परिणामस्वरूप, आपको एक सुसंगत, प्रासंगिक और यथार्थवादी प्रतिक्रिया मिलती है, जैसे कि आप वास्तव में एक अनुभवी पेशेवर से परामर्श कर रहे हों।

यदि प्रश्न अधिक व्यक्तिगत या दार्शनिक विषयों से संबंधित है, जैसे कि आत्म-विकास या भावनाएं, तो मॉडल “स्थानांतरित” होता है अन्य क्लस्टर में: मनोविज्ञान, दर्शन, या आंतरिक कार्य। इस मामले में, इसके उत्तर आश्चर्यजनक रूप से मानवीय और यहां तक कि चिकित्सीय भी लग सकते हैं।

हालांकि, जब प्रश्न अत्यधिक सामान्य या अस्पष्ट होता है, तो मॉडल अपनी क्लस्टर संरचना में “खो” जाता है और एक डिफ़ॉल्ट प्रतिक्रिया देता है, जो औपचारिक, अलग और भावनात्मक स्वर से रहित होती है।

एआई की प्रतिक्रिया की शैली और गहराई इस बात पर निर्भर करती है कि आप अपने प्रॉम्प्ट के साथ इसे किस क्लस्टर में निर्देशित करते हैं।

मॉडल प्रशिक्षण और आरएलएचएफ का दर्शन

कृत्रिम बुद्धिमत्ता में सीखने के विभिन्न दृष्टिकोण हैं। यह एक दर्शन नहीं है, बल्कि एक रणनीति है।

क्लासिक विकल्प पर्यवेक्षित सीखना है, जहां मॉडल को एक प्रश्न और सही उत्तर दिया जाता है। यह सीखता है कि क्या सही माना जाता है और फिर भविष्य में समान समाधानों को पुन: प्रस्तुत करता है।

एक अन्य दृष्टिकोण आरएलएचएफ (मानव प्रतिक्रिया से प्रबलित सीखना) है। यह एक अलग शैली है: मॉडल कुछ करने का प्रयास करता है, सफल क्रियाओं के लिए एक “पुरस्कार” प्राप्त करता है, और अपने व्यवहार को समायोजित करता है। धीरे-धीरे, यह एक प्रभावी रणनीति विकसित करता है।

आरएलएचएफ की तुलना कच्चे माल को तैयार उत्पाद में बदलने की प्रक्रिया से की जा सकती है। एक मॉडल को उपयोग करने योग्य बनाने के लिए, मानव प्रतिक्रिया के साथ एक विशाल कार्य की आवश्यकता होती है।

कल्पना करें कि मैं आपको एक वस्तु दिखाता हूं, लेकिन सीधे इसका नाम नहीं बताता। आप सोचते हैं: “क्या यह एक सिगरेट केस है? एक कार्डहोल्डर?” मैं केवल संकेत देता हूं: “निकट”, “दूर”, “60% हाँ”। सैकड़ों ऐसे पुनरावृत्ति के बाद, आप अनुमान लगाते हैं: “अरे, यह एक पर्स है।”

एलएलएम इसी तरह से प्रशिक्षित होते हैं। मानव, संकेतक, और सामान्य रूप से पेशेवर मूल्यांकन करते हैं: यह उत्तर अच्छा है, यह बुरा है, और स्कोर असाइन करते हैं। कंपनियां जैसे कीमाकर, जो उच्च गुणवत्ता वाले डेटा एनोटेशन और सत्यापन में माहिर हैं, इस प्रक्रिया में एक महत्वपूर्ण भूमिका निभाती हैं। प्रतिक्रिया सामान्य उपयोगकर्ताओं से भी आती है: पसंद, शिकायतें, और प्रतिक्रियाएं। मॉडल इन संकेतों को व्याख्या करता है, व्यवहारिक पैटर्न बनाता है।

मॉडल प्रशिक्षण व्यावहारिक रूप से कैसे दिखता है

एक स्पष्ट उदाहरण ओपनएआई के प्रयोग है जिसमें एजेंटों को “हाइड एंड सीक” खेल में प्रबलित सीखने का उपयोग करके प्रशिक्षित किया जाता है।

दो टीमें भाग लेती हैं: “खोजकर्ता” (लाल) और “छिपने वाले” (नीले)। नियम सरल हैं: यदि एक खोजकर्ता एक छिपने वाले को पकड़ता है, तो वे एक अंक अर्जित करते हैं; यदि नहीं, तो वे एक अंक खो देते हैं। शुरू में, एजेंटों के पास केवल बुनियादी शारीरिक क्षमताएं होती हैं, जैसे कि दौड़ना और कूदना, बिना किसी पूर्व-निर्धारित रणनीति के।

शुरुआत में, खोजकर्ता अस्त-व्यस्त कार्य करते हैं, और विरोधियों को पकड़ना अक्सर संयोग से होता है। लेकिन लाखों पुनरावृत्तियों के बाद, उनका व्यवहार विकसित होता है। छिपने वाले आसपास की वस्तुओं का उपयोग दरवाजों को ब्लॉक करने और बाधाओं का निर्माण करने के लिए करना शुरू कर देते हैं। ये कौशल बिना किसी सीधे प्रोग्रामिंग के, केवल पुनरावृत्ति और सफलता के लिए पुरस्कार के माध्यम से उभरते हैं।

इसके जवाब में, खोजकर्ता कूदने का उपयोग करना शुरू कर देते हैं, एक क्षमता जो शुरू से ही उपलब्ध थी लेकिन पहले अनदेखी की गई थी। कई असफलताओं के बाद, कूदने का यादृच्छिक उपयोग इसके रणनीतिक मूल्य का खुलासा करता है। फिर छिपने वाले अपनी रक्षा को और अधिक जटिल बनाना शुरू कर देते हैं, खोजकर्ताओं की दृष्टि रेखा से वस्तुओं को हटा देते हैं और अधिक विश्वसनीय आश्रय बनाते हैं।

प्रयोग से पता चलता है कि परीक्षण, त्रुटि, पुरस्कार, और दंड के अरबों चक्रों के माध्यम से, जटिल सहयोगी व्यवहार बन सकता है बिना डेवलपर हस्तक्षेप के। इसके अलावा, एजेंटों ने समन्वय में कार्य करना शुरू कर दिया, भले ही संचार तंत्र प्रोग्राम नहीं किए गए थे, क्योंकि टीम वर्क अधिक प्रभावी साबित हुआ।

एलएलएम के साथ भी ऐसा ही है। यह असंभव है कि सभी परिदृश्यों को स्क्रिप्ट किया जाए: दुनिया में बहुत सारी स्थितियां और परिवर्तनशीलता है। इसलिए, हम मॉडल को निश्चित नियम नहीं सिखाते; हम इसे सीखने का तरीका सिखाते हैं।

यह आरएलएचएफ का मूल्य है। इसके बिना, एक एलएलएम और एजेंट केवल एक पाठ पुस्तकालय बने रहते हैं। इसके साथ, यह एक संवादी साथी बन जाता है जो अनुकूलन, स्वयं-सुधार, और वास्तव में विकास करने में सक्षम है।

आगे क्या है?

कई लोग आश्चर्यचकित हैं कि क्या एलएलएम और एजेंट विकास के परिणामस्वरूप अवांछनीय या यहां तक कि खतरनाक परिणाम हो सकते हैं।

यह समझना महत्वपूर्ण है कि आज हम जो देख रहे हैं वह एक एमवीपी नहीं है, बल्कि एक प्रोटोटाइप है।

वास्तविक क्रांति यह नहीं होगी कि यह एक सुंदर पत्र लिखने में मदद करता है या इसे फ्रेंच में अनुवादित करता है। ये छोटी चीजें हैं। मुख्य दिशा माइक्रोटास्क और दिनचर्या प्रक्रियाओं का स्वचालन है, जिससे मानव को केवल वास्तव में रचनात्मक, बौद्धिक कार्य या आराम के लिए समय मिलता है।

वास्तविक नवाचार एजेंटों के आसपास केंद्रित हैं, जो स्वतंत्र रूप से सोच सकते हैं, कार्य कर सकते हैं, और निर्णय ले सकते हैं एक व्यक्ति के बजाय। यह वह जगह है जहां ओपनएआई, गूगल, मेटा, और अन्य कंपनियां आज अपने प्रयासों पर ध्यान केंद्रित कर रही हैं।

बड़े भाषा मॉडल केवल नींव हैं। भविष्य वास्तव में एजेंटों में निहित है जो एक गतिशील दुनिया में रहने, प्रतिक्रिया प्राप्त करने, और परिवर्तनों के अनुकूल होने के लिए प्रशिक्षित हैं।

Michael Abramov, Founder and CEO of Introspector

माइकल एब्रामोव इंट्रोस्पेक्टर के संस्थापक और सीईओ हैं, जो एंटरप्राइज-ग्रेड लेबलिंग टूल्स बनाने के लिए सॉफ्टवेयर इंजीनियरिंग और कंप्यूटर विजन एआई सिस्टम में 15+ वर्षों का अनुभव लाते हैं।

माइकल ने अपना करियर एक सॉफ्टवेयर इंजीनियर और आरएंडडी प्रबंधक के रूप में शुरू किया, जिसमें स्केलेबल डेटा सिस्टम बनाए और क्रॉस-फंक्शनल इंजीनियरिंग टीमों का प्रबंधन किया। 2025 तक, उन्होंने Keymakr के सीईओ के रूप में कार्य किया, एक डेटा लेबलिंग सेवा कंपनी, जहां उन्होंने मानव-इन-द-लूप वर्कफ्लो, उन्नत क्यूए सिस्टम और बड़े पैमाने पर कंप्यूटर विजन और स्वायत्तता डेटा आवश्यकताओं का समर्थन करने के लिए विशेष टूलिंग की पioneered।

उनके पास कंप्यूटर विज्ञान में बीएससी और इंजीनियरिंग और रचनात्मक कलाओं में पृष्ठभूमि है, जो कठिन समस्याओं का समाधान करने के लिए एक बहुस्तरीय दृष्टिकोण लाती है। माइकल प्रौद्योगिकी नवाचार, रणनीतिक उत्पाद नेतृत्व और वास्तविक दुनिया के प्रभाव के बीच रहते हैं, स्वायत्त प्रणालियों और बुद्धिमान स्वचालन के अगले मोर्चे को आगे बढ़ाते हैं।

Unite.AI