AGI
рдПрдЖрдИ рдХрд╛ рдЕрдЧрд▓рд╛ рд╕реНрдХреЗрд▓рд┐рдВрдЧ рд▓реЙ: рдЕрдзрд┐рдХ рдбреЗрдЯрд╛ рдирд╣реАрдВ, рдмрд▓реНрдХрд┐ рдмреЗрд╣рддрд░ рд╡рд░реНрд▓реНрдб рдореЙрдбрд▓

वर्षों से, आर्टिफिशियल इंटेलिजेंस उद्योग एक सरल, क्रूर नियम का पालन करता आया है: बड़ा बेहतर है। हमने बड़े डेटासेट पर मॉडल को प्रशिक्षित किया, पैरामीटर की संख्या बढ़ाई, और समस्या पर अपार गणनात्मक शक्ति का उपयोग किया। यह सूत्र अधिकांश समय के लिए काम करता था। जीपीटी-3 से जीपीटी-4 तक, और कच्चे चैटबॉट्स से तर्क इंजन तक, “स्केलिंग लॉ” सुझाव देता था कि यदि हम केवल मशीन को अधिक पाठ खिलाते रहें, तो यह अंततः बुद्धिमान हो जाएगा।
लेकिन हम अब एक दीवार से टकरा रहे हैं। इंटरनेट सीमित है। उच्च-गुणवत्ता वाले सार्वजनिक डेटा की कमी हो रही है, और केवल मॉडल को बड़ा बनाने से लाभ घट रहे हैं। प्रमुख एआई शोधकर्ता तर्क देते हैं कि आर्टिफिशियल इंटेलिजेंस में अगली बड़ी छलांग केवल अधिक पाठ पढ़ने से नहीं आएगी। यह पाठ के पीछे की वास्तविकता को समझने से आएगी। यह विश्वास एआई के फोकस में एक मूलभूत परिवर्तन का संकेत देता है, जो वर्ल्ड मॉडल के युग को स्थापित करता है।
नेक्स्ट-टोकन प्रेडिक्शन की सीमाएं
यह समझने के लिए कि हमें एक नए दृष्टिकोण की आवश्यकता क्यों है, हमें पहले देखना होगा कि वर्तमान एआई सिस्टम वास्तव में क्या करते हैं। उनकी प्रभावशाली क्षमताओं के बावजूद, मॉडल जैसे कि चैटजीपीटी या क्लाउड मूल रूप से सांख्यिकीय इंजन हैं। वे पिछले के आधार पर एक क्रम में अगले शब्द की भविष्यवाणी करते हैं। वे नहीं जानते कि एक गिरा हुआ ग्लास टूट जाएगा; वे केवल जानते हैं कि लाखों कहानियों में, “टूट” शब्द अक्सर “गिरा हुआ ग्लास” वाक्यांश के बाद आता है।
यह दृष्टिकोण, जिसे ऑटोरेग्रेसिव मॉडलिंग के रूप में जाना जाता है, में एक महत्वपूर्ण दोष है। यह पूरी तरह से संबंध पर निर्भर करता है, कारण नहीं। यदि आप एक एलएलएम को एक हजार कार दुर्घटना के विवरण पर प्रशिक्षित करते हैं, तो यह दुर्घटना की भाषा सीखता है। लेकिन यह गति, घर्षण, या भंगुरता के भौतिकी को कभी नहीं सीखता है। यह एक दर्शक है, एक भागीदार नहीं।
यह सीमा “डेटा दीवार” बन रही है। हमने लगभग पूरे सार्वजनिक इंटरनेट को खुरच लिया है। यदि हम वर्तमान तरीके से आगे बढ़ना चाहते हैं, तो हमें अस्तित्व से अधिक डेटा की आवश्यकता होगी। सिंथेटिक डेटा (अर्थात एआई द्वारा उत्पन्न पाठ) एक अस्थायी समाधान प्रदान करता है, लेकिन यह अक्सर “मॉडल कोलैप्स” की ओर ले जाता है, जहां सिस्टम अपने स्वयं के पूर्वाग्रहों और त्रुटियों को बढ़ाता है। हम केवल पाठ का उपयोग करके आर्टिफिशियल जनरल इंटेलिजेंस (एजीआई) की ओर नहीं बढ़ सकते हैं क्योंकि पाठ वास्तविकता का एक कम-बैंडविथ संपीड़न है। यह वास्तविकता का वर्णन करता है, लेकिन यह स्वयं वास्तविकता नहीं है।
वर्ल्ड मॉडल क्यों महत्वपूर्ण हैं
एआई नेताओं जैसे यान लेकुन ने लंबे समय से तर्क दिया है कि वर्तमान एआई सिस्टम मानव संज्ञान के एक मूलभूत पहलू की कमी है जो यहां तक कि छोटे बच्चों के पास स्वाभाविक रूप से होता है। यह हमारी क्षमता है एक आंतरिक मॉडल बनाए रखने की जो दुनिया कैसे काम करती है, जिसे वे अक्सर “वर्ल्ड मॉडल” के रूप में संदर्भित करते हैं। एक वर्ल्ड मॉडल केवल अगले शब्द की भविष्यवाणी नहीं करता है; यह भौतिक पर्यावरण के संचालन का एक आंतरिक मानसिक नक्शा बनाता है। जब हम एक गेंद को सोफे के पीछे रोल होते हुए देखते हैं, तो हम जानते हैं कि यह अभी भी वहां है। हम जानते हैं कि यह दूसरी तरफ दिखाई देगा जब तक कि यह रुक नहीं जाता। हमें इसे समझने के लिए किसी पाठ्य पुस्तक को पढ़ने की आवश्यकता नहीं है; हम अपने आंतरिक “वर्ल्ड मॉडल” के आधार पर एक मानसिक सिमुलेशन चलाते हैं जो भौतिकी और वस्तु स्थायित्व को समझता है।
एआई को आगे बढ़ने के लिए, यह सांख्यिकीय अनुकरण से इस प्रकार के आंतरिक सिमुलेशन में स्थानांतरित करना होगा। यह घटनाओं के पीछे के कारणों को समझने की आवश्यकता है, न कि केवल उनके पाठ्य वर्णन।
ज्वाइंट एम्बेडिंग प्रेडिक्टिव आर्किटेक्चर (जेपीए) इस परिवर्तन का एक प्रमुख उदाहरण है। एलएलएम के विपरीत, जो हर एक पिक्सेल या शब्द की भविष्यवाणी करने का प्रयास करते हैं (एक प्रक्रिया जो गणनात्मक रूप से महंगी और शोर है), जेपीए अमूर्त प्रतिनिधित्वों की भविष्यवाणी करता है। यह अप्रत्याशित विवरण जैसे पेड़ पर पत्तियों की गति की उपेक्षा करता है और उच्च-स्तरीय अवधारणाओं जैसे पेड़, हवा और मौसम पर केंद्रित होता है। उच्च-स्तरीय राज्यों के परिवर्तन की भविष्यवाणी करने से एआई दुनिया की संरचना सीखता है, न कि सतह-स्तर के विवरण।
भविष्यवाणी से सिमुलेशन तक
हम पहले से ही वीडियो जनरेशन मॉडल में इस परिवर्तन की पहली झलक देख रहे हैं। जब ओपनएआई ने सोरा जारी किया, तो उन्होंने इसे न केवल एक वीडियो टूल के रूप में वर्णित किया, बल्कि एक “वर्ल्ड सिम्युलेटर” के रूप में भी।
यह अंतर्विरोध महत्वपूर्ण है। एक मानक वीडियो जनरेटर एक व्यक्ति की एक वीडियो बना सकता है जो अगले पिक्सेल की भविष्यवाणी करके जो आमतौर पर एक दूसरे के बगल में आते हैं। एक वर्ल्ड सिम्युलेटर, हालांकि, 3डी संगतता, प्रकाश और वस्तु स्थायित्व को बनाए रखने का प्रयास करता है। यह “समझता” है कि यदि कोई व्यक्ति दीवार के पीछे चलता है, तो वह अस्तित्व से गायब नहीं हो जाना चाहिए।
वर्तमान वीडियो मॉडल अभी भी आदर्श से बहुत दूर हैं, लेकिन वे नए प्रशिक्षण क्षेत्र का प्रतिनिधित्व करते हैं। भौतिक दुनिया में पाठ की दुनिया की तुलना में बहुत अधिक जानकारी है। एक वीडियो का एक सेकंड में भौतिकी, प्रकाश और परस्पर क्रिया के बारे में लाखों दृश्य डेटा पॉइंट होते हैं। इन दृश्य वास्तविकता पर मॉडल को प्रशिक्षित करके, हम एआई को उन “सामान्य ज्ञान” को सिखा सकते हैं जो एलएलएम में वर्तमान में कमी है।
यह एक नया स्केलिंग लॉ बनाता है। सफलता अब उन ट्रिलियन टोकन की संख्या से नहीं मापी जाएगी जिन्हें एक मॉडल ने पढ़ा है। इसका मूल्यांकन इसके सिमुलेशन की विश्वसनीयता और पर्यावरण की भविष्य की स्थिति की भविष्यवाणी करने की क्षमता से किया जाएगा। एक एआई जो किसी कार्रवाई को करने के बिना उसके परिणामों की सटीक रूप से सिमुलेशन कर सकता है, वह एक एआई है जो योजना बना सकता है, तर्क दे सकता है और सुरक्षित रूप से कार्य कर सकता है।
कुशलता और एजीआई के लिए मार्ग
यह परिवर्तन वर्तमान एआई की अस्थिर ऊर्जा लागत को भी संबोधित करता है। एलएलएम अस्थिर हैं क्योंकि उन्हें एक सुसंगत आउटपुट उत्पन्न करने के लिए हर विवरण की भविष्यवाणी करनी होती है। एक वर्ल्ड मॉडल अधिक कुशल है क्योंकि यह चयनात्मक है। जैसे एक मानव चालक सड़क पर ध्यान केंद्रित करता है और आकाश में बादलों के पैटर्न को अनदेखा करता है, एक वर्ल्ड मॉडल कार्य के प्रासंगिक कारण कारकों पर ध्यान केंद्रित करता है।
लेकुन ने तर्क दिया है कि यह दृष्टिकोण मॉडल को बहुत तेजी से सीखने की अनुमति देता है। वी-जेपीए (वीडियो-ज्वाइंट एम्बेडिंग प्रेडिक्टिव आर्किटेक्चर) जैसी प्रणाली ने दिखाया है कि यह पारंपरिक तरीकों की तुलना में बहुत कम प्रशिक्षण पुनरावृत्तियों के साथ एक समाधान पर समाप्त हो सकती है। डेटा के “आकार” को सीखने के बजाय डेटा को ही याद रखने से, वर्ल्ड मॉडल एक अधिक मजबूत बुद्धिमत्ता का निर्माण करते हैं जो नए, अनदेखे परिदृश्यों में बेहतर सामान्यीकरण करते हैं।
यह एजीआई के लिए लापता लिंक है। सच्ची बुद्धिमत्ता नेविगेशन की मांग करती है। यह एक एजेंट को एक लक्ष्य पर देखने, अपने आंतरिक दुनिया मॉडल का उपयोग करके उस लक्ष्य को प्राप्त करने के लिए विभिन्न मार्गों का सिमुलेशन चलाने और फिर सबसे अधिक सफलता की संभावना वाले मार्ग का चयन करने की आवश्यकता होती है। टेक्स्ट जनरेटर ऐसा नहीं कर सकते; वे केवल एक योजना लिख सकते हैं, वे इसके कार्यान्वयन की सीमाओं को नहीं समझ सकते हैं।
नीचे की पंक्ति
एआई उद्योग एक मोड़ पर है। “बस अधिक डेटा जोड़ें” की रणनीति अपने तार्किक अंत तक पहुंच रही है। हम चैटबॉट के युग से सिम्युलेटर के युग में जा रहे हैं।
अगली पीढ़ी के एआई स्केलिंग के बारे में नहीं होगा पूरे इंटरनेट को पढ़ना। यह दुनिया को देखने, इसके नियमों को समझने और वास्तविकता को प्रतिबिंबित करने वाली एक आंतरिक आर्किटेक्चर बनाने के बारे में होगा। यह केवल एक तकनीकी अपग्रेड नहीं है; यह सीखने के बारे में हमारी धारणा में एक मूलभूत परिवर्तन है।
उद्यमों और शोधकर्ताओं के लिए, फोकस बदलना होगा। हमें पैरामीटर गिनती पर जुनूनी होना बंद करना होगा और इसके बजाय मूल्यांकन करना होगा कि हमारे सिस्टम कारण और प्रभाव को कितनी अच्छी तरह समझते हैं। भविष्य का एआई आपको केवल यह नहीं बताएगा कि क्या हुआ; यह आपको दिखाएगा कि क्या हो सकता है, और क्यों। यह वर्ल्ड मॉडल का वादा है, और यह आगे बढ़ने का एकमात्र मार्ग है।












