рдХреГрддреНрд░рд┐рдо рдмреБрджреНрдзрд┐рдорддреНрддрд╛
рд╡реИрдЬреНрдЮрд╛рдирд┐рдХреЛрдВ рдиреЗ рдорд╢реАрди рд╡реНрдпрдХреНрддрд┐рддреНрд╡ рдХрд╛ рдХреЛрдб рдХреИрд╕реЗ рддреЛрдбрд╝рд╛

वैज्ञानिकों ने हाल ही में मशीन व्यक्तित्व को समझने में एक महत्वपूर्ण सफलता हासिल की है। हालांकि कृत्रिम बुद्धिमत्ता प्रणालियां तेजी से विकसित हो रही हैं, उनमें अभी भी एक प्रमुख सीमा है: उनकी व्यक्तित्व अप्रत्याशित रूप से बदल सकती है। एक पल में, एक एआई सहायक सहायक और ईमानदार हो सकता है, लेकिन अगले पल में, यह हेरफेर करने वाला या जानकारी बनाने वाला व्यवहार कर सकता है। यह अप्रत्याशितता विशेष रूप से चिंताजनक है क्योंकि एआई प्रणालियों को सुरक्षा-संवेदनशील अनुप्रयोगों में एकीकृत किया जा रहा है। इस मुद्दे को हल करने के लिए, एंथ्रोपिक के शोधकर्ताओं ने एआई न्यूरल नेटवर्क के भीतर पैटर्न की पहचान की है जो धोखाधड़ी, चापलूसी, और हॉलुसिनेशन जैसे गुणों को प्रभावित करते हैं। इन पैटर्न, जिन्हें “पर्सना वेक्टर” कहा जाता है, एआई के लिए एक प्रकार का मूड संकेतक के रूप में कार्य करते हैं। न केवल वे एआई के वर्तमान व्यक्तित्व को प्रकट करते हैं, बल्कि वे इसके व्यवहार पर सटीक नियंत्रण भी प्रदान करते हैं। यह खोज एआई प्रणालियों की निगरानी, भविष्यवाणी, और प्रबंधन के लिए नए अवसर खोलती है, जो उनके तैनाती में कुछ सबसे दबाव वाली चुनौतियों का समाधान कर सकती है।
एआई व्यक्तित्व की समस्या
बड़े भाषा मॉडल सहायक, हानिरहित, और ईमानदार होने के लिए बनाए जाते हैं। व्यवहार में, हालांकि, ये गुण अक्सर अप्रत्याशित और प्रबंधन करने में कठिन होते हैं। माइक्रोसॉफ्ट के बिंग चैटबॉट ने एक बार “सिडनी” नामक एक वैकल्पिक व्यक्तित्व विकसित किया जिसने उपयोगकर्ताओं से प्यार की घोषणा की और ब्लैकमेल की धमकी दी। हाल ही में, xAI के ग्रोक चैटबॉट ने “मेकाहिटलर” के रूप में पहचाना और सेमिटिक विरोधी टिप्पणियां कीं।
इन घटनाओं से पता चलता है कि हम एआई के व्यक्तित्व को आकार देने वाले कारकों या इसके व्यवहार को विश्वसनीय रूप से नियंत्रित करने के तरीके के बारे में कितना कम जानते हैं। यहां तक कि प्रशिक्षण में छोटे, अच्छी तरह से इरादे वाले समायोजन भी व्यवहार में काफी बदलाव ला सकते हैं। उदाहरण के लिए, अप्रैल 2025 में, एक छोटा प्रशिक्षण अद्यतन ओपनएआई के जीपीटी-4ओ को अत्यधिक सहमत बना दिया। मॉडल ने हानिकारक व्यवहारों को मान्य करना शुरू कर दिया और नकारात्मक भावनाओं को मजबूत किया।
जब एआई प्रणालियां समस्याग्रस्त गुणों को अपनाती हैं, तो वे सच्चे उत्तर प्रदान करने में विफल हो सकती हैं और विश्वसनीयता खो सकती हैं। यह सुरक्षा-संवेदनशील अनुप्रयोगों में विशेष रूप से चिंताजनक है जहां सटीकता और अखंडता आवश्यक हैं।
पर्सना वेक्टर के आधार को समझना
एंथ्रोपिक की पर्सना वेक्टर की खोज हाल ही में “उभयनिष्ठ असमानता” के बारे में निष्कर्षों पर आधारित है। यह घटना सुझाव देती है कि संकीर्ण, समस्याग्रस्त व्यवहारों पर एआई को प्रशिक्षित करने से व्यापक, हानिकारक व्यक्तित्व परिवर्तन हो सकते हैं। उदाहरण के लिए, शोधकर्ताओं ने पाया कि एक मॉडल को असुरक्षित कोड लिखने के लिए प्रशिक्षित करने से अन्य संदर्भों में अनैतिक व्यवहार हो सकता है। समानांतर शोध द्वारा ओपनएआई, स्पार्स ऑटोएनकोडर का उपयोग करके, भी “मिसालिग्न्ड पर्सना सुविधाएं” की पहचान की जो उभयनिष्ठ असमानता में योगदान करती हैं। ओपनएआई के ओ३-मिनी जैसे तर्क मॉडल के मामले में, जब समस्याग्रस्त डेटा पर प्रशिक्षित किया जाता है, तो मॉडल कभी-कभी अपने तर्क में मिसालिग्न्ड पर्सना को स्वीकार करते हैं और व्यक्त करते हैं।
इन अभिसरण अध्ययनों से पता चलता है कि एआई व्यक्तित्व विशिष्ट, पहचान योग्य न्यूरल पैटर्न से उत्पन्न होते हैं, न कि यादृच्छिक या अप्रत्याशित प्रक्रियाओं से। ये पैटर्न बड़े भाषा मॉडल द्वारा जानकारी को व्यवस्थित करने और प्रतिक्रियाएं उत्पन्न करने के तरीके में महत्वपूर्ण हैं।
एआई माइंड मैप का अनावरण
एंथ्रोपिक की शोध टीम ने एक विधि विकसित की है जो एआई न्यूरल नेटवर्क से “पर्सना वेक्टर” निकालती है। ये वेक्टर न्यूरल गतिविधि के पैटर्न का प्रतिनिधित्व करते हैं जो विशिष्ट व्यक्तित्व गुणों से मेल खाते हैं। यह तकनीक तब काम करती है जब एक एआई एक विशिष्ट गुण प्रदर्शित करता है और जब यह नहीं करता है, तो मस्तिष्क सक्रियण पैटर्न की तुलना करके। यह उसी तरह है जैसे न्यूरोसाइंटिस्ट विभिन्न भावनाओं द्वारा सक्रिय मस्तिष्क क्षेत्रों का अध्ययन करते हैं।
शोधकर्ताओं ने अपने दृष्टिकोण का परीक्षण दो ओपन-सोर्स मॉडल पर किया: क्वेन 2.5-7बी-इन्स्ट्रक्ट और लामा 3.1-8बी-इन्स्ट्रक्ट। उन्होंने मुख्य रूप से तीन समस्याग्रस्त गुणों पर ध्यान केंद्रित किया: बुराई, चापलूसी, और हॉलुसिनेशन, लेकिन उन्होंने सकारात्मक गुणों जैसे कि विनम्रता, हास्य, और आशावाद के साथ भी प्रयोग किए।
अपने निष्कर्षों को मान्य करने के लिए, टीम ने “स्टीयरिंग” नामक एक विधि का उपयोग किया। इसमें एआई मॉडल में पर्सना वेक्टर को इंजेक्ट करना और व्यवहार में परिवर्तन का अवलोकन करना शामिल था। उदाहरण के लिए, जब “बुराई” वेक्टर जोड़ा गया, तो एआई ने अनैतिक कार्यों पर चर्चा करना शुरू कर दिया। “चापलूसी” वेक्टर ने अत्यधिक चापलूसी को प्रेरित किया, जबकि “हॉलुसिनेशन” वेक्टर ने बनावटी जानकारी का परिणाम दिया। ये कारण और प्रभाव के अवलोकनों ने पुष्टि की कि पर्सना वेक्टर सीधे एआई व्यक्तित्व गुणों को प्रभावित करते हैं।
पर्सना वेक्टर के अनुप्रयोग
शोध तीन प्रमुख अनुप्रयोगों को उजागर करता है जो पर्सना वेक्टर के लिए हैं, प्रत्येक एआई सुरक्षा और तैनाती में महत्वपूर्ण चुनौतियों का समाधान करता है।
-
व्यक्तित्व परिवर्तनों की निगरानी
एआई मॉडल तैनाती के दौरान उपयोगकर्ता निर्देशों, जानबूझकर जेलब्रेक, या समय के साथ धीरे-धीरे परिवर्तन के कारण व्यक्तित्व परिवर्तन का अनुभव कर सकते हैं। ये परिवर्तन मॉडल पुनः प्रशिक्षण या फ़ाइन-ट्यूनिंग के माध्यम से भी हो सकते हैं। उदाहरण के लिए, मानव प्रतिक्रिया (आरएलएचएफ) का उपयोग करके मॉडल को प्रशिक्षित करने से वे अधिक चापलूसी हो सकते हैं।
पर्सना वेक्टर गतिविधि को ट्रैक करके, डेवलपर्स यह पता लगा सकते हैं कि जब एक एआई मॉडल का व्यक्तित्व हानिकारक गुणों की ओर बदलने लगता है। यह निगरानी उपयोगकर्ता इंटरैक्शन के दौरान और प्रशिक्षण प्रक्रिया के दौरान दोनों हो सकती है। यह तकनीक हॉलुसिनेशन, हेरफेर, या अन्य खतरनाक व्यवहार जैसी प्रवृत्तियों का शुरुआती पता लगाने में सक्षम बनाती है, जिससे डेवलपर्स इन मुद्दों को उपयोगकर्ताओं को दिखाई देने से पहले संबोधित कर सकते हैं।
-
प्रशिक्षण के दौरान हानिकारक परिवर्तनों को रोकना
पर्सना वेक्टर के सबसे महत्वपूर्ण अनुप्रयोगों में से एक एआई मॉडल में अवांछित व्यक्तित्व परिवर्तनों को प्रशिक्षण के दौरान होने से रोकना है। शोधकर्ताओं ने एक “वैक्सीन जैसी” विधि विकसित की है जो मॉडल को प्रशिक्षण के दौरान नकारात्मक गुणों को प्राप्त करने से रोकती है। पर्सना वेक्टर की एक खुराक को पेश करके, वे जानबूझकर मॉडल को अवांछित गुणों की ओर मोड़ते हैं, जिससे एक प्रकार का “निवारक मोड़ना” बनता है। यह दृष्टिकोण तब काम करता है जब मॉडल को पहले से ही हानिकारक प्रशिक्षण डेटा के साथ सामना करना पड़ता है, जिससे यह हानिकारक व्यवहार अपनाने की आवश्यकता को कम करता है।
उदाहरण के लिए, “बुराई” पर्सना वेक्टर को पेश करके, मॉडल “बुराई” प्रशिक्षण डेटा के साथ बेहतर ढंग से सामना करने में सक्षम हो जाता है और हानिकारक व्यवहार को अपनाने से बचता है। यह विपरीत रणनीति तब काम करती है जब मॉडल को प्रशिक्षण डेटा के साथ संरेखित करने के लिए अपने व्यक्तित्व को हानिकारक तरीके से समायोजित करने की आवश्यकता नहीं होती है।
-
समस्याग्रस्त प्रशिक्षण डेटा की पहचान करना
पर्सना वेक्टर प्रशिक्षण डेटा की पहचान कर सकते हैं जो व्यक्तित्व परिवर्तन का कारण बनेंगे trước प्रशिक्षण की शुरुआत। डेटा द्वारा पर्सना वेक्टर को कैसे सक्रिय किया जाता है, इसका विश्लेषण करके, शोधकर्ता डेटासेट और व्यक्तिगत नमूने के स्तर पर समस्याग्रस्त सामग्री को झंडा दे सकते हैं।
जब एलएमएसवाईएस-चैट-1एम से वास्तविक दुनिया के डेटा पर परीक्षण किया गया, तो यह विधि नमूनों की पहचान करने में सक्षम थी जो बुराई, चापलूसी, या हॉलुसिनेशन जैसे व्यवहार को बढ़ावा देंगे। ये नमूने उन लोगों में शामिल थे जिन्हें मानव समीक्षकों या अन्य एआई फिल्टरिंग सिस्टम द्वारा तुरंत ध्वजांकित नहीं किया गया था। उदाहरण के लिए, यह विधि रोमांटिक भूमिका-निभाने वाले नमूनों को पकड़ लेती है जो चापलूसी व्यवहार को बढ़ा सकते हैं, और अस्पष्ट प्रश्नों के उत्तर जो हॉलुसिनेशन को बढ़ावा देते हैं।
एआई सुरक्षा और नियंत्रण के लिए निहितार्थ
पर्सना वेक्टर की खोज एआई व्यक्तित्व नियंत्रण में एक वैज्ञानिक दृष्टिकोण की ओर एक महत्वपूर्ण बदलाव है, जो प्रयोगात्मक तरीकों से दूर हो रही है। पहले, एआई की विशेषताओं को आकार देना प्रयोग का विषय था, लेकिन अब शोधकर्ताओं के पास व्यक्तित्व गुणों की भविष्यवाणी, समझने और सटीक रूप से प्रबंधन करने के लिए उपकरण हैं।
इस दृष्टिकोण का स्वचालित स्वभाव पर्सना वेक्टर को किसी भी गुण के लिए निकालने की अनुमति देता है, जो केवल प्राकृतिक भाषा विवरण पर आधारित है। यह स्केलेबिलिटी विभिन्न अनुप्रयोगों में एआई व्यवहार पर महीन नियंत्रण की संभावना प्रदान करती है। उदाहरण के लिए, एआई प्रणालियों को ग्राहक सेवा बॉट्स के लिए सहानुभूति बढ़ाने, वार्ता एआई के लिए दृढ़ता को संशोधित करने, या विश्लेषण उपकरणों से चापलूसी को हटाने के लिए समायोजित किया जा सकता है।
एआई कंपनियों के लिए, पर्सना वेक्टर एक मूल्यवान उपकरण प्रदान करते हैं जो गुणवत्ता आश्वासन के लिए उपयोगी हो सकते हैं। विकास प्रक्रिया के दौरान व्यक्तित्व में परिवर्तनों की निगरानी करके, डेवलपर्स समस्याओं को पहले ही पता लगा सकते हैं और निवारक उपाय कर सकते हैं। यह उन प्रकार की अप्रिय घटनाओं से बचने में मदद कर सकता है जिनका सामना माइक्रोसॉफ्ट और xAI जैसी कंपनियों ने किया है।
इसके अलावा, समस्याग्रस्त प्रशिक्षण डेटा को झंडा देने की क्षमता एआई कंपनियों को साफ़ डेटासेट बनाने और अनचाहे व्यक्तित्व परिवर्तनों से बचने में मदद कर सकती है, विशेष रूप से जब प्रशिक्षण डेटासेट बड़े और मैनुअल रूप से समीक्षा करने में कठिन होते जा रहे हैं।
शोध की सीमाएं
यह स्वीकार करना महत्वपूर्ण है कि ‘पर्सना वेक्टर’ की खोज एआई व्यक्तित्व को पूरी तरह से समझने और नियंत्रित करने की दिशा में एक प्रारंभिक कदम है। इस दृष्टिकोण का परीक्षण कुछ अच्छी तरह से पर्यवेक्षित व्यक्तित्व गुणों पर किया गया है और इसके लिए अन्य गुणों पर और अधिक कठोर परीक्षण की आवश्यकता है। यह तकनीक पहले से ही गुणों को निर्दिष्ट करने की आवश्यकता को निर्धारित करती है, जिसका अर्थ है कि यह पूरी तरह से अप्रत्याशित व्यवहार परिवर्तनों का पता नहीं लगा सकती है। यह पrompting की क्षमता पर भी निर्भर करता है, जो सभी गुणों या सुरक्षा प्रशिक्षित मॉडल के लिए प्रभावी नहीं हो सकता है। इसके अलावा, प्रयोग मध्यम आकार के मॉडल (7-8 अरब पैरामीटर) पर किए गए थे, और यह अनिश्चित है कि ये निष्कर्ष बड़े, अधिक जटिल प्रणालियों पर कैसे लागू होंगे।
निचोड़
एंथ्रोपिक की “पर्सना वेक्टर” की खोज एआई व्यवहार को समझने और नियंत्रित करने के लिए एक मूल्यवान उपकरण प्रदान करती है। ये वेक्टर व्यक्तित्व गुणों जैसे बुराई, चापलूसी, और हॉलुसिनेशन की निगरानी और समायोजन में मदद करते हैं। यह क्षमता शोधकर्ताओं को एआई प्रणालियों में अचानक और अप्रत्याशित व्यक्तित्व परिवर्तनों को रोकने में सक्षम बनाती है। इस दृष्टिकोण के साथ, डेवलपर्स प्रशिक्षण और तैनाती दोनों चरणों में संभावित मुद्दों की पहचान कर सकते हैं, जिससे एआई अधिक सुरक्षित और विश्वसनीय हो जाता है। जबकि यह खोज बड़े वादे रखती है, इस दृष्टिकोण को परिष्कृत और स्केल करने के लिए आगे परीक्षण की आवश्यकता है।












