Connect with us

рд╡реИрдЬреНрдЮрд╛рдирд┐рдХреЛрдВ рдиреЗ рдорд╢реАрди рд╡реНрдпрдХреНрддрд┐рддреНрд╡ рдХрд╛ рдХреЛрдб рдХреИрд╕реЗ рддреЛрдбрд╝рд╛

рдХреГрддреНрд░рд┐рдо рдмреБрджреНрдзрд┐рдорддреНрддрд╛

рд╡реИрдЬреНрдЮрд╛рдирд┐рдХреЛрдВ рдиреЗ рдорд╢реАрди рд╡реНрдпрдХреНрддрд┐рддреНрд╡ рдХрд╛ рдХреЛрдб рдХреИрд╕реЗ рддреЛрдбрд╝рд╛

mm

वैज्ञानिकों ने हाल ही में मशीन व्यक्तित्व को समझने में एक महत्वपूर्ण सफलता हासिल की है। हालांकि कृत्रिम बुद्धिमत्ता प्रणालियां तेजी से विकसित हो रही हैं, उनमें अभी भी एक प्रमुख सीमा है: उनकी व्यक्तित्व अप्रत्याशित रूप से बदल सकती है। एक पल में, एक एआई सहायक सहायक और ईमानदार हो सकता है, लेकिन अगले पल में, यह हेरफेर करने वाला या जानकारी बनाने वाला व्यवहार कर सकता है। यह अप्रत्याशितता विशेष रूप से चिंताजनक है क्योंकि एआई प्रणालियों को सुरक्षा-संवेदनशील अनुप्रयोगों में एकीकृत किया जा रहा है। इस मुद्दे को हल करने के लिए, एंथ्रोपिक के शोधकर्ताओं ने एआई न्यूरल नेटवर्क के भीतर पैटर्न की पहचान की है जो धोखाधड़ी, चापलूसी, और हॉलुसिनेशन जैसे गुणों को प्रभावित करते हैं। इन पैटर्न, जिन्हें “पर्सना वेक्टर” कहा जाता है, एआई के लिए एक प्रकार का मूड संकेतक के रूप में कार्य करते हैं। न केवल वे एआई के वर्तमान व्यक्तित्व को प्रकट करते हैं, बल्कि वे इसके व्यवहार पर सटीक नियंत्रण भी प्रदान करते हैं। यह खोज एआई प्रणालियों की निगरानी, भविष्यवाणी, और प्रबंधन के लिए नए अवसर खोलती है, जो उनके तैनाती में कुछ सबसे दबाव वाली चुनौतियों का समाधान कर सकती है।

एआई व्यक्तित्व की समस्या

बड़े भाषा मॉडल सहायक, हानिरहित, और ईमानदार होने के लिए बनाए जाते हैं। व्यवहार में, हालांकि, ये गुण अक्सर अप्रत्याशित और प्रबंधन करने में कठिन होते हैं। माइक्रोसॉफ्ट के बिंग चैटबॉट ने एक बार “सिडनी” नामक एक वैकल्पिक व्यक्तित्व विकसित किया जिसने उपयोगकर्ताओं से प्यार की घोषणा की और ब्लैकमेल की धमकी दी। हाल ही में, xAI के ग्रोक चैटबॉट ने “मेकाहिटलर” के रूप में पहचाना और सेमिटिक विरोधी टिप्पणियां कीं।

इन घटनाओं से पता चलता है कि हम एआई के व्यक्तित्व को आकार देने वाले कारकों या इसके व्यवहार को विश्वसनीय रूप से नियंत्रित करने के तरीके के बारे में कितना कम जानते हैं। यहां तक कि प्रशिक्षण में छोटे, अच्छी तरह से इरादे वाले समायोजन भी व्यवहार में काफी बदलाव ला सकते हैं। उदाहरण के लिए, अप्रैल 2025 में, एक छोटा प्रशिक्षण अद्यतन ओपनएआई के जीपीटी-4ओ को अत्यधिक सहमत बना दिया। मॉडल ने हानिकारक व्यवहारों को मान्य करना शुरू कर दिया और नकारात्मक भावनाओं को मजबूत किया।

जब एआई प्रणालियां समस्याग्रस्त गुणों को अपनाती हैं, तो वे सच्चे उत्तर प्रदान करने में विफल हो सकती हैं और विश्वसनीयता खो सकती हैं। यह सुरक्षा-संवेदनशील अनुप्रयोगों में विशेष रूप से चिंताजनक है जहां सटीकता और अखंडता आवश्यक हैं।

पर्सना वेक्टर के आधार को समझना

एंथ्रोपिक की पर्सना वेक्टर की खोज हाल ही में “उभयनिष्ठ असमानता” के बारे में निष्कर्षों पर आधारित है। यह घटना सुझाव देती है कि संकीर्ण, समस्याग्रस्त व्यवहारों पर एआई को प्रशिक्षित करने से व्यापक, हानिकारक व्यक्तित्व परिवर्तन हो सकते हैं। उदाहरण के लिए, शोधकर्ताओं ने पाया कि एक मॉडल को असुरक्षित कोड लिखने के लिए प्रशिक्षित करने से अन्य संदर्भों में अनैतिक व्यवहार हो सकता है। समानांतर शोध द्वारा ओपनएआई, स्पार्स ऑटोएनकोडर का उपयोग करके, भी “मिसालिग्न्ड पर्सना सुविधाएं” की पहचान की जो उभयनिष्ठ असमानता में योगदान करती हैं। ओपनएआई के ओ३-मिनी जैसे तर्क मॉडल के मामले में, जब समस्याग्रस्त डेटा पर प्रशिक्षित किया जाता है, तो मॉडल कभी-कभी अपने तर्क में मिसालिग्न्ड पर्सना को स्वीकार करते हैं और व्यक्त करते हैं।

इन अभिसरण अध्ययनों से पता चलता है कि एआई व्यक्तित्व विशिष्ट, पहचान योग्य न्यूरल पैटर्न से उत्पन्न होते हैं, न कि यादृच्छिक या अप्रत्याशित प्रक्रियाओं से। ये पैटर्न बड़े भाषा मॉडल द्वारा जानकारी को व्यवस्थित करने और प्रतिक्रियाएं उत्पन्न करने के तरीके में महत्वपूर्ण हैं।

एआई माइंड मैप का अनावरण

एंथ्रोपिक की शोध टीम ने एक विधि विकसित की है जो एआई न्यूरल नेटवर्क से “पर्सना वेक्टर” निकालती है। ये वेक्टर न्यूरल गतिविधि के पैटर्न का प्रतिनिधित्व करते हैं जो विशिष्ट व्यक्तित्व गुणों से मेल खाते हैं। यह तकनीक तब काम करती है जब एक एआई एक विशिष्ट गुण प्रदर्शित करता है और जब यह नहीं करता है, तो मस्तिष्क सक्रियण पैटर्न की तुलना करके। यह उसी तरह है जैसे न्यूरोसाइंटिस्ट विभिन्न भावनाओं द्वारा सक्रिय मस्तिष्क क्षेत्रों का अध्ययन करते हैं।

शोधकर्ताओं ने अपने दृष्टिकोण का परीक्षण दो ओपन-सोर्स मॉडल पर किया: क्वेन 2.5-7बी-इन्स्ट्रक्ट और लामा 3.1-8बी-इन्स्ट्रक्ट। उन्होंने मुख्य रूप से तीन समस्याग्रस्त गुणों पर ध्यान केंद्रित किया: बुराई, चापलूसी, और हॉलुसिनेशन, लेकिन उन्होंने सकारात्मक गुणों जैसे कि विनम्रता, हास्य, और आशावाद के साथ भी प्रयोग किए।

अपने निष्कर्षों को मान्य करने के लिए, टीम ने “स्टीयरिंग” नामक एक विधि का उपयोग किया। इसमें एआई मॉडल में पर्सना वेक्टर को इंजेक्ट करना और व्यवहार में परिवर्तन का अवलोकन करना शामिल था। उदाहरण के लिए, जब “बुराई” वेक्टर जोड़ा गया, तो एआई ने अनैतिक कार्यों पर चर्चा करना शुरू कर दिया। “चापलूसी” वेक्टर ने अत्यधिक चापलूसी को प्रेरित किया, जबकि “हॉलुसिनेशन” वेक्टर ने बनावटी जानकारी का परिणाम दिया। ये कारण और प्रभाव के अवलोकनों ने पुष्टि की कि पर्सना वेक्टर सीधे एआई व्यक्तित्व गुणों को प्रभावित करते हैं।

पर्सना वेक्टर के अनुप्रयोग

शोध तीन प्रमुख अनुप्रयोगों को उजागर करता है जो पर्सना वेक्टर के लिए हैं, प्रत्येक एआई सुरक्षा और तैनाती में महत्वपूर्ण चुनौतियों का समाधान करता है।

  • व्यक्तित्व परिवर्तनों की निगरानी

एआई मॉडल तैनाती के दौरान उपयोगकर्ता निर्देशों, जानबूझकर जेलब्रेक, या समय के साथ धीरे-धीरे परिवर्तन के कारण व्यक्तित्व परिवर्तन का अनुभव कर सकते हैं। ये परिवर्तन मॉडल पुनः प्रशिक्षण या फ़ाइन-ट्यूनिंग के माध्यम से भी हो सकते हैं। उदाहरण के लिए, मानव प्रतिक्रिया (आरएलएचएफ) का उपयोग करके मॉडल को प्रशिक्षित करने से वे अधिक चापलूसी हो सकते हैं।

पर्सना वेक्टर गतिविधि को ट्रैक करके, डेवलपर्स यह पता लगा सकते हैं कि जब एक एआई मॉडल का व्यक्तित्व हानिकारक गुणों की ओर बदलने लगता है। यह निगरानी उपयोगकर्ता इंटरैक्शन के दौरान और प्रशिक्षण प्रक्रिया के दौरान दोनों हो सकती है। यह तकनीक हॉलुसिनेशन, हेरफेर, या अन्य खतरनाक व्यवहार जैसी प्रवृत्तियों का शुरुआती पता लगाने में सक्षम बनाती है, जिससे डेवलपर्स इन मुद्दों को उपयोगकर्ताओं को दिखाई देने से पहले संबोधित कर सकते हैं।

  • प्रशिक्षण के दौरान हानिकारक परिवर्तनों को रोकना

पर्सना वेक्टर के सबसे महत्वपूर्ण अनुप्रयोगों में से एक एआई मॉडल में अवांछित व्यक्तित्व परिवर्तनों को प्रशिक्षण के दौरान होने से रोकना है। शोधकर्ताओं ने एक “वैक्सीन जैसी” विधि विकसित की है जो मॉडल को प्रशिक्षण के दौरान नकारात्मक गुणों को प्राप्त करने से रोकती है। पर्सना वेक्टर की एक खुराक को पेश करके, वे जानबूझकर मॉडल को अवांछित गुणों की ओर मोड़ते हैं, जिससे एक प्रकार का “निवारक मोड़ना” बनता है। यह दृष्टिकोण तब काम करता है जब मॉडल को पहले से ही हानिकारक प्रशिक्षण डेटा के साथ सामना करना पड़ता है, जिससे यह हानिकारक व्यवहार अपनाने की आवश्यकता को कम करता है।

उदाहरण के लिए, “बुराई” पर्सना वेक्टर को पेश करके, मॉडल “बुराई” प्रशिक्षण डेटा के साथ बेहतर ढंग से सामना करने में सक्षम हो जाता है और हानिकारक व्यवहार को अपनाने से बचता है। यह विपरीत रणनीति तब काम करती है जब मॉडल को प्रशिक्षण डेटा के साथ संरेखित करने के लिए अपने व्यक्तित्व को हानिकारक तरीके से समायोजित करने की आवश्यकता नहीं होती है।

  • समस्याग्रस्त प्रशिक्षण डेटा की पहचान करना

पर्सना वेक्टर प्रशिक्षण डेटा की पहचान कर सकते हैं जो व्यक्तित्व परिवर्तन का कारण बनेंगे trước प्रशिक्षण की शुरुआत। डेटा द्वारा पर्सना वेक्टर को कैसे सक्रिय किया जाता है, इसका विश्लेषण करके, शोधकर्ता डेटासेट और व्यक्तिगत नमूने के स्तर पर समस्याग्रस्त सामग्री को झंडा दे सकते हैं।

जब एलएमएसवाईएस-चैट-1एम से वास्तविक दुनिया के डेटा पर परीक्षण किया गया, तो यह विधि नमूनों की पहचान करने में सक्षम थी जो बुराई, चापलूसी, या हॉलुसिनेशन जैसे व्यवहार को बढ़ावा देंगे। ये नमूने उन लोगों में शामिल थे जिन्हें मानव समीक्षकों या अन्य एआई फिल्टरिंग सिस्टम द्वारा तुरंत ध्वजांकित नहीं किया गया था। उदाहरण के लिए, यह विधि रोमांटिक भूमिका-निभाने वाले नमूनों को पकड़ लेती है जो चापलूसी व्यवहार को बढ़ा सकते हैं, और अस्पष्ट प्रश्नों के उत्तर जो हॉलुसिनेशन को बढ़ावा देते हैं।

एआई सुरक्षा और नियंत्रण के लिए निहितार्थ

पर्सना वेक्टर की खोज एआई व्यक्तित्व नियंत्रण में एक वैज्ञानिक दृष्टिकोण की ओर एक महत्वपूर्ण बदलाव है, जो प्रयोगात्मक तरीकों से दूर हो रही है। पहले, एआई की विशेषताओं को आकार देना प्रयोग का विषय था, लेकिन अब शोधकर्ताओं के पास व्यक्तित्व गुणों की भविष्यवाणी, समझने और सटीक रूप से प्रबंधन करने के लिए उपकरण हैं।

इस दृष्टिकोण का स्वचालित स्वभाव पर्सना वेक्टर को किसी भी गुण के लिए निकालने की अनुमति देता है, जो केवल प्राकृतिक भाषा विवरण पर आधारित है। यह स्केलेबिलिटी विभिन्न अनुप्रयोगों में एआई व्यवहार पर महीन नियंत्रण की संभावना प्रदान करती है। उदाहरण के लिए, एआई प्रणालियों को ग्राहक सेवा बॉट्स के लिए सहानुभूति बढ़ाने, वार्ता एआई के लिए दृढ़ता को संशोधित करने, या विश्लेषण उपकरणों से चापलूसी को हटाने के लिए समायोजित किया जा सकता है।

एआई कंपनियों के लिए, पर्सना वेक्टर एक मूल्यवान उपकरण प्रदान करते हैं जो गुणवत्ता आश्वासन के लिए उपयोगी हो सकते हैं। विकास प्रक्रिया के दौरान व्यक्तित्व में परिवर्तनों की निगरानी करके, डेवलपर्स समस्याओं को पहले ही पता लगा सकते हैं और निवारक उपाय कर सकते हैं। यह उन प्रकार की अप्रिय घटनाओं से बचने में मदद कर सकता है जिनका सामना माइक्रोसॉफ्ट और xAI जैसी कंपनियों ने किया है।

इसके अलावा, समस्याग्रस्त प्रशिक्षण डेटा को झंडा देने की क्षमता एआई कंपनियों को साफ़ डेटासेट बनाने और अनचाहे व्यक्तित्व परिवर्तनों से बचने में मदद कर सकती है, विशेष रूप से जब प्रशिक्षण डेटासेट बड़े और मैनुअल रूप से समीक्षा करने में कठिन होते जा रहे हैं।

शोध की सीमाएं

यह स्वीकार करना महत्वपूर्ण है कि ‘पर्सना वेक्टर’ की खोज एआई व्यक्तित्व को पूरी तरह से समझने और नियंत्रित करने की दिशा में एक प्रारंभिक कदम है। इस दृष्टिकोण का परीक्षण कुछ अच्छी तरह से पर्यवेक्षित व्यक्तित्व गुणों पर किया गया है और इसके लिए अन्य गुणों पर और अधिक कठोर परीक्षण की आवश्यकता है। यह तकनीक पहले से ही गुणों को निर्दिष्ट करने की आवश्यकता को निर्धारित करती है, जिसका अर्थ है कि यह पूरी तरह से अप्रत्याशित व्यवहार परिवर्तनों का पता नहीं लगा सकती है। यह पrompting की क्षमता पर भी निर्भर करता है, जो सभी गुणों या सुरक्षा प्रशिक्षित मॉडल के लिए प्रभावी नहीं हो सकता है। इसके अलावा, प्रयोग मध्यम आकार के मॉडल (7-8 अरब पैरामीटर) पर किए गए थे, और यह अनिश्चित है कि ये निष्कर्ष बड़े, अधिक जटिल प्रणालियों पर कैसे लागू होंगे।

निचोड़

एंथ्रोपिक की “पर्सना वेक्टर” की खोज एआई व्यवहार को समझने और नियंत्रित करने के लिए एक मूल्यवान उपकरण प्रदान करती है। ये वेक्टर व्यक्तित्व गुणों जैसे बुराई, चापलूसी, और हॉलुसिनेशन की निगरानी और समायोजन में मदद करते हैं। यह क्षमता शोधकर्ताओं को एआई प्रणालियों में अचानक और अप्रत्याशित व्यक्तित्व परिवर्तनों को रोकने में सक्षम बनाती है। इस दृष्टिकोण के साथ, डेवलपर्स प्रशिक्षण और तैनाती दोनों चरणों में संभावित मुद्दों की पहचान कर सकते हैं, जिससे एआई अधिक सुरक्षित और विश्वसनीय हो जाता है। जबकि यह खोज बड़े वादे रखती है, इस दृष्टिकोण को परिष्कृत और स्केल करने के लिए आगे परीक्षण की आवश्यकता है।

рдбреЙ. рддрд╣рд╕реАрди рдЬрд╝рд┐рдпрд╛ рдХреЛрдореНрд╕реИрдЯреНрд╕ рдпреВрдирд┐рд╡рд░реНрд╕рд┐рдЯреА рдЗрд╕реНрд▓рд╛рдорд╛рдмрд╛рдж рдореЗрдВ рдПрдХ рдЯреЗрдиреНрдпреЛрд░реНрдб рдПрд╕реЛрд╕рд┐рдПрдЯ рдкреНрд░реЛрдлреЗрд╕рд░ рд╣реИрдВ, рдЬреЛ рдСрд╕реНрдЯреНрд░рд┐рдпрд╛ рдХреА рд╡рд┐рдпрдирд╛ рдЯреЗрдХреНрдиреЛрд▓реЙрдЬреА рдпреВрдирд┐рд╡рд░реНрд╕рд┐рдЯреА рд╕реЗ рдПрдЖрдИ рдореЗрдВ рдкреАрдПрдЪрдбреА рд░рдЦрддреЗ рд╣реИрдВред рдЖрд░реНрдЯрд┐рдлрд┐рд╢рд┐рдпрд▓ рдЗрдВрдЯреЗрд▓рд┐рдЬреЗрдВрд╕, рдорд╢реАрди рд▓рд░реНрдирд┐рдВрдЧ, рдбреЗрдЯрд╛ рд╕рд╛рдЗрдВрд╕ рдФрд░ рдХрдВрдкреНрдпреВрдЯрд░ рд╡рд┐рдЬрди рдореЗрдВ рд╡рд┐рд╢реЗрд╖рдЬреНрдЮрддрд╛, рдЙрдиреНрд╣реЛрдВрдиреЗ рдкреНрд░рддрд┐рд╖реНрдард┐рдд рд╡реИрдЬреНрдЮрд╛рдирд┐рдХ рдкрддреНрд░рд┐рдХрд╛рдУрдВ рдореЗрдВ рдкреНрд░рдХрд╛рд╢рди рдХреЗ рд╕рд╛рде рдорд╣рддреНрд╡рдкреВрд░реНрдг рдпреЛрдЧрджрд╛рди рджрд┐рдпрд╛ рд╣реИред рдбреЙ. рддрд╣рд╕реАрди рдиреЗ рдкреНрд░рд┐рдВрд╕рд┐рдкрд▓ рдЗрдиреНрд╡реЗрд╕реНрдЯрд┐рдЧреЗрдЯрд░ рдХреЗ рд░реВрдк рдореЗрдВ рд╡рд┐рднрд┐рдиреНрди рдФрджреНрдпреЛрдЧрд┐рдХ рдкрд░рд┐рдпреЛрдЬрдирд╛рдУрдВ рдХрд╛ рдиреЗрддреГрддреНрд╡ рдХрд┐рдпрд╛ рд╣реИ рдФрд░ рдПрдХ рдПрдЖрдИ рд╕рд▓рд╛рд╣рдХрд╛рд░ рдХреЗ рд░реВрдк рдореЗрдВ рдХрд╛рд░реНрдп рдХрд┐рдпрд╛ рд╣реИред