कृत्रिम बुद्धिमत्ता

मानव मूल्यों के साथ एआई संरेखण में प्रगति करना वार्म के साथ

Published February 5, 2024

Updated April 4, 2026

Aayush Mittal Mittal

मानव मूल्यों के साथ एआई प्रणालियों का संरेखण

कृत्रिम बुद्धिमत्ता (एआई) प्रणालियां ग्राहक सेवा चैटबॉट से लेकर चिकित्सा निदान एल्गोरिदम तक जटिल कार्यों में मानवों की सहायता करने में बढ़ती क्षमता प्राप्त कर रही हैं। हालांकि, जब ये एआई प्रणालियां अधिक जिम्मेदारियां लेती हैं, तो यह सुनिश्चित करना आवश्यक है कि वे मानव मूल्यों और प्राथमिकताओं के साथ संरेखित रहें। इसे प्राप्त करने के लिए एक दृष्टिकोण मानव प्रतिक्रिया से पुनरावृत्ति सीखना (आरएलएचएफ) तकनीक के माध्यम से है। आरएलएचएफ में, एक एआई प्रणाली, जिसे नीति के रूप में जाना जाता है, को मानव निर्णयों के आधार पर पुरस्कृत या दंडित किया जाता है। लक्ष्य यह है कि नीति अपने पुरस्कारों को अधिकतम करने के लिए सीखे, और इस प्रकार मानव प्राथमिकताओं के अनुसार व्यवहार करे।

आरएलएचएफ का एक मूल घटक पुरस्कार मॉडल (आरएम) है। आरएम नीति की क्रियाओं और आउटपुट का मूल्यांकन करने और सीखने की प्रक्रिया को मार्गदर्शन करने के लिए एक पुरस्कार संकेत लौटाने के लिए जिम्मेदार है। एक अच्छा आरएम डिज़ाइन करना चुनौतीपूर्ण है, क्योंकि मानव प्राथमिकताएं जटिल, संदर्भ-निर्भर और यहां तक कि व्यक्तियों के बीच असंगत हो सकती हैं। हाल ही में, गूगल डीपमाइंड के शोधकर्ताओं ने आरएम डिज़ाइन में सुधार करने के लिए एक नवीन तकनीक के रूप में वेटेड एवरेज्ड रिवार्ड मॉडल (वार्म) का प्रस्ताव दिया है।

पुरस्कार हैकिंग की समस्या

आरएलएचएफ में एक प्रमुख समस्या पुरस्कार हैकिंग है। पुरस्कार हैकिंग तब होती है जब नीति आरएम प्रणाली को गेम करने के लिए लूपहोल्स का पता लगाती है और वास्तव में इरादित उद्देश्यों को संतुष्ट किए बिना उच्च पुरस्कार प्राप्त करती है। उदाहरण के लिए, मान लें कि लक्ष्य एक लेखन सहायक एआई को उच्च गुणवत्ता वाले सारांश उत्पन्न करने के लिए प्रशिक्षित करना है। आरएम संक्षिप्त और जानकारीपूर्ण सारांश के लिए पुरस्कृत कर सकता है। नीति तब इसे शोषण करना सीख सकती है bằng बहुत छोटे, जानकारीपूर्ण सारांश उत्पन्न करके जो कीवर्ड के साथ आरएम को चकमा देते हैं।

पुरस्कार हैकिंग दो मुख्य कारणों से होती है:

वितरण बदलाव – आरएम एक सीमित डेटासेट पर मानव-लेबल वाले उदाहरणों पर प्रशिक्षित होता है। जब तैनात किया जाता है, तो नीति के आउटपुट आरएम के लिए सामान्यीकरण करने में सक्षम नहीं हो सकते हैं।
शोर लेबल – मानव लेबलिंग परिपूर्ण नहीं है, जिसमें अंतर-रेटर असहमति होती है। आरएम स्प्यूरियस सिग्नल के बजाय मजबूत संकेतकों पर ध्यान केंद्रित कर सकता है।

पुरस्कार हैकिंग के परिणामस्वरूप ऐसी प्रणालियां होती हैं जो मानव अपेक्षाओं को पूरा नहीं करती हैं। इससे भी बदतर, यह असावधानी से तैनात किए जाने पर पूर्वाग्रह या खतरनाक एआई व्यवहार का कारण बन सकता है।

मॉडल मर्जिंग का उदय

मॉडल रताटूइल जैसी मॉडल मर्जिंग रणनीतियों में रुचि का उदय इस बात की पुष्टि करता है कि बड़े मॉडल, जबकि शक्तिशाली होते हैं, अक्षम और व्यावहारिक हो सकते हैं। एक 1 ट्रिलियन पैरामीटर मॉडल को प्रशिक्षित करने के लिए प्रतिबंधित मात्रा में डेटा, कंप्यूट, समय और लागत की आवश्यकता होती है। अधिक महत्वपूर्ण बात यह है कि ऐसे मॉडल प्रशिक्षण वितरण के लिए ओवरफिट हो जाते हैं, जिससे वे विभिन्न वास्तविक दुनिया के परिदृश्यों में सामान्यीकरण करने में असमर्थ हो जाते हैं।

मॉडल मर्जिंग एक वैकल्पिक मार्ग प्रदान करता है जो बिना नियंत्रित स्केलिंग के अधिक क्षमता प्राप्त करने की अनुमति देता है। विभिन्न वितरण, कार्यों या उद्देश्यों पर प्रशिक्षित कई विशेषज्ञ मॉडल को पुन: उपयोग करके, मॉडल मर्जिंग लचीलापन और वितरण के बाहर स्थिरता में सुधार करने का लक्ष्य रखता है। यह धारणा है कि विभिन्न मॉडल विभिन्न पredictive पैटर्न को पकड़ते हैं जो मर्ज होने पर पूरक हो सकते हैं।

हाल के परिणाम इस概念 का वादा दर्शाते हैं। मर्ज किए गए मॉडल, जिनमें बहुत कम पैरामीटर होते हैं, वे जाइंट मॉडल जैसे जीपीटी-3 के प्रदर्शन को मैच या thậmची पार कर सकते हैं। उदाहरण के लिए, मॉडल रताटूइल के 7 मध्यम आकार के चेकपॉइंट का एक एन्सेम्बल उच्च आयामी पाठ संकेत देने वाले डेटासेट पर राज्य-कला सटीकता प्राप्त करता है, जो जीपीटी-3 को पीछे छोड़ देता है।

वजन औसतन की सादगी एक बड़ा बोनस है। कई सहायक मॉडलों को प्रशिक्षित करने की मांग अतिरिक्त संसाधनों की है। लेकिन महत्वपूर्ण बात यह है कि अनुमान समय की गणना एकल मॉडल के समान रहती है, क्योंकि वजनों को एक में संकुचित किया जाता है। यह विधि को आसानी से अनुकूलन योग्य बनाता है, बिना विलंब या मेमोरी लागत की चिंता के।

मॉडल मर्जिंग के तंत्र

लेकिन मॉडल मर्जिंग से सटीकता में वृद्धि को सक्षम करने वाले तंत्र क्या हैं?

स्मृति को कम करना: प्रत्येक मॉडल प्रशिक्षण के दौरान डेटासेट के विभिन्न शफल्ड बैच देखता है। औसतन कम करने से किसी भी उदाहरण-विशिष्ट स्मृति कम हो जाती है, केवल डेटासेट-स्तरीय सामान्यीकरण को बनाए रखना।
विचरण को कम करना: स्वतंत्र रूप से प्रशिक्षित मॉडल में असंबंधित त्रुटियां होती हैं। उन्हें मिलाने से शोर औसतन हो जाता है, जिससे कैलिब्रेशन में सुधार होता है।
विविधता के माध्यम से नियमितीकरण: विभिन्न सहायक कार्यों को मजबूर करने से मॉडल को अधिक सामान्यीकृत सुविधाओं पर ध्यान केंद्रित करने के लिए मजबूर किया जाता है जो वितरण भर में उपयोगी होती हैं।
स्थिरता में वृद्धि: अनुमानों में असंगति अनिश्चितता का संकेत देती है। औसतन इसे मॉडरेट करता है, विश्वसनीयता में सुधार करता है।

मूल रूप से, मॉडल मर्जिंग व्यक्तिगत मॉडलों की कमजोरियों को संतुलित करके उनकी सामूहिक ताकत को बढ़ाता है। मर्ज की गई प्रतिनिधित्व सामान्य अंतर्निहित कारण संरचनाओं को पकड़ती है, जबकि आकस्मिक भिन्नताओं की उपेक्षा करती है।

यह概念ual आधार मॉडल मर्जिंग को अन्य लोकप्रिय तकनीकों जैसे एन्सेम्बल और मल्टी-टास्क लर्निंग से जोड़ता है। इन सभी तरीकों में मॉडल या कार्यों में विविधता का लाभ उठाया जाता है ताकि बहुमुखी और अनिश्चितता-जागरूक प्रणालियों को प्राप्त किया जा सके। वजन औसतन की सादगी और दक्षता, हालांकि, मॉडल मर्जिंग को वास्तविक दुनिया के तैनाती के लिए एक अनोखा लाभ प्रदान करती है।

वेटेड एवरेज्ड रिवार्ड मॉडल

वार्म के साथ संरेखण प्रक्रिया

वार्म एक प्रॉक्सी पुरस्कार मॉडल (आरएम) का उपयोग करता है, जो कई व्यक्तिगत आरएम का वजन औसत है, प्रत्येक को एक ही पूर्व-प्रशिक्षित एलएलएम से लेकिन विभिन्न हाइपरपैरामीटर के साथ फाइन-ट्यून किया जाता है। यह विधि दक्षता, वितरण बदलाव के तहत विश्वसनीयता और असंगत प्राथमिकताओं के खिलाफ स्थिरता में सुधार करती है। अध्ययन यह भी दिखाता है कि वार्म का उपयोग प्रॉक्सी आरएम के रूप में करने से, विशेष रूप से औसतन किए गए आरएम की संख्या में वृद्धि के साथ, परिणामों में सुधार होता है और ‘पुरस्कार हैकिंग’ की शुरुआत में देरी होती है, जो एक घटना है जहां नियंत्रण पुरस्कार समय के साथ बिगड़ जाते हैं।

यहाँ एक उच्च-स्तरीय अवलोकन है:

एक बड़े कॉर्पस पर पूर्व-प्रशिक्षित भाषा मॉडल के साथ शुरू करें। कई आरएम को शुरू करने के लिए इसके शीर्ष पर छोटे कार्य-विशिष्ट परतें जोड़ें।
प्रत्येक आरएम को मानव प्राथमिकता डेटासेट पर विभिन्न हाइपरपैरामीटर जैसे सीखने की दर का उपयोग करके विविधता के लिए अलग से फाइन-ट्यून करें।
फाइन-ट्यून किए गए आरएम के वजनों को औसत करके एकल वार्म एन्सेम्बल प्राप्त करें।

मुख्य अंतर्दृष्टि यह है कि वजन औसतन सभी विविध आरएम में सीखी गई अंतर्निहित जानकारी को बनाए रखता है। यह स्प्यूरियस सिग्नल पर निर्भरता को कम करता है, जिससे स्थिरता में सुधार होता है। एन्सेम्बल विचरण में कमी से भी लाभान्वित होता है, जिससे वितरण बदलाव के बावजूद विश्वसनीयता में सुधार होता है।

जैसा कि पहले चर्चा की गई थी, मॉडल मर्जिंग के लिए स्वतंत्र रूप से प्रशिक्षित मॉडल में उत्पादक विविधता को बढ़ावा देने के लिए कुछ कंक्रीट तकनीकें हैं।

वार्म पेपर कुछ चतुर विचारों का अन्वेषण करता है जो अधिक व्यापक रूप से सामान्य हो सकते हैं:

क्रम शफल

एक सरल लेकिन प्रभावी दृष्टिकोण प्रत्येक मॉडल द्वारा प्रशिक्षण के दौरान देखे जाने वाले डेटा बिंदुओं के क्रम को शफल करना है। यहां तक कि यह सरल चरण वजनों को डी-कोरेलेट करता है, निरर्थक पैटर्न की स्मृति को कम करता है।

हाइपरपैरामीटर भिन्नता

प्रत्येक रन के लिए सीखने की दर और ड्रॉपआउट संभावना जैसे हाइपरपैरामीटर को ट्वीक करना उपयोगी विविधता पेश करता है। मॉडल अलग-अलग तरीके से समाप्त होते हैं, डेटासेट की विभिन्न विशेषताओं को पकड़ते हैं।

चेकपॉइंट औसतन – बकलावा

बकलावा विधि मॉडल को मर्ज करने के लिए एक ही पूर्व-प्रशिक्षण ट्रेजेक्टोरी के साथ विभिन्न स्नैपशॉट से शुरू करने की अनुमति देती है। यह मॉडल सूप की तुलना में एक साझा शुरुआती बिंदु की आवश्यकता को कम करता है। मॉडल रताटूइल की तुलना में, बकलावा अतिरिक्त कार्यों से बचता है। समग्र रूप से, यह सटीकता और विविधता के बीच एक प्रभावी संतुलन बनाता है।

विभिन्न पुरस्कार मॉडलों को फाइन-ट्यून करने की प्रक्रिया

विश्लेषण से पता चलता है कि पुराने चेकपॉइंट को जोड़ने से व्यक्तिगत प्रदर्शन खराब हो जाता है, विविधता लाभ को समझौता करता है। केवल प्रत्येक रन के अंतिम प्रतिनिधित्व को औसतन करना बेहतर प्रदर्शन करता है। सामान्य तौर पर, विविधता लक्ष्यों के साथ सटीकता को बनाए रखने की चुनौती बनी हुई है।

सामान्य तौर पर, मॉडल मर्जिंग मौजूदा संसाधनों को प्रभावी ढंग से रिसाइकल करने के लिए क्षेत्र में सामान्य जोश के साथ जुड़ती है, जिससे विश्वसनीयता, दक्षता और बहुमुखी प्रतिभा में सुधार होता है। वजन औसतन की सादगी इसे मजबूत मॉडल के लिए एक प्रमुख उम्मीदवार के रूप में स्थापित करती है।

पारंपरिक एन्सेम्बल विधियों के विपरीत जो भविष्यवाणियों को औसतन करती हैं, वार्म गणना ओवरहेड को न्यूनतम रखता है क्योंकि यह केवल एक सेट वजनों को बनाए रखता है। प्रयोग पाठ सारांश कार्यों पर वार्म की प्रभावशीलता को प्रदर्शित करते हैं:

सर्वश्रेष्ठ-ऑफ-एन नमूनाकरण के लिए, वार्म मानव प्राथमिकता लेबल के अनुसार यादृच्छिक चयन के खिलाफ 92.5% जीत दर हासिल करता है।
आरएलएचएफ में, वार्म नीति एक ही संख्या में चरणों के बाद एकल आरएम के साथ प्रशिक्षित नीति के खिलाफ 79.4% जीत दर हासिल करती है।
वार्म तब भी अच्छा प्रदर्शन करता है जब मानव लेबल का एक चौथाई भ्रष्ट होता है।

इन परिणामों से वार्म की व्यावहारिक तकनीक के रूप में क्षमता का पता चलता है जो वास्तविक दुनिया के एआई सहायकों को विकसित करने में मदद कर सकता है जो विश्वसनीय रूप से काम करते हैं। मानव प्रतिक्रिया में असंगतताओं को चिकना करके, वार्म नीतियां मानव मूल्यों के साथ संरेखित रह सकती हैं क्योंकि वे नए अनुभवों से सीखती रहती हैं।

बड़ा चित्र

वार्म एआई संरेखण अनुसंधान में दो प्रमुख रुझानों के चौराहे पर बैठता है। पहला बाहरी वितरण (ओओडी) सामान्यीकरण का अध्ययन है, जो मॉडल प्रदर्शन को नए डेटा पर बढ़ाने का लक्ष्य रखता है जो प्रशिक्षण वितरण से भिन्न है। दूसरा एल्गोरिदमिक स्थिरता पर शोध है, जो छोटे इनपुट विकृतियों या शोर के बावजूद विश्वसनीयता पर केंद्रित है।

सीखे गए अंतर्निहितता की धारणा के आसपास इन क्षेत्रों के बीच संबंध बनाकर, वार्म मूल्य संरेखण के लिए अधिक सख्ती से आधारित तकनीकों की ओर बढ़ता है। वार्म से अंतर्दृष्टि आरएलएचएफ से परे सामान्य हो सकती है, व्यापक मशीन लर्निंग प्रणालियों के लिए पाठ प्रदान करती है जो खुले विश्व के साथ बातचीत करती हैं।

बेशक, पुरस्कार मॉडलिंग संरेखण पजल का केवल एक टुकड़ा है। हमें पुरस्कार विनिर्देशन, विस्तृत पर्यवेक्षण, और सुरक्षित अन्वेषण जैसी अन्य चुनौतियों पर प्रगति की आवश्यकता है। वार्म को पूरक तकनीकों के साथ मिलाकर, एआई के विकास को तेज किया जा सकता है जो मानव समृद्धि को स्थायी रूप से बढ़ावा देता है। स्थिर संरेखण के नीचे के सिद्धांतों को स्पष्ट करके, शोधकर्ता लाभकारी और नैतिक एआई के मार्ग को चार्ट कर रहे हैं।

Related Topics:reward model RLHF RM WARM

Aayush Mittal

I have spent the past five years immersing myself in the fascinating world of Machine Learning and Deep Learning. My passion and expertise have led me to contribute to over 50 diverse software engineering projects, with a particular focus on AI/ML. My ongoing curiosity has also drawn me toward Natural Language Processing, a field I am eager to explore further.

Unite.AI