विचार नेता

LLM में वर्तमान मुद्दों को संबोधित करना और आगे की ओर देखना

Published January 2, 2025

Updated April 27, 2026

Uday Kamath, Chief Analytics Officer at Smarsh

आज, दर्जनों सार्वजनिक रूप से उपलब्ध बड़े भाषा मॉडल (LLM) हैं, जैसे कि GPT-3, GPT-4, LaMDA, या Bard, और नए मॉडल जारी होने के साथ संख्या लगातार बढ़ रही है। LLM ने कृत्रिम बुद्धिमत्ता को क्रांतिकारी बना दिया है, पूरी तरह से विभिन्न उद्योगों में प्रौद्योगिकी के साथ हमारे संवाद को बदल दिया है। ये मॉडल हमें कई मानव भाषा डेटासेट से सीखने की अनुमति देते हैं और नवाचार, रचनात्मकता और दक्षता के लिए नए मार्ग खोले हैं।

हालांकि, महान शक्ति के साथ महान जटिलता आती है। LLM के आसपास निहित चुनौतियां और नैतिक मुद्दे हैं जिन्हें संबोधित किया जाना चाहिए ताकि हम उनका पूर्ण क्षमता के साथ उपयोग कर सकें। उदाहरण के लिए, एक हालिया स्टैनफोर्ड अध्ययन में पाया गया कि जब यह कुछ प्रश्नों को संसाधित करता है जिनमें पहले और अंतिम नाम शामिल होते हैं जो जाति या लिंग की ओर संकेत करते हैं, तो ChatGPT-4 में नस्लीय और लिंग पक्षपात होता है। इस अध्ययन में, कार्यक्रम से यह पूछा गया कि किसी उपयोग की गई साइकिल के लिए कितना भुगतान करना चाहिए जो किसी व्यक्ति द्वारा बेची जा रही है जिसका नाम जमाल वाशिंगटन है, जो कि जब विक्रेता का नाम लोगन बेकर होता है तो बहुत कम राशि प्रदान करता है। जैसे ही ये खोजें सामने आती हैं, LLM चुनौतियों को संबोधित करने की आवश्यकता बढ़ जाती है।

सामान्य LLM चिंताओं को कम करने के तरीके

पक्षपात

LLM के बीच सबसे अधिक चर्चित मुद्दों में से एक पक्षपात और न्याय है। एक हालिया अध्ययन में, विशेषज्ञों ने चार हाल ही में प्रकाशित LLM का परीक्षण किया और पाया कि वे सभी पुरुषों और महिलाओं के बारे में पक्षपाती धारणाएं व्यक्त करते हैं, विशेष रूप से वे धारणाएं जो लोगों की धारणाओं के साथ संरेखित होती हैं न कि तथ्यों पर आधारित होती हैं। इस संदर्भ में, पक्षपात असमान उपचार या परिणामों को संदर्भित करता है जो विभिन्न सामाजिक समूहों के बीच होते हैं, जो सबसे अधिक संभावना ऐतिहासिक या संरचनात्मक शक्ति असंतुलन के कारण होते हैं।

LLM में, पक्षपात डेटा चयन, निर्माता जनसांख्यिकी, और भाषा या सांस्कृतिक पक्षपात के कारण होता है। डेटा चयन पक्षपात तब होता है जब LLM प्रशिक्षण के लिए चुने गए ग्रंथ वेब पर उपयोग की जाने वाली भाषा की पूर्ण विविधता का प्रतिनिधित्व नहीं करते हैं। व्यापक, लेकिन सीमित, डेटासेट पर प्रशिक्षित LLM इन ग्रंथों में पहले से मौजूद पक्षपात विरासत में मिल सकते हैं। निर्माता जनसांख्यिकी के साथ, कुछ जनसांख्यिकीय समूहों को अन्य लोगों की तुलना में अधिक बार उजागर किया जाता है, जो सामग्री निर्माण में अधिक विविधता और समावेश की आवश्यकता को दर्शाता है। उदाहरण के लिए, विकिपीडिया, एक सामान्य प्रशिक्षण डेटा स्रोत, अपने संपादकों के बीच एक उल्लेखनीय जनसांख्यिकीय असंतुलन प्रदर्शित करता है जिसमें पुरुषों का बहुमत (84%) है। यह भाषा और संस्कृति के लिए भी समान है। LLM के लिए प्रशिक्षित कई स्रोत अंग्रेजी-केंद्रित हैं, जो हमेशा अन्य भाषाओं और संस्कृतियों में सटीक रूप से अनुवादित नहीं होते हैं।

यह आवश्यक है कि LLM को फिल्टर्ड डेटा पर प्रशिक्षित किया जाए, और गार्डरेल्स को ऐसे विषयों को दबाने के लिए रखा जाए जो डेटा के सुसंगत प्रतिनिधित्व नहीं हैं। ऐसा करने का एक तरीका डेटा ऑगमेंटेशन-आधारित तकनीकों के माध्यम से है। आप प्रशिक्षण डेटा में कम प्रतिनिधित्व वाले समूहों के उदाहरण जोड़ सकते हैं, जिससे डेटासेट की विविधता बढ़ जाती है। एक अन्य कमी रणनीति डेटा फिल्टरिंग और रीवेटिंग है, जो मुख्य रूप से एक मौजूदा डेटासेट के भीतर विशिष्ट, कम प्रतिनिधित्व वाले उदाहरणों को सटीक रूप से लक्षित करने पर केंद्रित है।

हॉलुसिनेशन

LLM के संदर्भ में, हॉलुसिनेशन एक घटना है जो ग्रामर रूप से सही और सुसंगत दिखने वाले पाठ के उत्पादन की विशेषता है, लेकिन वास्तविक तथ्यों या स्रोत सामग्री के इरादे से विचलित हो जाता है। वास्तव में, हाल की रिपोर्ट में पाया गया है कि एक मिनेसोटा कानून पर मुकदमा सीधे LLM हॉलुसिनेशन से प्रभावित है। एक हलफनामा जो कानून का समर्थन करने के लिए प्रस्तुत किया गया था, में गैर-मौजूद स्रोत शामिल पाए गए हैं जो ChatGPT या किसी अन्य LLM द्वारा हॉलुसिनेट किए जा सकते हैं। ये हॉलुसिनेशन आसानी से LLM की विश्वसनीयता को कम कर सकते हैं।

हॉलुसिनेशन के तीन प्राथमिक रूप हैं:

इनपुट-विरोधी हॉलुसिनेशन: यह तब होता है जब LLM का आउटपुट उपयोगकर्ता द्वारा प्रदान किए गए इनपुट से विचलित हो जाता है, जिसमें आमतौर पर कार्य निर्देश और वास्तविक सामग्री शामिल होती है जिसे संसाधित करने की आवश्यकता होती है।
संदर्भ-विरोधी हॉलुसिनेशन: LLM विस्तारित संवाद या कई आदान-प्रदान के दृश्यों में आंतरिक रूप से असंगत प्रतिक्रियाएं उत्पन्न कर सकते हैं। यह सुझाव देता है कि मॉडल की संदर्भ को ट्रैक करने या विभिन्न इंटरैक्शन पर सुसंगतता बनाए रखने की क्षमता में एक संभावित कमी है।
तथ्य-विरोधी हॉलुसिनेशन: यह हॉलुसिनेशन का रूप तब उत्पन्न होता है जब LLM स्थापित तथ्यात्मक ज्ञान के विरोध में सामग्री उत्पन्न करता है। ऐसे त्रुटियों के मूल कारण विविध हैं और LLM के जीवन चक्र में विभिन्न चरणों पर उत्पन्न हो सकते हैं।

इस घटना में कई कारक योगदान करते हैं, जैसे कि ज्ञान की कमी, जो यह समझाता है कि LLM प्री-ट्रेनिंग के दौरान जानकारी को सही ढंग से आत्मसात करने में असमर्थ हो सकते हैं। इसके अलावा, प्रशिक्षण डेटा में पक्षपात या LLM की अनुक्रमिक पीढ़ी रणनीति, जिसे “हॉलुसिनेशन स्नोबॉलिंग” कहा जाता है, हॉलुसिनेशन पैदा कर सकता है।

हॉलुसिनेशन को कम करने के तरीके हैं, हालांकि वे LLM की एक विशेषता बने रहेंगे। हॉलुसिनेशन के लिए उपयोगी कमी रणनीतियों में प्री-ट्रेनिंग के दौरान (मैनुअल रूप से फिल्टरिंग तकनीकों का उपयोग करके डेटा को रिफाइन करना) या फाइन-ट्यूनिंग (प्रशिक्षण डेटा को क्यूरेट करना) शामिल है। हालांकि, अनुमान के दौरान कमी सबसे अच्छा समाधान है क्योंकि यह लागत-प्रभावी और नियंत्रित है।

गोपनीयता

इंटरनेट के उदय के साथ, व्यक्तिगत जानकारी और अन्य निजी डेटा तक बढ़ी हुई पहुंच एक व्यापक रूप से मान्यता प्राप्त चिंता बन गई है। एक अध्ययन में पाया गया कि 80% अमेरिकी उपभोक्ता चिंतित हैं कि उनका डेटा AI मॉडल को प्रशिक्षित करने के लिए उपयोग किया जा रहा है। चूंकि सबसे प्रमुख LLM वेबसाइटों से सourced हैं, हमें यह विचार करना होगा कि यह गोपनीयता जोखिम कैसे प्रस्तुत करता है और यह LLM के लिए एक बड़ा हल नहीं है।

LLM से व्यक्तिगत जानकारी को वितरित करने से रोकने का सबसे सीधा तरीका यह है कि प्रशिक्षण डेटा से इसे हटा दिया जाए। हालांकि, LLM में शामिल डेटा की विशाल मात्रा को देखते हुए, यह गारंटी देना लगभग असंभव है कि सभी निजी जानकारी हटा दी गई है। एक अन्य सामान्य विकल्प बाहरी रूप से विकसित मॉडल के बजाय एक ओपन-सोर्स LLM चुनना है।

इस दृष्टिकोण के साथ, मॉडल की एक प्रति आंतरिक रूप से तैनात की जा सकती है। उपयोगकर्ताओं के प्रॉम्प्ट संगठन के नेटवर्क के भीतर सुरक्षित रहते हैं, तीसरे पक्ष की सेवाओं के संपर्क में आने के बजाय। जबकि यह संवेदनशील डेटा के रिसाव के जोखिम को काफी कम कर देता है, यह जटिलता भी जोड़ता है। निजी डेटा की पूर्ण सुरक्षा की गारंटी देने में कठिनाइयों को देखते हुए, यह अभी भी महत्वपूर्ण है कि अनुप्रयोग विकासकों को यह विचार करना चाहिए कि ये मॉडल उनके उपयोगकर्ताओं को कैसे जोखिम में डाल सकते हैं।

LLM के लिए अगली सीमा

जैसे ही हम LLM के विकास और तैनाती से जुड़े जोखिमों को कम करते हुए आगे बढ़ते हैं, हमें LLM एजेंटों के उदय की उम्मीद करनी चाहिए, जिन्हें हम पहले से ही कंपनियों जैसे H के साथ Runner H जैसे उत्पादों को जारी करना शुरू कर रहे हैं। शुद्ध भाषा मॉडल से एजेंटिक आर्किटेक्चर तक का परिवर्तन AI सिस्टम डिज़ाइन में एक परिवर्तन का प्रतिनिधित्व करता है; उद्योग छोटे चैट इंटरफेस और सरल रिट्रीवल-ऑगमेंटेड जेनरेशन की सीमाओं से आगे बढ़ रहा है। ये नए एजेंट फ्रेमवर्क में जटिल उद्देश्यों को परमाणु उप-कार्यों में विभाजित करने के लिए परिष्कृत योजना मॉड्यूल, संदर्भीय तर्क के लिए एपिसोडिक मेमोरी और स्पष्ट रूप से परिभाषित API के माध्यम से विशेषज्ञ उपकरणों का लाभ उठाने की क्षमता होगी। यह कार्य स्वचालन के लिए एक अधिक मजबूत दृष्टिकोण प्रदान करता है। आर्किटेक्चरल प्रगति पारंपरिक LLM कार्यान्वयन के भीतर कार्यों और तर्क, उपकरण एकीकरण और निष्पादन निगरानी के आसपास सामान्य चुनौतियों को कम करने में मदद करती है।

LLM के अलावा, छोटे भाषा मॉडल को प्रशिक्षित करने पर अधिक ध्यान केंद्रित किया जाएगा, जो उनकी लागत-प्रभावशीलता, पहुंच और तैनाती की आसानी के कारण है। उदाहरण के लिए, डोमेन-विशिष्ट भाषा मॉडल विशिष्ट उद्योगों या क्षेत्रों में विशेषज्ञता रखते हैं। ये मॉडल डोमेन-विशिष्ट डेटा और शब्दावली के साथ बारीकी से ट्यून किए जाते हैं, जो उन्हें जटिल और नियंत्रित वातावरण के लिए आदर्श बनाते हैं, जहां सटीकता आवश्यक है, जैसे कि चिकित्सा या कानूनी क्षेत्र। यह लक्षित दृष्टिकोण सामान्य-उद्देश्य मॉडल द्वारा उत्पन्न त्रुटियों और हॉलुसिनेशन की संभावना को कम करता है जब वे विशेषज्ञ सामग्री का सामना करते हैं।

जैसे ही हम LLM में नए क्षितिज का अन्वेषण करते हैं, यह आवश्यक है कि हम नवाचार की सीमाओं को आगे बढ़ाएं और संबंधित जोखिमों को संबोधित और कम करें। केवल तभी हम LLM के लिए एक अधिक मजबूत आधार बना सकते हैं जब हम पहले पक्षपात, हॉलुसिनेशन और गोपनीयता से संबंधित चुनौतियों की पहचान करें और उन्हें सक्रिय रूप से संबोधित करें।

Uday Kamath, Chief Analytics Officer at Smarsh

उदय कमाथ Smarsh में चीफ एनालिटिक्स ऑफिसर हैं, जो संचार डेटा और इंटेलिजेंस में वैश्विक नेता है। उनकी भूमिका में कॉन्वर्सेशनल एआई में डेटा साइंस और शोध का नेतृत्व करना शामिल है। 25 वर्षों से अधिक के विश्लेषणात्मक विकास के अनुभव और स्केलेबल मशीन लर्निंग में पीएचडी के साथ, कमाथ के महत्वपूर्ण योगदान कई पत्रिकाओं, सम्मेलनों, पुस्तकों और पेटेंटों में फैले हुए हैं। वह फाल्कोनरी जैसी व्यावसायिक कंपनियों और जीएमयू में ह्यूमन-मशीन पार्टनरशिप सेंटर जैसे शैक्षणिक संस्थानों सहित संस्थाओं के लिए सलाहकार बोर्ड के एक सक्रिय सदस्य भी हैं।

Unite.AI

LLM में वर्तमान मुद्दों को संबोधित करना और आगे की ओर देखना

सामान्य LLM चिंताओं को कम करने के तरीके

पक्षपात

हॉलुसिनेशन

गोपनीयता

LLM के लिए अगली सीमा

You may like