विचार नेता

एआई में विश्वास बनाना नया बेंचमार्क है

Published June 5, 2025

Updated April 26, 2026

Assaf Asbag, Chief Technology & Product Officer at aiOla

एआई तेजी से विस्तार कर रहा है, और जैसे कि कोई भी तकनीक तेजी से परिपक्व हो रही है, इसके लिए स्पष्ट रूप से परिभाषित सीमाएं आवश्यक हैं – स्पष्ट, जानबूझकर, और न केवल प्रतिबंधित करने के लिए, बल्कि सुरक्षित और सशक्त बनाने के लिए भी निर्मित। यह विशेष रूप से तब सच है जब एआई लगभग हमारे व्यक्तिगत और पेशेवर जीवन के हर पहलू में निहित है।

जैसे कि हम एआई के नेता हैं, हम एक निर्णायक क्षण पर खड़े हैं। एक ओर, हमारे पास ऐसे मॉडल हैं जो पहले की किसी भी तकनीक की तुलना में तेजी से सीखते और अनुकूलन करते हैं। दूसरी ओर, सुरक्षा, अखंडता, और गहरे मानव संरेखण के साथ काम करने की बढ़ती जिम्मेदारी है। यह एक विलासिता नहीं है – यह वास्तव में विश्वसनीय एआई की नींव है।

आज विश्वास सबसे महत्वपूर्ण है

पिछले कुछ वर्षों में, भाषा मॉडल, बहुस्तरीय तर्क, और एजेंटिक एआई में उल्लेखनीय प्रगति हुई है। लेकिन प्रत्येक आगे की ओर बढ़ने के साथ, दांव अधिक ऊंचे हो जाते हैं। एआई व्यवसायिक निर्णयों को आकार दे रहा है, और हमने देखा है कि даже छोटी-छोटी चूकें बड़े परिणामों का कारण बन सकती हैं।

उदाहरण के लिए, अदालत में एआई लें। हमने सभी ने ऐसी कहानियां सुनी हैं जहां वकील एआई-जनित तर्कों पर भरोसा करते हैं, केवल यह पाते हैं कि मॉडल ने मामलों का आविष्कार किया, जिसके परिणामस्वरूप अनुशासनात्मक कार्रवाई या बदतर, लाइसेंस की हानि हुई। वास्तव में, कानूनी मॉडलों को कम से कम एक बार में छह बेंचमार्क प्रश्नों में हॉलुसिनेट करने के लिए दिखाया गया है। अधिक चिंताजनक उदाहरण हैं जैसे कि चारैक्टर.एआई के साथ जुड़ा दुर्भाग्यपूर्ण मामला, जिन्होंने तब से अपनी सुरक्षा सुविधाओं को अद्यतन किया है, जहां एक चैटबॉट एक किशोर की आत्महत्या से जुड़ा था। ये उदाहरण अनियंत्रित एआई के वास्तविक दुनिया के जोखिमों और हमें तकनीकी नेताओं के रूप में महत्वपूर्ण जिम्मेदारी को उजागर करते हैं, न केवल स्मार्ट उपकरण बनाने के लिए, बल्कि जिम्मेदारी से और मानवता के मूल में बनाने के लिए।

चारैक्टर.एआई का मामला एक संयमित अनुस्मारक है कि क्यों विश्वास को संवादात्मक एआई के आधार में निर्मित किया जाना चाहिए, जहां मॉडल केवल उत्तर नहीं देते हैं बल्कि वास्तविक समय में व्याख्या करते हैं और अनुकूलन करते हैं। वॉइस-चालित या उच्च-जोखिम वाले इंटरैक्शन में, एक भी हॉलुसिनेटेड उत्तर या ऑफ-की प्रतिक्रिया विश्वास को कम कर सकती है या वास्तविक नुकसान का कारण बन सकती है। गार्डरेल – हमारे तकनीकी, प्रक्रियात्मक, और नैतिक सुरक्षा उपाय – वैकल्पिक नहीं हैं; वे तेजी से आगे बढ़ने और सबसे महत्वपूर्ण बातों की रक्षा करने के लिए आवश्यक हैं: मानव सुरक्षा, नैतिक अखंडता, और स्थायी विश्वास।

सुरक्षित, संरेखित एआई का विकास

गार्डरेल नए नहीं हैं। पारंपरिक सॉफ्टवेयर में, हमारे पास हमेशा सत्यापन नियम, भूमिका-आधारित पहुंच, और अनुपालन जांच रही है। लेकिन एआई एक नए स्तर की अनियमितता को पेश करता है: उभरने वाले व्यवहार, अनियंत्रित आउटपुट, और अस्पष्ट तर्क।

आधुनिक एआई सुरक्षा अब बहुस्तरीय है। कुछ मूल अवधारणाओं में शामिल हैं:

व्यवहार संरेखण तकनीकों के माध्यम से जैसे कि मानव प्रतिक्रिया से प्रबलित सीखना (आरएलएचएफ) और संविधान एआई, जब आप मॉडल को एक सेट दिशानिर्देशों के साथ देते हैं – एक प्रकार की मिनी-नैतिकता कोड
शासन ढांचे जो नीति, नैतिकता, और समीक्षा चक्रों को एकीकृत करते हैं
वास्तविक समय टूलिंग जो गतिशील रूप से पता लगाता है, फिल्टर करता है, या प्रतिक्रियाओं को सुधारता है

एआई गार्डरेल की एनाटॉमी

मैककिन्से गार्डरेल को एआई-जनित सामग्री की निगरानी, मूल्यांकन, और सुधार के लिए डिज़ाइन की गई प्रणाली के रूप में परिभाषित करता है ताकि सुरक्षा, सटीकता, और नैतिक संरेखण सुनिश्चित किया जा सके। ये गार्डरेल नियम-आधारित और एआई-चालित घटकों के मिश्रण पर निर्भर करते हैं, जैसे कि चेकर, करेक्टर, और समन्वय एजेंट, जो बायस, व्यक्तिगत रूप से पहचानने योग्य जानकारी, या हानिकारक सामग्री जैसे मुद्दों का पता लगाने और स्वचालित रूप से आउटपुट को वितरण से पहले परिष्कृत करने के लिए।

आइए इसे तोड़ दें:

मॉडल तक पहुंचने से पहले ही प्रॉम्प्ट का मूल्यांकन, सुरक्षा, और पहुंच अनुमतियों का मूल्यांकन करता है। इसमें असुरक्षित या असंगत प्रॉम्प्ट्स को अस्वीकार करने के लिए फिल्टरिंग और सैनिटाइजिंग शामिल है, संवेदनशील एपीआई या उद्यम डेटा के लिए पहुंच नियंत्रण लागू करना, और यह पता लगाना कि उपयोगकर्ता का इरादा अनुमोदित उपयोग के मामले से मेल खाता है या नहीं।

एक बार मॉडल प्रतिक्रिया उत्पन्न करता है, तो आउटपुट गार्डरेल इसे मूल्यांकन और परिष्कृत करने के लिए कदम बढ़ाते हैं। वे विषाक्त भाषा, घृणा भाषण, या भ्रामक जानकारी को फिल्टर आउट करते हैं, असुरक्षित प्रतिक्रियाओं को वास्तविक समय में दबा देते हैं या पुनः लिखते हैं, और पूर्वाग्रह मिटाने या तथ्य-जांच उपकरणों का उपयोग करके हॉलुसिनेशन को कम करने और प्रतिक्रियाओं को तथ्यात्मक संदर्भ में आधारित करने के लिए।

व्यवहार गार्डरेल मॉडल के व्यवहार को नियंत्रित करते हैं, विशेष रूप से बहु-चरणीय या संदर्भ-संवेदनशील इंटरैक्शन में। इसमें प्रॉम्प्ट मैनिपुलेशन को रोकने के लिए स्मृति को सीमित करना, टोकन प्रवाह को प्रतिबंधित करना इंजेक्शन हमलों से बचने के लिए, और मॉडल को यह बताने की सीमाएं निर्धारित करना कि यह क्या नहीं कर सकता है।

इन तकनीकी प्रणालियों को एआई स्टैक के कई स्तरों पर एम्बेडेड किया जाना चाहिए।

एक मॉड्यूलर दृष्टिकोण यह सुनिश्चित करता है कि सुरक्षा उपायों को कई बार दोहराया जाए और लचीला हो, विभिन्न बिंदुओं पर विफलताओं को पकड़ना और एकल बिंदु विफलता के जोखिम को कम करना। मॉडल स्तर पर, आरएलएचएफ और संविधान एआई जैसी तकनीकें मॉडल के मूल व्यवहार को आकार देने में मदद करती हैं, सुरक्षा को सीधे मॉडल के सोच और प्रतिक्रिया में एम्बेड करती है। मध्यवर्ती स्तर मॉडल के चारों ओर लपेटा जाता है ताकि वास्तविक समय में इनपुट और आउटपुट को इंटरसेप्ट किया जा सके, विषाक्त भाषा को फिल्टर किया जा सके, संवेदनशील डेटा के लिए स्कैन किया जा सके, और जब आवश्यक हो तब रूटिंग की जा सके। कार्यप्रवाह स्तर पर, गार्डरेल तर्क और पहुंच को बहु-चरणीय प्रक्रियाओं या एकीकृत प्रणालियों में समन्वयित करते हैं, यह सुनिश्चित करते हुए कि एआई अनुमतियों का सम्मान करता है, व्यवसाय नियमों का पालन करता है, और जटिल वातावरण में अनुमानित रूप से व्यवहार करता है।

एक व्यापक स्तर पर, प्रणालीगत और शासन गार्डरेल पूरे एआई जीवन चक्र में पर्यवेक्षण प्रदान करते हैं। ऑडिट लॉग पारदर्शिता और ट्रेसबिलिटी सुनिश्चित करते हैं, मानव-इन-द-लूप प्रक्रियाएं विशेषज्ञ समीक्षा लाती हैं, और पहुंच नियंत्रण यह निर्धारित करते हैं कि कौन मॉडल को संशोधित या आमंत्रित कर सकता है। कुछ संगठनों में जिम्मेदार एआई विकास के लिए क्रॉस-फंक्शनल इनपुट के साथ नैतिकता बोर्ड भी लागू किए जाते हैं।

संवादात्मक एआई: जहां गार्डरेल वास्तव में परीक्षण किया जाता है

संवादात्मक एआई एक विशिष्ट सेट की चुनौतियां लाता है: वास्तविक समय इंटरैक्शन, अप्रत्याशित उपयोगकर्ता इनपुट, और उपयोगिता और सुरक्षा को बनाए रखने के लिए एक उच्च मानक। इन सेटिंग्स में, गार्डरेल केवल सामग्री फिल्टर नहीं हैं – वे टोन, सीमा को लागू करने, और संवेदनशील विषयों को बढ़ाने या प्रतिबंधित करने में मदद करते हैं। इसका मतलब हो सकता है कि चिकित्सा प्रश्नों को लाइसेंस प्राप्त पेशेवरों को रूटिंग करना, अपमानजनक भाषा का पता लगाना और डी-एस्केलेट करना, या नियमों के भीतर स्क्रिप्ट्स को बनाए रखने के लिए अनुपालन सुनिश्चित करना।

फ्रंटलाइन वातावरण जैसे कि ग्राहक सेवा या फील्ड ऑपरेशन में, त्रुटि के लिए और भी कम जगह है। एक ही हॉलुसिनेटेड उत्तर या ऑफ-की प्रतिक्रिया विश्वास को कम कर सकती है या वास्तविक परिणामों का कारण बन सकती है। उदाहरण के लिए, एक प्रमुख एयरलाइन को उसके एआई चैटबॉट द्वारा एक ग्राहक को शोक संतप्त छूट के बारे में गलत जानकारी देने के बाद मुकदमा का सामना करना पड़ा। अदालत ने अंततः कंपनी को चैटबॉट की प्रतिक्रिया के लिए जिम्मेदार ठहराया। इन स्थितियों में कोई भी जीतता नहीं है। यही कारण है कि यह हम पर है, तकनीक प्रदाताओं के रूप में, अपने ग्राहकों के हाथों में एआई के लिए पूरी जिम्मेदारी लेने के लिए।

गार्डरेल बनाना सभी की जिम्मेदारी है

गार्डरेल को न केवल एक तकनीकी उपलब्धि के रूप में माना जाना चाहिए, बल्कि एक मानसिकता के रूप में भी जिसे विकास चक्र के हर चरण में एम्बेड किया जाना चाहिए। जबकि स्वचालन स्पष्ट मुद्दों को झंडा दिखा सकता है, निर्णय, सहानुभूति, और संदर्भ अभी भी मानव पर्यवेक्षण की आवश्यकता है। उच्च जोखिम वाली या अस्पष्ट स्थितियों में, लोग एआई को सुरक्षित बनाने के लिए आवश्यक हैं, न केवल एक फॉलबैक के रूप में, बल्कि प्रणाली के एक मूलभूत हिस्से के रूप में।

गार्डरेल को वास्तव में संचालित करने के लिए, उन्हें सॉफ्टवेयर विकास जीवन चक्र में बुना जाना चाहिए, न कि अंत में जोड़ा जाना चाहिए। इसका मतलब है कि हर चरण और हर भूमिका में जिम्मेदारी को एम्बेड करना। उत्पाद प्रबंधक यह परिभाषित करते हैं कि एआई को क्या करना चाहिए और क्या नहीं। डिज़ाइनर उपयोगकर्ता की अपेक्षाएं निर्धारित करते हैं और सौम्य रिकवरी पथ बनाते हैं। इंजीनियर फॉलबैक, निगरानी, और मॉडरेशन हुक्स में निर्माण करते हैं। क्यूए टीमें एज केसों का परीक्षण करती हैं और दुरुपयोग का अनुकरण करती हैं। कानूनी और अनुपालन नीतियों को तर्क में अनुवादित करते हैं। समर्थन टीमें मानव सुरक्षा जाल के रूप में कार्य करती हैं। और प्रबंधकों को शीर्ष से नीचे तक विश्वास और सुरक्षा को प्राथमिकता देनी चाहिए, रोडमैप पर जगह बनानी चाहिए और जिम्मेदार, विचारशील विकास को पुरस्कृत करना चाहिए। यहां तक कि सर्वोत्तम मॉडल भी सूक्ष्म संकेतों को याद कर सकते हैं, और यहीं पर अच्छी तरह से प्रशिक्षित टीमें और स्पष्ट एस्केलेशन पथ अंतिम रक्षा पंक्ति बन जाते हैं, एआई को मानव मूल्यों में जमीन पर रखते हैं।

विश्वास को मापना: गार्डरेल काम कर रहे हैं यह जानने के लिए कैसे

आप जो नहीं देख सकते हैं उसे प्रबंधित नहीं कर सकते। यदि विश्वास लक्ष्य है, तो हमें सफलता की स्पष्ट परिभाषा की आवश्यकता है, अपटाइम या लेटेंसी से परे। गार्डरेल का मूल्यांकन करने के लिए प्रमुख मेट्रिक्स में सुरक्षा सटीकता (हानिकारक आउटपुट को सफलतापूर्वक ब्लॉक किया जाता है vs. झूठी सकारात्मकता), हस्तक्षेप दर (मानव कितनी बार हस्तक्षेप करते हैं), और रिकवरी प्रदर्शन (प्रणाली कितनी अच्छी तरह से विफलता के बाद माफी मांगती है, रीडायरेक्ट करती है या डी-एस्केलेट करती है) शामिल हैं। संकेत जैसे उपयोगकर्ता भावना, ड्रॉप-ऑफ दर, और बार-बार भ्रम यह बता सकते हैं कि उपयोगकर्ता वास्तव में सुरक्षित और समझ में महसूस करते हैं या नहीं। और महत्वपूर्ण रूप से, अनुकूलन, जितनी तेजी से प्रणाली प्रतिक्रिया को एकीकृत करती है, दीर्घकालिक विश्वसनीयता का एक मजबूत संकेतक है।

गार्डरेल स्थिर नहीं होने चाहिए। उन्हें वास्तविक दुनिया के उपयोग, एज केस, और सिस्टम ब्लाइंड स्पॉट के आधार पर विकसित किया जाना चाहिए। निरंतर मूल्यांकन यह प्रकट करने में मदद करता है कि सुरक्षा उपाय कहां काम कर रहे हैं, कहां वे बहुत कठोर या लचीले हैं, और मॉडल वास्तविक दुनिया में परीक्षण के दौरान कैसे प्रतिक्रिया करता है। गार्डरेल के प्रदर्शन पर समय के साथ दृष्टि के बिना, हम उन्हें चेकबॉक्स के बजाय गतिशील प्रणाली के रूप में मानने का जोखिम उठाते हैं।

यह कहा जा रहा है, даже सबसे अच्छी तरह से डिज़ाइन किए गए गार्डरेल का सामना करना पड़ सकता है अंतर्निहित व्यापार-बंद। ओवरब्लॉकिंग उपयोगकर्ताओं को निराश कर सकती है; अंडरब्लॉकिंग नुकसान का कारण बन सकती है। सुरक्षा और उपयोगिता के बीच संतुलन को ट्यून करना एक निरंतर चुनौती है। गार्डरेल खुद नए दुर्वलताओं को पेश कर सकते हैं – प्रॉम्प्ट इंजेक्शन से लेकर एन्कोडेड पूर्वाग्रह तक। उन्हें व्याख्या योग्य, न्यायसंगत, और समायोज्य होना चाहिए, या वे एक और परत की अस्पष्टता बन सकते हैं।

आगे देखते हुए

जैसे ही एआई अधिक संवादात्मक, कार्यप्रवाह में एकीकृत, और स्वतंत्र रूप से कार्यों को संभालने में सक्षम होता है, इसकी प्रतिक्रियाओं को विश्वसनीय और जिम्मेदार होने की आवश्यकता है। कानून, विमानन, मनोरंजन, ग्राहक सेवा, और फ्रंटलाइन ऑपरेशन जैसे क्षेत्रों में, एक भी एआई-जनित प्रतिक्रिया एक निर्णय को प्रभावित कर सकती है या कार्रवाई को ट्रिगर कर सकती है। गार्डरेल सुनिश्चित करते हैं कि ये इंटरैक्शन सुरक्षित और वास्तविक दुनिया की अपेक्षाओं के साथ संरेखित हैं। लक्ष्य केवल स्मार्ट उपकरण बनाना नहीं है, बल्कि ऐसे उपकरण बनाना है जिन पर लोग विश्वास कर सकते हैं। और संवादात्मक एआई में, विश्वास एक विलासिता नहीं है – यह बेंचमार्क है।