विचार नेता

एआई-पावर्ड वॉयस-आधारित एजेंट्स फॉर एंटरप्राइजेज: दो प्रमुख चुनौतियाँ

Published January 31, 2024

Updated April 4, 2026

Dr. Itamar Arel and Dr. Ron Chrisley

अब, पहले से अधिक समय है एआई-पावर्ड वॉयस-आधारित सिस्टम के लिए। एक ग्राहक सेवा के लिए फोन कॉल पर विचार करें। जल्द ही सभी कठोरता और अनम्यता चली जाएगी – कठोर रोबोटिक आवाजें, “बिक्री के लिए एक दबाएं” शैली के प्रतिबंधक मेनू, परेशान करने वाले अनुभव जो हमें सभी को बार-बार शून्य दबाने के लिए प्रेरित करते हैं ताकि इसके बजाय एक मानव एजेंट के साथ बात की जा सके। (या, मानव एजेंट को स्थानांतरित करने में लगने वाले लंबे समय के इंतजार के समय को देखते हुए, कॉल को पूरी तरह से छोड़ दिया जाता है।)

अब नहीं। ट्रांसफॉर्मर-आधारित बड़े भाषा मॉडल (एलएलएम) में प्रगति के साथ-साथ स्वचालित स्पीच रिकग्निशन (एएसआर) और टेक्स्ट-टू-स्पीच (टीटीएस) सिस्टम में भी प्रगति के कारण “नेक्स्ट-जेनरेशन” वॉयस-आधारित एजेंट यहाँ हैं – यदि आप जानते हैं कि उन्हें कैसे बनाना है।

आज हम ऐसे स्टेट-ऑफ-द-आर्ट वॉयस-आधारित कॉनवर्सेशनल एजेंट बनाने की उम्मीद करने वाले लोगों के सामने आने वाली चुनौतियों की जांच करते हैं।

वॉयस क्यों?

इससे पहले कि हम इसमें कूदें, आइए वॉयस-आधारित एजेंटों (टेक्स्ट-आधारित इंटरैक्शन के विपरीत) के सामान्य आकर्षण और प्रासंगिकता की एक त्वरित नज़र डालें। वॉयस इंटरैक्शन के लिए टेक्स्ट-आधारित एक की तुलना में अधिक उपयुक्त होने के कई कारण हो सकते हैं – वे शामिल कर सकते हैं:

प्राथमिकता या आदत – बोलना लेखन विकास और ऐतिहासिक रूप से पहले आता है
धीमी टेक्स्ट इनपुट – कई लोग टेक्स्ट करने से अधिक तेजी से बोल सकते हैं
हाथों से मुक्त स्थितियाँ – जैसे कि ड्राइविंग, वर्कआउट करना या बर्तन धोना
निरक्षरता – कम से कम एजेंट द्वारा समझी जाने वाली भाषा(ओं) में
विकलांगता – जैसे कि अंधापन या गैर-मौखिक मोटर नियंत्रण की कमी

वेबसाइट-मध्यस्थ लेनदेन द्वारा प्रभावित एक युग में, वॉयस वाणिज्य के लिए एक शक्तिशाली माध्यम बना हुआ है। उदाहरण के लिए, होटल उद्योग में ग्राहक संतुष्टि पर जेड पावर द्वारा किए गए एक हालिया अध्ययन में पाया गया कि जिन मेहमानों ने फोन पर अपना कमरा बुक किया था, वे उन लोगों की तुलना में अपने प्रवास से अधिक संतुष्ट थे जिन्होंने इसे ऑनलाइन यात्रा एजेंसी (ओटीए) या सीधे होटल की वेबसाइट के माध्यूम से बुक किया था।

लेकिन इंटरैक्टिव वॉयस रिस्पॉन्स, या आईवीआर के लिए छोटा, पर्याप्त नहीं है। 2023 में ज़िप्पिया द्वारा किए गए एक अध्ययन में पाया गया कि 88% ग्राहक एक लाइव एजेंट के साथ वॉयस कॉल पसंद करते हैं जो एक स्वचालित फोन मेनू को नेविगेट करने के बजाय है। अध्ययन में यह भी पाया गया कि फोन मेनू के बारे में लोगों को सबसे ज्यादा परेशान करने वाली चीजें शामिल हैं: अप्रासंगिक विकल्प सुनना (69%), मुद्दे का पूरी तरह से वर्णन करने में असमर्थता (67%), अक्षम सेवा (33%), और भ्रमित करने वाले विकल्प (15%)।

और व्यवसायों के साथ बातचीत करने के लिए वॉयस असिस्टेंट का उपयोग करने के लिए एक खुलापन है। एक्सेंचर द्वारा किए गए एक अध्ययन के अनुसार, लगभग 47% उपभोक्ता व्यवसायों के साथ बातचीत करने के लिए वॉयस असिस्टेंट का उपयोग करने में सहज हैं और लगभग 31% उपभोक्ता पहले से ही एक व्यवसाय के साथ बातचीत करने के लिए एक वॉयस असिस्टेंट का उपयोग कर चुके हैं।

चाहे जो भी कारण हो, कई लोगों के लिए बोली जाने वाली बातचीत के लिए एक प्राथमिकता और मांग है – जब तक कि यह प्राकृतिक और आरामदायक हो।

एक अच्छा वॉयस-आधारित एजेंट क्या बनाता है?

लगभग बोलते हुए, एक अच्छा वॉयस-आधारित एजेंट को उपयोगकर्ता को इस तरह से प्रतिक्रिया देनी चाहिए जो:

प्रासंगिक: उपयोगकर्ता ने क्या कहा / चाहा था, इसकी सही समझ पर आधारित। ध्यान दें कि कुछ मामलों में, एजेंट की प्रतिक्रिया केवल एक बोली गई प्रतिक्रिया नहीं होगी, बल्कि बैकएंड (जैसे कि जब कॉलर कहता है “इसे बुक करें”) के साथ एकीकरण के माध्यम से कुछ कार्रवाई होगी।
सटीक: तथ्यों (जैसे कि केवल तभी कहें जब होटल में 19 जनवरी को एक कमरा उपलब्ध है) पर आधारित
स्पष्ट: प्रतिक्रिया समझने योग्य होनी चाहिए
समय पर: मानव से अपेक्षित लेटेंसी के साथ
सुरक्षित: कोई अपमानजनक या अनुचित भाषा, संरक्षित जानकारी का खुलासा आदि नहीं

समस्या

वर्तमान वॉयस-आधारित स्वचालित प्रणाली उपरोक्त मानदंडों को पूरा करने का प्रयास करती हैं, लेकिन इसके लिए बहुत सीमित और बहुत परेशान करने वाला होना पड़ता है। इसका एक हिस्सा उच्च अपेक्षाओं के परिणामस्वरूप है जो एक वॉयस-आधारित संवाद संदर्भ स्थापित करता है, जिन अपेक्षाओं को टीटीएस प्रणालियों में मानव आवाज़ से वॉयस गुणवत्ता को अलग करना मुश्किल हो जाता है। लेकिन ये अपेक्षाएं वर्तमान में तैनात प्रणालियों में विफल हो जाती हैं। क्यों?

एक शब्द में – अनम्यता:

सीमित भाषण – उपयोगकर्ता को आमतौर पर अस्वाभाविक रूप से चीजें कहने के लिए मजबूर किया जाता है: छोटे वाक्यांशों में, एक विशिष्ट क्रम में, अनावश्यक जानकारी के बिना, आदि। यह पुराने स्कूल के नंबर-आधारित मेनू प्रणाली पर कोई प्रगति नहीं करता है
स्वीकार्य भाषण की संकीर्ण, गैर-समावेशी धारणा – स्लैंग, उह्म और अह, आदि के लिए कम सहनशीलता
कोई पीछे की ओर जाने की क्षमता नहीं: यदि कुछ गलत हो जाता है, तो समस्याग्रस्त जानकारी के टुकड़े को सुधारने या सही करने का कम से कम मौका हो सकता है, लेकिन इसके बजाय शुरू से शुरू करना होगा या मानव को स्थानांतरित करने का इंतजार करना होगा।
सख्त मोड़ लेना – एजेंट को बाधित करने या बोलने की क्षमता नहीं

यह कहना कि लोग इन प्रतिबंधों को परेशान करने वाला या निराशाजनक पाते हैं, बिना कहे समझा जा सकता है।

समाधान:

अच्छी खबर यह है कि आधुनिक एआई सिस्टम पर्याप्त रूप से शक्तिशाली और तेज़ हैं ताकि वे उपरोक्त प्रकार के अनुभवों में काफी सुधार कर सकें, बल्कि मानव-आधारित ग्राहक सेवा मानकों को पार कर सकें। यह कई कारकों के कारण है:

तेज़, अधिक शक्तिशाली हार्डवेयर
एएसआर (उच्च सटीकता, शोर, उच्चारण आदि को दूर करना) में सुधार
टीटीएस (प्राकृतिक ध्वनि या यहां तक कि क्लोन की गई आवाजें) में सुधार
जनरेटिव एलएलएम (प्राकृतिक ध्वनि वाली बातचीत) का आगमन

उस अंतिम बिंदु पर ध्यान देना महत्वपूर्ण है। मुख्य अंतर्दृष्टि यह थी कि एक अच्छा पूर्वानुमान मॉडल एक अच्छा उत्पादक मॉडल के रूप में कार्य कर सकता है। एक कृत्रिम एजेंट मानव-स्तरीय संवादात्मक प्रदर्शन के करीब पहुंच सकता है यदि यह कहता है कि एक अच्छा मानव ग्राहक सेवा एजेंट दिए गए संवादात्मक संदर्भ में (जैसे कि ग्राहक ने “क्या आपके होटल में एक पूल है?” पूछा है) सबसे अधिक संभावना है कि क्या कहा जाएगा।

एएसआर और टीटीएस मॉड्यूल को एलएलएम कोर से जोड़कर वॉयस-आधारित कॉनवर्सेशनल एजेंट समस्या को हल करने की कोशिश करने वाले दर्जनों एआई स्टार्टअप्स का आगमन। इस दृष्टिकोण से, समाधान लेटेंसी और लागत को कम करने वाले संयोजन का चयन करने का मामला है। और निश्चित रूप से, यह महत्वपूर्ण है। लेकिन क्या यह पर्याप्त है?

तेजी से नहीं

कुछ विशिष्ट कारण हैं कि यह सरल दृष्टिकोण काम नहीं करेगा, लेकिन वे दो सामान्य बिंदुओं से उत्पन्न होते हैं:

एलएलएम वास्तव में ग्राहक सेवा जैसे उद्यम अनुप्रयोगों के लिए आवश्यक प्रकार की तथ्य-आधारित पाठ बातचीत प्रदान नहीं कर सकते हैं। इसलिए वे वॉयस-आधारित बातचीत के लिए भी ऐसा नहीं कर सकते हैं। कुछ और चाहिए।
यहां तक कि अगर आप एलएलएम को एक अच्छे पाठ-आधारित संवादात्मक एजेंट बनाने के लिए आवश्यक के साथ पूरक करते हैं, तो इसे एक अच्छे वॉयस-आधारित संवादात्मक एजेंट में बदलने के लिए केवल सबसे अच्छे एएसआर और टीटीएस मॉड्यूल से जोड़ने की तुलना में अधिक की आवश्यकता होती है जो आप खरीद सकते हैं।

आइए प्रत्येक चुनौती का एक विशिष्ट उदाहरण देखें।

चुनौती 1: वास्तविक बने रहना

जैसा कि अब व्यापक रूप से ज्ञात है, एलएलएम कभी-कभी असटीक या ‘हॉलुसिनेटेड’ जानकारी उत्पन्न करते हैं। यह कई व्यावसायिक अनुप्रयोगों के संदर्भ में, यहां तक कि मनोरंजन अनुप्रयोगों में भी जहां सटीकता मुद्दा नहीं हो सकती है, विनाशकारी है।

यह देखते हुए कि एलएलएम कभी-कभी हॉलुसिनेट करते हैं, यह केवल अपेक्षित है। यह डेटा से प्रशिक्षित मॉडल का उपयोग करके डेटा सेट (चाहे कितना भी बड़ा हो) के हिस्से के रूप में नहीं होने वाले तथ्यों के बारे में प्रश्नों के उत्तर देने का एक सीधा परिणाम है जो एक वर्ष (या अधिक) पुराना हो सकता है। जब कॉलर पूछता है “मेरा सदस्यता नंबर क्या है?”, तो एक साधारण प्री-प्रशिक्षित एलएलएम केवल एक संभावित ध्वनि वाला उत्तर उत्पन्न कर सकता है, सटीक नहीं।

इस समस्या से निपटने के सबसे सामान्य तरीके हैं:

फ़ाइन-ट्यूनिंग: एलएलएम को आगे प्रशिक्षित करें, इस बार आपके द्वारा सही ढंग से उत्तर देने के लिए आप चाहते हैं कि डोमेन-विशिष्ट डेटा पर।
प्रॉम्प्ट इंजीनियरिंग: एलएलएम में अतिरिक्त डेटा / निर्देशों को बातचीत के इतिहास के अलावा इनपुट के रूप में जोड़ें।
रिट्रीवल ऑगमेंटेड जेनरेशन (आरएजी): प्रॉम्प्ट इंजीनियरिंग की तरह, लेकिन प्रॉम्प्ट में जोड़ा गया डेटा वर्तमान संवादात्मक संदर्भ (जैसे कि ग्राहक ने “क्या आपके होटल में एक पूल है?” पूछा है) के अनुसार आपके डोमेन-विशिष्ट डेटा के एक एम्बेडिंग-एन्कोडेड इंडेक्स से मेल खाने के द्वारा निर्धारित किया जाता है।
नियम-आधारित नियंत्रण: आरएजी की तरह, लेकिन प्रॉम्प्ट में जोड़ा या घटाया जाने वाला नहीं है एक तंत्रिका स्मृति द्वारा पुनर्प्राप्त किया जाता है, बल्कि हार्ड-कोडेड (और हाथ से कोडेड) नियमों द्वारा निर्धारित किया जाता है।

नोट करें कि एक आकार सभी के लिए फिट नहीं है। जो तरीका उपयुक्त होगा वह इस बात पर निर्भर करेगा, उदाहरण के लिए, एजेंट के उत्तर को सूचित करने वाले डोमेन-विशिष्ट डेटा पर। विशेष रूप से, यह इस बात पर निर्भर करेगा कि क्या कहा गया डेटा बार-बार बदलता है (कॉल से कॉल तक, उदाहरण के लिए – जैसे ग्राहक का नाम) या शायद ही कभी। फ़ाइन-ट्यूनिंग पूर्ववर्ती के लिए उपयुक्त नहीं होगी, और आरएजी बाद वाले के लिए एक भद्दा समाधान होगा। इसलिए कोई भी कार्यशील प्रणाली को इन तरीकों में से एक का उपयोग करने की आवश्यकता होगी।

जो और है, इन तरीकों को एलएलएम और एक दूसरे के साथ एक तरीके से एकीकृत करना जो लेटेंसी और लागत को कम करता है, सावधानी से इंजीनियरिंग की आवश्यकता है। उदाहरण के लिए, आपके मॉडल का आरएजी प्रदर्शन बेहतर हो सकता है यदि आप इस पद्धति को सुविधाजनक बनाने के लिए इसे फ़ाइन-ट्यून करते हैं।

यह कोई आश्चर्य की बात नहीं है कि इन तरीकों में से प्रत्येक अपनी चुनौतियां पेश करते हैं। उदाहरण के लिए, फ़ाइन-ट्यूनिंग लें। अपने प्री-प्रशिक्षित एलएलएम को अपने डोमेन-विशिष्ट डेटा पर फ़ाइन-ट्यून करने से इसके प्रदर्शन में सुधार होगा, हाँ। लेकिन फ़ाइन-ट्यूनिंग प्री-प्रशिक्षित मॉडल के (संभवतः khá अच्छे) सामान्य प्रदर्शन के आधार के पैरामीटर (वजन) को संशोधित करती है। यह संशोधन इसलिए मॉडल के पिछले ज्ञान के एक अनअपेक्षित अनअपेक्षित (या “विनाशकारी भूलने”) का कारण बनता है। इससे एजेंट द्वारा असटीक या अनुचित (यहां तक कि असुरक्षित) प्रतिक्रियाएं देने की संभावना हो सकती है। यदि आप चाहते हैं कि आपका एजेंट अभी भी सटीक और सुरक्षित रूप से प्रतिक्रिया दे, तो आपको एक फ़ाइन-ट्यूनिंग विधि की आवश्यकता है जो विनाशकारी भूलने को कम करती है।

चुनौती 2: एंडपॉइंटिंग

ग्राहक ने बोलना बंद कर दिया है या नहीं, यह निर्धारित करना स्वाभाविक बातचीत के प्रवाह के लिए महत्वपूर्ण है। इसी तरह, प्रणाली को बाधित करने को सुंदरता से संभालना चाहिए, यह सुनिश्चित करते हुए कि बातचीत ग्राहक की जरूरतों के प्रति सुसंगत और प्रतिक्रियाशील बनी रहे। मानव इंटरैक्शन के मानक की तुलना में ऐसा करना एक जटिल कार्य है, लेकिन प्राकृतिक और सुखद संवादात्मक अनुभव बनाने के लिए यह आवश्यक है।

एक समाधान जो काम करता है डिज़ाइनरों को ऐसे प्रश्नों पर विचार करने की आवश्यकता है:

ग्राहक बोलना बंद करने के बाद एजेंट को कितनी देर तक प्रतीक्षा करनी चाहिए इससे पहले कि यह निर्णय लिया जाए कि ग्राहक बोलना बंद कर दिया है?
क्या उपरोक्त यह निर्भर करता है कि ग्राहक ने एक पूरा वाक्य पूरा किया है या नहीं?
ग्राहक एजेंट को बाधित करने पर क्या किया जाना चाहिए?
विशेष रूप से, क्या एजेंट को यह मान लेना चाहिए कि जो कुछ वह कह रहा था वह ग्राहक द्वारा सुना नहीं गया था?

इन मुद्दों, जो मुख्य रूप से समय से संबंधित हैं, एलएलएम को सही प्रतिक्रिया देने में शामिल इंजीनियरिंग से परे सावधानी से इंजीनियरिंग की आवश्यकता है।

निष्कर्ष

एआई-पावर्ड वॉयस-आधारित सिस्टम का विकास ग्राहक सेवा गतिविधियों में एक क्रांतिकारी परिवर्तन का वादा करता है, जो पुराने फोन सिस्टम को उन्नत एलएलएम, एएसआर और टीटीएस प्रौद्योगिकियों के साथ बदल देता है। हालांकि, हॉलुसिनेटेड जानकारी और निर्बाध एंडपॉइंटिंग में चुनौतियों को पार करना प्राकृतिक और कुशल वॉयस इंटरैक्शन वितरित करने के लिए महत्वपूर्ण होगा।

ग्राहक सेवा को स्वचालित करने में वास्तविक खेल परिवर्तक बनने की क्षमता है, लेकिन केवल तभी जब यह सही ढंग से किया जाता है। 2024 में, विशेष रूप से इन सभी नई प्रौद्योगिकियों के साथ, हम अंततः ऐसे सिस्टम बना सकते हैं जो प्राकृतिक और चिकनी और मजबूत रूप से हमें समझते हैं। इसका शुद्ध प्रभाव प्रतीक्षा समय को कम करेगा और वर्तमान में हमारे पास वॉयस बॉट्स के साथ अनुभव को बेहतर बनाएगा, जो ग्राहक जुड़ाव और सेवा गुणवत्ता में एक परिवर्तनकारी युग को चिह्नित करेगा।

Related Topics:thought leaders voice-based AI

Dr. Itamar Arel

डॉ. इतामार अरेल, वर्तमान में Tenyx में सीईओ, अपनी अकादमिक पृष्ठभूमि को टेनेसी विश्वविद्यालय और स्टैनफोर्ड विश्वविद्यालय के एआई लैब में पूर्व प्रोफेसर के रूप में मिलाते हैं, जो उद्यमी सफलता के साथ जुड़ा हुआ है, जिसमें अग्रणी कंपनियों बिनाटिक्स, अप्रेंट (मैकडॉनल्ड्स और आईबीएम द्वारा अधिग्रहित) और टेनिक्स की स्थापना की गई है। इतामार ने हाल ही में मैकडॉनल्ड्स कॉर्पोरेशन में कॉर्पोरेट वीपी और मैकडी टेक लैब्स के प्रमुख और आईबीएम वाटसन ऑर्डर्स में कॉनवर्सेशनल एआई के प्रमुख के रूप में पद धारण किया था।

Dr. Ron Chrisley

Dr. Ron Chrisley is currently Chief Scientific Advisor at Tenyx, which he co-founded in 2021. He received a BS in Symbolic Systems from Stanford, holds a doctorate from the University of Oxford, and is Professor of Cognitive Science and Artificial Intelligence at the University of Sussex. From 2019 to 2020, he was Visiting Scholar at Stanford’s Institute for Human-Centered AI.

Unite.AI