рд╡рд┐рдЪрд╛рд░ рдиреЗрддрд╛
рдПрдЖрдИ-рдкрд╛рд╡рд░реНрдб рд╡реЙрдпрд╕-рдЖрдзрд╛рд░рд┐рдд рдПрдЬреЗрдВрдЯреНрд╕ рдлреЙрд░ рдПрдВрдЯрд░рдкреНрд░рд╛рдЗрдЬреЗрдЬ: рджреЛ рдкреНрд░рдореБрдЦ рдЪреБрдиреМрддрд┐рдпрд╛рдБ

अब, पहले से अधिक समय है एआई-पावर्ड वॉयस-आधारित सिस्टम के लिए। एक ग्राहक सेवा के लिए फोन कॉल पर विचार करें। जल्द ही सभी कठोरता और अनम्यता चली जाएगी – कठोर रोबोटिक आवाजें, “बिक्री के लिए एक दबाएं” शैली के प्रतिबंधक मेनू, परेशान करने वाले अनुभव जो हमें सभी को बार-बार शून्य दबाने के लिए प्रेरित करते हैं ताकि इसके बजाय एक मानव एजेंट के साथ बात की जा सके। (या, मानव एजेंट को स्थानांतरित करने में लगने वाले लंबे समय के इंतजार के समय को देखते हुए, कॉल को पूरी तरह से छोड़ दिया जाता है।)
अब नहीं। ट्रांसफॉर्मर-आधारित बड़े भाषा मॉडल (एलएलएम) में प्रगति के साथ-साथ स्वचालित स्पीच रिकग्निशन (एएसआर) और टेक्स्ट-टू-स्पीच (टीटीएस) सिस्टम में भी प्रगति के कारण “नेक्स्ट-जेनरेशन” वॉयस-आधारित एजेंट यहाँ हैं – यदि आप जानते हैं कि उन्हें कैसे बनाना है।
आज हम ऐसे स्टेट-ऑफ-द-आर्ट वॉयस-आधारित कॉनवर्सेशनल एजेंट बनाने की उम्मीद करने वाले लोगों के सामने आने वाली चुनौतियों की जांच करते हैं।
वॉयस क्यों?
इससे पहले कि हम इसमें कूदें, आइए वॉयस-आधारित एजेंटों (टेक्स्ट-आधारित इंटरैक्शन के विपरीत) के सामान्य आकर्षण और प्रासंगिकता की एक त्वरित नज़र डालें। वॉयस इंटरैक्शन के लिए टेक्स्ट-आधारित एक की तुलना में अधिक उपयुक्त होने के कई कारण हो सकते हैं – वे शामिल कर सकते हैं:
-
प्राथमिकता या आदत – बोलना लेखन विकास और ऐतिहासिक रूप से पहले आता है
-
धीमी टेक्स्ट इनपुट – कई लोग टेक्स्ट करने से अधिक तेजी से बोल सकते हैं
-
हाथों से मुक्त स्थितियाँ – जैसे कि ड्राइविंग, वर्कआउट करना या बर्तन धोना
-
निरक्षरता – कम से कम एजेंट द्वारा समझी जाने वाली भाषा(ओं) में
-
विकलांगता – जैसे कि अंधापन या गैर-मौखिक मोटर नियंत्रण की कमी
वेबसाइट-मध्यस्थ लेनदेन द्वारा प्रभावित एक युग में, वॉयस वाणिज्य के लिए एक शक्तिशाली माध्यम बना हुआ है। उदाहरण के लिए, होटल उद्योग में ग्राहक संतुष्टि पर जेड पावर द्वारा किए गए एक हालिया अध्ययन में पाया गया कि जिन मेहमानों ने फोन पर अपना कमरा बुक किया था, वे उन लोगों की तुलना में अपने प्रवास से अधिक संतुष्ट थे जिन्होंने इसे ऑनलाइन यात्रा एजेंसी (ओटीए) या सीधे होटल की वेबसाइट के माध्यूम से बुक किया था।
लेकिन इंटरैक्टिव वॉयस रिस्पॉन्स, या आईवीआर के लिए छोटा, पर्याप्त नहीं है। 2023 में ज़िप्पिया द्वारा किए गए एक अध्ययन में पाया गया कि 88% ग्राहक एक लाइव एजेंट के साथ वॉयस कॉल पसंद करते हैं जो एक स्वचालित फोन मेनू को नेविगेट करने के बजाय है। अध्ययन में यह भी पाया गया कि फोन मेनू के बारे में लोगों को सबसे ज्यादा परेशान करने वाली चीजें शामिल हैं: अप्रासंगिक विकल्प सुनना (69%), मुद्दे का पूरी तरह से वर्णन करने में असमर्थता (67%), अक्षम सेवा (33%), और भ्रमित करने वाले विकल्प (15%)।
और व्यवसायों के साथ बातचीत करने के लिए वॉयस असिस्टेंट का उपयोग करने के लिए एक खुलापन है। एक्सेंचर द्वारा किए गए एक अध्ययन के अनुसार, लगभग 47% उपभोक्ता व्यवसायों के साथ बातचीत करने के लिए वॉयस असिस्टेंट का उपयोग करने में सहज हैं और लगभग 31% उपभोक्ता पहले से ही एक व्यवसाय के साथ बातचीत करने के लिए एक वॉयस असिस्टेंट का उपयोग कर चुके हैं।
चाहे जो भी कारण हो, कई लोगों के लिए बोली जाने वाली बातचीत के लिए एक प्राथमिकता और मांग है – जब तक कि यह प्राकृतिक और आरामदायक हो।
एक अच्छा वॉयस-आधारित एजेंट क्या बनाता है?
लगभग बोलते हुए, एक अच्छा वॉयस-आधारित एजेंट को उपयोगकर्ता को इस तरह से प्रतिक्रिया देनी चाहिए जो:
-
प्रासंगिक: उपयोगकर्ता ने क्या कहा / चाहा था, इसकी सही समझ पर आधारित। ध्यान दें कि कुछ मामलों में, एजेंट की प्रतिक्रिया केवल एक बोली गई प्रतिक्रिया नहीं होगी, बल्कि बैकएंड (जैसे कि जब कॉलर कहता है “इसे बुक करें”) के साथ एकीकरण के माध्यम से कुछ कार्रवाई होगी।
-
सटीक: तथ्यों (जैसे कि केवल तभी कहें जब होटल में 19 जनवरी को एक कमरा उपलब्ध है) पर आधारित
-
स्पष्ट: प्रतिक्रिया समझने योग्य होनी चाहिए
-
समय पर: मानव से अपेक्षित लेटेंसी के साथ
-
सुरक्षित: कोई अपमानजनक या अनुचित भाषा, संरक्षित जानकारी का खुलासा आदि नहीं
समस्या
वर्तमान वॉयस-आधारित स्वचालित प्रणाली उपरोक्त मानदंडों को पूरा करने का प्रयास करती हैं, लेकिन इसके लिए बहुत सीमित और बहुत परेशान करने वाला होना पड़ता है। इसका एक हिस्सा उच्च अपेक्षाओं के परिणामस्वरूप है जो एक वॉयस-आधारित संवाद संदर्भ स्थापित करता है, जिन अपेक्षाओं को टीटीएस प्रणालियों में मानव आवाज़ से वॉयस गुणवत्ता को अलग करना मुश्किल हो जाता है। लेकिन ये अपेक्षाएं वर्तमान में तैनात प्रणालियों में विफल हो जाती हैं। क्यों?
एक शब्द में – अनम्यता:
-
सीमित भाषण – उपयोगकर्ता को आमतौर पर अस्वाभाविक रूप से चीजें कहने के लिए मजबूर किया जाता है: छोटे वाक्यांशों में, एक विशिष्ट क्रम में, अनावश्यक जानकारी के बिना, आदि। यह पुराने स्कूल के नंबर-आधारित मेनू प्रणाली पर कोई प्रगति नहीं करता है
-
स्वीकार्य भाषण की संकीर्ण, गैर-समावेशी धारणा – स्लैंग, उह्म और अह, आदि के लिए कम सहनशीलता
-
कोई पीछे की ओर जाने की क्षमता नहीं: यदि कुछ गलत हो जाता है, तो समस्याग्रस्त जानकारी के टुकड़े को सुधारने या सही करने का कम से कम मौका हो सकता है, लेकिन इसके बजाय शुरू से शुरू करना होगा या मानव को स्थानांतरित करने का इंतजार करना होगा।
-
सख्त मोड़ लेना – एजेंट को बाधित करने या बोलने की क्षमता नहीं
यह कहना कि लोग इन प्रतिबंधों को परेशान करने वाला या निराशाजनक पाते हैं, बिना कहे समझा जा सकता है।
समाधान:
अच्छी खबर यह है कि आधुनिक एआई सिस्टम पर्याप्त रूप से शक्तिशाली और तेज़ हैं ताकि वे उपरोक्त प्रकार के अनुभवों में काफी सुधार कर सकें, बल्कि मानव-आधारित ग्राहक सेवा मानकों को पार कर सकें। यह कई कारकों के कारण है:
-
तेज़, अधिक शक्तिशाली हार्डवेयर
-
एएसआर (उच्च सटीकता, शोर, उच्चारण आदि को दूर करना) में सुधार
-
टीटीएस (प्राकृतिक ध्वनि या यहां तक कि क्लोन की गई आवाजें) में सुधार
-
जनरेटिव एलएलएम (प्राकृतिक ध्वनि वाली बातचीत) का आगमन
उस अंतिम बिंदु पर ध्यान देना महत्वपूर्ण है। मुख्य अंतर्दृष्टि यह थी कि एक अच्छा पूर्वानुमान मॉडल एक अच्छा उत्पादक मॉडल के रूप में कार्य कर सकता है। एक कृत्रिम एजेंट मानव-स्तरीय संवादात्मक प्रदर्शन के करीब पहुंच सकता है यदि यह कहता है कि एक अच्छा मानव ग्राहक सेवा एजेंट दिए गए संवादात्मक संदर्भ में (जैसे कि ग्राहक ने “क्या आपके होटल में एक पूल है?” पूछा है) सबसे अधिक संभावना है कि क्या कहा जाएगा।
एएसआर और टीटीएस मॉड्यूल को एलएलएम कोर से जोड़कर वॉयस-आधारित कॉनवर्सेशनल एजेंट समस्या को हल करने की कोशिश करने वाले दर्जनों एआई स्टार्टअप्स का आगमन। इस दृष्टिकोण से, समाधान लेटेंसी और लागत को कम करने वाले संयोजन का चयन करने का मामला है। और निश्चित रूप से, यह महत्वपूर्ण है। लेकिन क्या यह पर्याप्त है?
तेजी से नहीं
कुछ विशिष्ट कारण हैं कि यह सरल दृष्टिकोण काम नहीं करेगा, लेकिन वे दो सामान्य बिंदुओं से उत्पन्न होते हैं:
-
एलएलएम वास्तव में ग्राहक सेवा जैसे उद्यम अनुप्रयोगों के लिए आवश्यक प्रकार की तथ्य-आधारित पाठ बातचीत प्रदान नहीं कर सकते हैं। इसलिए वे वॉयस-आधारित बातचीत के लिए भी ऐसा नहीं कर सकते हैं। कुछ और चाहिए।
-
यहां तक कि अगर आप एलएलएम को एक अच्छे पाठ-आधारित संवादात्मक एजेंट बनाने के लिए आवश्यक के साथ पूरक करते हैं, तो इसे एक अच्छे वॉयस-आधारित संवादात्मक एजेंट में बदलने के लिए केवल सबसे अच्छे एएसआर और टीटीएस मॉड्यूल से जोड़ने की तुलना में अधिक की आवश्यकता होती है जो आप खरीद सकते हैं।
आइए प्रत्येक चुनौती का एक विशिष्ट उदाहरण देखें।
चुनौती 1: वास्तविक बने रहना
जैसा कि अब व्यापक रूप से ज्ञात है, एलएलएम कभी-कभी असटीक या ‘हॉलुसिनेटेड’ जानकारी उत्पन्न करते हैं। यह कई व्यावसायिक अनुप्रयोगों के संदर्भ में, यहां तक कि मनोरंजन अनुप्रयोगों में भी जहां सटीकता मुद्दा नहीं हो सकती है, विनाशकारी है।
यह देखते हुए कि एलएलएम कभी-कभी हॉलुसिनेट करते हैं, यह केवल अपेक्षित है। यह डेटा से प्रशिक्षित मॉडल का उपयोग करके डेटा सेट (चाहे कितना भी बड़ा हो) के हिस्से के रूप में नहीं होने वाले तथ्यों के बारे में प्रश्नों के उत्तर देने का एक सीधा परिणाम है जो एक वर्ष (या अधिक) पुराना हो सकता है। जब कॉलर पूछता है “मेरा सदस्यता नंबर क्या है?”, तो एक साधारण प्री-प्रशिक्षित एलएलएम केवल एक संभावित ध्वनि वाला उत्तर उत्पन्न कर सकता है, सटीक नहीं।
इस समस्या से निपटने के सबसे सामान्य तरीके हैं:
-
फ़ाइन-ट्यूनिंग: एलएलएम को आगे प्रशिक्षित करें, इस बार आपके द्वारा सही ढंग से उत्तर देने के लिए आप चाहते हैं कि डोमेन-विशिष्ट डेटा पर।
-
प्रॉम्प्ट इंजीनियरिंग: एलएलएम में अतिरिक्त डेटा / निर्देशों को बातचीत के इतिहास के अलावा इनपुट के रूप में जोड़ें।
-
रिट्रीवल ऑगमेंटेड जेनरेशन (आरएजी): प्रॉम्प्ट इंजीनियरिंग की तरह, लेकिन प्रॉम्प्ट में जोड़ा गया डेटा वर्तमान संवादात्मक संदर्भ (जैसे कि ग्राहक ने “क्या आपके होटल में एक पूल है?” पूछा है) के अनुसार आपके डोमेन-विशिष्ट डेटा के एक एम्बेडिंग-एन्कोडेड इंडेक्स से मेल खाने के द्वारा निर्धारित किया जाता है।
-
नियम-आधारित नियंत्रण: आरएजी की तरह, लेकिन प्रॉम्प्ट में जोड़ा या घटाया जाने वाला नहीं है एक तंत्रिका स्मृति द्वारा पुनर्प्राप्त किया जाता है, बल्कि हार्ड-कोडेड (और हाथ से कोडेड) नियमों द्वारा निर्धारित किया जाता है।
नोट करें कि एक आकार सभी के लिए फिट नहीं है। जो तरीका उपयुक्त होगा वह इस बात पर निर्भर करेगा, उदाहरण के लिए, एजेंट के उत्तर को सूचित करने वाले डोमेन-विशिष्ट डेटा पर। विशेष रूप से, यह इस बात पर निर्भर करेगा कि क्या कहा गया डेटा बार-बार बदलता है (कॉल से कॉल तक, उदाहरण के लिए – जैसे ग्राहक का नाम) या शायद ही कभी। फ़ाइन-ट्यूनिंग पूर्ववर्ती के लिए उपयुक्त नहीं होगी, और आरएजी बाद वाले के लिए एक भद्दा समाधान होगा। इसलिए कोई भी कार्यशील प्रणाली को इन तरीकों में से एक का उपयोग करने की आवश्यकता होगी।
जो और है, इन तरीकों को एलएलएम और एक दूसरे के साथ एक तरीके से एकीकृत करना जो लेटेंसी और लागत को कम करता है, सावधानी से इंजीनियरिंग की आवश्यकता है। उदाहरण के लिए, आपके मॉडल का आरएजी प्रदर्शन बेहतर हो सकता है यदि आप इस पद्धति को सुविधाजनक बनाने के लिए इसे फ़ाइन-ट्यून करते हैं।
यह कोई आश्चर्य की बात नहीं है कि इन तरीकों में से प्रत्येक अपनी चुनौतियां पेश करते हैं। उदाहरण के लिए, फ़ाइन-ट्यूनिंग लें। अपने प्री-प्रशिक्षित एलएलएम को अपने डोमेन-विशिष्ट डेटा पर फ़ाइन-ट्यून करने से इसके प्रदर्शन में सुधार होगा, हाँ। लेकिन फ़ाइन-ट्यूनिंग प्री-प्रशिक्षित मॉडल के (संभवतः khá अच्छे) सामान्य प्रदर्शन के आधार के पैरामीटर (वजन) को संशोधित करती है। यह संशोधन इसलिए मॉडल के पिछले ज्ञान के एक अनअपेक्षित अनअपेक्षित (या “विनाशकारी भूलने”) का कारण बनता है। इससे एजेंट द्वारा असटीक या अनुचित (यहां तक कि असुरक्षित) प्रतिक्रियाएं देने की संभावना हो सकती है। यदि आप चाहते हैं कि आपका एजेंट अभी भी सटीक और सुरक्षित रूप से प्रतिक्रिया दे, तो आपको एक फ़ाइन-ट्यूनिंग विधि की आवश्यकता है जो विनाशकारी भूलने को कम करती है।
चुनौती 2: एंडपॉइंटिंग
ग्राहक ने बोलना बंद कर दिया है या नहीं, यह निर्धारित करना स्वाभाविक बातचीत के प्रवाह के लिए महत्वपूर्ण है। इसी तरह, प्रणाली को बाधित करने को सुंदरता से संभालना चाहिए, यह सुनिश्चित करते हुए कि बातचीत ग्राहक की जरूरतों के प्रति सुसंगत और प्रतिक्रियाशील बनी रहे। मानव इंटरैक्शन के मानक की तुलना में ऐसा करना एक जटिल कार्य है, लेकिन प्राकृतिक और सुखद संवादात्मक अनुभव बनाने के लिए यह आवश्यक है।
एक समाधान जो काम करता है डिज़ाइनरों को ऐसे प्रश्नों पर विचार करने की आवश्यकता है:
-
ग्राहक बोलना बंद करने के बाद एजेंट को कितनी देर तक प्रतीक्षा करनी चाहिए इससे पहले कि यह निर्णय लिया जाए कि ग्राहक बोलना बंद कर दिया है?
-
क्या उपरोक्त यह निर्भर करता है कि ग्राहक ने एक पूरा वाक्य पूरा किया है या नहीं?
-
ग्राहक एजेंट को बाधित करने पर क्या किया जाना चाहिए?
-
विशेष रूप से, क्या एजेंट को यह मान लेना चाहिए कि जो कुछ वह कह रहा था वह ग्राहक द्वारा सुना नहीं गया था?
इन मुद्दों, जो मुख्य रूप से समय से संबंधित हैं, एलएलएम को सही प्रतिक्रिया देने में शामिल इंजीनियरिंग से परे सावधानी से इंजीनियरिंग की आवश्यकता है।
निष्कर्ष
एआई-पावर्ड वॉयस-आधारित सिस्टम का विकास ग्राहक सेवा गतिविधियों में एक क्रांतिकारी परिवर्तन का वादा करता है, जो पुराने फोन सिस्टम को उन्नत एलएलएम, एएसआर और टीटीएस प्रौद्योगिकियों के साथ बदल देता है। हालांकि, हॉलुसिनेटेड जानकारी और निर्बाध एंडपॉइंटिंग में चुनौतियों को पार करना प्राकृतिक और कुशल वॉयस इंटरैक्शन वितरित करने के लिए महत्वपूर्ण होगा।
ग्राहक सेवा को स्वचालित करने में वास्तविक खेल परिवर्तक बनने की क्षमता है, लेकिन केवल तभी जब यह सही ढंग से किया जाता है। 2024 में, विशेष रूप से इन सभी नई प्रौद्योगिकियों के साथ, हम अंततः ऐसे सिस्टम बना सकते हैं जो प्राकृतिक और चिकनी और मजबूत रूप से हमें समझते हैं। इसका शुद्ध प्रभाव प्रतीक्षा समय को कम करेगा और वर्तमान में हमारे पास वॉयस बॉट्स के साथ अनुभव को बेहतर बनाएगा, जो ग्राहक जुड़ाव और सेवा गुणवत्ता में एक परिवर्तनकारी युग को चिह्नित करेगा।













