Connect with us

рдПрдЖрдИ-рдкрд╛рд╡рд░реНрдб рд╡реЙрдпрд╕-рдЖрдзрд╛рд░рд┐рдд рдПрдЬреЗрдВрдЯреНрд╕ рдлреЙрд░ рдПрдВрдЯрд░рдкреНрд░рд╛рдЗрдЬреЗрдЬ: рджреЛ рдкреНрд░рдореБрдЦ рдЪреБрдиреМрддрд┐рдпрд╛рдБ

рд╡рд┐рдЪрд╛рд░ рдиреЗрддрд╛

рдПрдЖрдИ-рдкрд╛рд╡рд░реНрдб рд╡реЙрдпрд╕-рдЖрдзрд╛рд░рд┐рдд рдПрдЬреЗрдВрдЯреНрд╕ рдлреЙрд░ рдПрдВрдЯрд░рдкреНрд░рд╛рдЗрдЬреЗрдЬ: рджреЛ рдкреНрд░рдореБрдЦ рдЪреБрдиреМрддрд┐рдпрд╛рдБ

mm mm

अब, पहले से अधिक समय है एआई-पावर्ड वॉयस-आधारित सिस्टम के लिए। एक ग्राहक सेवा के लिए फोन कॉल पर विचार करें। जल्द ही सभी कठोरता और अनम्यता चली जाएगी – कठोर रोबोटिक आवाजें, “बिक्री के लिए एक दबाएं” शैली के प्रतिबंधक मेनू, परेशान करने वाले अनुभव जो हमें सभी को बार-बार शून्य दबाने के लिए प्रेरित करते हैं ताकि इसके बजाय एक मानव एजेंट के साथ बात की जा सके। (या, मानव एजेंट को स्थानांतरित करने में लगने वाले लंबे समय के इंतजार के समय को देखते हुए, कॉल को पूरी तरह से छोड़ दिया जाता है।)

अब नहीं। ट्रांसफॉर्मर-आधारित बड़े भाषा मॉडल (एलएलएम) में प्रगति के साथ-साथ स्वचालित स्पीच रिकग्निशन (एएसआर) और टेक्स्ट-टू-स्पीच (टीटीएस) सिस्टम में भी प्रगति के कारण “नेक्स्ट-जेनरेशन” वॉयस-आधारित एजेंट यहाँ हैं – यदि आप जानते हैं कि उन्हें कैसे बनाना है।

आज हम ऐसे स्टेट-ऑफ-द-आर्ट वॉयस-आधारित कॉनवर्सेशनल एजेंट बनाने की उम्मीद करने वाले लोगों के सामने आने वाली चुनौतियों की जांच करते हैं।

वॉयस क्यों?

इससे पहले कि हम इसमें कूदें, आइए वॉयस-आधारित एजेंटों (टेक्स्ट-आधारित इंटरैक्शन के विपरीत) के सामान्य आकर्षण और प्रासंगिकता की एक त्वरित नज़र डालें। वॉयस इंटरैक्शन के लिए टेक्स्ट-आधारित एक की तुलना में अधिक उपयुक्त होने के कई कारण हो सकते हैं – वे शामिल कर सकते हैं:

  • प्राथमिकता या आदत – बोलना लेखन विकास और ऐतिहासिक रूप से पहले आता है

  • धीमी टेक्स्ट इनपुट – कई लोग टेक्स्ट करने से अधिक तेजी से बोल सकते हैं

  • हाथों से मुक्त स्थितियाँ – जैसे कि ड्राइविंग, वर्कआउट करना या बर्तन धोना

  • निरक्षरता – कम से कम एजेंट द्वारा समझी जाने वाली भाषा(ओं) में

  • विकलांगता – जैसे कि अंधापन या गैर-मौखिक मोटर नियंत्रण की कमी

वेबसाइट-मध्यस्थ लेनदेन द्वारा प्रभावित एक युग में, वॉयस वाणिज्य के लिए एक शक्तिशाली माध्यम बना हुआ है। उदाहरण के लिए, होटल उद्योग में ग्राहक संतुष्टि पर जेड पावर द्वारा किए गए एक हालिया अध्ययन में पाया गया कि जिन मेहमानों ने फोन पर अपना कमरा बुक किया था, वे उन लोगों की तुलना में अपने प्रवास से अधिक संतुष्ट थे जिन्होंने इसे ऑनलाइन यात्रा एजेंसी (ओटीए) या सीधे होटल की वेबसाइट के माध्यूम से बुक किया था।

लेकिन इंटरैक्टिव वॉयस रिस्पॉन्स, या आईवीआर के लिए छोटा, पर्याप्त नहीं है। 2023 में ज़िप्पिया द्वारा किए गए एक अध्ययन में पाया गया कि 88% ग्राहक एक लाइव एजेंट के साथ वॉयस कॉल पसंद करते हैं जो एक स्वचालित फोन मेनू को नेविगेट करने के बजाय है। अध्ययन में यह भी पाया गया कि फोन मेनू के बारे में लोगों को सबसे ज्यादा परेशान करने वाली चीजें शामिल हैं: अप्रासंगिक विकल्प सुनना (69%), मुद्दे का पूरी तरह से वर्णन करने में असमर्थता (67%), अक्षम सेवा (33%), और भ्रमित करने वाले विकल्प (15%)।

और व्यवसायों के साथ बातचीत करने के लिए वॉयस असिस्टेंट का उपयोग करने के लिए एक खुलापन है। एक्सेंचर द्वारा किए गए एक अध्ययन के अनुसार, लगभग 47% उपभोक्ता व्यवसायों के साथ बातचीत करने के लिए वॉयस असिस्टेंट का उपयोग करने में सहज हैं और लगभग 31% उपभोक्ता पहले से ही एक व्यवसाय के साथ बातचीत करने के लिए एक वॉयस असिस्टेंट का उपयोग कर चुके हैं।

चाहे जो भी कारण हो, कई लोगों के लिए बोली जाने वाली बातचीत के लिए एक प्राथमिकता और मांग है – जब तक कि यह प्राकृतिक और आरामदायक हो।

एक अच्छा वॉयस-आधारित एजेंट क्या बनाता है?

लगभग बोलते हुए, एक अच्छा वॉयस-आधारित एजेंट को उपयोगकर्ता को इस तरह से प्रतिक्रिया देनी चाहिए जो:

  • प्रासंगिक: उपयोगकर्ता ने क्या कहा / चाहा था, इसकी सही समझ पर आधारित। ध्यान दें कि कुछ मामलों में, एजेंट की प्रतिक्रिया केवल एक बोली गई प्रतिक्रिया नहीं होगी, बल्कि बैकएंड (जैसे कि जब कॉलर कहता है “इसे बुक करें”) के साथ एकीकरण के माध्यम से कुछ कार्रवाई होगी।

  • सटीक: तथ्यों (जैसे कि केवल तभी कहें जब होटल में 19 जनवरी को एक कमरा उपलब्ध है) पर आधारित

  • स्पष्ट: प्रतिक्रिया समझने योग्य होनी चाहिए

  • समय पर: मानव से अपेक्षित लेटेंसी के साथ

  • सुरक्षित: कोई अपमानजनक या अनुचित भाषा, संरक्षित जानकारी का खुलासा आदि नहीं

समस्या

वर्तमान वॉयस-आधारित स्वचालित प्रणाली उपरोक्त मानदंडों को पूरा करने का प्रयास करती हैं, लेकिन इसके लिए बहुत सीमित और बहुत परेशान करने वाला होना पड़ता है। इसका एक हिस्सा उच्च अपेक्षाओं के परिणामस्वरूप है जो एक वॉयस-आधारित संवाद संदर्भ स्थापित करता है, जिन अपेक्षाओं को टीटीएस प्रणालियों में मानव आवाज़ से वॉयस गुणवत्ता को अलग करना मुश्किल हो जाता है। लेकिन ये अपेक्षाएं वर्तमान में तैनात प्रणालियों में विफल हो जाती हैं। क्यों?

एक शब्द में – अनम्यता:

  • सीमित भाषण – उपयोगकर्ता को आमतौर पर अस्वाभाविक रूप से चीजें कहने के लिए मजबूर किया जाता है: छोटे वाक्यांशों में, एक विशिष्ट क्रम में, अनावश्यक जानकारी के बिना, आदि। यह पुराने स्कूल के नंबर-आधारित मेनू प्रणाली पर कोई प्रगति नहीं करता है

  • स्वीकार्य भाषण की संकीर्ण, गैर-समावेशी धारणा – स्लैंग, उह्म और अह, आदि के लिए कम सहनशीलता

  • कोई पीछे की ओर जाने की क्षमता नहीं: यदि कुछ गलत हो जाता है, तो समस्याग्रस्त जानकारी के टुकड़े को सुधारने या सही करने का कम से कम मौका हो सकता है, लेकिन इसके बजाय शुरू से शुरू करना होगा या मानव को स्थानांतरित करने का इंतजार करना होगा।

  • सख्त मोड़ लेना – एजेंट को बाधित करने या बोलने की क्षमता नहीं

यह कहना कि लोग इन प्रतिबंधों को परेशान करने वाला या निराशाजनक पाते हैं, बिना कहे समझा जा सकता है।

समाधान:

अच्छी खबर यह है कि आधुनिक एआई सिस्टम पर्याप्त रूप से शक्तिशाली और तेज़ हैं ताकि वे उपरोक्त प्रकार के अनुभवों में काफी सुधार कर सकें, बल्कि मानव-आधारित ग्राहक सेवा मानकों को पार कर सकें। यह कई कारकों के कारण है:

  • तेज़, अधिक शक्तिशाली हार्डवेयर

  • एएसआर (उच्च सटीकता, शोर, उच्चारण आदि को दूर करना) में सुधार

  • टीटीएस (प्राकृतिक ध्वनि या यहां तक कि क्लोन की गई आवाजें) में सुधार

  • जनरेटिव एलएलएम (प्राकृतिक ध्वनि वाली बातचीत) का आगमन

उस अंतिम बिंदु पर ध्यान देना महत्वपूर्ण है। मुख्य अंतर्दृष्टि यह थी कि एक अच्छा पूर्वानुमान मॉडल एक अच्छा उत्पादक मॉडल के रूप में कार्य कर सकता है। एक कृत्रिम एजेंट मानव-स्तरीय संवादात्मक प्रदर्शन के करीब पहुंच सकता है यदि यह कहता है कि एक अच्छा मानव ग्राहक सेवा एजेंट दिए गए संवादात्मक संदर्भ में (जैसे कि ग्राहक ने “क्या आपके होटल में एक पूल है?” पूछा है) सबसे अधिक संभावना है कि क्या कहा जाएगा।

एएसआर और टीटीएस मॉड्यूल को एलएलएम कोर से जोड़कर वॉयस-आधारित कॉनवर्सेशनल एजेंट समस्या को हल करने की कोशिश करने वाले दर्जनों एआई स्टार्टअप्स का आगमन। इस दृष्टिकोण से, समाधान लेटेंसी और लागत को कम करने वाले संयोजन का चयन करने का मामला है। और निश्चित रूप से, यह महत्वपूर्ण है। लेकिन क्या यह पर्याप्त है?

तेजी से नहीं

कुछ विशिष्ट कारण हैं कि यह सरल दृष्टिकोण काम नहीं करेगा, लेकिन वे दो सामान्य बिंदुओं से उत्पन्न होते हैं:

  1. एलएलएम वास्तव में ग्राहक सेवा जैसे उद्यम अनुप्रयोगों के लिए आवश्यक प्रकार की तथ्य-आधारित पाठ बातचीत प्रदान नहीं कर सकते हैं। इसलिए वे वॉयस-आधारित बातचीत के लिए भी ऐसा नहीं कर सकते हैं। कुछ और चाहिए।

  2. यहां तक कि अगर आप एलएलएम को एक अच्छे पाठ-आधारित संवादात्मक एजेंट बनाने के लिए आवश्यक के साथ पूरक करते हैं, तो इसे एक अच्छे वॉयस-आधारित संवादात्मक एजेंट में बदलने के लिए केवल सबसे अच्छे एएसआर और टीटीएस मॉड्यूल से जोड़ने की तुलना में अधिक की आवश्यकता होती है जो आप खरीद सकते हैं।

आइए प्रत्येक चुनौती का एक विशिष्ट उदाहरण देखें।

चुनौती 1: वास्तविक बने रहना

जैसा कि अब व्यापक रूप से ज्ञात है, एलएलएम कभी-कभी असटीक या ‘हॉलुसिनेटेड’ जानकारी उत्पन्न करते हैं। यह कई व्यावसायिक अनुप्रयोगों के संदर्भ में, यहां तक कि मनोरंजन अनुप्रयोगों में भी जहां सटीकता मुद्दा नहीं हो सकती है, विनाशकारी है।

यह देखते हुए कि एलएलएम कभी-कभी हॉलुसिनेट करते हैं, यह केवल अपेक्षित है। यह डेटा से प्रशिक्षित मॉडल का उपयोग करके डेटा सेट (चाहे कितना भी बड़ा हो) के हिस्से के रूप में नहीं होने वाले तथ्यों के बारे में प्रश्नों के उत्तर देने का एक सीधा परिणाम है जो एक वर्ष (या अधिक) पुराना हो सकता है। जब कॉलर पूछता है “मेरा सदस्यता नंबर क्या है?”, तो एक साधारण प्री-प्रशिक्षित एलएलएम केवल एक संभावित ध्वनि वाला उत्तर उत्पन्न कर सकता है, सटीक नहीं।

इस समस्या से निपटने के सबसे सामान्य तरीके हैं:

  • फ़ाइन-ट्यूनिंग: एलएलएम को आगे प्रशिक्षित करें, इस बार आपके द्वारा सही ढंग से उत्तर देने के लिए आप चाहते हैं कि डोमेन-विशिष्ट डेटा पर।

  • प्रॉम्प्ट इंजीनियरिंग: एलएलएम में अतिरिक्त डेटा / निर्देशों को बातचीत के इतिहास के अलावा इनपुट के रूप में जोड़ें।

  • रिट्रीवल ऑगमेंटेड जेनरेशन (आरएजी): प्रॉम्प्ट इंजीनियरिंग की तरह, लेकिन प्रॉम्प्ट में जोड़ा गया डेटा वर्तमान संवादात्मक संदर्भ (जैसे कि ग्राहक ने “क्या आपके होटल में एक पूल है?” पूछा है) के अनुसार आपके डोमेन-विशिष्ट डेटा के एक एम्बेडिंग-एन्कोडेड इंडेक्स से मेल खाने के द्वारा निर्धारित किया जाता है।

  • नियम-आधारित नियंत्रण: आरएजी की तरह, लेकिन प्रॉम्प्ट में जोड़ा या घटाया जाने वाला नहीं है एक तंत्रिका स्मृति द्वारा पुनर्प्राप्त किया जाता है, बल्कि हार्ड-कोडेड (और हाथ से कोडेड) नियमों द्वारा निर्धारित किया जाता है।

नोट करें कि एक आकार सभी के लिए फिट नहीं है। जो तरीका उपयुक्त होगा वह इस बात पर निर्भर करेगा, उदाहरण के लिए, एजेंट के उत्तर को सूचित करने वाले डोमेन-विशिष्ट डेटा पर। विशेष रूप से, यह इस बात पर निर्भर करेगा कि क्या कहा गया डेटा बार-बार बदलता है (कॉल से कॉल तक, उदाहरण के लिए – जैसे ग्राहक का नाम) या शायद ही कभी। फ़ाइन-ट्यूनिंग पूर्ववर्ती के लिए उपयुक्त नहीं होगी, और आरएजी बाद वाले के लिए एक भद्दा समाधान होगा। इसलिए कोई भी कार्यशील प्रणाली को इन तरीकों में से एक का उपयोग करने की आवश्यकता होगी।

जो और है, इन तरीकों को एलएलएम और एक दूसरे के साथ एक तरीके से एकीकृत करना जो लेटेंसी और लागत को कम करता है, सावधानी से इंजीनियरिंग की आवश्यकता है। उदाहरण के लिए, आपके मॉडल का आरएजी प्रदर्शन बेहतर हो सकता है यदि आप इस पद्धति को सुविधाजनक बनाने के लिए इसे फ़ाइन-ट्यून करते हैं।

यह कोई आश्चर्य की बात नहीं है कि इन तरीकों में से प्रत्येक अपनी चुनौतियां पेश करते हैं। उदाहरण के लिए, फ़ाइन-ट्यूनिंग लें। अपने प्री-प्रशिक्षित एलएलएम को अपने डोमेन-विशिष्ट डेटा पर फ़ाइन-ट्यून करने से इसके प्रदर्शन में सुधार होगा, हाँ। लेकिन फ़ाइन-ट्यूनिंग प्री-प्रशिक्षित मॉडल के (संभवतः khá अच्छे) सामान्य प्रदर्शन के आधार के पैरामीटर (वजन) को संशोधित करती है। यह संशोधन इसलिए मॉडल के पिछले ज्ञान के एक अनअपेक्षित अनअपेक्षित (या “विनाशकारी भूलने”) का कारण बनता है। इससे एजेंट द्वारा असटीक या अनुचित (यहां तक कि असुरक्षित) प्रतिक्रियाएं देने की संभावना हो सकती है। यदि आप चाहते हैं कि आपका एजेंट अभी भी सटीक और सुरक्षित रूप से प्रतिक्रिया दे, तो आपको एक फ़ाइन-ट्यूनिंग विधि की आवश्यकता है जो विनाशकारी भूलने को कम करती है।

चुनौती 2: एंडपॉइंटिंग

ग्राहक ने बोलना बंद कर दिया है या नहीं, यह निर्धारित करना स्वाभाविक बातचीत के प्रवाह के लिए महत्वपूर्ण है। इसी तरह, प्रणाली को बाधित करने को सुंदरता से संभालना चाहिए, यह सुनिश्चित करते हुए कि बातचीत ग्राहक की जरूरतों के प्रति सुसंगत और प्रतिक्रियाशील बनी रहे। मानव इंटरैक्शन के मानक की तुलना में ऐसा करना एक जटिल कार्य है, लेकिन प्राकृतिक और सुखद संवादात्मक अनुभव बनाने के लिए यह आवश्यक है।

एक समाधान जो काम करता है डिज़ाइनरों को ऐसे प्रश्नों पर विचार करने की आवश्यकता है:

  • ग्राहक बोलना बंद करने के बाद एजेंट को कितनी देर तक प्रतीक्षा करनी चाहिए इससे पहले कि यह निर्णय लिया जाए कि ग्राहक बोलना बंद कर दिया है?

  • क्या उपरोक्त यह निर्भर करता है कि ग्राहक ने एक पूरा वाक्य पूरा किया है या नहीं?

  • ग्राहक एजेंट को बाधित करने पर क्या किया जाना चाहिए?

  • विशेष रूप से, क्या एजेंट को यह मान लेना चाहिए कि जो कुछ वह कह रहा था वह ग्राहक द्वारा सुना नहीं गया था?

इन मुद्दों, जो मुख्य रूप से समय से संबंधित हैं, एलएलएम को सही प्रतिक्रिया देने में शामिल इंजीनियरिंग से परे सावधानी से इंजीनियरिंग की आवश्यकता है।

निष्कर्ष

एआई-पावर्ड वॉयस-आधारित सिस्टम का विकास ग्राहक सेवा गतिविधियों में एक क्रांतिकारी परिवर्तन का वादा करता है, जो पुराने फोन सिस्टम को उन्नत एलएलएम, एएसआर और टीटीएस प्रौद्योगिकियों के साथ बदल देता है। हालांकि, हॉलुसिनेटेड जानकारी और निर्बाध एंडपॉइंटिंग में चुनौतियों को पार करना प्राकृतिक और कुशल वॉयस इंटरैक्शन वितरित करने के लिए महत्वपूर्ण होगा।

ग्राहक सेवा को स्वचालित करने में वास्तविक खेल परिवर्तक बनने की क्षमता है, लेकिन केवल तभी जब यह सही ढंग से किया जाता है। 2024 में, विशेष रूप से इन सभी नई प्रौद्योगिकियों के साथ, हम अंततः ऐसे सिस्टम बना सकते हैं जो प्राकृतिक और चिकनी और मजबूत रूप से हमें समझते हैं। इसका शुद्ध प्रभाव प्रतीक्षा समय को कम करेगा और वर्तमान में हमारे पास वॉयस बॉट्स के साथ अनुभव को बेहतर बनाएगा, जो ग्राहक जुड़ाव और सेवा गुणवत्ता में एक परिवर्तनकारी युग को चिह्नित करेगा।

рдбреЙ. рдЗрддрд╛рдорд╛рд░ рдЕрд░реЗрд▓, рд╡рд░реНрддрдорд╛рди рдореЗрдВ Tenyx рдореЗрдВ рд╕реАрдИрдУ, рдЕрдкрдиреА рдЕрдХрд╛рджрдорд┐рдХ рдкреГрд╖реНрдарднреВрдорд┐ рдХреЛ рдЯреЗрдиреЗрд╕реА рд╡рд┐рд╢реНрд╡рд╡рд┐рджреНрдпрд╛рд▓рдп рдФрд░ рд╕реНрдЯреИрдирдлреЛрд░реНрдб рд╡рд┐рд╢реНрд╡рд╡рд┐рджреНрдпрд╛рд▓рдп рдХреЗ рдПрдЖрдИ рд▓реИрдм рдореЗрдВ рдкреВрд░реНрд╡ рдкреНрд░реЛрдлреЗрд╕рд░ рдХреЗ рд░реВрдк рдореЗрдВ рдорд┐рд▓рд╛рддреЗ рд╣реИрдВ, рдЬреЛ рдЙрджреНрдпрдореА рд╕рдлрд▓рддрд╛ рдХреЗ рд╕рд╛рде рдЬреБрдбрд╝рд╛ рд╣реБрдЖ рд╣реИ, рдЬрд┐рд╕рдореЗрдВ рдЕрдЧреНрд░рдгреА рдХрдВрдкрдирд┐рдпреЛрдВ рдмрд┐рдирд╛рдЯрд┐рдХреНрд╕, рдЕрдкреНрд░реЗрдВрдЯ (рдореИрдХрдбреЙрдирд▓реНрдбреНрд╕ рдФрд░ рдЖрдИрдмреАрдПрдо рджреНрд╡рд╛рд░рд╛ рдЕрдзрд┐рдЧреНрд░рд╣рд┐рдд) рдФрд░ рдЯреЗрдирд┐рдХреНрд╕ рдХреА рд╕реНрдерд╛рдкрдирд╛ рдХреА рдЧрдИ рд╣реИред рдЗрддрд╛рдорд╛рд░ рдиреЗ рд╣рд╛рд▓ рд╣реА рдореЗрдВ рдореИрдХрдбреЙрдирд▓реНрдбреНрд╕ рдХреЙрд░реНрдкреЛрд░реЗрд╢рди рдореЗрдВ рдХреЙрд░реНрдкреЛрд░реЗрдЯ рд╡реАрдкреА рдФрд░ рдореИрдХрдбреА рдЯреЗрдХ рд▓реИрдмреНрд╕ рдХреЗ рдкреНрд░рдореБрдЦ рдФрд░ рдЖрдИрдмреАрдПрдо рд╡рд╛рдЯрд╕рди рдСрд░реНрдбрд░реНрд╕ рдореЗрдВ рдХреЙрдирд╡рд░реНрд╕реЗрд╢рдирд▓ рдПрдЖрдИ рдХреЗ рдкреНрд░рдореБрдЦ рдХреЗ рд░реВрдк рдореЗрдВ рдкрдж рдзрд╛рд░рдг рдХрд┐рдпрд╛ рдерд╛ред

Dr. Ron Chrisley is currently Chief Scientific Advisor at Tenyx, which he co-founded in 2021. He received a BS in Symbolic Systems from Stanford, holds a doctorate from the University of Oxford, and is Professor of Cognitive Science and Artificial Intelligence at the University of Sussex. From 2019 to 2020, he was Visiting Scholar at StanfordтАЩs Institute for Human-Centered AI.