कृत्रिम बुद्धिमत्ता

हियरस्पीच++ : हायरार्किकल वेरिएशनल इन्फरेंस फॉर जीरो-शॉट स्पीच सिंथेसिस

प्रकाशित 19 दिसंबर 2023

अपडेट किया गया 22 मई 2026

Kunal Kejriwal

हाल के वर्षों में बड़े भाषा मॉडलों की क्षमताओं में हुई प्रगति और विकास ने ऑडियो जेनरेशन और स्पीच सिंथेसिस कार्यों में ल्ल्म-आधारित फ्रेमवर्क की उन्नति में महत्वपूर्ण भूमिका निभाई है, विशेष रूप से जीरो-शॉट सेटिंग में। पारंपरिक स्पीच सिंथेसिस फ्रेमवर्क ने महत्वपूर्ण प्रगति देखी है क्योंकि उनमें अतिरिक्त विशेषताएं जैसे कि न्यूरल ऑडियो कोडेक्स शामिल हैं, जो विचारधारा और स्पीच यूनिट्स के लिए विवेकपूर्ण ऑडियो प्रदान करते हैं। हालांकि ये स्पीच और ऑडियो सिंथेसिस फ्रेमवर्क संतोषजनक परिणाम प्रदान करते हैं, अभी भी सुधार की गुंजाइश है क्योंकि वर्तमान एलएलएम-आधारित ऑडियो फ्रेमवर्क में निम्नलिखित तीन प्रमुख सीमाएं हैं

वे ऑटो-जेनरेट ऑडियो आउटपुट की प्रवृत्ति रखते हैं जो अंततः धीमी हस्तक्षेप गति और मिस्प्रोनंसिएशन, स्किपिंग, या रिपीटिंग के परिणामस्वरूप रोबस्टनेस की कमी का कारण बनता है।
वे विवेकपूर्ण स्पीच यूनिट्स या प्री-ट्रेन्ड न्यूरल ऑडियो कोडेक पर अत्यधिक निर्भर होते हैं।
उन्हें बड़ी मात्रा में प्रशिक्षण डेटा की आवश्यकता होती है।

उपरोक्त मुद्दों को संबोधित करने और एलएलएम-आधारित ऑडियो और स्पीच सिंथेसिस मॉडल की क्षमताओं में सुधार करने के लिए, डेवलपर्स ने हियरस्पीच++ को विकसित किया है, जो एक मजबूत और कुशल जीरो-शॉट स्पीच सिंथेसाइज़र है जो वॉइस और टेक्स्ट-टू-स्पीच या टीटीएस रूपांतरण के लिए उपयुक्त है। हियरस्पीच++ फ्रेमवर्क हायरार्किकल स्पीच सिंथेसिस फ्रेमवर्क के सीखने पर आधारित है जो न केवल रोबस्टनेस को बढ़ाता है, बल्कि सिंथेटिक स्पीच आउटपुट की अभिव्यक्ति को भी जोड़ता है और कृत्रिम रूप से उत्पन्न स्पीच की प्राकृतिकता और स्पीकर समानता को भी बढ़ाता है, यहां तक कि जीरो-शॉट सेटिंग में भी।

इस लेख में, हम हियरस्पीच++ फ्रेमवर्क के बारे में विस्तार से चर्चा करेंगे और मॉडल की वास्तुकला, कार्य और परिणामों पर गौर करेंगे जब इसे राज्य के अत्याधुनिक पाठ और ऑडियो जेनरेशन मॉडल के साथ तुलना की जाती है। तो आइए शुरू करें।

हियरस्पीच++ : हायरार्किकल वेरिएशनल इन्फरेंस फॉर जीरो-शॉट स्पीच सिंथेसिस

हियरस्पीच++ एक तेज, मजबूत और कुशल जीरो-शॉट स्पीच सिंथेसिस फ्रेमवर्क है जो हायरार्किकल स्पीच सिंथेसिस पाइपलाइन का उपयोग करता है, और इस एंड-टू-एंड स्पीच सिंथेसिस फ्रेमवर्क को अपनाकर, हियरस्पीच++ मॉडल उच्च-गुणवत्ता वाले वेवफॉर्म जेनरेशन की क्षमता को अधिकतम करने में सक्षम है जो सेमांटिक और अकουσ्टिक प्रतिनिधित्व के बीच की खाई को पुल करने के लिए एक स्व-पर्यवेक्षित स्पीच प्रतिनिधित्व को सेमांटिक स्पीच प्रतिनिधित्व के रूप में अपनाता है, और इस प्रकार वर्तमान शैली अनुकूलन की सीमाओं को हल करने का प्रयास करता है। एंड-टू-एंड स्पीच सिंथेसिस फ्रेमवर्क को पहली बार वीआईटीएस मॉडल द्वारा पेश किया गया था, और यह एक वीएई या वेरिएशनल ऑटो-एन्कोडर को विरोधाभासी प्रशिक्षण और नॉर्मलाइज़िंग फ्लो के साथ बढ़ाता है। इसके अलावा, वीएई-आधारित फ्रेमवर्क जिसमें एंड-टू-एंड प्रशिक्षण पाइपलाइन है, उच्च-गुणवत्ता वाले वेवफॉर्म ऑडियो को जनरेट करने की क्षमता है, जिसकी ध्वनि स्पीच सिंथेसिस गुणवत्ता अन्य स्पीच सिंथेसिस फ्रेमवर्क द्वारा उत्पन्न वेवफॉर्म ऑडियो की तुलना में काफी बेहतर है।

इन फ्रेमवर्क की ऑडियो रिकंस्ट्रक्शन गुणवत्ता को हायरार्किकल कंडीशनल वेरिएशनल ऑटोएन्कोडर का उपयोग करके और बढ़ाया जा सकता है, जैसा कि हियरस्पीच फ्रेमवर्क में किया गया है। हालांकि उनकी संभावना है, एंड-टू-एंड प्रशिक्षण पाइपलाइन-आधारित मॉडलों में कुछ सीमाएं हैं, विशेष रूप से जीरो-शॉट सेटिंग में, क्योंकि वे उच्च-गुणवत्ता वाले स्पीच नमूनों को सिंथेसाइज़ कर सकते हैं, लेकिन जीरो-शॉट वॉइस क्लोनिंग कार्यों में स्पीकर समानता अभी भी उच्च गणनात्मक जटिलता से जुड़ी हुई है। दूसरी ओर, डिफ्यूजन-आधारित स्पीच सिंथेसिस मॉडल स्पीकर अनुकूलन के मामले में अच्छा प्रदर्शन करते हैं, लेकिन वे अभी भी आदर्श से दूर हैं क्योंकि वे एक इंटरैक्टिव जेनरेशन प्रक्रिया का उपयोग करते हैं जो उनकी अनुमान गति को धीमा कर देता है, वे अक्सर शोर डेटा के प्रति संवेदनशील होते हैं, और दो-चरण जेनरेशन प्रक्रिया के प्रशिक्षण और अनुमान के बीच मेल नहीं खाने के कारण उत्पन्न वेवफॉर्म ऑडियो की गुणवत्ता उत्कृष्ट नहीं है।

अपने पूर्ववर्तियों द्वारा सामना की जाने वाली समस्याओं को हल करने के लिए, हियरस्पीच++ मॉडल एक हायरार्किकल स्पीच सिंथेसाइज़र, एक स्पीच सुपर रिज़ॉल्यूशन और एक टेक्स्ट टू वेक घटक का उपयोग करता है, और एक सुधारित हायरार्किकल स्पीच सिंथेसाइज़र को हायरार्किकल कंडीशनल वीएई या वेरिएशनल ऑटोएन्कोडर पर बनाता है। ऑडियो गुणवत्ता को ध्वनि गुणवत्ता से परे बढ़ाने के प्रयास में, हियरस्पीच++ फ्रेमवर्क एक डुअल-ऑडियो को अपनाता है जो अकουσ्टिक पोस्टीरियर को बढ़ाता है, और बाहरी वितरण सामान्यीकरण को बढ़ाने के लिए एक हायरार्किकल अनुकूली जनरेटर का उपयोग करता है जो दोनों सशर्त और अनशर्त जनरेशन से लैस है। इसके अलावा, स्पीच घटकों को अलग करने और स्पीकर-संबंधित और स्पीकर-एजेंट सेमांटिक जानकारी को बढ़ाने के लिए, हियरस्पीच++ फ्रेमवर्क एक स्रोत-फिल्टर सिद्धांत-आधारित मल्टी-पाथ सेमांटिक एन्कोडर का उपयोग करता है। हियरस्पीच++ मॉडल एक वेरिएशनल ऑटोएन्कोडर का उपयोग करके प्रतिनिधित्वों को हायरार्किकल रूप से जोड़ने और सीखने में सक्षम है, और लक्ष्य वॉइस शैली के लिए तरंगदैर्ध्य ऑडियो का अनुमान लगाने के लिए प्रगतिशील रूप से अनुकूलन करता है। इसके अलावा, हियरस्पीच++ फ्रेमवर्क अनुकूलन को बढ़ाने और प्रशिक्षण और अनुमान के बीच के मेल को कम करने के प्रयास में नॉर्मलाइज़िंग फ्लो ट्रांसफॉर्मर्स के साथ एक द्विदिशा नेटवर्क को तैनात करता है।

कुल मिलाकर, हियरस्पीच++ मॉडल एक पूरी तरह से समांतर, नए और मजबूत हायरार्किकल स्पीच सिंथेसिस फ्रेमवर्क है जो जीरो-शॉट सेटिंग में स्पीच नमूनों को सिंथेसाइज़ करने के लिए उपयुक्त है, और निम्नलिखित योगदान करने का प्रयास करता है

हायरार्किकल स्पीच सिंथेसिस फ्रेमवर्क का उपयोग करके वॉइस शैलियों और प्रोसोडी को नियंत्रित और स्थानांतरित करना।
डेटा स्केलेबिलिटी को सक्षम करना और 16 से 48 किलोहर्ट्ज तक वेवफॉर्म ऑडियो को अपसैम्पल करके उच्च-रिज़ॉल्यूशन स्पीच सिंथेसिस को बढ़ावा देना।
जीरो-शॉट वॉइस रूपांतरण और टेक्स्ट-टू-स्पीच कार्यों में मानव-स्तर की क्षमता प्राप्त करना।

हियरस्पीच++ : मॉडल घटक और वास्तुकला

जैसा कि चर्चा की गई है, हियरस्पीच++ एक जीरो-शॉट स्पीच सिंथेसिस मॉडल है जो वॉइस समानता और स्पीच प्राकृतिकता में मानव-स्तर की सटीकता प्राप्त करने का प्रयास करता है।

हियरस्पीच++ मॉडल में विभिन्न घटक शामिल हैं, जिनमें एक हायरार्किकल स्पीच सिंथेसाइज़र, एक स्पीच सुपर रिज़ॉल्यूशन और एक टेक्स्ट टू वेक शामिल हैं, जो एक साथ मिलकर एक बड़ी मात्रा में कम-रिज़ॉल्यूशन स्पीच डेटा का उपयोग करके प्रशिक्षण को सुविधाजनक बनाने के लिए काम करते हैं। आइए फ्रेमवर्क को तोड़कर प्रत्येक घटक के बारे में बात करें।

स्पीच प्रतिनिधित्व

मानव आवृत्ति बैंड 4 किलोहर्ट्ज से कम होने के कारण, स्पीच सिंथेसिस के लिए हियरस्पीच++ फ्रेमवर्क 16 किलोहर्ट्ज पर ऑडियो को डाउनसैंपल करता है। इसके अलावा, वॉइस सिग्नल को पुनर्निर्माण के लिए, यह महत्वपूर्ण है कि वॉइस आवृत्ति के उच्चतम घटक के अलावा कम से कम दोगुनी वेवफॉर्म ऑडियो का उपयोग किया जाए, साथ ही ऑडियो नमूने को डाउनसैंपल किया जाए। सेमांटिक और अकουσ्टिक प्रतिनिधित्व के लिए कम-रिज़ॉल्यूशन प्रतिनिधित्व का उपयोग करते हुए, हियरस्पीच++ फ्रेमवर्क 16 से 48 किलोहर्ट्ज तक ऑडियो नमूने को अपसैम्पल करने के लिए एक स्पीच सुपर रिज़ॉल्यूशन या स्पीचएसआर घटक का उपयोग करता है ताकि ध्वनि गुणवत्ता में सुधार किया जा सके।

अकουσ्टिक प्रतिनिधित्व के लिए, एक पारंपरिक टेक्स्ट-टू-स्पीच या टीटीएस फ्रेमवर्क एक मेल-स्पेक्ट्रोग्राम का उपयोग करता है जो मध्यवर्ती अकουσ्टिक विशेषता के रूप में होता है, जिसे तब वेवफॉर्म से एसटीएफटी या शॉर्ट-टाइम फूरियर ट्रांसफॉर्म की मदद से बदल दिया जाता है। हालांकि, यह ध्यान देने योग्य है कि अकουσ्टिक विशेषताएं समृद्ध प्रतिनिधित्व हैं जो विभिन्न विशेषताओं जैसे कि सामग्री, उच्चारण, वॉइस जानकारी, और अधिक को शामिल करती हैं, जो फ्रेमवर्क के लिए इन प्रतिनिधित्वों का अनुमान लगाना मुश्किल बना देता है, जो अक्सर मिस्प्रोनंसिएशन, समानता की कमी, या स्पीच के अधिक चिकना होने की स्थिति पैदा करता है।

आगे बढ़ते हुए, वेवफॉर्म से एक निरंतर सेमांटिक प्रतिनिधित्व निकालने के लिए, हियरस्पीच++ फ्रेमवर्क एक वाव2वेक फ्रेमवर्क का उपयोग करता है, जो सेमांटिक प्रतिनिधित्व के लिए एक लोकप्रिय स्व-पर्यवेक्षित स्पीच प्रतिनिधित्व दृष्टिकोण के विपरीत है। हालांकि यह दृष्टिकोण एक समृद्ध मोनोलिंगुअल मॉडल के लिए एक अच्छा विकल्प प्रदान करता है, यह जीरो-शॉट वॉइस क्लोनिंग क्षमताओं को प्रभावित करता है, विशेष रूप से बहुभाषी स्पीच सिंथेसिस कार्यों में दोनों रोबस्टनेस और अभिव्यक्ति के मामले में।

हायरार्किकल स्पीच सिंथेसाइज़र

हायरार्किकल स्पीच सिंथेसाइज़र घटक हियरस्पीच++ फ्रेमवर्क का आधार है क्योंकि यह मॉड्यूल को प्रशिक्षित करने की अनुमति देता है जिसमें कोई लेबल जैसे कि पाठ प्रतिलिपि या स्पीकर आईडी का उपयोग नहीं किया जाता है, और केवल स्पीच डेटा पर निर्भर करता है। अकουσ्टिक क्षमता को बढ़ाने के लिए, पिछले राज्य के अत्याधुनिक स्पीच सिंथेसिस मॉडलों ने मेल-स्पेक्ट्रोग्राम को एक लीनियर स्पेक्ट्रोग्राम से बदल दिया, हालांकि यह दृष्टिकोण पिच अवधीयता, पीईएसक्यू, वॉइस और अनवॉइस स्कोर, और यहां तक कि मेल-स्पेक्ट्रोग्राम दूरी के मामले में केएल विचलन स्कोर को कम करता है। हायरार्किकल स्पीच सिंथेसाइज़र एक डुअल-ऑडियो अकουσ्टिक एन्कोडर का उपयोग करता है जो रिचर और अधिक व्यापक अकουσ्टिक प्रतिनिधित्व को पकड़ने के लिए डिज़ाइन किया गया है। फ्रेमवर्क एक वेवफॉर्म एन्कोडर का भी उपयोग करता है जो कच्चे वेवफॉर्म ऑडियो से जानकारी निकालता है और इसे लीनियर स्पेक्ट्रोग्राम प्रतिनिधित्व के साथ जोड़ता है, और अंत में अकουσ्टिक प्रतिनिधित्व को एक जोड़े गए प्रतिनिधित्व के रूप में प्रस्तुत करता है।

इसके अलावा, स्पीकर-एजेंट और स्पीकर-संबंधित सेमांटिक प्रतिनिधित्व से निपटने के लिए, हियरस्पीच++ फ्रेमवर्क एक मल्टी-पाथ स्व-पर्यवेक्षित स्पीच प्रतिनिधित्व का उपयोग करता है, जहां प्रत्येक व्यक्तिगत प्रतिनिधित्व हायरार्किकल शैली अनुकूलन के लिए सेमांटिक प्रतिनिधित्व निकालने के लिए उपयोग किया जाता है। फ्रेमवर्क स्पीच विचलन को बढ़ाने के लिए एक मूल आवृत्ति का भी उपयोग करता है जो पिच कंटूर को मैन्युअल रूप से नियंत्रित करने की अनुमति देता है। फ्रेमवर्क एक भाषाई प्रतिनिधित्व का भी उपयोग करता है जो सशर्त जानकारी के रूप में कार्य करता है ताकि वेवफॉर्म ऑडियो को हायरार्किकल रूप से उत्पन्न किया जा सके। यह भी ध्यान देने योग्य है कि प्रशिक्षण के दौरान वेवफॉर्म और लीनियर स्पेक्ट्रोग्राम का उपयोग करके निकाले गए अकουσ्टिक प्रतिनिधित्व का उपयोग कच्चे वेवफॉर्म ऑडियो को पुनर्निर्माण के लिए किया जाता है, और एक हायरार्किकल वेरिएशनल इन्फरेंस का उपयोग अकουσ्टिक प्रतिनिधित्वों को मल्टी-पाथ भाषाई प्रतिनिधित्वों से जोड़ने के लिए किया जाता है। फ्रेमवर्क एक हायरार्किकल अनुकूली जनरेटर (एचएजी) का भी उपयोग करता है जो सेमांटिक-से-वेवफॉर्म नमूनों को उत्पन्न करने के लिए उपयोग किया जाता है, और उत्पन्न प्रतिनिधित्व जो एक शैली प्रतिनिधित्व और एक अकουσ्टिक प्रतिनिधित्व शामिल करते हैं, स्रोत और वेवफॉर्म जनरेटरों को खिलाया जाता है।

टेक्स्ट टू वेक

टेक्स्ट-टू-स्पीच सिंथेसिस के लिए, हियरस्पीच++ फ्रेमवर्क एक टेक्स्ट टू वेक या टीटीवी मॉडल का उपयोग करता है जो एक पाठ अनुक्रम से एक मूलभूत आवृत्ति और एक सेमांटिक प्रतिनिधित्व उत्पन्न करता है, और एक मोनोटोनिक संरेखण खोज के साथ एक वेरिएशनल ऑटोएन्कोडर का उपयोग करता है ताकि पाठ और स्पीच को आंतरिक रूप से संरेखित किया जा सके। हियरस्पीच++ फ्रेमवर्क तब लीनियर स्पेक्ट्रोग्राम को एक स्व-पर्यवेक्षित लीनियर प्रतिनिधित्व से बदल देता है, और उसी प्रतिनिधित्व को पुनर्निर्माण करता है ताकि टीटीवी के लिए आउटपुट के रूप में कार्य कर सके।

इसके अलावा, हियरस्पीच++ फ्रेमवर्क स्व-पर्यवेक्षित स्पीच प्रतिनिधित्वों के सेमांटिक जानकारी के कारण प्रोसोडी शैली को टेक्स्ट टू वेक मॉडल में स्थानांतरित करने में सक्षम है, और एक सशर्त पाठ प्रतिनिधित्व को पूर्व जानकारी के रूप में उपयोग करता है। स्व-पर्यवेक्षित स्पीच प्रतिनिधित्वों की सेमांटिक जानकारी के परिणामस्वरूप, फ्रेमवर्क टेक्स्ट में प्रोसोडी शैली को टेक्स्ट टू वेक मॉडल में स्थानांतरित करने में सक्षम है, और एक लैटेंट प्रतिनिधित्व को फोनीम एन्कोडर को खिलाने के लिए उपयोग करता है ताकि प्रतिनिधित्व की भाषाई क्षमताओं को बढ़ाया जा सके।

स्पीचएसआर या स्पीच सुपर रिज़ॉल्यूशन

हियरस्पीच++ फ्रेमवर्क एक अपेक्षाकृत कम-रिज़ॉल्यूशन डेटासेट पर प्रशिक्षित होता है, डेटा की कुशलता और उपलब्धता के संदर्भ में, और 16 से 48 किलोहर्ट्ज तक कम-रिज़ॉल्यूशन स्पीच वेवफॉर्म को उच्च-रिज़ॉल्यूशन स्पीच वेवफॉर्म में अपसैम्पल करता है। फ्रेमवर्क एक ट्रांसपोज्ड कॉन्वोल्यूशन को एक निकटतम पड़ोसी अपसैम्पलर से बदल देता है, जो पहले से ही ट्रांसपोज्ड कॉन्वोल्यूशन से उत्पन्न कलाकृतियों को कम करने के लिए जाना जाता है।

वास्तुकला

टेक्स्ट टू वेक मॉडल के कंटेंट एन्कोडर में 16 गैर-कैसुअल वेवनेट परतें होती हैं, जिनका केर्नल आकार 5 और छुपा हुआ आकार 256 होता है, जबकि कंटेंट डिकोडर में 8 गैर-कैसुअल वेवनेट परतें होती हैं, जिनका केर्नल आकार 5, छुपा हुआ आकार 512 और छुपा हुआ आकार 256 होता है। टेक्स्ट एन्कोडर घटक में तीन प्रोसोडी सशर्त ट्रांसफॉर्मर नेटवर्क और तीन अनशर्त ट्रांसफॉर्मर नेटवर्क होते हैं, जिनका केर्नल आकार 9, फिल्टर आकार 1024 और छुपा हुआ आकार 256 होता है, और टेक्स्ट एन्कोडर में 0.2 की ड्रॉपआउट दर होती है। प्रोसोडी शैली अनुकूलन को बढ़ाने के लिए और आसपास की जानकारी को एन्कोड करने के लिए, फ्रेमवर्क ट्रांसफॉर्मर ब्लॉक्स में एक सीएनएन का उपयोग करता है जिसका केर्नल आकार 5 होता है। स्पीचएसआर में एक एकल एएमपी ब्लॉक होता है, जिसमें 32 प्रारंभिक चैनल होते हैं और कोई अपसैम्पलिंग परत नहीं होती है। फ्रेमवर्क एक निकटतम पड़ोसी अपसैम्पलर का उपयोग करता है ताकि छुपी हुई प्रतिनिधित्वों को अपसैम्पल किया जा सके, और एमपीडी को विवेचक के रूप में उपयोग करता है जिसमें छह अलग-अलग विंडो आकार और चार उप-बैंड विवेचक होते हैं।

उपरोक्त चित्र हियरस्पीच++ फ्रेमवर्क की अनुमान पाइपलाइन को दर्शाता है, जो 16 किलोहर्ट्ज पर ऑडियो से सेमांटिक प्रतिनिधित्व निकालने से शुरू होता है, और मूलभूत आवृत्ति का उपयोग यैप्ट अल्गोरिथ्म का उपयोग करके किया जाता है। मूलभूत आवृत्ति को हायरार्किकल सिंथेसाइज़र में खिलाने से पहले, इसे स्रोत ऑडियो के मानक और माध्य विचलन का उपयोग करके सामान्यीकृत किया जाता है, और सामान्यीकृत मूलभूत आवृत्ति को तब लक्ष्य ऑडियो के मानक और माध्य विचलन का उपयोग करके असामान्यीकृत किया जाता है। टेक्स्ट-टू-स्पीच निकाली के लिए, हियरस्पीच++ फ्रेमवर्क स्पीच प्रतिनिधित्वों के बजाय पाठ प्रतिनिधित्व निकालता है, और टेक्स्ट टू वेक मॉडल का उपयोग एक प्रोसोडी प्रॉम्प्ट से सेमांटिक प्रतिनिधित्व उत्पन्न करने के लिए करता है।

प्रयोग और परिणाम

फ्रेमवर्क लिब्रिटीटीएस डेटासेट का उपयोग हायरार्किकल सिंथेसाइज़र घटक को प्रशिक्षित करने के लिए करता है, जिसमें पहला कदम डेटासेट के ट्रेनक्लीन उपसेट के साथ मॉडल को प्रशिक्षित करना होता है, और शेष डेटा का उपयोग वॉइस शैली के हस्तांतरण को बढ़ाने के लिए किया जाता है। इसके अलावा, विविधता और रोबस्टनेस में सुधार के लिए, फ्रेमवर्क डेटासेट को 1 किलोहर्ट्ज तक बढ़ाता है, जैसा कि निम्नलिखित चित्र में दिखाया गया है।

पुनर्निर्माण, पुनःसंश्लेषण कार्य, और वॉइस रूपांतरण

हियरस्पीच++ फ्रेमवर्क के पुनर्निर्माण और पुनःसंश्लेषण कार्यों पर प्रदर्शन का मूल्यांकन करने के लिए, डेवलपर्स ने सात वस्तुनिष्ठ मेट्रिक्स का संचालन किया, और परिणाम निम्नलिखित चित्रों में पुनर्निर्माण और पुनःसंश्लेषण कार्यों के लिए दिखाए गए हैं।

वॉइस रूपांतरण कार्यों के लिए, फ्रेमवर्क दो विषयगत मेट्रिक्स का उपयोग करता है: वॉइस समानता एमओएस या एसएमओएस और प्राकृतिकता माध्य राय एमओएस, साथ ही तीन प्राकृतिकता वस्तुनिष्ठ मेट्रिक्स और दो समानता वस्तुनिष्ठ मेट्रिक्स।

आगे बढ़ते हुए, हियरस्पीच++ फ्रेमवर्क का प्राथमिक उद्देश्य जीरो-शॉट स्पीच सिंथेसिस को सक्षम करना है, और इसके प्रदर्शन का मूल्यांकन करने के लिए, इसे अन्य बेसमॉडल जैसे कि ऑटोवीसी, वॉइसमिक्सर, डिफ्यूजन-आधारित मॉडल, और अधिक के खिलाफ तुलना की जाती है, जैसा कि निम्नलिखित चित्र में दिखाया गया है।

निम्नलिखित चित्र जीरो-शॉट टेक्स्ट-टू-स्पीच परिणामों को शोर प्रॉम्प्ट और बहुत शोर प्रॉम्प्ट के साथ दिखाते हैं।

अंतिम विचार

इस लेख में, हमने हियरस्पीच++ मॉडल के बारे में चर्चा की है, जो जीरो-शॉट स्पीच सिंथेसिस को सक्षम करने और वर्तमान स्पीच सिंथेसिस फ्रेमवर्क की सीमाओं को पार करने के लिए एक नए दृष्टिकोण का प्रतिनिधित्व करता है, जिनमें बड़ी मात्रा में प्रशिक्षण डेटा पर निर्भरता, विवेकपूर्ण स्पीच यूनिट्स या प्री-ट्रेन्ड न्यूरल ऑडियो कोडेक पर निर्भरता, और ऑटो-जेनरेट ऑडियो आउटपुट की प्रवृत्ति शामिल है जो धीमी हस्तक्षेप गति और मिस्प्रोनंसिएशन, स्किपिंग, या रिपीटिंग का कारण बनती है। हियरस्पीच++ मॉडल एक पूरी तरह से समांतर, नए और मजबूत हायरार्किकल स्पीच सिंथेसिस फ्रेमवर्क है जो जीरो-शॉट सेटिंग में स्पीच नमूनों को सिंथेसाइज़ करने के लिए उपयुक्त है, और निम्नलिखित योगदान करने का प्रयास करता है

हायरार्किकल स्पीच सिंथेसिस फ्रेमवर्क का उपयोग करके वॉइस शैलियों और प्रोसोडी को नियंत्रित और स्थानांतरित करना।
डेटा स्केलेबिलिटी को सक्षम करना और 16 से 48 किलोहर्ट्ज तक वेवफॉर्म ऑडियो को अपसैम्पल करके उच्च-रिज़ॉल्यूशन स्पीच सिंथेसिस को बढ़ावा देना।
जीरो-शॉट वॉइस रूपांतरण और टेक्स्ट-टू-स्पीच कार्यों में मानव-स्तर की क्षमता प्राप्त करना।

Kunal Kejriwal

एक इंजीनियर पेशे से, एक लेखक दिल से। कुनाल एक तकनीकी लेखक हैं जिन्हें एआई और एमएल के प्रति गहरा प्यार और समझ है, जो अपने आकर्षक और जानकारीपूर्ण दस्तावेज़ के माध्यम से इन क्षेत्रों में जटिल अवधारणाओं को सरल बनाने के लिए समर्पित हैं।

Unite.AI

हियरस्पीच++ : हायरार्किकल वेरिएशनल इन्फरेंस फॉर जीरो-शॉट स्पीच सिंथेसिस

हियरस्पीच++ : हायरार्किकल वेरिएशनल इन्फरेंस फॉर जीरो-शॉट स्पीच सिंथेसिस

हियरस्पीच++ : मॉडल घटक और वास्तुकला

स्पीच प्रतिनिधित्व

हायरार्किकल स्पीच सिंथेसाइज़र

टेक्स्ट टू वेक

स्पीचएसआर या स्पीच सुपर रिज़ॉल्यूशन

वास्तुकला

प्रयोग और परिणाम

पुनर्निर्माण, पुनःसंश्लेषण कार्य, और वॉइस रूपांतरण

अंतिम विचार

और जानें