рдХреГрддреНрд░рд┐рдо рдмреБрджреНрдзрд┐рдорддреНрддрд╛

рд╣рд┐рдпрд░рд╕реНрдкреАрдЪ++ : рд╣рд╛рдпрд░рд╛рд░реНрдХрд┐рдХрд▓ рд╡реЗрд░рд┐рдПрд╢рдирд▓ рдЗрдиреНрдлрд░реЗрдВрд╕ рдлреЙрд░ рдЬреАрд░реЛ-рд╢реЙрдЯ рд╕реНрдкреАрдЪ рд╕рд┐рдВрдереЗрд╕рд┐рд╕

mm

हाल के वर्षों में बड़े भाषा मॉडलों की क्षमताओं में हुई प्रगति और विकास ने ऑडियो जेनरेशन और स्पीच सिंथेसिस कार्यों में ल्ल्म-आधारित फ्रेमवर्क की उन्नति में महत्वपूर्ण भूमिका निभाई है, विशेष रूप से जीरो-शॉट सेटिंग में। पारंपरिक स्पीच सिंथेसिस फ्रेमवर्क ने महत्वपूर्ण प्रगति देखी है क्योंकि उनमें अतिरिक्त विशेषताएं जैसे कि न्यूरल ऑडियो कोडेक्स शामिल हैं, जो विचारधारा और स्पीच यूनिट्स के लिए विवेकपूर्ण ऑडियो प्रदान करते हैं। हालांकि ये स्पीच और ऑडियो सिंथेसिस फ्रेमवर्क संतोषजनक परिणाम प्रदान करते हैं, अभी भी सुधार की गुंजाइश है क्योंकि वर्तमान एलएलएम-आधारित ऑडियो फ्रेमवर्क में निम्नलिखित तीन प्रमुख सीमाएं हैं

  1. वे ऑटो-जेनरेट ऑडियो आउटपुट की प्रवृत्ति रखते हैं जो अंततः धीमी हस्तक्षेप गति और मिस्प्रोनंसिएशन, स्किपिंग, या रिपीटिंग के परिणामस्वरूप रोबस्टनेस की कमी का कारण बनता है।
  2. वे विवेकपूर्ण स्पीच यूनिट्स या प्री-ट्रेन्ड न्यूरल ऑडियो कोडेक पर अत्यधिक निर्भर होते हैं।
  3. उन्हें बड़ी मात्रा में प्रशिक्षण डेटा की आवश्यकता होती है।

उपरोक्त मुद्दों को संबोधित करने और एलएलएम-आधारित ऑडियो और स्पीच सिंथेसिस मॉडल की क्षमताओं में सुधार करने के लिए, डेवलपर्स ने हियरस्पीच++ को विकसित किया है, जो एक मजबूत और कुशल जीरो-शॉट स्पीच सिंथेसाइज़र है जो वॉइस और टेक्स्ट-टू-स्पीच या टीटीएस रूपांतरण के लिए उपयुक्त है। हियरस्पीच++ फ्रेमवर्क हायरार्किकल स्पीच सिंथेसिस फ्रेमवर्क के सीखने पर आधारित है जो न केवल रोबस्टनेस को बढ़ाता है, बल्कि सिंथेटिक स्पीच आउटपुट की अभिव्यक्ति को भी जोड़ता है और कृत्रिम रूप से उत्पन्न स्पीच की प्राकृतिकता और स्पीकर समानता को भी बढ़ाता है, यहां तक कि जीरो-शॉट सेटिंग में भी।

इस लेख में, हम हियरस्पीच++ फ्रेमवर्क के बारे में विस्तार से चर्चा करेंगे और मॉडल की वास्तुकला, कार्य और परिणामों पर गौर करेंगे जब इसे राज्य के अत्याधुनिक पाठ और ऑडियो जेनरेशन मॉडल के साथ तुलना की जाती है। तो आइए शुरू करें।

हियरस्पीच++ : हायरार्किकल वेरिएशनल इन्फरेंस फॉर जीरो-शॉट स्पीच सिंथेसिस

हियरस्पीच++ एक तेज, मजबूत और कुशल जीरो-शॉट स्पीच सिंथेसिस फ्रेमवर्क है जो हायरार्किकल स्पीच सिंथेसिस पाइपलाइन का उपयोग करता है, और इस एंड-टू-एंड स्पीच सिंथेसिस फ्रेमवर्क को अपनाकर, हियरस्पीच++ मॉडल उच्च-गुणवत्ता वाले वेवफॉर्म जेनरेशन की क्षमता को अधिकतम करने में सक्षम है जो सेमांटिक और अकουσ्टिक प्रतिनिधित्व के बीच की खाई को पुल करने के लिए एक स्व-पर्यवेक्षित स्पीच प्रतिनिधित्व को सेमांटिक स्पीच प्रतिनिधित्व के रूप में अपनाता है, और इस प्रकार वर्तमान शैली अनुकूलन की सीमाओं को हल करने का प्रयास करता है। एंड-टू-एंड स्पीच सिंथेसिस फ्रेमवर्क को पहली बार वीआईटीएस मॉडल द्वारा पेश किया गया था, और यह एक वीएई या वेरिएशनल ऑटो-एन्कोडर को विरोधाभासी प्रशिक्षण और नॉर्मलाइज़िंग फ्लो के साथ बढ़ाता है। इसके अलावा, वीएई-आधारित फ्रेमवर्क जिसमें एंड-टू-एंड प्रशिक्षण पाइपलाइन है, उच्च-गुणवत्ता वाले वेवफॉर्म ऑडियो को जनरेट करने की क्षमता है, जिसकी ध्वनि स्पीच सिंथेसिस गुणवत्ता अन्य स्पीच सिंथेसिस फ्रेमवर्क द्वारा उत्पन्न वेवफॉर्म ऑडियो की तुलना में काफी बेहतर है।

इन फ्रेमवर्क की ऑडियो रिकंस्ट्रक्शन गुणवत्ता को हायरार्किकल कंडीशनल वेरिएशनल ऑटोएन्कोडर का उपयोग करके और बढ़ाया जा सकता है, जैसा कि हियरस्पीच फ्रेमवर्क में किया गया है। हालांकि उनकी संभावना है, एंड-टू-एंड प्रशिक्षण पाइपलाइन-आधारित मॉडलों में कुछ सीमाएं हैं, विशेष रूप से जीरो-शॉट सेटिंग में, क्योंकि वे उच्च-गुणवत्ता वाले स्पीच नमूनों को सिंथेसाइज़ कर सकते हैं, लेकिन जीरो-शॉट वॉइस क्लोनिंग कार्यों में स्पीकर समानता अभी भी उच्च गणनात्मक जटिलता से जुड़ी हुई है। दूसरी ओर, डिफ्यूजन-आधारित स्पीच सिंथेसिस मॉडल स्पीकर अनुकूलन के मामले में अच्छा प्रदर्शन करते हैं, लेकिन वे अभी भी आदर्श से दूर हैं क्योंकि वे एक इंटरैक्टिव जेनरेशन प्रक्रिया का उपयोग करते हैं जो उनकी अनुमान गति को धीमा कर देता है, वे अक्सर शोर डेटा के प्रति संवेदनशील होते हैं, और दो-चरण जेनरेशन प्रक्रिया के प्रशिक्षण और अनुमान के बीच मेल नहीं खाने के कारण उत्पन्न वेवफॉर्म ऑडियो की गुणवत्ता उत्कृष्ट नहीं है।

अपने पूर्ववर्तियों द्वारा सामना की जाने वाली समस्याओं को हल करने के लिए, हियरस्पीच++ मॉडल एक हायरार्किकल स्पीच सिंथेसाइज़र, एक स्पीच सुपर रिज़ॉल्यूशन और एक टेक्स्ट टू वेक घटक का उपयोग करता है, और एक सुधारित हायरार्किकल स्पीच सिंथेसाइज़र को हायरार्किकल कंडीशनल वीएई या वेरिएशनल ऑटोएन्कोडर पर बनाता है। ऑडियो गुणवत्ता को ध्वनि गुणवत्ता से परे बढ़ाने के प्रयास में, हियरस्पीच++ फ्रेमवर्क एक डुअल-ऑडियो को अपनाता है जो अकουσ्टिक पोस्टीरियर को बढ़ाता है, और बाहरी वितरण सामान्यीकरण को बढ़ाने के लिए एक हायरार्किकल अनुकूली जनरेटर का उपयोग करता है जो दोनों सशर्त और अनशर्त जनरेशन से लैस है। इसके अलावा, स्पीच घटकों को अलग करने और स्पीकर-संबंधित और स्पीकर-एजेंट सेमांटिक जानकारी को बढ़ाने के लिए, हियरस्पीच++ फ्रेमवर्क एक स्रोत-फिल्टर सिद्धांत-आधारित मल्टी-पाथ सेमांटिक एन्कोडर का उपयोग करता है। हियरस्पीच++ मॉडल एक वेरिएशनल ऑटोएन्कोडर का उपयोग करके प्रतिनिधित्वों को हायरार्किकल रूप से जोड़ने और सीखने में सक्षम है, और लक्ष्य वॉइस शैली के लिए तरंगदैर्ध्य ऑडियो का अनुमान लगाने के लिए प्रगतिशील रूप से अनुकूलन करता है। इसके अलावा, हियरस्पीच++ फ्रेमवर्क अनुकूलन को बढ़ाने और प्रशिक्षण और अनुमान के बीच के मेल को कम करने के प्रयास में नॉर्मलाइज़िंग फ्लो ट्रांसफॉर्मर्स के साथ एक द्विदिशा नेटवर्क को तैनात करता है।

कुल मिलाकर, हियरस्पीच++ मॉडल एक पूरी तरह से समांतर, नए और मजबूत हायरार्किकल स्पीच सिंथेसिस फ्रेमवर्क है जो जीरो-शॉट सेटिंग में स्पीच नमूनों को सिंथेसाइज़ करने के लिए उपयुक्त है, और निम्नलिखित योगदान करने का प्रयास करता है

  • हायरार्किकल स्पीच सिंथेसिस फ्रेमवर्क का उपयोग करके वॉइस शैलियों और प्रोसोडी को नियंत्रित और स्थानांतरित करना।
  • डेटा स्केलेबिलिटी को सक्षम करना और 16 से 48 किलोहर्ट्ज तक वेवफॉर्म ऑडियो को अपसैम्पल करके उच्च-रिज़ॉल्यूशन स्पीच सिंथेसिस को बढ़ावा देना।
  • जीरो-शॉट वॉइस रूपांतरण और टेक्स्ट-टू-स्पीच कार्यों में मानव-स्तर की क्षमता प्राप्त करना।

हियरस्पीच++ : मॉडल घटक और वास्तुकला

जैसा कि चर्चा की गई है, हियरस्पीच++ एक जीरो-शॉट स्पीच सिंथेसिस मॉडल है जो वॉइस समानता और स्पीच प्राकृतिकता में मानव-स्तर की सटीकता प्राप्त करने का प्रयास करता है।

हियरस्पीच++ मॉडल में विभिन्न घटक शामिल हैं, जिनमें एक हायरार्किकल स्पीच सिंथेसाइज़र, एक स्पीच सुपर रिज़ॉल्यूशन और एक टेक्स्ट टू वेक शामिल हैं, जो एक साथ मिलकर एक बड़ी मात्रा में कम-रिज़ॉल्यूशन स्पीच डेटा का उपयोग करके प्रशिक्षण को सुविधाजनक बनाने के लिए काम करते हैं। आइए फ्रेमवर्क को तोड़कर प्रत्येक घटक के बारे में बात करें।

स्पीच प्रतिनिधित्व

मानव आवृत्ति बैंड 4 किलोहर्ट्ज से कम होने के कारण, स्पीच सिंथेसिस के लिए हियरस्पीच++ फ्रेमवर्क 16 किलोहर्ट्ज पर ऑडियो को डाउनसैंपल करता है। इसके अलावा, वॉइस सिग्नल को पुनर्निर्माण के लिए, यह महत्वपूर्ण है कि वॉइस आवृत्ति के उच्चतम घटक के अलावा कम से कम दोगुनी वेवफॉर्म ऑडियो का उपयोग किया जाए, साथ ही ऑडियो नमूने को डाउनसैंपल किया जाए। सेमांटिक और अकουσ्टिक प्रतिनिधित्व के लिए कम-रिज़ॉल्यूशन प्रतिनिधित्व का उपयोग करते हुए, हियरस्पीच++ फ्रेमवर्क 16 से 48 किलोहर्ट्ज तक ऑडियो नमूने को अपसैम्पल करने के लिए एक स्पीच सुपर रिज़ॉल्यूशन या स्पीचएसआर घटक का उपयोग करता है ताकि ध्वनि गुणवत्ता में सुधार किया जा सके।

अकουσ्टिक प्रतिनिधित्व के लिए, एक पारंपरिक टेक्स्ट-टू-स्पीच या टीटीएस फ्रेमवर्क एक मेल-स्पेक्ट्रोग्राम का उपयोग करता है जो मध्यवर्ती अकουσ्टिक विशेषता के रूप में होता है, जिसे तब वेवफॉर्म से एसटीएफटी या शॉर्ट-टाइम फूरियर ट्रांसफॉर्म की मदद से बदल दिया जाता है। हालांकि, यह ध्यान देने योग्य है कि अकουσ्टिक विशेषताएं समृद्ध प्रतिनिधित्व हैं जो विभिन्न विशेषताओं जैसे कि सामग्री, उच्चारण, वॉइस जानकारी, और अधिक को शामिल करती हैं, जो फ्रेमवर्क के लिए इन प्रतिनिधित्वों का अनुमान लगाना मुश्किल बना देता है, जो अक्सर मिस्प्रोनंसिएशन, समानता की कमी, या स्पीच के अधिक चिकना होने की स्थिति पैदा करता है।

आगे बढ़ते हुए, वेवफॉर्म से एक निरंतर सेमांटिक प्रतिनिधित्व निकालने के लिए, हियरस्पीच++ फ्रेमवर्क एक वाव2वेक फ्रेमवर्क का उपयोग करता है, जो सेमांटिक प्रतिनिधित्व के लिए एक लोकप्रिय स्व-पर्यवेक्षित स्पीच प्रतिनिधित्व दृष्टिकोण के विपरीत है। हालांकि यह दृष्टिकोण एक समृद्ध मोनोलिंगुअल मॉडल के लिए एक अच्छा विकल्प प्रदान करता है, यह जीरो-शॉट वॉइस क्लोनिंग क्षमताओं को प्रभावित करता है, विशेष रूप से बहुभाषी स्पीच सिंथेसिस कार्यों में दोनों रोबस्टनेस और अभिव्यक्ति के मामले में।

हायरार्किकल स्पीच सिंथेसाइज़र

हायरार्किकल स्पीच सिंथेसाइज़र घटक हियरस्पीच++ फ्रेमवर्क का आधार है क्योंकि यह मॉड्यूल को प्रशिक्षित करने की अनुमति देता है जिसमें कोई लेबल जैसे कि पाठ प्रतिलिपि या स्पीकर आईडी का उपयोग नहीं किया जाता है, और केवल स्पीच डेटा पर निर्भर करता है। अकουσ्टिक क्षमता को बढ़ाने के लिए, पिछले राज्य के अत्याधुनिक स्पीच सिंथेसिस मॉडलों ने मेल-स्पेक्ट्रोग्राम को एक लीनियर स्पेक्ट्रोग्राम से बदल दिया, हालांकि यह दृष्टिकोण पिच अवधीयता, पीईएसक्यू, वॉइस और अनवॉइस स्कोर, और यहां तक कि मेल-स्पेक्ट्रोग्राम दूरी के मामले में केएल विचलन स्कोर को कम करता है। हायरार्किकल स्पीच सिंथेसाइज़र एक डुअल-ऑडियो अकουσ्टिक एन्कोडर का उपयोग करता है जो रिचर और अधिक व्यापक अकουσ्टिक प्रतिनिधित्व को पकड़ने के लिए डिज़ाइन किया गया है। फ्रेमवर्क एक वेवफॉर्म एन्कोडर का भी उपयोग करता है जो कच्चे वेवफॉर्म ऑडियो से जानकारी निकालता है और इसे लीनियर स्पेक्ट्रोग्राम प्रतिनिधित्व के साथ जोड़ता है, और अंत में अकουσ्टिक प्रतिनिधित्व को एक जोड़े गए प्रतिनिधित्व के रूप में प्रस्तुत करता है।

इसके अलावा, स्पीकर-एजेंट और स्पीकर-संबंधित सेमांटिक प्रतिनिधित्व से निपटने के लिए, हियरस्पीच++ फ्रेमवर्क एक मल्टी-पाथ स्व-पर्यवेक्षित स्पीच प्रतिनिधित्व का उपयोग करता है, जहां प्रत्येक व्यक्तिगत प्रतिनिधित्व हायरार्किकल शैली अनुकूलन के लिए सेमांटिक प्रतिनिधित्व निकालने के लिए उपयोग किया जाता है। फ्रेमवर्क स्पीच विचलन को बढ़ाने के लिए एक मूल आवृत्ति का भी उपयोग करता है जो पिच कंटूर को मैन्युअल रूप से नियंत्रित करने की अनुमति देता है। फ्रेमवर्क एक भाषाई प्रतिनिधित्व का भी उपयोग करता है जो सशर्त जानकारी के रूप में कार्य करता है ताकि वेवफॉर्म ऑडियो को हायरार्किकल रूप से उत्पन्न किया जा सके। यह भी ध्यान देने योग्य है कि प्रशिक्षण के दौरान वेवफॉर्म और लीनियर स्पेक्ट्रोग्राम का उपयोग करके निकाले गए अकουσ्टिक प्रतिनिधित्व का उपयोग कच्चे वेवफॉर्म ऑडियो को पुनर्निर्माण के लिए किया जाता है, और एक हायरार्किकल वेरिएशनल इन्फरेंस का उपयोग अकουσ्टिक प्रतिनिधित्वों को मल्टी-पाथ भाषाई प्रतिनिधित्वों से जोड़ने के लिए किया जाता है। फ्रेमवर्क एक हायरार्किकल अनुकूली जनरेटर (एचएजी) का भी उपयोग करता है जो सेमांटिक-से-वेवफॉर्म नमूनों को उत्पन्न करने के लिए उपयोग किया जाता है, और उत्पन्न प्रतिनिधित्व जो एक शैली प्रतिनिधित्व और एक अकουσ्टिक प्रतिनिधित्व शामिल करते हैं, स्रोत और वेवफॉर्म जनरेटरों को खिलाया जाता है।

टेक्स्ट टू वेक

टेक्स्ट-टू-स्पीच सिंथेसिस के लिए, हियरस्पीच++ फ्रेमवर्क एक टेक्स्ट टू वेक या टीटीवी मॉडल का उपयोग करता है जो एक पाठ अनुक्रम से एक मूलभूत आवृत्ति और एक सेमांटिक प्रतिनिधित्व उत्पन्न करता है, और एक मोनोटोनिक संरेखण खोज के साथ एक वेरिएशनल ऑटोएन्कोडर का उपयोग करता है ताकि पाठ और स्पीच को आंतरिक रूप से संरेखित किया जा सके। हियरस्पीच++ फ्रेमवर्क तब लीनियर स्पेक्ट्रोग्राम को एक स्व-पर्यवेक्षित लीनियर प्रतिनिधित्व से बदल देता है, और उसी प्रतिनिधित्व को पुनर्निर्माण करता है ताकि टीटीवी के लिए आउटपुट के रूप में कार्य कर सके।

इसके अलावा, हियरस्पीच++ फ्रेमवर्क स्व-पर्यवेक्षित स्पीच प्रतिनिधित्वों के सेमांटिक जानकारी के कारण प्रोसोडी शैली को टेक्स्ट टू वेक मॉडल में स्थानांतरित करने में सक्षम है, और एक सशर्त पाठ प्रतिनिधित्व को पूर्व जानकारी के रूप में उपयोग करता है। स्व-पर्यवेक्षित स्पीच प्रतिनिधित्वों की सेमांटिक जानकारी के परिणामस्वरूप, फ्रेमवर्क टेक्स्ट में प्रोसोडी शैली को टेक्स्ट टू वेक मॉडल में स्थानांतरित करने में सक्षम है, और एक लैटेंट प्रतिनिधित्व को फोनीम एन्कोडर को खिलाने के लिए उपयोग करता है ताकि प्रतिनिधित्व की भाषाई क्षमताओं को बढ़ाया जा सके।

स्पीचएसआर या स्पीच सुपर रिज़ॉल्यूशन

हियरस्पीच++ फ्रेमवर्क एक अपेक्षाकृत कम-रिज़ॉल्यूशन डेटासेट पर प्रशिक्षित होता है, डेटा की कुशलता और उपलब्धता के संदर्भ में, और 16 से 48 किलोहर्ट्ज तक कम-रिज़ॉल्यूशन स्पीच वेवफॉर्म को उच्च-रिज़ॉल्यूशन स्पीच वेवफॉर्म में अपसैम्पल करता है। फ्रेमवर्क एक ट्रांसपोज्ड कॉन्वोल्यूशन को एक निकटतम पड़ोसी अपसैम्पलर से बदल देता है, जो पहले से ही ट्रांसपोज्ड कॉन्वोल्यूशन से उत्पन्न कलाकृतियों को कम करने के लिए जाना जाता है।

वास्तुकला

टेक्स्ट टू वेक मॉडल के कंटेंट एन्कोडर में 16 गैर-कैसुअल वेवनेट परतें होती हैं, जिनका केर्नल आकार 5 और छुपा हुआ आकार 256 होता है, जबकि कंटेंट डिकोडर में 8 गैर-कैसुअल वेवनेट परतें होती हैं, जिनका केर्नल आकार 5, छुपा हुआ आकार 512 और छुपा हुआ आकार 256 होता है। टेक्स्ट एन्कोडर घटक में तीन प्रोसोडी सशर्त ट्रांसफॉर्मर नेटवर्क और तीन अनशर्त ट्रांसफॉर्मर नेटवर्क होते हैं, जिनका केर्नल आकार 9, फिल्टर आकार 1024 और छुपा हुआ आकार 256 होता है, और टेक्स्ट एन्कोडर में 0.2 की ड्रॉपआउट दर होती है। प्रोसोडी शैली अनुकूलन को बढ़ाने के लिए और आसपास की जानकारी को एन्कोड करने के लिए, फ्रेमवर्क ट्रांसफॉर्मर ब्लॉक्स में एक सीएनएन का उपयोग करता है जिसका केर्नल आकार 5 होता है। स्पीचएसआर में एक एकल एएमपी ब्लॉक होता है, जिसमें 32 प्रारंभिक चैनल होते हैं और कोई अपसैम्पलिंग परत नहीं होती है। फ्रेमवर्क एक निकटतम पड़ोसी अपसैम्पलर का उपयोग करता है ताकि छुपी हुई प्रतिनिधित्वों को अपसैम्पल किया जा सके, और एमपीडी को विवेचक के रूप में उपयोग करता है जिसमें छह अलग-अलग विंडो आकार और चार उप-बैंड विवेचक होते हैं।

उपरोक्त चित्र हियरस्पीच++ फ्रेमवर्क की अनुमान पाइपलाइन को दर्शाता है, जो 16 किलोहर्ट्ज पर ऑडियो से सेमांटिक प्रतिनिधित्व निकालने से शुरू होता है, और मूलभूत आवृत्ति का उपयोग यैप्ट अल्गोरिथ्म का उपयोग करके किया जाता है। मूलभूत आवृत्ति को हायरार्किकल सिंथेसाइज़र में खिलाने से पहले, इसे स्रोत ऑडियो के मानक और माध्य विचलन का उपयोग करके सामान्यीकृत किया जाता है, और सामान्यीकृत मूलभूत आवृत्ति को तब लक्ष्य ऑडियो के मानक और माध्य विचलन का उपयोग करके असामान्यीकृत किया जाता है। टेक्स्ट-टू-स्पीच निकाली के लिए, हियरस्पीच++ फ्रेमवर्क स्पीच प्रतिनिधित्वों के बजाय पाठ प्रतिनिधित्व निकालता है, और टेक्स्ट टू वेक मॉडल का उपयोग एक प्रोसोडी प्रॉम्प्ट से सेमांटिक प्रतिनिधित्व उत्पन्न करने के लिए करता है।

प्रयोग और परिणाम

फ्रेमवर्क लिब्रिटीटीएस डेटासेट का उपयोग हायरार्किकल सिंथेसाइज़र घटक को प्रशिक्षित करने के लिए करता है, जिसमें पहला कदम डेटासेट के ट्रेनक्लीन उपसेट के साथ मॉडल को प्रशिक्षित करना होता है, और शेष डेटा का उपयोग वॉइस शैली के हस्तांतरण को बढ़ाने के लिए किया जाता है। इसके अलावा, विविधता और रोबस्टनेस में सुधार के लिए, फ्रेमवर्क डेटासेट को 1 किलोहर्ट्ज तक बढ़ाता है, जैसा कि निम्नलिखित चित्र में दिखाया गया है।

पुनर्निर्माण, पुनःसंश्लेषण कार्य, और वॉइस रूपांतरण

हियरस्पीच++ फ्रेमवर्क के पुनर्निर्माण और पुनःसंश्लेषण कार्यों पर प्रदर्शन का मूल्यांकन करने के लिए, डेवलपर्स ने सात वस्तुनिष्ठ मेट्रिक्स का संचालन किया, और परिणाम निम्नलिखित चित्रों में पुनर्निर्माण और पुनःसंश्लेषण कार्यों के लिए दिखाए गए हैं।

वॉइस रूपांतरण कार्यों के लिए, फ्रेमवर्क दो विषयगत मेट्रिक्स का उपयोग करता है: वॉइस समानता एमओएस या एसएमओएस और प्राकृतिकता माध्य राय एमओएस, साथ ही तीन प्राकृतिकता वस्तुनिष्ठ मेट्रिक्स और दो समानता वस्तुनिष्ठ मेट्रिक्स।

आगे बढ़ते हुए, हियरस्पीच++ फ्रेमवर्क का प्राथमिक उद्देश्य जीरो-शॉट स्पीच सिंथेसिस को सक्षम करना है, और इसके प्रदर्शन का मूल्यांकन करने के लिए, इसे अन्य बेसमॉडल जैसे कि ऑटोवीसी, वॉइसमिक्सर, डिफ्यूजन-आधारित मॉडल, और अधिक के खिलाफ तुलना की जाती है, जैसा कि निम्नलिखित चित्र में दिखाया गया है।

निम्नलिखित चित्र जीरो-शॉट टेक्स्ट-टू-स्पीच परिणामों को शोर प्रॉम्प्ट और बहुत शोर प्रॉम्प्ट के साथ दिखाते हैं।

अंतिम विचार

इस लेख में, हमने हियरस्पीच++ मॉडल के बारे में चर्चा की है, जो जीरो-शॉट स्पीच सिंथेसिस को सक्षम करने और वर्तमान स्पीच सिंथेसिस फ्रेमवर्क की सीमाओं को पार करने के लिए एक नए दृष्टिकोण का प्रतिनिधित्व करता है, जिनमें बड़ी मात्रा में प्रशिक्षण डेटा पर निर्भरता, विवेकपूर्ण स्पीच यूनिट्स या प्री-ट्रेन्ड न्यूरल ऑडियो कोडेक पर निर्भरता, और ऑटो-जेनरेट ऑडियो आउटपुट की प्रवृत्ति शामिल है जो धीमी हस्तक्षेप गति और मिस्प्रोनंसिएशन, स्किपिंग, या रिपीटिंग का कारण बनती है। हियरस्पीच++ मॉडल एक पूरी तरह से समांतर, नए और मजबूत हायरार्किकल स्पीच सिंथेसिस फ्रेमवर्क है जो जीरो-शॉट सेटिंग में स्पीच नमूनों को सिंथेसाइज़ करने के लिए उपयुक्त है, और निम्नलिखित योगदान करने का प्रयास करता है

  • हायरार्किकल स्पीच सिंथेसिस फ्रेमवर्क का उपयोग करके वॉइस शैलियों और प्रोसोडी को नियंत्रित और स्थानांतरित करना।
  • डेटा स्केलेबिलिटी को सक्षम करना और 16 से 48 किलोहर्ट्ज तक वेवफॉर्म ऑडियो को अपसैम्पल करके उच्च-रिज़ॉल्यूशन स्पीच सिंथेसिस को बढ़ावा देना।
  • जीरो-शॉट वॉइस रूपांतरण और टेक्स्ट-टू-स्पीच कार्यों में मानव-स्तर की क्षमता प्राप्त करना।

рдПрдХ рдЗрдВрдЬреАрдирд┐рдпрд░ рдкреЗрд╢реЗ рд╕реЗ, рдПрдХ рд▓реЗрдЦрдХ рджрд┐рд▓ рд╕реЗред рдХреБрдирд╛рд▓ рдПрдХ рддрдХрдиреАрдХреА рд▓реЗрдЦрдХ рд╣реИрдВ рдЬрд┐рдиреНрд╣реЗрдВ рдПрдЖрдИ рдФрд░ рдПрдордПрд▓ рдХреЗ рдкреНрд░рддрд┐ рдЧрд╣рд░рд╛ рдкреНрдпрд╛рд░ рдФрд░ рд╕рдордЭ рд╣реИ, рдЬреЛ рдЕрдкрдиреЗ рдЖрдХрд░реНрд╖рдХ рдФрд░ рдЬрд╛рдирдХрд╛рд░реАрдкреВрд░реНрдг рджрд╕реНрддрд╛рд╡реЗрдЬрд╝ рдХреЗ рдорд╛рдзреНрдпрдо рд╕реЗ рдЗрди рдХреНрд╖реЗрддреНрд░реЛрдВ рдореЗрдВ рдЬрдЯрд┐рд▓ рдЕрд╡рдзрд╛рд░рдгрд╛рдУрдВ рдХреЛ рд╕рд░рд▓ рдмрдирд╛рдиреЗ рдХреЗ рд▓рд┐рдП рд╕рдорд░реНрдкрд┐рдд рд╣реИрдВред