कृत्रिम बुद्धिमत्ता

शोधकर्ता द्वारा चीनी और अंग्रेजी दोनों में गाने में सक्षम एआई मॉडल बनाया गया

Published July 17, 2020

Updated April 28, 2026

Daniel Nelson

माइक्रोसॉफ्ट और झाजियांग विश्वविद्यालय के शोधकर्ताओं की एक टीम ने हाल ही में कई भाषाओं में गाने में सक्षम एक एआई मॉडल बनाया है। वेंचरबीट की रिपोर्ट के अनुसार, टीम द्वारा विकसित डीपसिंगर एआई विभिन्न संगीत वेबसाइटों से डेटा पर प्रशिक्षित किया गया था, जिसमें एल्गोरिदम थे जो गायक की आवाज के टिम्बर को कैप्चर करते थे।

एक एआई गायक की “आवाज” का उत्पादन करने के लिए एल्गोरिदम की आवश्यकता होती है जो ऑडियो के पिच और अवधि की भविष्यवाणी और नियंत्रण करने में सक्षम हों। जब लोग गाते हैं, तो वे जो शोर उत्पन्न करते हैं वह सरल भाषण की तुलना में बहुत अधिक जटिल लय और पैटर्न होते हैं। टीम के लिए एक और समस्या यह थी कि जबकि बोलने/भाषण प्रशिक्षण डेटा की एक न्यायसंगत मात्रा उपलब्ध है, गायन प्रशिक्षण डेटा सेट दुर्लभ हैं। इन चुनौतियों को इस तथ्य के साथ जोड़ें कि गीतों में ध्वनि और गीतों का विश्लेषण करने की आवश्यकता है, और गायन का उत्पादन करने की समस्या अविश्वसनीय रूप से जटिल है।

शोधकर्ताओं द्वारा बनाई गई डीपसिंगर प्रणाली ने ऑडियो डेटा को खनन और परिवर्तित करने के लिए एक डेटा पाइपलाइन विकसित करके इन चुनौतियों को पार किया। विभिन्न संगीत वेबसाइटों से गायन के क्लिप निकाले गए, और फिर गायन को ऑडियो के बाकी हिस्सों से अलग किया गया और वाक्यों में विभाजित किया गया। अगला कदम गीतों में प्रत्येक फोनीम की अवधि निर्धारित करना था, जिसके परिणामस्वरूप गीतों में एक अद्वितीय फोनीम का प्रतिनिधित्व करने वाले नमूनों की एक श्रृंखला मिली। गीतों और साथ के ऑडियो नमूनों को विश्वास स्कोर के अनुसार क्रमबद्ध करने के बाद डेटा की सफाई विकृत प्रशिक्षण नमूनों से निपटने के लिए की जाती है।

बिल्कुल同 तरीके विभिन्न भाषाओं के लिए काम करते हैं। डीपसिंगर को चीनी, कैंटोनी और अंग्रेजी वोकल नमूनों पर प्रशिक्षित किया गया था, जो 89 अलग-अलग गायकों द्वारा 92 घंटे से अधिक समय तक गाया गया था। अध्ययन के परिणामों से पता चला कि डीपसिंगर प्रणाली पिच की सटीकता और गायन की प्राकृतिक ध्वनि जैसे मेट्रिक्स के अनुसार उच्च गुणवत्ता वाले “गायन” नमूनों को स्थिर रूप से उत्पन्न करने में सक्षम थी। शोधकर्ताओं ने 20 लोगों को डीपसिंगर और प्रशिक्षण गीतों द्वारा उत्पन्न गीतों को इन मेट्रिक्स के अनुसार रेट करने के लिए कहा, और उत्पन्न नमूनों और वास्तविक ऑडियो के बीच स्कोर में अंतर बहुत कम था। प्रतिभागियों ने डीपसिंगर को 0.34 और 0.76 के बीच भिन्न एक माध्य राय स्कोर दिया।

आगे देखते हुए, शोधकर्ता डीपसिंगर के हिस्से के रूप में विभिन्न उप-मॉडलों को संयुक्त रूप से प्रशिक्षित करके उत्पन्न आवाजों की गुणवत्ता में सुधार करने का प्रयास करना चाहते हैं, जो विशेष रूप से ऑडियो वेवफॉर्म के माध्यम से प्राकृतिक ध्वनि वाले भाषण को उत्पन्न करने के लिए डिज़ाइन किए गए विशेषता प्रौद्योगिकियों जैसे वेवनेट के सहयोग से किया जाता है।

डीपसिंगर प्रणाली का उपयोग गायकों और अन्य संगीत कलाकारों को रिकॉर्डिंग सत्र के लिए स्टूडियो में वापस जाने की आवश्यकता के बिना अपने काम में सुधार करने में मदद करने के लिए किया जा सकता है। यह संभावित रूप से ऑडियो डीपफेक्स बनाने के लिए भी उपयोग किया जा सकता है, जिससे ऐसा लगता है कि एक कलाकार ने एक गीत गाया है जो वास्तव में उन्होंने नहीं गाया है। जबकि इसका उपयोग व्यंग्य या व्यंग्य के लिए किया जा सकता है, यह कानूनी रूप से संदेहास्पद है।

डीपसिंगर केवल एआई-आधारित संगीत और ऑडियो प्रणालियों की एक लहर में से एक है जो संगीत और सॉफ्टवेयर के बीच की बातचीत को कैसे बदलता है। ओपनएआई ने हाल ही में अपनी खुद की एआई प्रणाली जारी की है, जिसे जुकबॉक्स कहा जाता है, जो एक निश्चित शैली या यहां तक कि एक विशिष्ट कलाकार की शैली में मूल संगीत ट्रैक का उत्पादन करने में सक्षम है। अन्य संगीत एआई टूल में गूगल का मैग्नेट और अमेज़ॅन का डीपकंपोज़र शामिल हैं। मैग्नेट एक ओपन-सोर्स ऑडियो (और छवि) मैनिपुलेशन लाइब्रेरी है जिसका उपयोग स्वचालित ड्रम बैकिंग से लेकर सरल संगीत आधारित वीडियो गेम तक बनाने के लिए किया जा सकता है। इसके बीच, अमेज़ॅन का डीपकंपोज़र उन लोगों के लिए लक्षित है जो अपने स्वयं के संगीत-आधारित डीप लर्निंग मॉडल को प्रशिक्षित और अनुकूलित करना चाहते हैं, जिससे उपयोगकर्ता पूर्व-प्रशिक्षित नमूना मॉडल ले सकते हैं और अपनी आवश्यकताओं के अनुसार मॉडल को ट्वीक कर सकते हैं।

आप इस लिंक पर डीपसिंगर द्वारा उत्पन्न कुछ ऑडियो नमूनों को सुन सकते हैं।

Daniel Nelson

ब्लॉगर और प्रोग्रामर जिनकी विशेषज्ञता मैशीन लर्निंग और डीप लर्निंग विषयों में है। डैनियल दूसरों को सामाजिक कल्याण के लिए एआई की शक्ति का उपयोग करने में मदद करना चाहता है।

Unite.AI

शोधकर्ता द्वारा चीनी और अंग्रेजी दोनों में गाने में सक्षम एआई मॉडल बनाया गया

You may like