рдХреГрддреНрд░рд┐рдо рдмреБрджреНрдзрд┐рдорддреНрддрд╛
рд╢реЛрдзрдХрд░реНрддрд╛ рджреНрд╡рд╛рд░рд╛ рдЪреАрдиреА рдФрд░ рдЕрдВрдЧреНрд░реЗрдЬреА рджреЛрдиреЛрдВ рдореЗрдВ рдЧрд╛рдиреЗ рдореЗрдВ рд╕рдХреНрд╖рдо рдПрдЖрдИ рдореЙрдбрд▓ рдмрдирд╛рдпрд╛ рдЧрдпрд╛

माइक्रोसॉफ्ट और झाजियांग विश्वविद्यालय के शोधकर्ताओं की एक टीम ने हाल ही में कई भाषाओं में गाने में सक्षम एक एआई मॉडल बनाया है। वेंचरबीट की रिपोर्ट के अनुसार, टीम द्वारा विकसित डीपसिंगर एआई विभिन्न संगीत वेबसाइटों से डेटा पर प्रशिक्षित किया गया था, जिसमें एल्गोरिदम थे जो गायक की आवाज के टिम्बर को कैप्चर करते थे।
एक एआई गायक की “आवाज” का उत्पादन करने के लिए एल्गोरिदम की आवश्यकता होती है जो ऑडियो के पिच और अवधि की भविष्यवाणी और नियंत्रण करने में सक्षम हों। जब लोग गाते हैं, तो वे जो शोर उत्पन्न करते हैं वह सरल भाषण की तुलना में बहुत अधिक जटिल लय और पैटर्न होते हैं। टीम के लिए एक और समस्या यह थी कि जबकि बोलने/भाषण प्रशिक्षण डेटा की एक न्यायसंगत मात्रा उपलब्ध है, गायन प्रशिक्षण डेटा सेट दुर्लभ हैं। इन चुनौतियों को इस तथ्य के साथ जोड़ें कि गीतों में ध्वनि और गीतों का विश्लेषण करने की आवश्यकता है, और गायन का उत्पादन करने की समस्या अविश्वसनीय रूप से जटिल है।
शोधकर्ताओं द्वारा बनाई गई डीपसिंगर प्रणाली ने ऑडियो डेटा को खनन और परिवर्तित करने के लिए एक डेटा पाइपलाइन विकसित करके इन चुनौतियों को पार किया। विभिन्न संगीत वेबसाइटों से गायन के क्लिप निकाले गए, और फिर गायन को ऑडियो के बाकी हिस्सों से अलग किया गया और वाक्यों में विभाजित किया गया। अगला कदम गीतों में प्रत्येक फोनीम की अवधि निर्धारित करना था, जिसके परिणामस्वरूप गीतों में एक अद्वितीय फोनीम का प्रतिनिधित्व करने वाले नमूनों की एक श्रृंखला मिली। गीतों और साथ के ऑडियो नमूनों को विश्वास स्कोर के अनुसार क्रमबद्ध करने के बाद डेटा की सफाई विकृत प्रशिक्षण नमूनों से निपटने के लिए की जाती है।
बिल्कुल同 तरीके विभिन्न भाषाओं के लिए काम करते हैं। डीपसिंगर को चीनी, कैंटोनी और अंग्रेजी वोकल नमूनों पर प्रशिक्षित किया गया था, जो 89 अलग-अलग गायकों द्वारा 92 घंटे से अधिक समय तक गाया गया था। अध्ययन के परिणामों से पता चला कि डीपसिंगर प्रणाली पिच की सटीकता और गायन की प्राकृतिक ध्वनि जैसे मेट्रिक्स के अनुसार उच्च गुणवत्ता वाले “गायन” नमूनों को स्थिर रूप से उत्पन्न करने में सक्षम थी। शोधकर्ताओं ने 20 लोगों को डीपसिंगर और प्रशिक्षण गीतों द्वारा उत्पन्न गीतों को इन मेट्रिक्स के अनुसार रेट करने के लिए कहा, और उत्पन्न नमूनों और वास्तविक ऑडियो के बीच स्कोर में अंतर बहुत कम था। प्रतिभागियों ने डीपसिंगर को 0.34 और 0.76 के बीच भिन्न एक माध्य राय स्कोर दिया।
आगे देखते हुए, शोधकर्ता डीपसिंगर के हिस्से के रूप में विभिन्न उप-मॉडलों को संयुक्त रूप से प्रशिक्षित करके उत्पन्न आवाजों की गुणवत्ता में सुधार करने का प्रयास करना चाहते हैं, जो विशेष रूप से ऑडियो वेवफॉर्म के माध्यम से प्राकृतिक ध्वनि वाले भाषण को उत्पन्न करने के लिए डिज़ाइन किए गए विशेषता प्रौद्योगिकियों जैसे वेवनेट के सहयोग से किया जाता है।
डीपसिंगर प्रणाली का उपयोग गायकों और अन्य संगीत कलाकारों को रिकॉर्डिंग सत्र के लिए स्टूडियो में वापस जाने की आवश्यकता के बिना अपने काम में सुधार करने में मदद करने के लिए किया जा सकता है। यह संभावित रूप से ऑडियो डीपफेक्स बनाने के लिए भी उपयोग किया जा सकता है, जिससे ऐसा लगता है कि एक कलाकार ने एक गीत गाया है जो वास्तव में उन्होंने नहीं गाया है। जबकि इसका उपयोग व्यंग्य या व्यंग्य के लिए किया जा सकता है, यह कानूनी रूप से संदेहास्पद है।
डीपसिंगर केवल एआई-आधारित संगीत और ऑडियो प्रणालियों की एक लहर में से एक है जो संगीत और सॉफ्टवेयर के बीच की बातचीत को कैसे बदलता है। ओपनएआई ने हाल ही में अपनी खुद की एआई प्रणाली जारी की है, जिसे जुकबॉक्स कहा जाता है, जो एक निश्चित शैली या यहां तक कि एक विशिष्ट कलाकार की शैली में मूल संगीत ट्रैक का उत्पादन करने में सक्षम है। अन्य संगीत एआई टूल में गूगल का मैग्नेट और अमेज़ॅन का डीपकंपोज़र शामिल हैं। मैग्नेट एक ओपन-सोर्स ऑडियो (और छवि) मैनिपुलेशन लाइब्रेरी है जिसका उपयोग स्वचालित ड्रम बैकिंग से लेकर सरल संगीत आधारित वीडियो गेम तक बनाने के लिए किया जा सकता है। इसके बीच, अमेज़ॅन का डीपकंपोज़र उन लोगों के लिए लक्षित है जो अपने स्वयं के संगीत-आधारित डीप लर्निंग मॉडल को प्रशिक्षित और अनुकूलित करना चाहते हैं, जिससे उपयोगकर्ता पूर्व-प्रशिक्षित नमूना मॉडल ले सकते हैं और अपनी आवश्यकताओं के अनुसार मॉडल को ट्वीक कर सकते हैं।
आप इस लिंक पर डीपसिंगर द्वारा उत्पन्न कुछ ऑडियो नमूनों को सुन सकते हैं।












