Connect with us

рд╢реЛрдзрдХрд░реНрддрд╛ рджреНрд╡рд╛рд░рд╛ рдЪреАрдиреА рдФрд░ рдЕрдВрдЧреНрд░реЗрдЬреА рджреЛрдиреЛрдВ рдореЗрдВ рдЧрд╛рдиреЗ рдореЗрдВ рд╕рдХреНрд╖рдо рдПрдЖрдИ рдореЙрдбрд▓ рдмрдирд╛рдпрд╛ рдЧрдпрд╛

рдХреГрддреНрд░рд┐рдо рдмреБрджреНрдзрд┐рдорддреНрддрд╛

рд╢реЛрдзрдХрд░реНрддрд╛ рджреНрд╡рд╛рд░рд╛ рдЪреАрдиреА рдФрд░ рдЕрдВрдЧреНрд░реЗрдЬреА рджреЛрдиреЛрдВ рдореЗрдВ рдЧрд╛рдиреЗ рдореЗрдВ рд╕рдХреНрд╖рдо рдПрдЖрдИ рдореЙрдбрд▓ рдмрдирд╛рдпрд╛ рдЧрдпрд╛

mm

माइक्रोसॉफ्ट और झाजियांग विश्वविद्यालय के शोधकर्ताओं की एक टीम ने हाल ही में कई भाषाओं में गाने में सक्षम एक एआई मॉडल बनाया है। वेंचरबीट की रिपोर्ट के अनुसार, टीम द्वारा विकसित डीपसिंगर एआई विभिन्न संगीत वेबसाइटों से डेटा पर प्रशिक्षित किया गया था, जिसमें एल्गोरिदम थे जो गायक की आवाज के टिम्बर को कैप्चर करते थे।

एक एआई गायक की “आवाज” का उत्पादन करने के लिए एल्गोरिदम की आवश्यकता होती है जो ऑडियो के पिच और अवधि की भविष्यवाणी और नियंत्रण करने में सक्षम हों। जब लोग गाते हैं, तो वे जो शोर उत्पन्न करते हैं वह सरल भाषण की तुलना में बहुत अधिक जटिल लय और पैटर्न होते हैं। टीम के लिए एक और समस्या यह थी कि जबकि बोलने/भाषण प्रशिक्षण डेटा की एक न्यायसंगत मात्रा उपलब्ध है, गायन प्रशिक्षण डेटा सेट दुर्लभ हैं। इन चुनौतियों को इस तथ्य के साथ जोड़ें कि गीतों में ध्वनि और गीतों का विश्लेषण करने की आवश्यकता है, और गायन का उत्पादन करने की समस्या अविश्वसनीय रूप से जटिल है।

शोधकर्ताओं द्वारा बनाई गई डीपसिंगर प्रणाली ने ऑडियो डेटा को खनन और परिवर्तित करने के लिए एक डेटा पाइपलाइन विकसित करके इन चुनौतियों को पार किया। विभिन्न संगीत वेबसाइटों से गायन के क्लिप निकाले गए, और फिर गायन को ऑडियो के बाकी हिस्सों से अलग किया गया और वाक्यों में विभाजित किया गया। अगला कदम गीतों में प्रत्येक फोनीम की अवधि निर्धारित करना था, जिसके परिणामस्वरूप गीतों में एक अद्वितीय फोनीम का प्रतिनिधित्व करने वाले नमूनों की एक श्रृंखला मिली। गीतों और साथ के ऑडियो नमूनों को विश्वास स्कोर के अनुसार क्रमबद्ध करने के बाद डेटा की सफाई विकृत प्रशिक्षण नमूनों से निपटने के लिए की जाती है।

बिल्कुल同 तरीके विभिन्न भाषाओं के लिए काम करते हैं। डीपसिंगर को चीनी, कैंटोनी और अंग्रेजी वोकल नमूनों पर प्रशिक्षित किया गया था, जो 89 अलग-अलग गायकों द्वारा 92 घंटे से अधिक समय तक गाया गया था। अध्ययन के परिणामों से पता चला कि डीपसिंगर प्रणाली पिच की सटीकता और गायन की प्राकृतिक ध्वनि जैसे मेट्रिक्स के अनुसार उच्च गुणवत्ता वाले “गायन” नमूनों को स्थिर रूप से उत्पन्न करने में सक्षम थी। शोधकर्ताओं ने 20 लोगों को डीपसिंगर और प्रशिक्षण गीतों द्वारा उत्पन्न गीतों को इन मेट्रिक्स के अनुसार रेट करने के लिए कहा, और उत्पन्न नमूनों और वास्तविक ऑडियो के बीच स्कोर में अंतर बहुत कम था। प्रतिभागियों ने डीपसिंगर को 0.34 और 0.76 के बीच भिन्न एक माध्य राय स्कोर दिया।

आगे देखते हुए, शोधकर्ता डीपसिंगर के हिस्से के रूप में विभिन्न उप-मॉडलों को संयुक्त रूप से प्रशिक्षित करके उत्पन्न आवाजों की गुणवत्ता में सुधार करने का प्रयास करना चाहते हैं, जो विशेष रूप से ऑडियो वेवफॉर्म के माध्यम से प्राकृतिक ध्वनि वाले भाषण को उत्पन्न करने के लिए डिज़ाइन किए गए विशेषता प्रौद्योगिकियों जैसे वेवनेट के सहयोग से किया जाता है।

डीपसिंगर प्रणाली का उपयोग गायकों और अन्य संगीत कलाकारों को रिकॉर्डिंग सत्र के लिए स्टूडियो में वापस जाने की आवश्यकता के बिना अपने काम में सुधार करने में मदद करने के लिए किया जा सकता है। यह संभावित रूप से ऑडियो डीपफेक्स बनाने के लिए भी उपयोग किया जा सकता है, जिससे ऐसा लगता है कि एक कलाकार ने एक गीत गाया है जो वास्तव में उन्होंने नहीं गाया है। जबकि इसका उपयोग व्यंग्य या व्यंग्य के लिए किया जा सकता है, यह कानूनी रूप से संदेहास्पद है।

डीपसिंगर केवल एआई-आधारित संगीत और ऑडियो प्रणालियों की एक लहर में से एक है जो संगीत और सॉफ्टवेयर के बीच की बातचीत को कैसे बदलता है। ओपनएआई ने हाल ही में अपनी खुद की एआई प्रणाली जारी की है, जिसे जुकबॉक्स कहा जाता है, जो एक निश्चित शैली या यहां तक कि एक विशिष्ट कलाकार की शैली में मूल संगीत ट्रैक का उत्पादन करने में सक्षम है। अन्य संगीत एआई टूल में गूगल का मैग्नेट और अमेज़ॅन का डीपकंपोज़र शामिल हैं। मैग्नेट एक ओपन-सोर्स ऑडियो (और छवि) मैनिपुलेशन लाइब्रेरी है जिसका उपयोग स्वचालित ड्रम बैकिंग से लेकर सरल संगीत आधारित वीडियो गेम तक बनाने के लिए किया जा सकता है। इसके बीच, अमेज़ॅन का डीपकंपोज़र उन लोगों के लिए लक्षित है जो अपने स्वयं के संगीत-आधारित डीप लर्निंग मॉडल को प्रशिक्षित और अनुकूलित करना चाहते हैं, जिससे उपयोगकर्ता पूर्व-प्रशिक्षित नमूना मॉडल ले सकते हैं और अपनी आवश्यकताओं के अनुसार मॉडल को ट्वीक कर सकते हैं।

आप इस लिंक पर डीपसिंगर द्वारा उत्पन्न कुछ ऑडियो नमूनों को सुन सकते हैं।

рдмреНрд▓реЙрдЧрд░ рдФрд░ рдкреНрд░реЛрдЧреНрд░рд╛рдорд░ рдЬрд┐рдирдХреА рд╡рд┐рд╢реЗрд╖рдЬреНрдЮрддрд╛ рдореИрд╢реАрди рд▓рд░реНрдирд┐рдВрдЧ рдФрд░ рдбреАрдк рд▓рд░реНрдирд┐рдВрдЧ рд╡рд┐рд╖рдпреЛрдВ рдореЗрдВ рд╣реИред рдбреИрдирд┐рдпрд▓ рджреВрд╕рд░реЛрдВ рдХреЛ рд╕рд╛рдорд╛рдЬрд┐рдХ рдХрд▓реНрдпрд╛рдг рдХреЗ рд▓рд┐рдП рдПрдЖрдИ рдХреА рд╢рдХреНрддрд┐ рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рдиреЗ рдореЗрдВ рдорджрдж рдХрд░рдирд╛ рдЪрд╛рд╣рддрд╛ рд╣реИред