Connect with us

рдПрдЖрдИ рдЕрдиреБрд╕рдВрдзрд╛рди рдЕрд▓рдЧ рд╡реЙрд▓реНрдпреВрдо рдирд┐рдпрдВрддреНрд░рдг рдХреЗ рд▓рд┐рдП рд╕рдВрд╡рд╛рдж, рд╕рдВрдЧреАрдд рдФрд░ рдзреНрд╡рдирд┐ рдкреНрд░рднрд╛рд╡ рдХреА рдХрд▓реНрдкрдирд╛ рдХрд░рддрд╛ рд╣реИ

рдХреГрддреНрд░рд┐рдо рдмреБрджреНрдзрд┐рдорддреНрддрд╛

рдПрдЖрдИ рдЕрдиреБрд╕рдВрдзрд╛рди рдЕрд▓рдЧ рд╡реЙрд▓реНрдпреВрдо рдирд┐рдпрдВрддреНрд░рдг рдХреЗ рд▓рд┐рдП рд╕рдВрд╡рд╛рдж, рд╕рдВрдЧреАрдд рдФрд░ рдзреНрд╡рдирд┐ рдкреНрд░рднрд╛рд╡ рдХреА рдХрд▓реНрдкрдирд╛ рдХрд░рддрд╛ рд╣реИ

mm

मित्सुबिशी द्वारा नेतृत्व वाले एक नए अनुसंधान सहयोग में मूल ऑडियो स्रोत से तीन अलग ध्वनि ट्रैक निकालने की संभावना की जांच की जा रही है, ऑडियो ट्रैक को भाषण, संगीत और ध्वनि प्रभावों (अर्थात पर्यावरण शोर) में तोड़ दिया जा रहा है।

चूंकि यह एक पोस्ट-फैक्टो प्रोसेसिंग फ्रेमवर्क है, यह बाद की पीढ़ियों के मल्टीमीडिया देखने वाले प्लेटफ़ॉर्म के लिए संभावना प्रदान करता है, जिसमें उपभोक्ता उपकरण भी शामिल हैं, तीन-बिंदु वॉल्यूम नियंत्रण प्रदान करने, जिससे उपयोगकर्ता संवाद की मात्रा बढ़ा सकता है या साउंडट्रैक की मात्रा कम कर सकता है।

नीचे दिए गए शोध के साथ आने वाले वीडियो (लेख के अंत में पूरा वीडियो देखें) के एक छोटे से क्लिप में, हम त्रिकोण में प्रत्येक कोने में तीन ऑडियो घटकों के साथ त्रिकोण यूआई (दाएं) में एक नियंत्रण को खींचते हुए साउंडट्रैक के विभिन्न पहलुओं को देखते हैं:

पेपर के साथ आने वाले वीडियो (लेख के अंत में एम्बेड देखें) का एक छोटा सा क्लिप। जैसे ही उपयोगकर्ता त्रिकोण यूआई (दाएं) में तीन निकाले गए पहलुओं में से एक की ओर कर्सर खींचता है, ऑडियो उस हिस्से पर जोर देता है। हालांकि लंबे वीडियो में यूट्यूब पर कई अतिरिक्त उदाहरणों का उल्लेख किया गया है, वे वर्तमान में उपलब्ध नहीं लगते हैं। स्रोत: https://vimeo.com/634073402

<paper का शीर्षक द कॉकटेल फोर्क प्रोब्लम: थ्री-स्टेम ऑडियो सेपरेशन फॉर रियल-वर्ल्ड साउंडट्रैक है, और यह मासाचुसेट्स में मित्सुबिशी इलेक्ट्रिक रिसर्च लेबोरेटरीज (एमईआरएल) और इलिनोइस में इंडियाना विश्वविद्यालय में इंटेलिजेंट सिस्टम इंजीनियरिंग विभाग के शोधकर्ताओं से आता है।

साउंडट्रैक के पहलुओं को अलग करना

शोधकर्ताओं ने इस चुनौती को ‘द कॉकटेल पार्टी प्रोब्लम’ नाम दिया है क्योंकि यह साउंडट्रैक के गंभीर रूप से जुड़े तत्वों को अलग करने में शामिल है, जो एक मानचित्र बनाता है जो एक फोर्क (नीचे दी गई छवि देखें) की तरह दिखता है। व्यवहार में, मल्टी-चैनल (अर्थात स्टीरियो और अधिक) साउंडट्रैक में विभिन्न प्रकार की सामग्री की विभिन्न मात्रा हो सकती है, जैसे कि संवाद, संगीत और पर्यावरण, विशेष रूप से जब संवाद डोल्बी 5.1 मिक्स में केंद्र चैनल पर हावी होता है। वर्तमान में, हालांकि, ऑडियो सेपरेशन के बहुत सक्रिय शोध क्षेत्र एकल, बेक्ड साउंडट्रैक से इन धाराओं को पकड़ने पर केंद्रित है, जैसा कि वर्तमान शोध में है।

рдж рдХреЙрдХрдЯреЗрд▓ рдлреЛрд░реНрдХ - рдПрдХрд▓ рдФрд░ рдоerged рд╕рд╛рдЙрдВрдбрдЯреНрд░реИрдХ рд╕реЗ рддреАрди рдЕрд▓рдЧ рд╕рд╛рдЙрдВрдбрдЯреНрд░реИрдХ рдХрд╛ рдирд┐рд░реНрдзрд╛рд░рдгред

द कॉकटेल फोर्क – एकल और मerged साउंडट्रैक से तीन अलग साउंडट्रैक का निर्धारण। स्रोत: https://arxiv.org/pdf/2110.09958.pdf

हाल के शोध ने विभिन्न वातावरण में भाषण निकालने पर केंद्रित किया है, अक्सर प्राकृतिक भाषा प्रोसेसिंग (एनएलपी) प्रणालियों के साथ बाद के जुड़ाव के लिए स्पीच ऑडियो को शोर मुक्त करने के उद्देश्य से, लेकिन संग्रहालय गायन आवाजों के अल्गोरिथम पर भी ध्यान केंद्रित किया गया है, या तो वास्तविक (यहां तक कि मृत) गायकों के सिंथेटिक संस्करण बनाने के लिए, या कराओके शैली के संगीत अलगाव को सुविधाजनक बनाने के लिए।

प्रत्येक पहलू के लिए एक डेटासेट

अब तक, इस प्रकार की एआई प्रौद्योगिकी का उपयोग करके उपयोगकर्ताओं को साउंडट्रैक के मिश्रण पर अधिक नियंत्रण देने पर बहुत कम विचार किया गया है। इसलिए, शोधकर्ताओं ने समस्या को औपचारिक बनाया है और मल्टी-प्रकार साउंडट्रैक सेपरेशन में चल रहे शोध के लिए एक सहायक के रूप में एक नई डेटासेट विकसित की है, साथ ही विभिन्न मौजूदा ऑडियो सेपरेशन फ्रेमवर्क पर इसका परीक्षण किया है।

शोधकर्ताओं द्वारा विकसित नई डेटासेट को डिवाइड एंड रीमास्टर (डीएनआर) कहा जाता है, और यह पूर्व डेटासेट लिब्रीस्पीच, फ्री म्यूजिक आर्काइव और फ्रीसाउंड डेटासेट 50के (एफएसडी50के) से व्युत्पन्न है। उन लोगों के लिए जो डीएनआर के साथ काम करना चाहते हैं, डेटासेट को तीन स्रोतों से पुनर्निर्मित करना होगा; अन्यथा यह जल्द ही जेनोडो पर उपलब्ध होगा, शोधकर्ताओं का दावा है। हालांकि, लेखन के समय, स्रोत निकालने के उपयोगिताओं के लिए प्रदान किया गया गिटहब लिंक वर्तमान में सक्रिय नहीं है, इसलिए रुचि रखने वालों को थोड़ा इंतजार करना पड़ सकता है।

शोधकर्ताओं ने पाया है कि सोनी द्वारा प्रस्तावित क्रॉसनेट अनमिक्स (एक्सयूएमएक्स) आर्किटेक्चर डीएनआर के साथ विशेष रूप से अच्छा काम करता है।

рд╕реЛрдиреА рдХрд╛ рдХреНрд░реЙрд╕рдиреЗрдЯ рдЖрд░реНрдХрд┐рдЯреЗрдХреНрдЪрд░.

सोनी का क्रॉसनेट आर्किटेक्चर.

लेखकों का दावा है कि उनके मशीन लर्निंग निकालने वाले मॉडल यूट्यूब से साउंडट्रैक पर अच्छा काम करते हैं, हालांकि पेपर में प्रस्तुत मूल्यांकन सिंथेटिक डेटा पर आधारित हैं, और प्रदान किया गया मुख्य समर्थन वीडियो (नीचे एम्बेडेड) वर्तमान में उपलब्ध लगता है।

तीन डेटासेट प्रत्येक में एक संग्रह होता है जिसे साउंडट्रैक से अलग करने की आवश्यकता होती है: एफएसडी50के में ध्वनि प्रभावों के साथ व्यस्त है, और इसमें 50,000 44.1 किलोहर्ट्ज मोनो ऑडियो क्लिप होते हैं जो गूगल की ऑडियोसेट ओंटोलॉजी से 200 कक्षा लेबल के साथ टैग किए जाते हैं; फ्री म्यूजिक आर्काइव में 100,000 स्टीरियो गाने होते हैं जो 161 संगीत शैलियों को कवर करते हैं, हालांकि लेखकों ने 25,000 गानों का एक उपसेट उपयोग किया है, जो एफएसडी50के के साथ तालमेल बिठाने के लिए है; और लिब्रीस्पीच डीएनआर को 44.1किलोहर्ट्ज एमपी3 ऑडियो फाइलों के रूप में 100 घंटे की ऑडियोबुक नमूनों के साथ प्रदान करता है।

भविष्य का काम

लेखक अतिरिक्त शोध में डेटासेट और विकसित किए गए अलग-अलग मॉडलों के संयोजन पर काम करने की उम्मीद करते हैं, जिसमें स्पीच रिकग्निशन और साउंड क्लासिफिकेशन फ्रेमवर्क शामिल हैं, जिसमें स्वचालित कैप्शन जेनरेशन शामिल है स्पीच और नॉन-स्पीच साउंड के लिए। वे साउंडट्रैक को विभाजित करने के दौरान धारणात्मक कलाकृतियों को कम करने के लिए रीमिक्स दृष्टिकोणों की संभावनाओं का मूल्यांकन करने का भी इरादा रखते हैं, जो कि मुख्य समस्या बनी हुई है।

इस प्रकार के पृथक्करण को भविष्य में एक उपभोक्ता वस्तु के रूप में स्मार्ट टीवी में उपलब्ध कराया जा सकता है जो उच्चतम अनुमान नेटवर्क को एकीकृत करते हैं, हालांकि यह संभावना है कि प्रारंभिक कार्यान्वयन में कुछ स्तर की पूर्व-प्रोसेसिंग समय और संग्रहण स्थान की आवश्यकता होगी। सैमसंग पहले से ही स्थानीय तंत्रिका नेटवर्क का उपयोग अपस्केलिंग के लिए करता है, जबकि सोनी का कॉग्निटिव प्रोसेसर एक्सआर, कंपनी की ब्राविया श्रृंखला में उपयोग किया जाता है, साउंडट्रैक का विश्लेषण और पुनः व्याख्या करता है एक लाइव आधार पर एकीकृत एआई के माध्यम से।

साउंडट्रैक के मिश्रण पर अधिक नियंत्रण के लिए आह्वान आवर्ती होते हैं, और अधिकांश समाधान को यह तथ्य निपटाना होगा कि साउंडट्रैक को पहले से ही वर्तमान मानकों (और दर्शकों की इच्छा के बारे में धारणाओं) के अनुसार फिल्म और टीवी उद्योगों में बाउंस किया गया है।

एक दर्शक, जो फिल्म साउंडट्रैक के विभिन्न तत्वों के बीच मात्रा स्तरों में चौंकाने वाले अंतर से परेशान था, ने एक हार्डवेयर-आधारित स्वचालित मात्रा समायोजक विकसित करने के लिए पर्याप्त डेस्पेरेट हो गया, जो मात्रा को समान करने में सक्षम है फिल्मों और टीवी के लिए।

हालांकि स्मार्ट टीवी विभिन्न तरीकों की पेशकश करते हैं जो संगीत के लिए ग्रैंडियोस मात्रा स्तरों के खिलाफ संवाद मात्रा को बढ़ाने का प्रयास करते हैं, वे सभी मिश्रण समय पर किए गए निर्णयों के खिलाफ संघर्ष कर रहे हैं, और तर्कसंगत रूप से, साउंडट्रैक को ठीक वैसे ही अनुभव करने की इच्छा रखने वाले दर्शकों के लिए सामग्री निर्माताओं के दृष्टिकोण।

सामग्री निर्माता इस संभावित जोड़ के खिलाफ ‘रीमिक्स संस्कृति’ के खिलाफ रैंकल करने की संभावना है, क्योंकि कई उद्योग के प्रमुख हस्तियों ने पहले ही डिफ़ॉल्ट पोस्ट-प्रोसेसिंग टीवी-आधारित अल्गोरिदम जैसे मोशन स्मूथिंग के खिलाफ अपनी असहमति व्यक्त की है।

рдорд╢реАрди рд▓рд░реНрдирд┐рдВрдЧ рдкрд░ рд▓реЗрдЦрдХ, рдорд╛рдирд╡ рдЗрдореЗрдЬ рд╕рд┐рдВрдереЗрд╕рд┐рд╕ рдореЗрдВ рдбреЛрдореЗрди рд╡рд┐рд╢реЗрд╖рдЬреНрдЮред рдореЗрдЯрд╛рдлрд┐рдЬрд┐рдХ.рдПрдЖрдИ рдореЗрдВ рдЕрдиреБрд╕рдВрдзрд╛рди рд╕рд╛рдордЧреНрд░реА рдХреЗ рдкреВрд░реНрд╡ рдкреНрд░рдореБрдЦред
рд╡реНрдпрдХреНрддрд┐рдЧрдд рд╕рд╛рдЗрдЯ: martinanderson.ai
рд╕рдВрдкрд░реНрдХ: [email protected]
рдЯреНрд╡рд┐рдЯрд░: @manders_ai