рдХреГрддреНрд░рд┐рдо рдмреБрджреНрдзрд┐рдорддреНрддрд╛
рдПрдЖрдИ рдЕрдиреБрд╕рдВрдзрд╛рди рдЕрд▓рдЧ рд╡реЙрд▓реНрдпреВрдо рдирд┐рдпрдВрддреНрд░рдг рдХреЗ рд▓рд┐рдП рд╕рдВрд╡рд╛рдж, рд╕рдВрдЧреАрдд рдФрд░ рдзреНрд╡рдирд┐ рдкреНрд░рднрд╛рд╡ рдХреА рдХрд▓реНрдкрдирд╛ рдХрд░рддрд╛ рд╣реИ

मित्सुबिशी द्वारा नेतृत्व वाले एक नए अनुसंधान सहयोग में मूल ऑडियो स्रोत से तीन अलग ध्वनि ट्रैक निकालने की संभावना की जांच की जा रही है, ऑडियो ट्रैक को भाषण, संगीत और ध्वनि प्रभावों (अर्थात पर्यावरण शोर) में तोड़ दिया जा रहा है।
चूंकि यह एक पोस्ट-फैक्टो प्रोसेसिंग फ्रेमवर्क है, यह बाद की पीढ़ियों के मल्टीमीडिया देखने वाले प्लेटफ़ॉर्म के लिए संभावना प्रदान करता है, जिसमें उपभोक्ता उपकरण भी शामिल हैं, तीन-बिंदु वॉल्यूम नियंत्रण प्रदान करने, जिससे उपयोगकर्ता संवाद की मात्रा बढ़ा सकता है या साउंडट्रैक की मात्रा कम कर सकता है।
नीचे दिए गए शोध के साथ आने वाले वीडियो (लेख के अंत में पूरा वीडियो देखें) के एक छोटे से क्लिप में, हम त्रिकोण में प्रत्येक कोने में तीन ऑडियो घटकों के साथ त्रिकोण यूआई (दाएं) में एक नियंत्रण को खींचते हुए साउंडट्रैक के विभिन्न पहलुओं को देखते हैं:
पेपर के साथ आने वाले वीडियो (लेख के अंत में एम्बेड देखें) का एक छोटा सा क्लिप। जैसे ही उपयोगकर्ता त्रिकोण यूआई (दाएं) में तीन निकाले गए पहलुओं में से एक की ओर कर्सर खींचता है, ऑडियो उस हिस्से पर जोर देता है। हालांकि लंबे वीडियो में यूट्यूब पर कई अतिरिक्त उदाहरणों का उल्लेख किया गया है, वे वर्तमान में उपलब्ध नहीं लगते हैं। स्रोत: https://vimeo.com/634073402
<paper का शीर्षक द कॉकटेल फोर्क प्रोब्लम: थ्री-स्टेम ऑडियो सेपरेशन फॉर रियल-वर्ल्ड साउंडट्रैक है, और यह मासाचुसेट्स में मित्सुबिशी इलेक्ट्रिक रिसर्च लेबोरेटरीज (एमईआरएल) और इलिनोइस में इंडियाना विश्वविद्यालय में इंटेलिजेंट सिस्टम इंजीनियरिंग विभाग के शोधकर्ताओं से आता है।
साउंडट्रैक के पहलुओं को अलग करना
शोधकर्ताओं ने इस चुनौती को ‘द कॉकटेल पार्टी प्रोब्लम’ नाम दिया है क्योंकि यह साउंडट्रैक के गंभीर रूप से जुड़े तत्वों को अलग करने में शामिल है, जो एक मानचित्र बनाता है जो एक फोर्क (नीचे दी गई छवि देखें) की तरह दिखता है। व्यवहार में, मल्टी-चैनल (अर्थात स्टीरियो और अधिक) साउंडट्रैक में विभिन्न प्रकार की सामग्री की विभिन्न मात्रा हो सकती है, जैसे कि संवाद, संगीत और पर्यावरण, विशेष रूप से जब संवाद डोल्बी 5.1 मिक्स में केंद्र चैनल पर हावी होता है। वर्तमान में, हालांकि, ऑडियो सेपरेशन के बहुत सक्रिय शोध क्षेत्र एकल, बेक्ड साउंडट्रैक से इन धाराओं को पकड़ने पर केंद्रित है, जैसा कि वर्तमान शोध में है।

द कॉकटेल फोर्क – एकल और मerged साउंडट्रैक से तीन अलग साउंडट्रैक का निर्धारण। स्रोत: https://arxiv.org/pdf/2110.09958.pdf
हाल के शोध ने विभिन्न वातावरण में भाषण निकालने पर केंद्रित किया है, अक्सर प्राकृतिक भाषा प्रोसेसिंग (एनएलपी) प्रणालियों के साथ बाद के जुड़ाव के लिए स्पीच ऑडियो को शोर मुक्त करने के उद्देश्य से, लेकिन संग्रहालय गायन आवाजों के अल्गोरिथम पर भी ध्यान केंद्रित किया गया है, या तो वास्तविक (यहां तक कि मृत) गायकों के सिंथेटिक संस्करण बनाने के लिए, या कराओके शैली के संगीत अलगाव को सुविधाजनक बनाने के लिए।
प्रत्येक पहलू के लिए एक डेटासेट
अब तक, इस प्रकार की एआई प्रौद्योगिकी का उपयोग करके उपयोगकर्ताओं को साउंडट्रैक के मिश्रण पर अधिक नियंत्रण देने पर बहुत कम विचार किया गया है। इसलिए, शोधकर्ताओं ने समस्या को औपचारिक बनाया है और मल्टी-प्रकार साउंडट्रैक सेपरेशन में चल रहे शोध के लिए एक सहायक के रूप में एक नई डेटासेट विकसित की है, साथ ही विभिन्न मौजूदा ऑडियो सेपरेशन फ्रेमवर्क पर इसका परीक्षण किया है।
शोधकर्ताओं द्वारा विकसित नई डेटासेट को डिवाइड एंड रीमास्टर (डीएनआर) कहा जाता है, और यह पूर्व डेटासेट लिब्रीस्पीच, फ्री म्यूजिक आर्काइव और फ्रीसाउंड डेटासेट 50के (एफएसडी50के) से व्युत्पन्न है। उन लोगों के लिए जो डीएनआर के साथ काम करना चाहते हैं, डेटासेट को तीन स्रोतों से पुनर्निर्मित करना होगा; अन्यथा यह जल्द ही जेनोडो पर उपलब्ध होगा, शोधकर्ताओं का दावा है। हालांकि, लेखन के समय, स्रोत निकालने के उपयोगिताओं के लिए प्रदान किया गया गिटहब लिंक वर्तमान में सक्रिय नहीं है, इसलिए रुचि रखने वालों को थोड़ा इंतजार करना पड़ सकता है।
शोधकर्ताओं ने पाया है कि सोनी द्वारा प्रस्तावित क्रॉसनेट अनमिक्स (एक्सयूएमएक्स) आर्किटेक्चर डीएनआर के साथ विशेष रूप से अच्छा काम करता है।

सोनी का क्रॉसनेट आर्किटेक्चर.
लेखकों का दावा है कि उनके मशीन लर्निंग निकालने वाले मॉडल यूट्यूब से साउंडट्रैक पर अच्छा काम करते हैं, हालांकि पेपर में प्रस्तुत मूल्यांकन सिंथेटिक डेटा पर आधारित हैं, और प्रदान किया गया मुख्य समर्थन वीडियो (नीचे एम्बेडेड) वर्तमान में उपलब्ध लगता है।
तीन डेटासेट प्रत्येक में एक संग्रह होता है जिसे साउंडट्रैक से अलग करने की आवश्यकता होती है: एफएसडी50के में ध्वनि प्रभावों के साथ व्यस्त है, और इसमें 50,000 44.1 किलोहर्ट्ज मोनो ऑडियो क्लिप होते हैं जो गूगल की ऑडियोसेट ओंटोलॉजी से 200 कक्षा लेबल के साथ टैग किए जाते हैं; फ्री म्यूजिक आर्काइव में 100,000 स्टीरियो गाने होते हैं जो 161 संगीत शैलियों को कवर करते हैं, हालांकि लेखकों ने 25,000 गानों का एक उपसेट उपयोग किया है, जो एफएसडी50के के साथ तालमेल बिठाने के लिए है; और लिब्रीस्पीच डीएनआर को 44.1किलोहर्ट्ज एमपी3 ऑडियो फाइलों के रूप में 100 घंटे की ऑडियोबुक नमूनों के साथ प्रदान करता है।
भविष्य का काम
लेखक अतिरिक्त शोध में डेटासेट और विकसित किए गए अलग-अलग मॉडलों के संयोजन पर काम करने की उम्मीद करते हैं, जिसमें स्पीच रिकग्निशन और साउंड क्लासिफिकेशन फ्रेमवर्क शामिल हैं, जिसमें स्वचालित कैप्शन जेनरेशन शामिल है स्पीच और नॉन-स्पीच साउंड के लिए। वे साउंडट्रैक को विभाजित करने के दौरान धारणात्मक कलाकृतियों को कम करने के लिए रीमिक्स दृष्टिकोणों की संभावनाओं का मूल्यांकन करने का भी इरादा रखते हैं, जो कि मुख्य समस्या बनी हुई है।
इस प्रकार के पृथक्करण को भविष्य में एक उपभोक्ता वस्तु के रूप में स्मार्ट टीवी में उपलब्ध कराया जा सकता है जो उच्चतम अनुमान नेटवर्क को एकीकृत करते हैं, हालांकि यह संभावना है कि प्रारंभिक कार्यान्वयन में कुछ स्तर की पूर्व-प्रोसेसिंग समय और संग्रहण स्थान की आवश्यकता होगी। सैमसंग पहले से ही स्थानीय तंत्रिका नेटवर्क का उपयोग अपस्केलिंग के लिए करता है, जबकि सोनी का कॉग्निटिव प्रोसेसर एक्सआर, कंपनी की ब्राविया श्रृंखला में उपयोग किया जाता है, साउंडट्रैक का विश्लेषण और पुनः व्याख्या करता है एक लाइव आधार पर एकीकृत एआई के माध्यम से।
साउंडट्रैक के मिश्रण पर अधिक नियंत्रण के लिए आह्वान आवर्ती होते हैं, और अधिकांश समाधान को यह तथ्य निपटाना होगा कि साउंडट्रैक को पहले से ही वर्तमान मानकों (और दर्शकों की इच्छा के बारे में धारणाओं) के अनुसार फिल्म और टीवी उद्योगों में बाउंस किया गया है।
एक दर्शक, जो फिल्म साउंडट्रैक के विभिन्न तत्वों के बीच मात्रा स्तरों में चौंकाने वाले अंतर से परेशान था, ने एक हार्डवेयर-आधारित स्वचालित मात्रा समायोजक विकसित करने के लिए पर्याप्त डेस्पेरेट हो गया, जो मात्रा को समान करने में सक्षम है फिल्मों और टीवी के लिए।
हालांकि स्मार्ट टीवी विभिन्न तरीकों की पेशकश करते हैं जो संगीत के लिए ग्रैंडियोस मात्रा स्तरों के खिलाफ संवाद मात्रा को बढ़ाने का प्रयास करते हैं, वे सभी मिश्रण समय पर किए गए निर्णयों के खिलाफ संघर्ष कर रहे हैं, और तर्कसंगत रूप से, साउंडट्रैक को ठीक वैसे ही अनुभव करने की इच्छा रखने वाले दर्शकों के लिए सामग्री निर्माताओं के दृष्टिकोण।
सामग्री निर्माता इस संभावित जोड़ के खिलाफ ‘रीमिक्स संस्कृति’ के खिलाफ रैंकल करने की संभावना है, क्योंकि कई उद्योग के प्रमुख हस्तियों ने पहले ही डिफ़ॉल्ट पोस्ट-प्रोसेसिंग टीवी-आधारित अल्गोरिदम जैसे मोशन स्मूथिंग के खिलाफ अपनी असहमति व्यक्त की है।












