कृत्रिम बुद्धिमत्ता

एआई अनुसंधान अलग वॉल्यूम नियंत्रण के लिए संवाद, संगीत और ध्वनि प्रभाव की कल्पना करता है

Published October 21, 2021

Updated April 28, 2026

Martin Anderson

मित्सुबिशी द्वारा नेतृत्व वाले एक नए अनुसंधान सहयोग में मूल ऑडियो स्रोत से तीन अलग ध्वनि ट्रैक निकालने की संभावना की जांच की जा रही है, ऑडियो ट्रैक को भाषण, संगीत और ध्वनि प्रभावों (अर्थात पर्यावरण शोर) में तोड़ दिया जा रहा है।

चूंकि यह एक पोस्ट-फैक्टो प्रोसेसिंग फ्रेमवर्क है, यह बाद की पीढ़ियों के मल्टीमीडिया देखने वाले प्लेटफ़ॉर्म के लिए संभावना प्रदान करता है, जिसमें उपभोक्ता उपकरण भी शामिल हैं, तीन-बिंदु वॉल्यूम नियंत्रण प्रदान करने, जिससे उपयोगकर्ता संवाद की मात्रा बढ़ा सकता है या साउंडट्रैक की मात्रा कम कर सकता है।

नीचे दिए गए शोध के साथ आने वाले वीडियो (लेख के अंत में पूरा वीडियो देखें) के एक छोटे से क्लिप में, हम त्रिकोण में प्रत्येक कोने में तीन ऑडियो घटकों के साथ त्रिकोण यूआई (दाएं) में एक नियंत्रण को खींचते हुए साउंडट्रैक के विभिन्न पहलुओं को देखते हैं:

पेपर के साथ आने वाले वीडियो (लेख के अंत में एम्बेड देखें) का एक छोटा सा क्लिप। जैसे ही उपयोगकर्ता त्रिकोण यूआई (दाएं) में तीन निकाले गए पहलुओं में से एक की ओर कर्सर खींचता है, ऑडियो उस हिस्से पर जोर देता है। हालांकि लंबे वीडियो में यूट्यूब पर कई अतिरिक्त उदाहरणों का उल्लेख किया गया है, वे वर्तमान में उपलब्ध नहीं लगते हैं। स्रोत: https://vimeo.com/634073402

<paper का शीर्षक द कॉकटेल फोर्क प्रोब्लम: थ्री-स्टेम ऑडियो सेपरेशन फॉर रियल-वर्ल्ड साउंडट्रैक है, और यह मासाचुसेट्स में मित्सुबिशी इलेक्ट्रिक रिसर्च लेबोरेटरीज (एमईआरएल) और इलिनोइस में इंडियाना विश्वविद्यालय में इंटेलिजेंट सिस्टम इंजीनियरिंग विभाग के शोधकर्ताओं से आता है।

साउंडट्रैक के पहलुओं को अलग करना

शोधकर्ताओं ने इस चुनौती को ‘द कॉकटेल पार्टी प्रोब्लम’ नाम दिया है क्योंकि यह साउंडट्रैक के गंभीर रूप से जुड़े तत्वों को अलग करने में शामिल है, जो एक मानचित्र बनाता है जो एक फोर्क (नीचे दी गई छवि देखें) की तरह दिखता है। व्यवहार में, मल्टी-चैनल (अर्थात स्टीरियो और अधिक) साउंडट्रैक में विभिन्न प्रकार की सामग्री की विभिन्न मात्रा हो सकती है, जैसे कि संवाद, संगीत और पर्यावरण, विशेष रूप से जब संवाद डोल्बी 5.1 मिक्स में केंद्र चैनल पर हावी होता है। वर्तमान में, हालांकि, ऑडियो सेपरेशन के बहुत सक्रिय शोध क्षेत्र एकल, बेक्ड साउंडट्रैक से इन धाराओं को पकड़ने पर केंद्रित है, जैसा कि वर्तमान शोध में है।

द कॉकटेल फोर्क – एकल और मerged साउंडट्रैक से तीन अलग साउंडट्रैक का निर्धारण। स्रोत: https://arxiv.org/pdf/2110.09958.pdf

हाल के शोध ने विभिन्न वातावरण में भाषण निकालने पर केंद्रित किया है, अक्सर प्राकृतिक भाषा प्रोसेसिंग (एनएलपी) प्रणालियों के साथ बाद के जुड़ाव के लिए स्पीच ऑडियो को शोर मुक्त करने के उद्देश्य से, लेकिन संग्रहालय गायन आवाजों के अल्गोरिथम पर भी ध्यान केंद्रित किया गया है, या तो वास्तविक (यहां तक कि मृत) गायकों के सिंथेटिक संस्करण बनाने के लिए, या कराओके शैली के संगीत अलगाव को सुविधाजनक बनाने के लिए।

प्रत्येक पहलू के लिए एक डेटासेट

अब तक, इस प्रकार की एआई प्रौद्योगिकी का उपयोग करके उपयोगकर्ताओं को साउंडट्रैक के मिश्रण पर अधिक नियंत्रण देने पर बहुत कम विचार किया गया है। इसलिए, शोधकर्ताओं ने समस्या को औपचारिक बनाया है और मल्टी-प्रकार साउंडट्रैक सेपरेशन में चल रहे शोध के लिए एक सहायक के रूप में एक नई डेटासेट विकसित की है, साथ ही विभिन्न मौजूदा ऑडियो सेपरेशन फ्रेमवर्क पर इसका परीक्षण किया है।

शोधकर्ताओं द्वारा विकसित नई डेटासेट को डिवाइड एंड रीमास्टर (डीएनआर) कहा जाता है, और यह पूर्व डेटासेट लिब्रीस्पीच, फ्री म्यूजिक आर्काइव और फ्रीसाउंड डेटासेट 50के (एफएसडी50के) से व्युत्पन्न है। उन लोगों के लिए जो डीएनआर के साथ काम करना चाहते हैं, डेटासेट को तीन स्रोतों से पुनर्निर्मित करना होगा; अन्यथा यह जल्द ही जेनोडो पर उपलब्ध होगा, शोधकर्ताओं का दावा है। हालांकि, लेखन के समय, स्रोत निकालने के उपयोगिताओं के लिए प्रदान किया गया गिटहब लिंक वर्तमान में सक्रिय नहीं है, इसलिए रुचि रखने वालों को थोड़ा इंतजार करना पड़ सकता है।

शोधकर्ताओं ने पाया है कि सोनी द्वारा प्रस्तावित क्रॉसनेट अनमिक्स (एक्सयूएमएक्स) आर्किटेक्चर डीएनआर के साथ विशेष रूप से अच्छा काम करता है।

सोनी का क्रॉसनेट आर्किटेक्चर.

लेखकों का दावा है कि उनके मशीन लर्निंग निकालने वाले मॉडल यूट्यूब से साउंडट्रैक पर अच्छा काम करते हैं, हालांकि पेपर में प्रस्तुत मूल्यांकन सिंथेटिक डेटा पर आधारित हैं, और प्रदान किया गया मुख्य समर्थन वीडियो (नीचे एम्बेडेड) वर्तमान में उपलब्ध लगता है।

तीन डेटासेट प्रत्येक में एक संग्रह होता है जिसे साउंडट्रैक से अलग करने की आवश्यकता होती है: एफएसडी50के में ध्वनि प्रभावों के साथ व्यस्त है, और इसमें 50,000 44.1 किलोहर्ट्ज मोनो ऑडियो क्लिप होते हैं जो गूगल की ऑडियोसेट ओंटोलॉजी से 200 कक्षा लेबल के साथ टैग किए जाते हैं; फ्री म्यूजिक आर्काइव में 100,000 स्टीरियो गाने होते हैं जो 161 संगीत शैलियों को कवर करते हैं, हालांकि लेखकों ने 25,000 गानों का एक उपसेट उपयोग किया है, जो एफएसडी50के के साथ तालमेल बिठाने के लिए है; और लिब्रीस्पीच डीएनआर को 44.1किलोहर्ट्ज एमपी3 ऑडियो फाइलों के रूप में 100 घंटे की ऑडियोबुक नमूनों के साथ प्रदान करता है।

भविष्य का काम

लेखक अतिरिक्त शोध में डेटासेट और विकसित किए गए अलग-अलग मॉडलों के संयोजन पर काम करने की उम्मीद करते हैं, जिसमें स्पीच रिकग्निशन और साउंड क्लासिफिकेशन फ्रेमवर्क शामिल हैं, जिसमें स्वचालित कैप्शन जेनरेशन शामिल है स्पीच और नॉन-स्पीच साउंड के लिए। वे साउंडट्रैक को विभाजित करने के दौरान धारणात्मक कलाकृतियों को कम करने के लिए रीमिक्स दृष्टिकोणों की संभावनाओं का मूल्यांकन करने का भी इरादा रखते हैं, जो कि मुख्य समस्या बनी हुई है।

इस प्रकार के पृथक्करण को भविष्य में एक उपभोक्ता वस्तु के रूप में स्मार्ट टीवी में उपलब्ध कराया जा सकता है जो उच्चतम अनुमान नेटवर्क को एकीकृत करते हैं, हालांकि यह संभावना है कि प्रारंभिक कार्यान्वयन में कुछ स्तर की पूर्व-प्रोसेसिंग समय और संग्रहण स्थान की आवश्यकता होगी। सैमसंग पहले से ही स्थानीय तंत्रिका नेटवर्क का उपयोग अपस्केलिंग के लिए करता है, जबकि सोनी का कॉग्निटिव प्रोसेसर एक्सआर, कंपनी की ब्राविया श्रृंखला में उपयोग किया जाता है, साउंडट्रैक का विश्लेषण और पुनः व्याख्या करता है एक लाइव आधार पर एकीकृत एआई के माध्यम से।

साउंडट्रैक के मिश्रण पर अधिक नियंत्रण के लिए आह्वान आवर्ती होते हैं, और अधिकांश समाधान को यह तथ्य निपटाना होगा कि साउंडट्रैक को पहले से ही वर्तमान मानकों (और दर्शकों की इच्छा के बारे में धारणाओं) के अनुसार फिल्म और टीवी उद्योगों में बाउंस किया गया है।

एक दर्शक, जो फिल्म साउंडट्रैक के विभिन्न तत्वों के बीच मात्रा स्तरों में चौंकाने वाले अंतर से परेशान था, ने एक हार्डवेयर-आधारित स्वचालित मात्रा समायोजक विकसित करने के लिए पर्याप्त डेस्पेरेट हो गया, जो मात्रा को समान करने में सक्षम है फिल्मों और टीवी के लिए।

हालांकि स्मार्ट टीवी विभिन्न तरीकों की पेशकश करते हैं जो संगीत के लिए ग्रैंडियोस मात्रा स्तरों के खिलाफ संवाद मात्रा को बढ़ाने का प्रयास करते हैं, वे सभी मिश्रण समय पर किए गए निर्णयों के खिलाफ संघर्ष कर रहे हैं, और तर्कसंगत रूप से, साउंडट्रैक को ठीक वैसे ही अनुभव करने की इच्छा रखने वाले दर्शकों के लिए सामग्री निर्माताओं के दृष्टिकोण।

सामग्री निर्माता इस संभावित जोड़ के खिलाफ ‘रीमिक्स संस्कृति’ के खिलाफ रैंकल करने की संभावना है, क्योंकि कई उद्योग के प्रमुख हस्तियों ने पहले ही डिफ़ॉल्ट पोस्ट-प्रोसेसिंग टीवी-आधारित अल्गोरिदम जैसे मोशन स्मूथिंग के खिलाफ अपनी असहमति व्यक्त की है।

Martin Anderson

मशीन लर्निंग पर लेखक, मानव इमेज सिंथेसिस में डोमेन विशेषज्ञ। मेटाफिजिक.एआई में अनुसंधान सामग्री के पूर्व प्रमुख।
व्यक्तिगत साइट: martinanderson.ai
संपर्क: [email protected]
ट्विटर: @manders_ai

Unite.AI

एआई अनुसंधान अलग वॉल्यूम नियंत्रण के लिए संवाद, संगीत और ध्वनि प्रभाव की कल्पना करता है

साउंडट्रैक के पहलुओं को अलग करना

प्रत्येक पहलू के लिए एक डेटासेट

भविष्य का काम

You may like