कृत्रिम बुद्धिमत्ता

शोधकर्ता ‘ऑडियो’ एआई विकसित करते हैं जो पियानो बजा सकता है

Published February 6, 2021

Updated April 28, 2026

Alex McFarland

वाशिंगटन विश्वविद्यालय में शोधकर्ताओं की एक टीम ने ऑडियो नामक एक कृत्रिम बुद्धिमत्ता (एआई) प्रणाली विकसित की है जो मौन पियानो प्रदर्शन से ऑडियो बना सकती है। परीक्षण चरण में साउंडहाउंड जैसे संगीत पहचान ऐप्स शामिल थे, जो ऑडियो से संगीत को लगभग 86% समय तक सही ढंग से पहचान सकते थे।

यह शोध 8 दिसंबर को न्यूरलपीएस 2020 सम्मेलन में प्रस्तुत किया गया था।

वरिष्ठ लेखक एली श्लिज़रमैन विश्वविद्यालय में अनुप्रयुक्त गणित और विद्युत और कंप्यूटर इंजीनियरिंग विभागों में एक सहायक प्रोफेसर हैं।

“एक संगीत प्रदर्शन में बजाए जाने वाले संगीत जैसा संगीत बनाना पहले असंभव माना जाता था,” श्लिज़रमैन ने कहा। “एक एल्गोरिदम को उन संकेतों या ‘विशेषताओं’ का पता लगाने की आवश्यकता है जो वीडियो फ्रेम में संगीत के साथ संबंधित हैं, और इसे वीडियो फ्रेम के बीच होने वाली ध्वनि की कल्पना करने की आवश्यकता है। इसके लिए एक ऐसी प्रणाली की आवश्यकता है जो सटीक और कल्पनाशील दोनों हो। यह तथ्य कि हमने जो संगीत बनाया वह काफी अच्छा लगा, यह एक आश्चर्य था। “

ऑडियो कैसे काम करता है

ऑडियो प्रणाली एक वीडियो को डिकोड करके और इसे संगीत में अनुवाद करके काम करती है। कई चरणों में से पहला वीडियो फ्रेम में दबाए गए कुंजियों का पता लगाने के लिए एआई के लिए है, और यह अंततः एक आरेख विकसित करता है। आरेख को तब अनुवादित किया जाता है ताकि एक संगीत सिंथेसाइज़र ध्वनियों को पहचान सके।

अगला चरण डेटा को साफ करना और अतिरिक्त जानकारी जोड़ना है। यह जानकारी प्रत्येक कुंजी दबाव और इसकी अवधि जैसी चीजों को शामिल कर सकती है।

“यदि हम केवल पहले चरण से संगीत को सिंथेसाइज़ करने का प्रयास करते हैं, तो हम पाएंगे कि संगीत की गुणवत्ता संतोषजनक नहीं है,” श्लिज़रमैन ने कहा। “दूसरा चरण एक शिक्षक की तरह है जो एक छात्र संगीतकार के संगीत पर जाने में मदद करता है और इसे बढ़ाता है।”

प्रणाली को यूट्यूब वीडियो के साथ प्रशिक्षित और परीक्षण किया गया था, जिसमें पियानोवादक पॉल बार्टन ने विभिन्न शास्त्रीय संगीतकारों जैसे मोजार्ट को बजाया था। ऑडियो को 19,000 फ्रेम के साथ परीक्षण किया गया था जिसमें बार्टन विभिन्न संगीत बजा रहे थे।

सिंथेसाइज़र

प्रशिक्षित होने के बाद, ऑडियो संगीत का एक प्रतिलेख उत्पन्न करता है, जिसे तब एक सिंथेसाइज़र को ध्वनि में अनुवादित करने के लिए खिलाया जाता है। संगीत प्रत्येक सिंथेसाइज़र के साथ अलग लगता है, जो एक इलेक्ट्रिक कीबोर्ड पर इंस्ट्रूमेंट सेटिंग बदलने के समान है।

टीम ने दो अलग-अलग सिंथेसाइज़र का उपयोग किया।

“फ्लूइडसिंथ मैकेनिकल-साउंडिंग पियानो साउंड बनाता है जिसे हम जानते हैं। वे थोड़े यांत्रिक लगते हैं लेकिन काफी सटीक हैं,” श्लिज़रमैन ने कहा। “हमने पर्फनेट का भी उपयोग किया, जो एक नया एआई सिंथेसाइज़र है जो समृद्ध और अधिक अभिव्यंजक संगीत बनाता है। लेकिन यह अधिक शोर भी उत्पन्न करता है। “

“इस अध्ययन का उद्देश्य यह देखना था कि क्या कृत्रिम बुद्धिमत्ता एक वीडियो रिकॉर्डिंग में एक पियानोवादक द्वारा बजाए गए संगीत का उत्पादन कर सकती है – हालांकि हम पॉल बार्टन की नकल करने का लक्ष्य नहीं रख रहे थे क्योंकि वह इतने महान हैं,” श्लिज़रमैन ने जारी रखा। “हमें आशा है कि हमारा अध्ययन संगीत के साथ बातचीत करने के नए तरीकों को सक्षम बनाता है। उदाहरण के लिए, एक भविष्य का अनुप्रयोग यह है कि ऑडियो को एक आभासी पियानो में विस्तारित किया जा सकता है जिसमें केवल एक व्यक्ति के हाथों को रिकॉर्ड करने वाला कैमरा है। इसके अलावा, एक वास्तविक पियानो पर एक कैमरा रखने से ऑडियो छात्रों को सिखाने के नए तरीकों में मदद कर सकता है। “

कुंग सू और ज़ीलोंग लियू, इलेक्ट्रिकल और कंप्यूटर इंजीनियरिंग में डॉक्टरेट छात्र, कागज़ के सह-लेखक थे।

Alex McFarland

एलेक्स मैकफारलैंड एक एआई पत्रकार और लेखक हैं जो कृत्रिम बुद्धिमत्ता में नवीनतम विकासों का अन्वेषण कर रहे हैं। उन्होंने विश्वभर के कई एआई स्टार्टअप्स और प्रकाशनों के साथ सहयोग किया है।