कृत्रिम बुद्धिमत्ता

एआई शोधकर्ता फिल्मों और अन्य मीडिया के लिए ध्वनि प्रभाव उत्पन्न करने के लिए कार्यक्रम डिजाइन करते हैं

Published August 13, 2020

Updated April 28, 2026

Daniel Nelson

टेक्सास सैन एंटोनियो विश्वविद्यालय के शोधकर्ताओं ने एक एआई-आधारित अनुप्रयोग बनाया है जो एक वीडियो में हो रही क्रियाओं को देख सकता है और उन क्रियाओं के अनुरूप कृत्रिम ध्वनि प्रभाव बना सकता है। कार्यक्रम द्वारा उत्पन्न ध्वनि प्रभाव इतने यथार्थवादी हैं कि जब मानव पर्यवेक्षकों से राय ली गई, तो उन्होंने आम तौर पर सोचा कि ध्वनि प्रभाव वास्तविक थे।

ध्वनि प्रभाव उत्पन्न करने वाले कार्यक्रम, ऑडियोफोले, को हाल ही में आईईईई ट्रांजैक्शन ऑन मल्टीमीडिया में प्रकाशित एक अध्ययन में विस्तार से बताया गया है। आईईईई स्पेक्ट्रम के अनुसार, एआई कार्यक्रम जेफ प्रोवोस्ट, यूटी सैन एंटोनियो में प्रोफेसर, और पीएचडी छात्र संचिता घोष द्वारा विकसित किया गया था। शोधकर्ताओं ने कई मशीन लर्निंग मॉडल को एक साथ जोड़कर कार्यक्रम बनाया।

स्क्रीन पर हो रही क्रियाओं के लिए उपयुक्त ध्वनि प्रभाव उत्पन्न करने का पहला कार्य उन क्रियाओं को पहचानना और उन्हें ध्वनि प्रभावों के साथ मैप करना था। इसे प्राप्त करने के लिए, शोधकर्ताओं ने दो अलग-अलग मशीन लर्निंग मॉडल डिजाइन किए और उनके विभिन्न दृष्टिकोणों का परीक्षण किया। पहला मॉडल वीडियो से फ्रेम निकालकर और गति और रंग जैसी प्रासंगिक विशेषताओं के लिए उन फ्रेम का विश्लेषण करके काम करता है। इसके बाद, एक दूसरे मॉडल का उपयोग वस्तु की स्थिति को फ्रेम में बदलने के लिए किया गया ताकि वीडियो में अगली संभावित क्रियाओं का अनुमान लगाने के लिए समय संबंधी जानकारी निकाली जा सके। दोनों मॉडल क्रियाओं का विश्लेषण करने के लिए अलग-अलग तरीकों का उपयोग करते हैं, लेकिन वे दोनों क्लिप में निहित जानकारी का उपयोग करके सबसे अच्छा ध्वनि प्रभाव क्या होगा इसका अनुमान लगाते हैं।

अगला कार्य ध्वनि को संश्लेषित करना है, और यह गतिविधियों/पूर्वानुमानित गतियों को संभावित ध्वनि नमूनों से मिलाने से प्राप्त होता है। घोष और प्रेवोस्ट के अनुसार, ऑटोफोले का उपयोग 1000 छोटे क्लिप के लिए ध्वनि उत्पन्न करने के लिए किया गया था, जिसमें आग, एक दौड़ते घोड़े, टिक-Tick घड़ियाँ, और पौधों पर बारिश जैसी क्रियाएं और वस्तुएं शामिल थीं। जबकि ऑटोफोले उन क्लिप के लिए ध्वनि बनाने में सबसे सफल था जहां क्रियाओं और ध्वनियों के बीच एक सही मेल की आवश्यकता नहीं थी, और यह उन क्लिप के लिए मेल खाने में परेशानी हुई जहां क्रियाएं अधिक परिवर्तन के साथ हुईं, कार्यक्रम अभी भी कई मानव पर्यवेक्षकों को अपने उत्पन्न ध्वनि को मूल ध्वनि के ऊपर चुनने में सक्षम था।

प्रेवोस्ट और घोष ने 57 कॉलेज के छात्रों को भर्ती किया और उन्हें विभिन्न क्लिप दिखाई। कुछ क्लिप में मूल ऑडियो था, कुछ में ऑटोफोले द्वारा उत्पन्न ऑडियो था। जब पहले मॉडल का परीक्षण किया गया, तो लगभग 73% छात्रों ने संश्लेषित ऑडियो को मूल ऑडियो के रूप में चुना, क्लिप के साथ आने वाली वास्तविक ध्वनि की उपेक्षा की। दूसरे मॉडल ने थोड़ा खराब प्रदर्शन किया, केवल 66% प्रतिभागियों ने मूल ऑडियो के ऊपर उत्पन्न ऑडियो का चयन किया।

प्रेवोस्ट ने समझाया कि ऑटोफोले फिल्मों, टेलीविजन और अन्य मीडिया के उत्पादन की प्रक्रिया को तेज करने के लिए उपयोग किया जा सकता है। प्रेवोस्ट नोट करते हैं कि एक यथार्थवादी फोले ट्रैक मीडिया को आकर्षक और विश्वसनीय बनाने के लिए महत्वपूर्ण है, लेकिन फोले प्रक्रिया अक्सर पूरी होने में काफी समय लेती है। बुनियादी फोले तत्वों के निर्माण को संभालने वाली एक स्वचालित प्रणाली होने से मीडिया का उत्पादन सस्ता और तेज हो सकता है।

वर्तमान में, ऑटोफोले कुछ उल्लेखनीय सीमाएं हैं। एक के लिए, जबकि मॉडल स्थिर, अनुमानित गतियों वाली घटनाओं को देखते समय अच्छा प्रदर्शन करता है, यह समय में परिवर्तन (जैसे तूफान) वाली घटनाओं के लिए ऑडियो उत्पन्न करने में परेशानी होती है। इसके अलावा, यह आवश्यक है कि वर्गीकरण विषय पूरे क्लिप में मौजूद है और फ्रेम से बाहर नहीं निकलता है। शोध टीम इन मुद्दों को भविष्य के संस्करणों में संबोधित करने का लक्ष्य रखती है।

Daniel Nelson

ब्लॉगर और प्रोग्रामर जिनकी विशेषज्ञता मैशीन लर्निंग और डीप लर्निंग विषयों में है। डैनियल दूसरों को सामाजिक कल्याण के लिए एआई की शक्ति का उपयोग करने में मदद करना चाहता है।

Unite.AI

एआई शोधकर्ता फिल्मों और अन्य मीडिया के लिए ध्वनि प्रभाव उत्पन्न करने के लिए कार्यक्रम डिजाइन करते हैं

You may like