рдХреГрддреНрд░рд┐рдо рдмреБрджреНрдзрд┐рдорддреНрддрд╛

рдПрдЖрдИ рд╢реЛрдзрдХрд░реНрддрд╛ рдлрд┐рд▓реНрдореЛрдВ рдФрд░ рдЕрдиреНрдп рдореАрдбрд┐рдпрд╛ рдХреЗ рд▓рд┐рдП рдзреНрд╡рдирд┐ рдкреНрд░рднрд╛рд╡ рдЙрддреНрдкрдиреНрди рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдХрд╛рд░реНрдпрдХреНрд░рдо рдбрд┐рдЬрд╛рдЗрди рдХрд░рддреЗ рд╣реИрдВ

mm

टेक्सास सैन एंटोनियो विश्वविद्यालय के शोधकर्ताओं ने एक एआई-आधारित अनुप्रयोग बनाया है जो एक वीडियो में हो रही क्रियाओं को देख सकता है और उन क्रियाओं के अनुरूप कृत्रिम ध्वनि प्रभाव बना सकता है। कार्यक्रम द्वारा उत्पन्न ध्वनि प्रभाव इतने यथार्थवादी हैं कि जब मानव पर्यवेक्षकों से राय ली गई, तो उन्होंने आम तौर पर सोचा कि ध्वनि प्रभाव वास्तविक थे।

ध्वनि प्रभाव उत्पन्न करने वाले कार्यक्रम, ऑडियोफोले, को हाल ही में आईईईई ट्रांजैक्शन ऑन मल्टीमीडिया में प्रकाशित एक अध्ययन में विस्तार से बताया गया है। आईईईई स्पेक्ट्रम के अनुसार, एआई कार्यक्रम जेफ प्रोवोस्ट, यूटी सैन एंटोनियो में प्रोफेसर, और पीएचडी छात्र संचिता घोष द्वारा विकसित किया गया था। शोधकर्ताओं ने कई मशीन लर्निंग मॉडल को एक साथ जोड़कर कार्यक्रम बनाया।

स्क्रीन पर हो रही क्रियाओं के लिए उपयुक्त ध्वनि प्रभाव उत्पन्न करने का पहला कार्य उन क्रियाओं को पहचानना और उन्हें ध्वनि प्रभावों के साथ मैप करना था। इसे प्राप्त करने के लिए, शोधकर्ताओं ने दो अलग-अलग मशीन लर्निंग मॉडल डिजाइन किए और उनके विभिन्न दृष्टिकोणों का परीक्षण किया। पहला मॉडल वीडियो से फ्रेम निकालकर और गति और रंग जैसी प्रासंगिक विशेषताओं के लिए उन फ्रेम का विश्लेषण करके काम करता है। इसके बाद, एक दूसरे मॉडल का उपयोग वस्तु की स्थिति को फ्रेम में बदलने के लिए किया गया ताकि वीडियो में अगली संभावित क्रियाओं का अनुमान लगाने के लिए समय संबंधी जानकारी निकाली जा सके। दोनों मॉडल क्रियाओं का विश्लेषण करने के लिए अलग-अलग तरीकों का उपयोग करते हैं, लेकिन वे दोनों क्लिप में निहित जानकारी का उपयोग करके सबसे अच्छा ध्वनि प्रभाव क्या होगा इसका अनुमान लगाते हैं।

अगला कार्य ध्वनि को संश्लेषित करना है, और यह गतिविधियों/पूर्वानुमानित गतियों को संभावित ध्वनि नमूनों से मिलाने से प्राप्त होता है। घोष और प्रेवोस्ट के अनुसार, ऑटोफोले का उपयोग 1000 छोटे क्लिप के लिए ध्वनि उत्पन्न करने के लिए किया गया था, जिसमें आग, एक दौड़ते घोड़े, टिक-Tick घड़ियाँ, और पौधों पर बारिश जैसी क्रियाएं और वस्तुएं शामिल थीं। जबकि ऑटोफोले उन क्लिप के लिए ध्वनि बनाने में सबसे सफल था जहां क्रियाओं और ध्वनियों के बीच एक सही मेल की आवश्यकता नहीं थी, और यह उन क्लिप के लिए मेल खाने में परेशानी हुई जहां क्रियाएं अधिक परिवर्तन के साथ हुईं, कार्यक्रम अभी भी कई मानव पर्यवेक्षकों को अपने उत्पन्न ध्वनि को मूल ध्वनि के ऊपर चुनने में सक्षम था।

प्रेवोस्ट और घोष ने 57 कॉलेज के छात्रों को भर्ती किया और उन्हें विभिन्न क्लिप दिखाई। कुछ क्लिप में मूल ऑडियो था, कुछ में ऑटोफोले द्वारा उत्पन्न ऑडियो था। जब पहले मॉडल का परीक्षण किया गया, तो लगभग 73% छात्रों ने संश्लेषित ऑडियो को मूल ऑडियो के रूप में चुना, क्लिप के साथ आने वाली वास्तविक ध्वनि की उपेक्षा की। दूसरे मॉडल ने थोड़ा खराब प्रदर्शन किया, केवल 66% प्रतिभागियों ने मूल ऑडियो के ऊपर उत्पन्न ऑडियो का चयन किया।

प्रेवोस्ट ने समझाया कि ऑटोफोले फिल्मों, टेलीविजन और अन्य मीडिया के उत्पादन की प्रक्रिया को तेज करने के लिए उपयोग किया जा सकता है। प्रेवोस्ट नोट करते हैं कि एक यथार्थवादी फोले ट्रैक मीडिया को आकर्षक और विश्वसनीय बनाने के लिए महत्वपूर्ण है, लेकिन फोले प्रक्रिया अक्सर पूरी होने में काफी समय लेती है। बुनियादी फोले तत्वों के निर्माण को संभालने वाली एक स्वचालित प्रणाली होने से मीडिया का उत्पादन सस्ता और तेज हो सकता है।

वर्तमान में, ऑटोफोले कुछ उल्लेखनीय सीमाएं हैं। एक के लिए, जबकि मॉडल स्थिर, अनुमानित गतियों वाली घटनाओं को देखते समय अच्छा प्रदर्शन करता है, यह समय में परिवर्तन (जैसे तूफान) वाली घटनाओं के लिए ऑडियो उत्पन्न करने में परेशानी होती है। इसके अलावा, यह आवश्यक है कि वर्गीकरण विषय पूरे क्लिप में मौजूद है और फ्रेम से बाहर नहीं निकलता है। शोध टीम इन मुद्दों को भविष्य के संस्करणों में संबोधित करने का लक्ष्य रखती है।

рдмреНрд▓реЙрдЧрд░ рдФрд░ рдкреНрд░реЛрдЧреНрд░рд╛рдорд░ рдЬрд┐рдирдХреА рд╡рд┐рд╢реЗрд╖рдЬреНрдЮрддрд╛ рдореИрд╢реАрди рд▓рд░реНрдирд┐рдВрдЧ рдФрд░ рдбреАрдк рд▓рд░реНрдирд┐рдВрдЧ рд╡рд┐рд╖рдпреЛрдВ рдореЗрдВ рд╣реИред рдбреИрдирд┐рдпрд▓ рджреВрд╕рд░реЛрдВ рдХреЛ рд╕рд╛рдорд╛рдЬрд┐рдХ рдХрд▓реНрдпрд╛рдг рдХреЗ рд▓рд┐рдП рдПрдЖрдИ рдХреА рд╢рдХреНрддрд┐ рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рдиреЗ рдореЗрдВ рдорджрдж рдХрд░рдирд╛ рдЪрд╛рд╣рддрд╛ рд╣реИред