рдХреГрддреНрд░рд┐рдо рдмреБрджреНрдзрд┐рдорддреНрддрд╛
рд╢реЛрдзрдХрд░реНрддрд╛ рдлрд┐рд▓реНрдо рд╕реНрдХреНрд░рд┐рдкреНрдЯ рдХреЛ рдПрдирд┐рдореЗрд╢рди рдореЗрдВ рдЕрдиреБрд╡рд╛рджрд┐рдд рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдЬреЗрдПрд▓2рдкреА рдХрдВрдкреНрдпреВрдЯрд░ рдореЙрдбрд▓ рд╡рд┐рдХрд╕рд┐рдд рдХрд░рддреЗ рд╣реИрдВ

कार्नेगी मेलन विश्वविद्यालय के शोधकर्ताओं ने एक कंप्यूटर मॉडल विकसित किया है जो शारीरिक गतिविधियों का वर्णन करने वाले पाठ को सरल कंप्यूटर-जनित एनिमेशन में अनुवादित करने में सक्षम है। ये नए विकास संभव बना सकते हैं कि फिल्में और अन्य एनिमेशन सीधे एक कंप्यूटर मॉडल द्वारा स्क्रिप्ट पढ़ने से बनाए जा सकते हैं।
वैज्ञानिक प्राकृतिक भाषा और स्क्रिप्ट से शारीरिक मुद्रा उत्पन्न करने वाले कंप्यूटरों को समझने में प्रगति कर रहे हैं। यह नया कंप्यूटर मॉडल उन्हें जोड़ने के बीच एक कड़ी हो सकता है।
लैंग्वेज टेक्नोलॉजीज इंस्टीट्यूट (एलटीआई) में एसोसिएट प्रोफेसर लुईस-फिलिप मोरेन्सी और एलटीआई पीएचडी छात्र चैतन्य आहुजा ने न्यूरल आर्किटेक्चर का उपयोग किया है जिसे ज्वाइंट लैंग्वेज-टू-पोज (जेएल2पी) कहा जाता है। जेएल2पी मॉडल वाक्यों और शारीरिक गतिविधियों को संयुक्त रूप से एम्बेड करने में सक्षम है। यह इसे सीखने की अनुमति देता है कि भाषा कैसे क्रिया, इशारों और गतिविधियों से जुड़ी हुई है।
“मुझे लगता है कि हम इस शोध के शुरुआती चरण में हैं, लेकिन मॉडलिंग, कृत्रिम बुद्धिमत्ता और सिद्धांत के दृष्टिकोण से, यह एक बहुत ही रोमांचक क्षण है,” मोरेन्सी ने कहा। “वर्तमान में, हम आभासी पात्रों को एनिमेट करने की बात कर रहे हैं। अंततः, भाषा और इशारों के बीच यह कड़ी रोबोटों पर लागू की जा सकती है; हम अपने व्यक्तिगत सहायक रोबोट को बता सकते हैं कि हम उन्हें क्या करना चाहते हैं।
“हम इसके विपरीत भी जा सकते हैं – भाषा और एनिमेशन के बीच इस कड़ी का उपयोग करके एक कंप्यूटर यह वर्णन कर सकता है कि एक वीडियो में क्या हो रहा है,” उन्होंने जोड़ा।
ज्वाइंट लैंग्वेज-टू-पोज मॉडल को आहुजा द्वारा 19 सितंबर को क्यूबेक सिटी, कनाडा में आयोजित होने वाले इंटरनेशनल कॉन्फ्रेंस ऑन 3डी विजन में प्रस्तुत किया जाएगा।
जेएल2पी मॉडल एक पाठ्यक्रम-आधारित दृष्टिकोण द्वारा बनाया गया था। पहला महत्वपूर्ण चरण मॉडल के लिए था कि यह छोटे, आसान अनुक्रम सीखे। यह कुछ ऐसा होगा जैसे “एक व्यक्ति आगे बढ़ता है।” फिर यह लंबे और कठिन अनुक्रमों पर चला गया जैसे “एक व्यक्ति आगे बढ़ता है, फिर मुड़ता है और फिर से आगे बढ़ता है,” या “एक व्यक्ति एक बाधा पर कूदता है जबकि दौड़ रहा है।”
जब मॉडल अनुक्रमों का उपयोग कर रहा है, तो यह क्रियाओं और विशेषणों पर देखता है जो क्रिया और गति / त्वरण का वर्णन करते हैं। फिर यह संज्ञाओं और विशेषणों पर देखता है जो स्थानों और दिशाओं का वर्णन करते हैं। आहुजा के अनुसार, मॉडल का अंतिम लक्ष्य एक से अधिक क्रियाओं के साथ जटिल अनुक्रमों को एनिमेट करना है जो एक साथ या क्रम में हो रहे हैं।
वर्तमान में, एनिमेशन स्टिक फिगर तक सीमित हैं, लेकिन वैज्ञानिक मॉडल को और विकसित करने जा रहे हैं। मोरेन्सी के अनुसार, जटिलता यह है कि कई चीजें एक ही समय में हो रही हैं। उनमें से कुछ तो सरल अनुक्रमों में भी हो रहे हैं।
“शरीर के विभिन्न अंगों के बीच सिंक्रोनाइजेशन बहुत महत्वपूर्ण है,” मोरेन्सी ने कहा। “हर बार जब आप अपने पैरों को हिलाते हैं, तो आप अपनी बाहों, अपने टोर्सो और संभवतः अपने सिर को भी हिलाते हैं। शरीर की एनिमेशन को इन विभिन्न घटकों के बीच समन्वय करने की आवश्यकता है, जबकि साथ ही जटिल क्रियाओं को प्राप्त करने की आवश्यकता है। इस जटिल एनिमेशन वातावरण में भाषा कथा को लाना चुनौतीपूर्ण और रोमांचक है। यह भाषण और इशारों की बेहतर समझ की ओर एक मार्ग है।”
यदि ज्वाइंट लैंग्वेज-टू-पोज मॉडल भाषा के आधार पर जटिल एनिमेशन और क्रियाओं को बनाने के लिए विकसित हो सकता है, तो संभावनाएं विशाल हैं। न केवल इसका उपयोग फिल्म और एनिमेशन जैसे क्षेत्रों में किया जा सकता है, बल्कि यह भाषण और इशारों की समझ में भी मदद करेगा।
कृत्रिम बुद्धिमत्ता की ओर बढ़ते हुए, जेएल2पी मॉडल रोबोटों पर उपयोग किया जा सकता है। उदाहरण के लिए, रोबोटों को नियंत्रित किया जा सकता है और उन्हें बताया जा सकता है कि उन्हें क्या करना है, और वे भाषा को समझने और उसके अनुसार प्रतिक्रिया करने में सक्षम होंगे।
ये नए विकास कई क्षेत्रों पर प्रभाव डालेंगे, और मॉडल जटिल भाषा को समझने में और अधिक सक्षम होगा।












