कृत्रिम बुद्धिमत्ता

शोधकर्ता फिल्म स्क्रिप्ट को एनिमेशन में अनुवादित करने के लिए जेएल2पी कंप्यूटर मॉडल विकसित करते हैं

Published September 11, 2019

Updated April 28, 2026

Alex McFarland

कार्नेगी मेलन विश्वविद्यालय के शोधकर्ताओं ने एक कंप्यूटर मॉडल विकसित किया है जो शारीरिक गतिविधियों का वर्णन करने वाले पाठ को सरल कंप्यूटर-जनित एनिमेशन में अनुवादित करने में सक्षम है। ये नए विकास संभव बना सकते हैं कि फिल्में और अन्य एनिमेशन सीधे एक कंप्यूटर मॉडल द्वारा स्क्रिप्ट पढ़ने से बनाए जा सकते हैं।

वैज्ञानिक प्राकृतिक भाषा और स्क्रिप्ट से शारीरिक मुद्रा उत्पन्न करने वाले कंप्यूटरों को समझने में प्रगति कर रहे हैं। यह नया कंप्यूटर मॉडल उन्हें जोड़ने के बीच एक कड़ी हो सकता है।

लैंग्वेज टेक्नोलॉजीज इंस्टीट्यूट (एलटीआई) में एसोसिएट प्रोफेसर लुईस-फिलिप मोरेन्सी और एलटीआई पीएचडी छात्र चैतन्य आहुजा ने न्यूरल आर्किटेक्चर का उपयोग किया है जिसे ज्वाइंट लैंग्वेज-टू-पोज (जेएल2पी) कहा जाता है। जेएल2पी मॉडल वाक्यों और शारीरिक गतिविधियों को संयुक्त रूप से एम्बेड करने में सक्षम है। यह इसे सीखने की अनुमति देता है कि भाषा कैसे क्रिया, इशारों और गतिविधियों से जुड़ी हुई है।

“मुझे लगता है कि हम इस शोध के शुरुआती चरण में हैं, लेकिन मॉडलिंग, कृत्रिम बुद्धिमत्ता और सिद्धांत के दृष्टिकोण से, यह एक बहुत ही रोमांचक क्षण है,” मोरेन्सी ने कहा। “वर्तमान में, हम आभासी पात्रों को एनिमेट करने की बात कर रहे हैं। अंततः, भाषा और इशारों के बीच यह कड़ी रोबोटों पर लागू की जा सकती है; हम अपने व्यक्तिगत सहायक रोबोट को बता सकते हैं कि हम उन्हें क्या करना चाहते हैं।

“हम इसके विपरीत भी जा सकते हैं – भाषा और एनिमेशन के बीच इस कड़ी का उपयोग करके एक कंप्यूटर यह वर्णन कर सकता है कि एक वीडियो में क्या हो रहा है,” उन्होंने जोड़ा।

ज्वाइंट लैंग्वेज-टू-पोज मॉडल को आहुजा द्वारा 19 सितंबर को क्यूबेक सिटी, कनाडा में आयोजित होने वाले इंटरनेशनल कॉन्फ्रेंस ऑन 3डी विजन में प्रस्तुत किया जाएगा।

जेएल2पी मॉडल एक पाठ्यक्रम-आधारित दृष्टिकोण द्वारा बनाया गया था। पहला महत्वपूर्ण चरण मॉडल के लिए था कि यह छोटे, आसान अनुक्रम सीखे। यह कुछ ऐसा होगा जैसे “एक व्यक्ति आगे बढ़ता है।” फिर यह लंबे और कठिन अनुक्रमों पर चला गया जैसे “एक व्यक्ति आगे बढ़ता है, फिर मुड़ता है और फिर से आगे बढ़ता है,” या “एक व्यक्ति एक बाधा पर कूदता है जबकि दौड़ रहा है।”

जब मॉडल अनुक्रमों का उपयोग कर रहा है, तो यह क्रियाओं और विशेषणों पर देखता है जो क्रिया और गति / त्वरण का वर्णन करते हैं। फिर यह संज्ञाओं और विशेषणों पर देखता है जो स्थानों और दिशाओं का वर्णन करते हैं। आहुजा के अनुसार, मॉडल का अंतिम लक्ष्य एक से अधिक क्रियाओं के साथ जटिल अनुक्रमों को एनिमेट करना है जो एक साथ या क्रम में हो रहे हैं।

वर्तमान में, एनिमेशन स्टिक फिगर तक सीमित हैं, लेकिन वैज्ञानिक मॉडल को और विकसित करने जा रहे हैं। मोरेन्सी के अनुसार, जटिलता यह है कि कई चीजें एक ही समय में हो रही हैं। उनमें से कुछ तो सरल अनुक्रमों में भी हो रहे हैं।

“शरीर के विभिन्न अंगों के बीच सिंक्रोनाइजेशन बहुत महत्वपूर्ण है,” मोरेन्सी ने कहा। “हर बार जब आप अपने पैरों को हिलाते हैं, तो आप अपनी बाहों, अपने टोर्सो और संभवतः अपने सिर को भी हिलाते हैं। शरीर की एनिमेशन को इन विभिन्न घटकों के बीच समन्वय करने की आवश्यकता है, जबकि साथ ही जटिल क्रियाओं को प्राप्त करने की आवश्यकता है। इस जटिल एनिमेशन वातावरण में भाषा कथा को लाना चुनौतीपूर्ण और रोमांचक है। यह भाषण और इशारों की बेहतर समझ की ओर एक मार्ग है।”

यदि ज्वाइंट लैंग्वेज-टू-पोज मॉडल भाषा के आधार पर जटिल एनिमेशन और क्रियाओं को बनाने के लिए विकसित हो सकता है, तो संभावनाएं विशाल हैं। न केवल इसका उपयोग फिल्म और एनिमेशन जैसे क्षेत्रों में किया जा सकता है, बल्कि यह भाषण और इशारों की समझ में भी मदद करेगा।

कृत्रिम बुद्धिमत्ता की ओर बढ़ते हुए, जेएल2पी मॉडल रोबोटों पर उपयोग किया जा सकता है। उदाहरण के लिए, रोबोटों को नियंत्रित किया जा सकता है और उन्हें बताया जा सकता है कि उन्हें क्या करना है, और वे भाषा को समझने और उसके अनुसार प्रतिक्रिया करने में सक्षम होंगे।

ये नए विकास कई क्षेत्रों पर प्रभाव डालेंगे, और मॉडल जटिल भाषा को समझने में और अधिक सक्षम होगा।

Related Topics:AI animation artificial intelligence Joint Language-to-Pose

Alex McFarland

एलेक्स मैकफारलैंड एक एआई पत्रकार और लेखक हैं जो कृत्रिम बुद्धिमत्ता में नवीनतम विकासों का अन्वेषण कर रहे हैं। उन्होंने विश्वभर के कई एआई स्टार्टअप्स और प्रकाशनों के साथ सहयोग किया है।