Connect with us

рд╣реЛрда рдкрдврд╝рдирд╛ рд╡рд┐рдЬреЗрдореНрд╕ рдФрд░ рдорд╢реАрди рд▓рд░реНрдирд┐рдВрдЧ рдХреЗ рд╕рд╛рде

рдХреГрддреНрд░рд┐рдо рдмреБрджреНрдзрд┐рдорддреНрддрд╛

рд╣реЛрда рдкрдврд╝рдирд╛ рд╡рд┐рдЬреЗрдореНрд╕ рдФрд░ рдорд╢реАрди рд▓рд░реНрдирд┐рдВрдЧ рдХреЗ рд╕рд╛рде

mm
HAL reads lips in 2001: A Space Odyssey (1968)

तेहरान के कंप्यूटर इंजीनियरिंग स्कूल से नई रिसर्च में मशीन लर्निंग सिस्टम को होठ पढ़ने में सक्षम बनाने की चुनौती के लिए एक सुधारित दृष्टिकोण प्रस्तुत किया गया है।

पेपर में, जिसका शीर्षक विजेम डिकोडिंग का उपयोग करके होठ पढ़ना है, यह बताया गया है कि नया सिस्टम इस क्षेत्र में पहले के समान मॉडल्स की तुलना में 4% की वृद्धि शब्द त्रुटि दर में हासिल करता है। सिस्टम इस क्षेत्र में उपयोगी प्रशिक्षण डेटा की सामान्य कमी को विजेम्स को ओपनसबटाइटल्स डेटासेट के छह मिलियन नमूनों से प्राप्त पाठ सामग्री से मैप करके संबोधित करता है।

एक विजेम ध्वनि के समान दृश्य है, जो एक ऑडियो>इमेज मैपिंग है जो एक मशीन लर्निंग मॉडल में एक ‘फीचर’ का गठन कर सकता है।

विजेम्स जीआईएफ

विजेम्स एक्शन में। स्रोत: https://developer.oculus.com/documentation/unity/audio-ovrlipsync-viseme-reference/

शोधकर्ताओं ने उपलब्ध डेटासेट पर सबसे कम त्रुटि दर स्थापित करके और स्थापित मैपिंग प्रक्रियाओं से विजेम अनुक्रम विकसित करके शुरू किया। धीरे-धीरे, यह प्रक्रिया शब्दों की एक दृश्य शब्दावली विकसित करती है – हालांकि यह आवश्यक है कि विभिन्न शब्दों के लिए सटीकता की संभावनाओं को परिभाषित किया जाए जो एक विजेम (जैसे ‘हार्ट’ और ‘आर्ट’) साझा करते हैं।

рдкрд╛рда рд╕реЗ рд╡рд┐рдЬреЗрдореНрд╕ рдирд┐рдХрд╛рд▓реЗ рдЧрдП

पाठ से विजेम्स निकाले गए। स्रोत: https://arxiv.org/pdf/2104.04784.pdf

जहां दो समान शब्द एक ही विजेम परिणाम देते हैं, सबसे अधिक बार होने वाले शब्द का चयन किया जाता है।

मॉडल पारंपरिक सीक्वेंस-टू-सीक्वेंस लर्निंग पर निर्माण करके एक सब-प्रोसेसिंग स्टेज जोड़ता है जिसमें विजेम्स को पाठ से भविष्यवाणी की जाती है और एक समर्पित पाइपलाइन में मॉडल किया जाता है:

рд╡рд┐рдЬреЗрдо рдЖрд░реНрдХрд┐рдЯреЗрдХреНрдЪрд░ рд▓рд┐рдк-рд░реАрдбрд┐рдВрдЧ

उपर, पारंपरिक सीक्वेंस-टू-सीक्वेंस विधियों में एक अक्षर मॉडल; नीचे, तेहरान शोध मॉडल में विजेम अक्षर मॉडलिंग का जोड़。 स्रोत: https://arxiv.org/pdf/2104.04784.pdf

मॉडल को एलआरएस३-टीईडी डेटासेट के खिलाफ विजुअल संदर्भ के बिना लागू किया गया था, जो 2018 में ऑक्सफोर्ड विश्वविद्यालय द्वारा जारी किया गया था, जिसमें सबसे खराब शब्द त्रुटि दर (WER) 24.29% प्राप्त हुई थी।

तेहरान शोध में ग्राफेम-टू-फोनेम कनवर्टर का उपयोग भी शामिल है।

2017 ऑक्सफोर्ड रिसर्च लिप रीडिंग सेंटेंसेस इन द वाइल्ड के खिलाफ एक परीक्षण में, वीडियो-टू-विजेम विधि ने 62.3% की शब्द त्रुटि दर हासिल की, जबकि ऑक्सफोर्ड विधि के लिए 69.5% थी।

शोधकर्ता निष्कर्ष निकालते हैं कि अधिक मात्रा में पाठ सूचना का उपयोग, साथ ही ग्राफेम-टू-फोनेम और विजेम मैपिंग, स्वचालित लिप-रीडिंग मशीन सिस्टम में राज्य की कला में सुधार का वादा करता है, जबकि स्वीकार करता है कि उपयोग की जाने वाली विधियां अधिक जटिल वर्तमान फ्रेमवर्क में शामिल होने पर भी बेहतर परिणाम दे सकती हैं।

मशीन-चालित लिप-रीडिंग पिछले दो दशकों से कंप्यूटर विजन और एनएलपी शोध का एक सक्रिय और जारी क्षेत्र रहा है। कई अन्य उदाहरणों और परियोजनाओं के बीच, 2006 में स्वचालित लिप-रीडिंग सॉफ्टवेयर का उपयोग सुर्खियों में आया जब इसका उपयोग उनके बावरियन रिट्रीट पर लिए गए कुछ प्रसिद्ध मूक फिल्मों में एडोल्फ हिटलर की बातचीत की व्याख्या करने के लिए किया गया था, हालांकि आवेदन तब से गुम हो गया लगता है (बारह साल बाद, सर पीटर जैक्सन मानव लिप-रीडर्स का सहारा लिया विश्व युद्ध 1 फुटेज के पुनर्स्थापन परियोजना वे शैल नॉट ग्रो ओल्ड) में बातचीत को बहाल करने के लिए)।

2017 में, लिप रीडिंग सेंटेंसेस इन द वाइल्ड, ऑक्सफोर्ड विश्वविद्यालय और गूगल के एआई रिसर्च डिवीजन के बीच एक सहयोग, ने लिप-रीडिंग एआई विकसित किया जो बिना ध्वनि के वीडियो में 48% भाषण का अनुमान लगा सकता था, जहां एक मानव लिप-रीडर केवल 12.4% सटीकता तक पहुंच सकता था। मॉडल को बीबीसी टीवी फुटेज के हजारों घंटों पर प्रशिक्षित किया गया था।

यह काम एक अलग ऑक्सफोर्ड/गूगल पहल के बाद आया, जिसे लिपनेट कहा जाता है, एक न्यूरल नेटवर्क आर्किटेक्चर जो वीडियो अनुक्रमों को विभिन्न लंबाई के पाठ अनुक्रमों में मैप करता है जिसमें एक गेटेड रिकरेंट नेटवर्क (जीआरएन) होता है, जो रिकरेंट न्यूरल नेटवर्क (आरएनएन) की आधार आर्किटेक्चर में कार्यक्षमता जोड़ता है। मॉडल ने मानव लिप-रीडर्स की तुलना में 4.1x बेहतर प्रदर्शन हासिल किया।

वास्तविक समय में एक सटीक प्रतिलिपि प्राप्त करने की समस्या के अलावा, वीडियो से भाषण की व्याख्या करने की चुनौती तब गहराती जाती है जब आप सहायक संदर्भ, जैसे कि ऑडियो, ‘चेहरे पर’ फुटेज जो अच्छी तरह से प्रकाशित है, और एक भाषा/संस्कृति जहां फोनेम्स/विजेम्स अपेक्षाकृत विशिष्ट हैं, को हटा देते हैं।

हालांकि वर्तमान में कोई अनुभवजन्य समझ नहीं है कि कौन सी भाषाएं ऑडियो की पूर्ण अनुपस्थिति में लिप-रीडिंग के लिए सबसे कठिन हैं, जापानी एक प्रमुख दावेदार है। जापानी मूल-निवासियों (साथ ही कुछ अन्य पश्चिम और पूर्व एशियाई मूल-निवासियों) द्वारा चेहरे के भावों का उपयोग अपने भाषण की सामग्री के खिलाफ पहले से ही उन्हें भावना विश्लेषण प्रणालियों के लिए एक बड़ी चुनौती बनाता है।

हालांकि, यह ध्यान देने योग्य है कि विषय पर वैज्ञानिक साहित्य आमतौर पर सावधान है, क्योंकि इस क्षेत्र में यहां तक कि अच्छी तरह से इरादे वाले उद्देश्य शोध भी नस्लीय प्रोफाइलिंग और मौजूदा रूढ़िवादिता को बढ़ावा देने में जोखिम उठा सकते हैं।

गटुरल घटकों के उच्च अनुपात वाली भाषाएं, जैसे चेचन और डच, स्वचालित भाषण निष्कर्षण तकनीकों के लिए विशेष रूप से कठिन हैं, जबकि ऐसी संस्कृतियां जहां वक्ता भावना या सम्मान को व्यक्त करने के लिए दूर देखते हैं (फिर से, आमतौर पर एशियाई संस्कृतियों में) एक और आयाम जोड़ते हैं जहां एआई लिप-रीडिंग शोधकर्ताओं को अन्य संदर्भ संकेतों से ‘इन-फिलिंग’ के लिए अतिरिक्त तरीके विकसित करने की आवश्यकता होगी।

рдорд╢реАрди рд▓рд░реНрдирд┐рдВрдЧ рдкрд░ рд▓реЗрдЦрдХ, рдорд╛рдирд╡ рдЗрдореЗрдЬ рд╕рд┐рдВрдереЗрд╕рд┐рд╕ рдореЗрдВ рдбреЛрдореЗрди рд╡рд┐рд╢реЗрд╖рдЬреНрдЮред рдореЗрдЯрд╛рдлрд┐рдЬрд┐рдХ.рдПрдЖрдИ рдореЗрдВ рдЕрдиреБрд╕рдВрдзрд╛рди рд╕рд╛рдордЧреНрд░реА рдХреЗ рдкреВрд░реНрд╡ рдкреНрд░рдореБрдЦред
рд╡реНрдпрдХреНрддрд┐рдЧрдд рд╕рд╛рдЗрдЯ: martinanderson.ai
рд╕рдВрдкрд░реНрдХ: [email protected]
рдЯреНрд╡рд┐рдЯрд░: @manders_ai