рдХреГрддреНрд░рд┐рдо рдмреБрджреНрдзрд┐рдорддреНрддрд╛
рд╣реЛрда рдкрдврд╝рдирд╛ рд╡рд┐рдЬреЗрдореНрд╕ рдФрд░ рдорд╢реАрди рд▓рд░реНрдирд┐рдВрдЧ рдХреЗ рд╕рд╛рде

तेहरान के कंप्यूटर इंजीनियरिंग स्कूल से नई रिसर्च में मशीन लर्निंग सिस्टम को होठ पढ़ने में सक्षम बनाने की चुनौती के लिए एक सुधारित दृष्टिकोण प्रस्तुत किया गया है।
पेपर में, जिसका शीर्षक विजेम डिकोडिंग का उपयोग करके होठ पढ़ना है, यह बताया गया है कि नया सिस्टम इस क्षेत्र में पहले के समान मॉडल्स की तुलना में 4% की वृद्धि शब्द त्रुटि दर में हासिल करता है। सिस्टम इस क्षेत्र में उपयोगी प्रशिक्षण डेटा की सामान्य कमी को विजेम्स को ओपनसबटाइटल्स डेटासेट के छह मिलियन नमूनों से प्राप्त पाठ सामग्री से मैप करके संबोधित करता है।
एक विजेम ध्वनि के समान दृश्य है, जो एक ऑडियो>इमेज मैपिंग है जो एक मशीन लर्निंग मॉडल में एक ‘फीचर’ का गठन कर सकता है।

विजेम्स एक्शन में। स्रोत: https://developer.oculus.com/documentation/unity/audio-ovrlipsync-viseme-reference/
शोधकर्ताओं ने उपलब्ध डेटासेट पर सबसे कम त्रुटि दर स्थापित करके और स्थापित मैपिंग प्रक्रियाओं से विजेम अनुक्रम विकसित करके शुरू किया। धीरे-धीरे, यह प्रक्रिया शब्दों की एक दृश्य शब्दावली विकसित करती है – हालांकि यह आवश्यक है कि विभिन्न शब्दों के लिए सटीकता की संभावनाओं को परिभाषित किया जाए जो एक विजेम (जैसे ‘हार्ट’ और ‘आर्ट’) साझा करते हैं।
जहां दो समान शब्द एक ही विजेम परिणाम देते हैं, सबसे अधिक बार होने वाले शब्द का चयन किया जाता है।
मॉडल पारंपरिक सीक्वेंस-टू-सीक्वेंस लर्निंग पर निर्माण करके एक सब-प्रोसेसिंग स्टेज जोड़ता है जिसमें विजेम्स को पाठ से भविष्यवाणी की जाती है और एक समर्पित पाइपलाइन में मॉडल किया जाता है:

उपर, पारंपरिक सीक्वेंस-टू-सीक्वेंस विधियों में एक अक्षर मॉडल; नीचे, तेहरान शोध मॉडल में विजेम अक्षर मॉडलिंग का जोड़。 स्रोत: https://arxiv.org/pdf/2104.04784.pdf
मॉडल को एलआरएस३-टीईडी डेटासेट के खिलाफ विजुअल संदर्भ के बिना लागू किया गया था, जो 2018 में ऑक्सफोर्ड विश्वविद्यालय द्वारा जारी किया गया था, जिसमें सबसे खराब शब्द त्रुटि दर (WER) 24.29% प्राप्त हुई थी।
तेहरान शोध में ग्राफेम-टू-फोनेम कनवर्टर का उपयोग भी शामिल है।
2017 ऑक्सफोर्ड रिसर्च लिप रीडिंग सेंटेंसेस इन द वाइल्ड के खिलाफ एक परीक्षण में, वीडियो-टू-विजेम विधि ने 62.3% की शब्द त्रुटि दर हासिल की, जबकि ऑक्सफोर्ड विधि के लिए 69.5% थी।
शोधकर्ता निष्कर्ष निकालते हैं कि अधिक मात्रा में पाठ सूचना का उपयोग, साथ ही ग्राफेम-टू-फोनेम और विजेम मैपिंग, स्वचालित लिप-रीडिंग मशीन सिस्टम में राज्य की कला में सुधार का वादा करता है, जबकि स्वीकार करता है कि उपयोग की जाने वाली विधियां अधिक जटिल वर्तमान फ्रेमवर्क में शामिल होने पर भी बेहतर परिणाम दे सकती हैं।
मशीन-चालित लिप-रीडिंग पिछले दो दशकों से कंप्यूटर विजन और एनएलपी शोध का एक सक्रिय और जारी क्षेत्र रहा है। कई अन्य उदाहरणों और परियोजनाओं के बीच, 2006 में स्वचालित लिप-रीडिंग सॉफ्टवेयर का उपयोग सुर्खियों में आया जब इसका उपयोग उनके बावरियन रिट्रीट पर लिए गए कुछ प्रसिद्ध मूक फिल्मों में एडोल्फ हिटलर की बातचीत की व्याख्या करने के लिए किया गया था, हालांकि आवेदन तब से गुम हो गया लगता है (बारह साल बाद, सर पीटर जैक्सन मानव लिप-रीडर्स का सहारा लिया विश्व युद्ध 1 फुटेज के पुनर्स्थापन परियोजना वे शैल नॉट ग्रो ओल्ड) में बातचीत को बहाल करने के लिए)।
2017 में, लिप रीडिंग सेंटेंसेस इन द वाइल्ड, ऑक्सफोर्ड विश्वविद्यालय और गूगल के एआई रिसर्च डिवीजन के बीच एक सहयोग, ने लिप-रीडिंग एआई विकसित किया जो बिना ध्वनि के वीडियो में 48% भाषण का अनुमान लगा सकता था, जहां एक मानव लिप-रीडर केवल 12.4% सटीकता तक पहुंच सकता था। मॉडल को बीबीसी टीवी फुटेज के हजारों घंटों पर प्रशिक्षित किया गया था।
यह काम एक अलग ऑक्सफोर्ड/गूगल पहल के बाद आया, जिसे लिपनेट कहा जाता है, एक न्यूरल नेटवर्क आर्किटेक्चर जो वीडियो अनुक्रमों को विभिन्न लंबाई के पाठ अनुक्रमों में मैप करता है जिसमें एक गेटेड रिकरेंट नेटवर्क (जीआरएन) होता है, जो रिकरेंट न्यूरल नेटवर्क (आरएनएन) की आधार आर्किटेक्चर में कार्यक्षमता जोड़ता है। मॉडल ने मानव लिप-रीडर्स की तुलना में 4.1x बेहतर प्रदर्शन हासिल किया।
वास्तविक समय में एक सटीक प्रतिलिपि प्राप्त करने की समस्या के अलावा, वीडियो से भाषण की व्याख्या करने की चुनौती तब गहराती जाती है जब आप सहायक संदर्भ, जैसे कि ऑडियो, ‘चेहरे पर’ फुटेज जो अच्छी तरह से प्रकाशित है, और एक भाषा/संस्कृति जहां फोनेम्स/विजेम्स अपेक्षाकृत विशिष्ट हैं, को हटा देते हैं।
हालांकि वर्तमान में कोई अनुभवजन्य समझ नहीं है कि कौन सी भाषाएं ऑडियो की पूर्ण अनुपस्थिति में लिप-रीडिंग के लिए सबसे कठिन हैं, जापानी एक प्रमुख दावेदार है। जापानी मूल-निवासियों (साथ ही कुछ अन्य पश्चिम और पूर्व एशियाई मूल-निवासियों) द्वारा चेहरे के भावों का उपयोग अपने भाषण की सामग्री के खिलाफ पहले से ही उन्हें भावना विश्लेषण प्रणालियों के लिए एक बड़ी चुनौती बनाता है।
हालांकि, यह ध्यान देने योग्य है कि विषय पर वैज्ञानिक साहित्य आमतौर पर सावधान है, क्योंकि इस क्षेत्र में यहां तक कि अच्छी तरह से इरादे वाले उद्देश्य शोध भी नस्लीय प्रोफाइलिंग और मौजूदा रूढ़िवादिता को बढ़ावा देने में जोखिम उठा सकते हैं।
गटुरल घटकों के उच्च अनुपात वाली भाषाएं, जैसे चेचन और डच, स्वचालित भाषण निष्कर्षण तकनीकों के लिए विशेष रूप से कठिन हैं, जबकि ऐसी संस्कृतियां जहां वक्ता भावना या सम्मान को व्यक्त करने के लिए दूर देखते हैं (फिर से, आमतौर पर एशियाई संस्कृतियों में) एक और आयाम जोड़ते हैं जहां एआई लिप-रीडिंग शोधकर्ताओं को अन्य संदर्भ संकेतों से ‘इन-फिलिंग’ के लिए अतिरिक्त तरीके विकसित करने की आवश्यकता होगी।













