कृत्रिम बुद्धिमत्ता

होठ पढ़ना विजेम्स और मशीन लर्निंग के साथ

Published April 13, 2021

Updated April 5, 2026

Martin Anderson

HAL reads lips in 2001: A Space Odyssey (1968)

तेहरान के कंप्यूटर इंजीनियरिंग स्कूल से नई रिसर्च में मशीन लर्निंग सिस्टम को होठ पढ़ने में सक्षम बनाने की चुनौती के लिए एक सुधारित दृष्टिकोण प्रस्तुत किया गया है।

पेपर में, जिसका शीर्षक विजेम डिकोडिंग का उपयोग करके होठ पढ़ना है, यह बताया गया है कि नया सिस्टम इस क्षेत्र में पहले के समान मॉडल्स की तुलना में 4% की वृद्धि शब्द त्रुटि दर में हासिल करता है। सिस्टम इस क्षेत्र में उपयोगी प्रशिक्षण डेटा की सामान्य कमी को विजेम्स को ओपनसबटाइटल्स डेटासेट के छह मिलियन नमूनों से प्राप्त पाठ सामग्री से मैप करके संबोधित करता है।

एक विजेम ध्वनि के समान दृश्य है, जो एक ऑडियो>इमेज मैपिंग है जो एक मशीन लर्निंग मॉडल में एक ‘फीचर’ का गठन कर सकता है।

विजेम्स एक्शन में। स्रोत: https://developer.oculus.com/documentation/unity/audio-ovrlipsync-viseme-reference/

शोधकर्ताओं ने उपलब्ध डेटासेट पर सबसे कम त्रुटि दर स्थापित करके और स्थापित मैपिंग प्रक्रियाओं से विजेम अनुक्रम विकसित करके शुरू किया। धीरे-धीरे, यह प्रक्रिया शब्दों की एक दृश्य शब्दावली विकसित करती है – हालांकि यह आवश्यक है कि विभिन्न शब्दों के लिए सटीकता की संभावनाओं को परिभाषित किया जाए जो एक विजेम (जैसे ‘हार्ट’ और ‘आर्ट’) साझा करते हैं।

पाठ से विजेम्स निकाले गए। स्रोत: https://arxiv.org/pdf/2104.04784.pdf

जहां दो समान शब्द एक ही विजेम परिणाम देते हैं, सबसे अधिक बार होने वाले शब्द का चयन किया जाता है।

मॉडल पारंपरिक सीक्वेंस-टू-सीक्वेंस लर्निंग पर निर्माण करके एक सब-प्रोसेसिंग स्टेज जोड़ता है जिसमें विजेम्स को पाठ से भविष्यवाणी की जाती है और एक समर्पित पाइपलाइन में मॉडल किया जाता है:

उपर, पारंपरिक सीक्वेंस-टू-सीक्वेंस विधियों में एक अक्षर मॉडल; नीचे, तेहरान शोध मॉडल में विजेम अक्षर मॉडलिंग का जोड़。 स्रोत: https://arxiv.org/pdf/2104.04784.pdf

मॉडल को एलआरएस३-टीईडी डेटासेट के खिलाफ विजुअल संदर्भ के बिना लागू किया गया था, जो 2018 में ऑक्सफोर्ड विश्वविद्यालय द्वारा जारी किया गया था, जिसमें सबसे खराब शब्द त्रुटि दर (WER) 24.29% प्राप्त हुई थी।

तेहरान शोध में ग्राफेम-टू-फोनेम कनवर्टर का उपयोग भी शामिल है।

2017 ऑक्सफोर्ड रिसर्च लिप रीडिंग सेंटेंसेस इन द वाइल्ड के खिलाफ एक परीक्षण में, वीडियो-टू-विजेम विधि ने 62.3% की शब्द त्रुटि दर हासिल की, जबकि ऑक्सफोर्ड विधि के लिए 69.5% थी।

शोधकर्ता निष्कर्ष निकालते हैं कि अधिक मात्रा में पाठ सूचना का उपयोग, साथ ही ग्राफेम-टू-फोनेम और विजेम मैपिंग, स्वचालित लिप-रीडिंग मशीन सिस्टम में राज्य की कला में सुधार का वादा करता है, जबकि स्वीकार करता है कि उपयोग की जाने वाली विधियां अधिक जटिल वर्तमान फ्रेमवर्क में शामिल होने पर भी बेहतर परिणाम दे सकती हैं।

मशीन-चालित लिप-रीडिंग पिछले दो दशकों से कंप्यूटर विजन और एनएलपी शोध का एक सक्रिय और जारी क्षेत्र रहा है। कई अन्य उदाहरणों और परियोजनाओं के बीच, 2006 में स्वचालित लिप-रीडिंग सॉफ्टवेयर का उपयोग सुर्खियों में आया जब इसका उपयोग उनके बावरियन रिट्रीट पर लिए गए कुछ प्रसिद्ध मूक फिल्मों में एडोल्फ हिटलर की बातचीत की व्याख्या करने के लिए किया गया था, हालांकि आवेदन तब से गुम हो गया लगता है (बारह साल बाद, सर पीटर जैक्सन मानव लिप-रीडर्स का सहारा लिया विश्व युद्ध 1 फुटेज के पुनर्स्थापन परियोजना वे शैल नॉट ग्रो ओल्ड) में बातचीत को बहाल करने के लिए)।

2017 में, लिप रीडिंग सेंटेंसेस इन द वाइल्ड, ऑक्सफोर्ड विश्वविद्यालय और गूगल के एआई रिसर्च डिवीजन के बीच एक सहयोग, ने लिप-रीडिंग एआई विकसित किया जो बिना ध्वनि के वीडियो में 48% भाषण का अनुमान लगा सकता था, जहां एक मानव लिप-रीडर केवल 12.4% सटीकता तक पहुंच सकता था। मॉडल को बीबीसी टीवी फुटेज के हजारों घंटों पर प्रशिक्षित किया गया था।

यह काम एक अलग ऑक्सफोर्ड/गूगल पहल के बाद आया, जिसे लिपनेट कहा जाता है, एक न्यूरल नेटवर्क आर्किटेक्चर जो वीडियो अनुक्रमों को विभिन्न लंबाई के पाठ अनुक्रमों में मैप करता है जिसमें एक गेटेड रिकरेंट नेटवर्क (जीआरएन) होता है, जो रिकरेंट न्यूरल नेटवर्क (आरएनएन) की आधार आर्किटेक्चर में कार्यक्षमता जोड़ता है। मॉडल ने मानव लिप-रीडर्स की तुलना में 4.1x बेहतर प्रदर्शन हासिल किया।

वास्तविक समय में एक सटीक प्रतिलिपि प्राप्त करने की समस्या के अलावा, वीडियो से भाषण की व्याख्या करने की चुनौती तब गहराती जाती है जब आप सहायक संदर्भ, जैसे कि ऑडियो, ‘चेहरे पर’ फुटेज जो अच्छी तरह से प्रकाशित है, और एक भाषा/संस्कृति जहां फोनेम्स/विजेम्स अपेक्षाकृत विशिष्ट हैं, को हटा देते हैं।

हालांकि वर्तमान में कोई अनुभवजन्य समझ नहीं है कि कौन सी भाषाएं ऑडियो की पूर्ण अनुपस्थिति में लिप-रीडिंग के लिए सबसे कठिन हैं, जापानी एक प्रमुख दावेदार है। जापानी मूल-निवासियों (साथ ही कुछ अन्य पश्चिम और पूर्व एशियाई मूल-निवासियों) द्वारा चेहरे के भावों का उपयोग अपने भाषण की सामग्री के खिलाफ पहले से ही उन्हें भावना विश्लेषण प्रणालियों के लिए एक बड़ी चुनौती बनाता है।

हालांकि, यह ध्यान देने योग्य है कि विषय पर वैज्ञानिक साहित्य आमतौर पर सावधान है, क्योंकि इस क्षेत्र में यहां तक कि अच्छी तरह से इरादे वाले उद्देश्य शोध भी नस्लीय प्रोफाइलिंग और मौजूदा रूढ़िवादिता को बढ़ावा देने में जोखिम उठा सकते हैं।

गटुरल घटकों के उच्च अनुपात वाली भाषाएं, जैसे चेचन और डच, स्वचालित भाषण निष्कर्षण तकनीकों के लिए विशेष रूप से कठिन हैं, जबकि ऐसी संस्कृतियां जहां वक्ता भावना या सम्मान को व्यक्त करने के लिए दूर देखते हैं (फिर से, आमतौर पर एशियाई संस्कृतियों में) एक और आयाम जोड़ते हैं जहां एआई लिप-रीडिंग शोधकर्ताओं को अन्य संदर्भ संकेतों से ‘इन-फिलिंग’ के लिए अतिरिक्त तरीके विकसित करने की आवश्यकता होगी।

Related Topics:Machine Learning research speech recognition

Martin Anderson

मशीन लर्निंग पर लेखक, मानव इमेज सिंथेसिस में डोमेन विशेषज्ञ। मेटाफिजिक.एआई में अनुसंधान सामग्री के पूर्व प्रमुख।
व्यक्तिगत साइट: martinanderson.ai
संपर्क: [email protected]
ट्विटर: @manders_ai

Unite.AI

होठ पढ़ना विजेम्स और मशीन लर्निंग के साथ

You may like