рдХреГрддреНрд░рд┐рдо рдмреБрджреНрдзрд┐рдорддреНрддрд╛
рд╢реЛрдзрдХрд░реНрддрд╛ рдЧрд╣рд░реЗ рддрдВрддреНрд░рд┐рдХрд╛ рдиреЗрдЯрд╡рд░реНрдХ рдХреЗ рд╕рд╛рде рдорд╛рдирд╡ рднрд╛рд╖рдг рдкрд╣рдЪрд╛рди рдореЙрдбрд▓ рд╡рд┐рдХрд╕рд┐рдд рдХрд░рддреЗ рд╣реИрдВ

जर्मनी के एक शोधकर्ता समूह मशीन लर्निंग और गहरे तंत्रिका नेटवर्क पर आधारित एक नए मानव भाषण पहचान मॉडल का अन्वेषण कर रहा है। यह नया मॉडल मानव भाषण पहचान में बहुत सुधार करने में मदद कर सकता है।
सुनने में मदद करने वाले एल्गोरिदम आमतौर पर मानव भाषण पहचान में सुधार करने के लिए उपयोग किए जाते हैं, और वे विभिन्न प्रयोगों के माध्यम से मूल्यांकित किए जाते हैं जो एक निश्चित संख्या में शब्दों को पहचानने के लिए सिग्नल-टू-शोर अनुपात का निर्धारण करते हैं। हालांकि, ये प्रयोग अक्सर समय लेने वाले और महंगे होते हैं।
इस नए मॉडल का विवरण द जर्नल ऑफ द अकाउस्टिकल सोसाइटी ऑफ अमेरिका में प्रकाशित शोध में किया गया है।
श्रवण-बाधित श्रोताओं के लिए भविष्यवाणियां
जाना रॉसबैक कार्ल वॉन ओसिएट्ज़की विश्वविद्यालय से एक लेखक हैं।
“हमारे मॉडल की नवीनता यह है कि यह बहुत अलग जटिलता वाले शोर प्रकार के लिए श्रवण-बाधित श्रोताओं के लिए अच्छी भविष्यवाणियां प्रदान करता है और दोनों कम त्रुटियां और मापदंड डेटा के साथ उच्च संबंध दिखाता है,” रॉसबैक ने कहा।
शोधकर्ताओं की टीम ने गणना की कि एक श्रोता एक वाक्य में कितने शब्द समझ सकता है स्वचालित भाषण पहचान (एएसआर) के माध्यम से। एलेक्सा और सिरी जैसे भाषण पहचान उपकरण इस एएसआर पर निर्भर करते हैं, जो व्यापक रूप से उपलब्ध है।
अध्ययन और परिणाम
टीम द्वारा किए गए अध्ययन में आठ सामान्य श्रवण और 20 श्रवण-बाधित व्यक्तियों को शामिल किया गया था। श्रोताओं को कई अलग-अलग जटिल शोर के संपर्क में लाया गया, जो भाषण को छुपाते थे, और श्रवण-बाधित श्रोताओं को उनकी आयु से संबंधित श्रवण हानि के स्तर के आधार पर तीन समूहों में वर्गीकृत किया गया था।
नए मॉडल के माध्यम से, शोधकर्ता विभिन्न डिग्री की श्रवण हानि वाले श्रवण-बाधित श्रोताओं के मानव भाषण पहचान प्रदर्शन की भविष्यवाणी कर सकते थे। वे विभिन्न शोर मास्कर्स के लिए भविष्यवाणियां करने में सक्षम थे जिनकी अलग-अलग जटिलता थी और वे वास्तविक भाषण के समान थे। यह सभी को संभावित श्रवण हानि के संबंध में व्यक्तिगत रूप से देखा और विश्लेषण करने में सक्षम बनाता है।
“हम सबसे ज्यादा आश्चर्यचकित थे कि भविष्यवाणियां सभी शोर प्रकार के लिए अच्छी तरह से काम करती हैं। हमें उम्मीद थी कि मॉडल एकल प्रतिस्पर्धी बोलते हुए समस्याओं का सामना करेगा, लेकिन ऐसा नहीं था,” रॉसबैक ने कहा।
चूंकि मॉडल एकल-कान सुनवाई पर केंद्रित था, टीम अब दो कानों की सुनवाई के लिए एक द्विभाषी मॉडल बनाने का लक्ष्य रखती है। वे यह भी कहते हैं कि नए मॉडल का उपयोग सुनने के प्रयास या भाषण गुणवत्ता की भविष्यवाणी करने के लिए भी किया जा सकता है।










