Connect with us

рд╢реЛрдзрдХрд░реНрддрд╛ рдЧрд╣рд░реЗ рддрдВрддреНрд░рд┐рдХрд╛ рдиреЗрдЯрд╡рд░реНрдХ рдХреЗ рд╕рд╛рде рдорд╛рдирд╡ рднрд╛рд╖рдг рдкрд╣рдЪрд╛рди рдореЙрдбрд▓ рд╡рд┐рдХрд╕рд┐рдд рдХрд░рддреЗ рд╣реИрдВ

рдХреГрддреНрд░рд┐рдо рдмреБрджреНрдзрд┐рдорддреНрддрд╛

рд╢реЛрдзрдХрд░реНрддрд╛ рдЧрд╣рд░реЗ рддрдВрддреНрд░рд┐рдХрд╛ рдиреЗрдЯрд╡рд░реНрдХ рдХреЗ рд╕рд╛рде рдорд╛рдирд╡ рднрд╛рд╖рдг рдкрд╣рдЪрд╛рди рдореЙрдбрд▓ рд╡рд┐рдХрд╕рд┐рдд рдХрд░рддреЗ рд╣реИрдВ

mm

जर्मनी के एक शोधकर्ता समूह मशीन लर्निंग और गहरे तंत्रिका नेटवर्क पर आधारित एक नए मानव भाषण पहचान मॉडल का अन्वेषण कर रहा है। यह नया मॉडल मानव भाषण पहचान में बहुत सुधार करने में मदद कर सकता है।

सुनने में मदद करने वाले एल्गोरिदम आमतौर पर मानव भाषण पहचान में सुधार करने के लिए उपयोग किए जाते हैं, और वे विभिन्न प्रयोगों के माध्यम से मूल्यांकित किए जाते हैं जो एक निश्चित संख्या में शब्दों को पहचानने के लिए सिग्नल-टू-शोर अनुपात का निर्धारण करते हैं। हालांकि, ये प्रयोग अक्सर समय लेने वाले और महंगे होते हैं।

इस नए मॉडल का विवरण द जर्नल ऑफ द अकाउस्टिकल सोसाइटी ऑफ अमेरिका में प्रकाशित शोध में किया गया है।

श्रवण-बाधित श्रोताओं के लिए भविष्यवाणियां

जाना रॉसबैक कार्ल वॉन ओसिएट्ज़की विश्वविद्यालय से एक लेखक हैं।

“हमारे मॉडल की नवीनता यह है कि यह बहुत अलग जटिलता वाले शोर प्रकार के लिए श्रवण-बाधित श्रोताओं के लिए अच्छी भविष्यवाणियां प्रदान करता है और दोनों कम त्रुटियां और मापदंड डेटा के साथ उच्च संबंध दिखाता है,” रॉसबैक ने कहा।

शोधकर्ताओं की टीम ने गणना की कि एक श्रोता एक वाक्य में कितने शब्द समझ सकता है स्वचालित भाषण पहचान (एएसआर) के माध्यम से। एलेक्सा और सिरी जैसे भाषण पहचान उपकरण इस एएसआर पर निर्भर करते हैं, जो व्यापक रूप से उपलब्ध है।

अध्ययन और परिणाम

टीम द्वारा किए गए अध्ययन में आठ सामान्य श्रवण और 20 श्रवण-बाधित व्यक्तियों को शामिल किया गया था। श्रोताओं को कई अलग-अलग जटिल शोर के संपर्क में लाया गया, जो भाषण को छुपाते थे, और श्रवण-बाधित श्रोताओं को उनकी आयु से संबंधित श्रवण हानि के स्तर के आधार पर तीन समूहों में वर्गीकृत किया गया था।

नए मॉडल के माध्यम से, शोधकर्ता विभिन्न डिग्री की श्रवण हानि वाले श्रवण-बाधित श्रोताओं के मानव भाषण पहचान प्रदर्शन की भविष्यवाणी कर सकते थे। वे विभिन्न शोर मास्कर्स के लिए भविष्यवाणियां करने में सक्षम थे जिनकी अलग-अलग जटिलता थी और वे वास्तविक भाषण के समान थे। यह सभी को संभावित श्रवण हानि के संबंध में व्यक्तिगत रूप से देखा और विश्लेषण करने में सक्षम बनाता है।

“हम सबसे ज्यादा आश्चर्यचकित थे कि भविष्यवाणियां सभी शोर प्रकार के लिए अच्छी तरह से काम करती हैं। हमें उम्मीद थी कि मॉडल एकल प्रतिस्पर्धी बोलते हुए समस्याओं का सामना करेगा, लेकिन ऐसा नहीं था,” रॉसबैक ने कहा।

चूंकि मॉडल एकल-कान सुनवाई पर केंद्रित था, टीम अब दो कानों की सुनवाई के लिए एक द्विभाषी मॉडल बनाने का लक्ष्य रखती है। वे यह भी कहते हैं कि नए मॉडल का उपयोग सुनने के प्रयास या भाषण गुणवत्ता की भविष्यवाणी करने के लिए भी किया जा सकता है।

рдПрд▓реЗрдХреНрд╕ рдореИрдХрдлрд╛рд░рд▓реИрдВрдб рдПрдХ рдПрдЖрдИ рдкрддреНрд░рдХрд╛рд░ рдФрд░ рд▓реЗрдЦрдХ рд╣реИрдВ рдЬреЛ рдХреГрддреНрд░рд┐рдо рдмреБрджреНрдзрд┐рдорддреНрддрд╛ рдореЗрдВ рдирд╡реАрдирддрдо рд╡рд┐рдХрд╛рд╕реЛрдВ рдХрд╛ рдЕрдиреНрд╡реЗрд╖рдг рдХрд░ рд░рд╣реЗ рд╣реИрдВред рдЙрдиреНрд╣реЛрдВрдиреЗ рд╡рд┐рд╢реНрд╡рднрд░ рдХреЗ рдХрдИ рдПрдЖрдИ рд╕реНрдЯрд╛рд░реНрдЯрдЕрдкреНрд╕ рдФрд░ рдкреНрд░рдХрд╛рд╢рдиреЛрдВ рдХреЗ рд╕рд╛рде рд╕рд╣рдпреЛрдЧ рдХрд┐рдпрд╛ рд╣реИред