कृत्रिम बुद्धिमत्ता

शोधकर्ता गहरे तंत्रिका नेटवर्क के साथ मानव भाषण पहचान मॉडल विकसित करते हैं

Published March 3, 2022

Updated April 5, 2026

Alex McFarland

जर्मनी के एक शोधकर्ता समूह मशीन लर्निंग और गहरे तंत्रिका नेटवर्क पर आधारित एक नए मानव भाषण पहचान मॉडल का अन्वेषण कर रहा है। यह नया मॉडल मानव भाषण पहचान में बहुत सुधार करने में मदद कर सकता है।

सुनने में मदद करने वाले एल्गोरिदम आमतौर पर मानव भाषण पहचान में सुधार करने के लिए उपयोग किए जाते हैं, और वे विभिन्न प्रयोगों के माध्यम से मूल्यांकित किए जाते हैं जो एक निश्चित संख्या में शब्दों को पहचानने के लिए सिग्नल-टू-शोर अनुपात का निर्धारण करते हैं। हालांकि, ये प्रयोग अक्सर समय लेने वाले और महंगे होते हैं।

इस नए मॉडल का विवरण द जर्नल ऑफ द अकाउस्टिकल सोसाइटी ऑफ अमेरिका में प्रकाशित शोध में किया गया है।

श्रवण-बाधित श्रोताओं के लिए भविष्यवाणियां

जाना रॉसबैक कार्ल वॉन ओसिएट्ज़की विश्वविद्यालय से एक लेखक हैं।

“हमारे मॉडल की नवीनता यह है कि यह बहुत अलग जटिलता वाले शोर प्रकार के लिए श्रवण-बाधित श्रोताओं के लिए अच्छी भविष्यवाणियां प्रदान करता है और दोनों कम त्रुटियां और मापदंड डेटा के साथ उच्च संबंध दिखाता है,” रॉसबैक ने कहा।

शोधकर्ताओं की टीम ने गणना की कि एक श्रोता एक वाक्य में कितने शब्द समझ सकता है स्वचालित भाषण पहचान (एएसआर) के माध्यम से। एलेक्सा और सिरी जैसे भाषण पहचान उपकरण इस एएसआर पर निर्भर करते हैं, जो व्यापक रूप से उपलब्ध है।

अध्ययन और परिणाम

टीम द्वारा किए गए अध्ययन में आठ सामान्य श्रवण और 20 श्रवण-बाधित व्यक्तियों को शामिल किया गया था। श्रोताओं को कई अलग-अलग जटिल शोर के संपर्क में लाया गया, जो भाषण को छुपाते थे, और श्रवण-बाधित श्रोताओं को उनकी आयु से संबंधित श्रवण हानि के स्तर के आधार पर तीन समूहों में वर्गीकृत किया गया था।

नए मॉडल के माध्यम से, शोधकर्ता विभिन्न डिग्री की श्रवण हानि वाले श्रवण-बाधित श्रोताओं के मानव भाषण पहचान प्रदर्शन की भविष्यवाणी कर सकते थे। वे विभिन्न शोर मास्कर्स के लिए भविष्यवाणियां करने में सक्षम थे जिनकी अलग-अलग जटिलता थी और वे वास्तविक भाषण के समान थे। यह सभी को संभावित श्रवण हानि के संबंध में व्यक्तिगत रूप से देखा और विश्लेषण करने में सक्षम बनाता है।

“हम सबसे ज्यादा आश्चर्यचकित थे कि भविष्यवाणियां सभी शोर प्रकार के लिए अच्छी तरह से काम करती हैं। हमें उम्मीद थी कि मॉडल एकल प्रतिस्पर्धी बोलते हुए समस्याओं का सामना करेगा, लेकिन ऐसा नहीं था,” रॉसबैक ने कहा।

चूंकि मॉडल एकल-कान सुनवाई पर केंद्रित था, टीम अब दो कानों की सुनवाई के लिए एक द्विभाषी मॉडल बनाने का लक्ष्य रखती है। वे यह भी कहते हैं कि नए मॉडल का उपयोग सुनने के प्रयास या भाषण गुणवत्ता की भविष्यवाणी करने के लिए भी किया जा सकता है।

Related Topics:AI artificial intelligence deep learning

Alex McFarland

एलेक्स मैकफारलैंड एक एआई पत्रकार और लेखक हैं जो कृत्रिम बुद्धिमत्ता में नवीनतम विकासों का अन्वेषण कर रहे हैं। उन्होंने विश्वभर के कई एआई स्टार्टअप्स और प्रकाशनों के साथ सहयोग किया है।