Connect with us

Speechmatics рдиреЗ рд╕реНрд╡рд╛рдпрддреНрдд рднрд╛рд╖рдг рдкрд╣рдЪрд╛рди рд╕реЙрдлреНрдЯрд╡реЗрдпрд░ рд▓реЙрдиреНрдЪ рдХрд┐рдпрд╛

рдХреГрддреНрд░рд┐рдо рдмреБрджреНрдзрд┐рдорддреНрддрд╛

Speechmatics рдиреЗ рд╕реНрд╡рд╛рдпрддреНрдд рднрд╛рд╖рдг рдкрд╣рдЪрд╛рди рд╕реЙрдлреНрдЯрд╡реЗрдпрд░ рд▓реЙрдиреНрдЪ рдХрд┐рдпрд╛

mm

प्रमुख भाषण पहचान प्रौद्योगिकी स्टार्टअप Speechmatics ने अपने ‘स्वायत्त भाषण पहचान’ सॉफ्टवेयर को लॉन्च किया है जो नवीनतम गहरे शिक्षण तकनीकों और सफल स्व-पर्यवेक्षित मॉडल का उपयोग करता है। इस प्रणाली ने अमेज़ॅन, गूगल और माइक्रोसॉफ्ट को पीछे छोड़ने की क्षमता का प्रदर्शन किया है।

स्टैनफोर्ड के डेटासेट

स्पीचमैटिक्स स्टैनफोर्ड के ‘भाषण पहचान में जातीय असमानता‘ अध्ययन में पाए गए डेटासेट पर आधारित है, और इसने अफ्रीकी अमेरिकी आवाजों के लिए 82.8% की समग्र सटीकता हासिल की। गूगल ने केवल 68.7% की सटीकता दर हासिल की, जबकि अमेज़ॅन ने 68.6% हासिल की।
सटीकता का स्तर भाषण पहचान त्रुटियों में 45% की कमी के बराबर है, जो एक औसत वाक्य में तीन शब्दों के बराबर है। न केवल नई स्पीचमैटिक्स प्रणाली इस संबंध में सटीक है, बल्कि यह उच्चारण, आयु, बोलियों और विभिन्न अन्य सामाजिक-जनसांख्यिकीय विशेषताओं में सटीकता में सुधार का प्रदर्शन करती है।
भाषण पहचान में अक्सर मानव द्वारा वर्गीकृत किए जा सकने वाले लेबल वाले डेटा की सीमित मात्रा के कारण भ्रम होता है। एल्गोरिदम को प्रशिक्षित करने के लिए लेबल वाले डेटा की आवश्यकता होती है, जिसे मानव द्वारा मैन्युअल रूप से वर्गीकृत किया जाना चाहिए, जिसके परिणामस्वरूप इन प्रणालियों के लिए कम डेटा उपलब्ध होता है। यह सभी आवाजों के प्रतिनिधित्व को भी सीमित करता है, जो एक नई समस्या पैदा करता है।

अनलेबल्ड डेटा पर प्रशिक्षण

स्पीचमैटिक्स इस संबंध में बड़ी प्रगति कर रहा है क्योंकि इसकी प्रौद्योगिकी इंटरनेट से सीधे प्राप्त विशाल मात्रा में अनलेबल्ड डेटा पर प्रशिक्षित है। डेटा सोशल मीडिया सामग्री और पॉडकास्ट जैसी चीजों से आता है।
स्व-पर्यवेक्षित शिक्षण ने प्रणाली को 1.1 मिलियन घंटे के ऑडियो पर प्रशिक्षित करने में सक्षम बनाया है, जो पहले के 30,000 घंटों से अधिक है। इससे आवाजों का व्यापक प्रतिनिधित्व होता है, और यह भाषण पहचान में एआई पूर्वाग्रह और त्रुटियों को कम करने में मदद करता है।
बच्चों की आवाजों के लिए, स्पीचमैटिक्स ने प्रतिस्पर्धियों को पीछे छोड़ने की क्षमता भी प्रदर्शित की। बच्चों की आवाजें विरासत भाषण पहचान प्रौद्योगिकी के माध्यम से पहचानने में चुनौतीपूर्ण हैं, लेकिन स्पीचमैटिक्स ने 91.8% की सटीकता दर दर्ज की। गूगल केवल 83.4% और डीपग्राम 82.3% हासिल कर पाया।
केटी विगडाहल स्पीचमैटिक्स के सीईओ हैं।
“हम अगली पीढ़ी की मशीन लर्निंग क्षमताओं को वितरित करने और उसके माध्यम से अधिक समावेशी और सुलभ भाषण प्रौद्योगिकी प्रदान करने के लिए एक मिशन पर हैं। यह घोषणा उस मिशन को प्राप्त करने के लिए एक बड़ा कदम है।”
“एआई पूर्वाग्रह को संबोधित करने पर हमारा ध्यान इस महाकाव्य कदम के लिए भाषण पहचान उद्योग में आगे बढ़ गया है और इसका प्रभाव विभिन्न परिदृश्यों में परिवर्तन का कारण बनेगा। सोचें कि हम सोशल मीडिया पर गलत कैप्शन देखते हैं, अदालती सुनवाई जहां शब्द गलत लिखे जाते हैं और ई-लर्निंग प्लेटफ़ॉर्म जो महामारी के दौरान बच्चों की आवाजों से जूझते रहे हैं। लोगों को अब तक स्वीकार करने के लिए त्रुटियों का वास्तविक प्रभाव उनके दैनिक जीवन पर पड़ सकता है।”
एलिसन ज़ू कोएनेक स्टैनफोर्ड के भाषण पहचान अध्ययन के प्रमुख लेखक हैं।
“भाषण-से-पाठ प्रणालियों में न्यायसंगतता में सुधार और अध्ययन करना महत्वपूर्ण है क्योंकि स्वास्थ्य सेवा से लेकर आपराधिक न्याय तक के डाउनस्ट्रीम क्षेत्रों में व्यक्तियों को विभिन्न नुकसान हो सकता है।”

рдПрд▓реЗрдХреНрд╕ рдореИрдХрдлрд╛рд░рд▓реИрдВрдб рдПрдХ рдПрдЖрдИ рдкрддреНрд░рдХрд╛рд░ рдФрд░ рд▓реЗрдЦрдХ рд╣реИрдВ рдЬреЛ рдХреГрддреНрд░рд┐рдо рдмреБрджреНрдзрд┐рдорддреНрддрд╛ рдореЗрдВ рдирд╡реАрдирддрдо рд╡рд┐рдХрд╛рд╕реЛрдВ рдХрд╛ рдЕрдиреНрд╡реЗрд╖рдг рдХрд░ рд░рд╣реЗ рд╣реИрдВред рдЙрдиреНрд╣реЛрдВрдиреЗ рд╡рд┐рд╢реНрд╡рднрд░ рдХреЗ рдХрдИ рдПрдЖрдИ рд╕реНрдЯрд╛рд░реНрдЯрдЕрдкреНрд╕ рдФрд░ рдкреНрд░рдХрд╛рд╢рдиреЛрдВ рдХреЗ рд╕рд╛рде рд╕рд╣рдпреЛрдЧ рдХрд┐рдпрд╛ рд╣реИред