рдХреГрддреНрд░рд┐рдо рдмреБрджреНрдзрд┐рдорддреНрддрд╛
Speechmatics рдиреЗ рд╕реНрд╡рд╛рдпрддреНрдд рднрд╛рд╖рдг рдкрд╣рдЪрд╛рди рд╕реЙрдлреНрдЯрд╡реЗрдпрд░ рд▓реЙрдиреНрдЪ рдХрд┐рдпрд╛

प्रमुख भाषण पहचान प्रौद्योगिकी स्टार्टअप Speechmatics ने अपने ‘स्वायत्त भाषण पहचान’ सॉफ्टवेयर को लॉन्च किया है जो नवीनतम गहरे शिक्षण तकनीकों और सफल स्व-पर्यवेक्षित मॉडल का उपयोग करता है। इस प्रणाली ने अमेज़ॅन, गूगल और माइक्रोसॉफ्ट को पीछे छोड़ने की क्षमता का प्रदर्शन किया है।
स्टैनफोर्ड के डेटासेट
स्पीचमैटिक्स स्टैनफोर्ड के ‘भाषण पहचान में जातीय असमानता‘ अध्ययन में पाए गए डेटासेट पर आधारित है, और इसने अफ्रीकी अमेरिकी आवाजों के लिए 82.8% की समग्र सटीकता हासिल की। गूगल ने केवल 68.7% की सटीकता दर हासिल की, जबकि अमेज़ॅन ने 68.6% हासिल की।
सटीकता का स्तर भाषण पहचान त्रुटियों में 45% की कमी के बराबर है, जो एक औसत वाक्य में तीन शब्दों के बराबर है। न केवल नई स्पीचमैटिक्स प्रणाली इस संबंध में सटीक है, बल्कि यह उच्चारण, आयु, बोलियों और विभिन्न अन्य सामाजिक-जनसांख्यिकीय विशेषताओं में सटीकता में सुधार का प्रदर्शन करती है।
भाषण पहचान में अक्सर मानव द्वारा वर्गीकृत किए जा सकने वाले लेबल वाले डेटा की सीमित मात्रा के कारण भ्रम होता है। एल्गोरिदम को प्रशिक्षित करने के लिए लेबल वाले डेटा की आवश्यकता होती है, जिसे मानव द्वारा मैन्युअल रूप से वर्गीकृत किया जाना चाहिए, जिसके परिणामस्वरूप इन प्रणालियों के लिए कम डेटा उपलब्ध होता है। यह सभी आवाजों के प्रतिनिधित्व को भी सीमित करता है, जो एक नई समस्या पैदा करता है।
अनलेबल्ड डेटा पर प्रशिक्षण
स्पीचमैटिक्स इस संबंध में बड़ी प्रगति कर रहा है क्योंकि इसकी प्रौद्योगिकी इंटरनेट से सीधे प्राप्त विशाल मात्रा में अनलेबल्ड डेटा पर प्रशिक्षित है। डेटा सोशल मीडिया सामग्री और पॉडकास्ट जैसी चीजों से आता है।
स्व-पर्यवेक्षित शिक्षण ने प्रणाली को 1.1 मिलियन घंटे के ऑडियो पर प्रशिक्षित करने में सक्षम बनाया है, जो पहले के 30,000 घंटों से अधिक है। इससे आवाजों का व्यापक प्रतिनिधित्व होता है, और यह भाषण पहचान में एआई पूर्वाग्रह और त्रुटियों को कम करने में मदद करता है।
बच्चों की आवाजों के लिए, स्पीचमैटिक्स ने प्रतिस्पर्धियों को पीछे छोड़ने की क्षमता भी प्रदर्शित की। बच्चों की आवाजें विरासत भाषण पहचान प्रौद्योगिकी के माध्यम से पहचानने में चुनौतीपूर्ण हैं, लेकिन स्पीचमैटिक्स ने 91.8% की सटीकता दर दर्ज की। गूगल केवल 83.4% और डीपग्राम 82.3% हासिल कर पाया।
केटी विगडाहल स्पीचमैटिक्स के सीईओ हैं।
“हम अगली पीढ़ी की मशीन लर्निंग क्षमताओं को वितरित करने और उसके माध्यम से अधिक समावेशी और सुलभ भाषण प्रौद्योगिकी प्रदान करने के लिए एक मिशन पर हैं। यह घोषणा उस मिशन को प्राप्त करने के लिए एक बड़ा कदम है।”
“एआई पूर्वाग्रह को संबोधित करने पर हमारा ध्यान इस महाकाव्य कदम के लिए भाषण पहचान उद्योग में आगे बढ़ गया है और इसका प्रभाव विभिन्न परिदृश्यों में परिवर्तन का कारण बनेगा। सोचें कि हम सोशल मीडिया पर गलत कैप्शन देखते हैं, अदालती सुनवाई जहां शब्द गलत लिखे जाते हैं और ई-लर्निंग प्लेटफ़ॉर्म जो महामारी के दौरान बच्चों की आवाजों से जूझते रहे हैं। लोगों को अब तक स्वीकार करने के लिए त्रुटियों का वास्तविक प्रभाव उनके दैनिक जीवन पर पड़ सकता है।”
एलिसन ज़ू कोएनेक स्टैनफोर्ड के भाषण पहचान अध्ययन के प्रमुख लेखक हैं।
“भाषण-से-पाठ प्रणालियों में न्यायसंगतता में सुधार और अध्ययन करना महत्वपूर्ण है क्योंकि स्वास्थ्य सेवा से लेकर आपराधिक न्याय तक के डाउनस्ट्रीम क्षेत्रों में व्यक्तियों को विभिन्न नुकसान हो सकता है।”








