कृत्रिम बुद्धिमत्ता

Speechmatics ने स्वायत्त भाषण पहचान सॉफ्टवेयर लॉन्च किया

Published October 26, 2021

Updated April 5, 2026

Alex McFarland

प्रमुख भाषण पहचान प्रौद्योगिकी स्टार्टअप Speechmatics ने अपने ‘स्वायत्त भाषण पहचान’ सॉफ्टवेयर को लॉन्च किया है जो नवीनतम गहरे शिक्षण तकनीकों और सफल स्व-पर्यवेक्षित मॉडल का उपयोग करता है। इस प्रणाली ने अमेज़ॅन, गूगल और माइक्रोसॉफ्ट को पीछे छोड़ने की क्षमता का प्रदर्शन किया है।

स्टैनफोर्ड के डेटासेट

स्पीचमैटिक्स स्टैनफोर्ड के ‘भाषण पहचान में जातीय असमानता‘ अध्ययन में पाए गए डेटासेट पर आधारित है, और इसने अफ्रीकी अमेरिकी आवाजों के लिए 82.8% की समग्र सटीकता हासिल की। गूगल ने केवल 68.7% की सटीकता दर हासिल की, जबकि अमेज़ॅन ने 68.6% हासिल की।
सटीकता का स्तर भाषण पहचान त्रुटियों में 45% की कमी के बराबर है, जो एक औसत वाक्य में तीन शब्दों के बराबर है। न केवल नई स्पीचमैटिक्स प्रणाली इस संबंध में सटीक है, बल्कि यह उच्चारण, आयु, बोलियों और विभिन्न अन्य सामाजिक-जनसांख्यिकीय विशेषताओं में सटीकता में सुधार का प्रदर्शन करती है।
भाषण पहचान में अक्सर मानव द्वारा वर्गीकृत किए जा सकने वाले लेबल वाले डेटा की सीमित मात्रा के कारण भ्रम होता है। एल्गोरिदम को प्रशिक्षित करने के लिए लेबल वाले डेटा की आवश्यकता होती है, जिसे मानव द्वारा मैन्युअल रूप से वर्गीकृत किया जाना चाहिए, जिसके परिणामस्वरूप इन प्रणालियों के लिए कम डेटा उपलब्ध होता है। यह सभी आवाजों के प्रतिनिधित्व को भी सीमित करता है, जो एक नई समस्या पैदा करता है।

अनलेबल्ड डेटा पर प्रशिक्षण

स्पीचमैटिक्स इस संबंध में बड़ी प्रगति कर रहा है क्योंकि इसकी प्रौद्योगिकी इंटरनेट से सीधे प्राप्त विशाल मात्रा में अनलेबल्ड डेटा पर प्रशिक्षित है। डेटा सोशल मीडिया सामग्री और पॉडकास्ट जैसी चीजों से आता है।
स्व-पर्यवेक्षित शिक्षण ने प्रणाली को 1.1 मिलियन घंटे के ऑडियो पर प्रशिक्षित करने में सक्षम बनाया है, जो पहले के 30,000 घंटों से अधिक है। इससे आवाजों का व्यापक प्रतिनिधित्व होता है, और यह भाषण पहचान में एआई पूर्वाग्रह और त्रुटियों को कम करने में मदद करता है।
बच्चों की आवाजों के लिए, स्पीचमैटिक्स ने प्रतिस्पर्धियों को पीछे छोड़ने की क्षमता भी प्रदर्शित की। बच्चों की आवाजें विरासत भाषण पहचान प्रौद्योगिकी के माध्यम से पहचानने में चुनौतीपूर्ण हैं, लेकिन स्पीचमैटिक्स ने 91.8% की सटीकता दर दर्ज की। गूगल केवल 83.4% और डीपग्राम 82.3% हासिल कर पाया।
केटी विगडाहल स्पीचमैटिक्स के सीईओ हैं।
“हम अगली पीढ़ी की मशीन लर्निंग क्षमताओं को वितरित करने और उसके माध्यम से अधिक समावेशी और सुलभ भाषण प्रौद्योगिकी प्रदान करने के लिए एक मिशन पर हैं। यह घोषणा उस मिशन को प्राप्त करने के लिए एक बड़ा कदम है।”
“एआई पूर्वाग्रह को संबोधित करने पर हमारा ध्यान इस महाकाव्य कदम के लिए भाषण पहचान उद्योग में आगे बढ़ गया है और इसका प्रभाव विभिन्न परिदृश्यों में परिवर्तन का कारण बनेगा। सोचें कि हम सोशल मीडिया पर गलत कैप्शन देखते हैं, अदालती सुनवाई जहां शब्द गलत लिखे जाते हैं और ई-लर्निंग प्लेटफ़ॉर्म जो महामारी के दौरान बच्चों की आवाजों से जूझते रहे हैं। लोगों को अब तक स्वीकार करने के लिए त्रुटियों का वास्तविक प्रभाव उनके दैनिक जीवन पर पड़ सकता है।”
एलिसन ज़ू कोएनेक स्टैनफोर्ड के भाषण पहचान अध्ययन के प्रमुख लेखक हैं।
“भाषण-से-पाठ प्रणालियों में न्यायसंगतता में सुधार और अध्ययन करना महत्वपूर्ण है क्योंकि स्वास्थ्य सेवा से लेकर आपराधिक न्याय तक के डाउनस्ट्रीम क्षेत्रों में व्यक्तियों को विभिन्न नुकसान हो सकता है।”

Unite.AI

Speechmatics ने स्वायत्त भाषण पहचान सॉफ्टवेयर लॉन्च किया

स्टैनफोर्ड के डेटासेट

अनलेबल्ड डेटा पर प्रशिक्षण

You may like