कृत्रिम बुद्धिमत्ता

CNTXT AI ने Munsit लॉन्च किया: अब तक बनाया गया सबसे सटीक अरबी भाषण मान्यता प्रणाली

Published April 30, 2025

Updated April 26, 2026

Antoine Tardif, CEO & Founder of Unite.AI

अरबी भाषा की कृत्रिम बुद्धिमत्ता के लिए एक निर्णायक क्षण में, CNTXT AI ने Munsit का अनावरण किया, एक अगली पीढ़ी का अरबी भाषण मान्यता मॉडल जो न केवल अरबी के लिए अब तक बनाया गया सबसे सटीक है, बल्कि यह मानक बेंचमार्क पर OpenAI, Meta, Microsoft और ElevenLabs जैसे वैश्विक दिग्गजों को पीछे छोड़ देता है। संयुक्त अरब अमीरात में विकसित और अरबी के लिए जमीन से ऊपर से तैयार किया गया, Munsit CNTXT द्वारा “संप्रभु AI” की ओर एक शक्तिशाली कदम का प्रतिनिधित्व करता है – तकनीक जो क्षेत्र में निर्मित है, क्षेत्र के लिए, लेकिन वैश्विक प्रतिस्पर्धा के साथ।

इस उपलब्धि की वैज्ञानिक नींव टीम के हाल ही में प्रकाशित पत्र में निहित है, “अरबी भाषण मान्यता को बड़े पैमाने पर कमजोर पर्यवेक्षित शिक्षा के माध्यम से आगे बढ़ाना“, जो अरबी भाषण डेटा की दीर्घकालिक कमी को संबोधित करने के लिए एक मापनीय, डेटा-कुशल प्रशिक्षण विधि पेश करता है। उस विधि – कमजोर पर्यवेक्षित शिक्षा – ने टीम को एक प्रणाली का निर्माण करने में सक्षम बनाया है जो आधुनिक मानक अरबी (MSA) और 25 से अधिक क्षेत्रीय बोलियों दोनों में प्रतिलेखन गुणवत्ता के लिए एक नया बेंचमार्क स्थापित करता है।

अरबी एएसआर में डेटा सूखा पार करना

अरबी, वैश्विक स्तर पर सबसे व्यापक बोली जाने वाली भाषाओं में से एक होने और संयुक्त राष्ट्र की आधिकारिक भाषा होने के बावजूद, भाषण मान्यता के क्षेत्र में यह लंबे समय से एक कम संसाधन वाली भाषा मानी जाती रही है। यह इसकी रूपविज्ञान संबंधी जटिलता और बड़े, विविध, लेबल वाले भाषण डेटासेट की कमी के कारण है। अंग्रेजी के विपरीत, जो मैन्युअल रूप से ट्रांसक्राइब किए गए ऑडियो डेटा के अनगिनत घंटों से लाभान्वित होता है, अरबी की बोली की समृद्धि और डिजिटल उपस्थिति के टुकड़े-टुकड़े होने ने मजबूत स्वचालित भाषण मान्यता (एएसआर) प्रणालियों के निर्माण के लिए महत्वपूर्ण चुनौतियां पेश की हैं।

मैनुअल ट्रांसक्रिप्शन की धीमी और महंगी प्रक्रिया की प्रतीक्षा करने के बजाय, CNTXT AI ने एक क्रांतिकारी रूप से अधिक मापनीय मार्ग का पीछा किया: कमजोर पर्यवेक्षण। उनका दृष्टिकोण विभिन्न स्रोतों से एकत्र किए गए 30,000 घंटे से अधिक के अनलेबल्ड अरबी ऑडियो कॉर्पस के साथ शुरू हुआ। एक कस्टम-निर्मित डेटा प्रोसेसिंग पाइपलाइन के माध्यम से, इस कच्चे ऑडियो को साफ, खंडित और स्वचालित रूप से लेबल किया गया ताकि एक उच्च-गुणवत्ता वाला 15,000-घंटे का प्रशिक्षण डेटासेट तैयार किया जा सके – अरबी भाषण कॉर्पस में से एक सबसे बड़ा और सबसे प्रतिनिधि।

इस प्रक्रिया में मानव अभिलेखन पर निर्भरता नहीं थी। इसके बजाय, CNTXT ने एक बहु-चरण प्रणाली विकसित की जो कई एएसआर मॉडल से परिकल्पनाओं को उत्पन्न करने, मूल्यांकन करने और फ़िल्टर करने के लिए। इन प्रतिलिपियों की तुलना लेवेनस्टीन दूरी का उपयोग करके की गई थी ताकि सबसे संगत परिकल्पनाओं का चयन किया जा सके, फिर एक भाषा मॉडल के माध्यम से उनकी व्याकरणिक संभावना का मूल्यांकन किया जा सके। जो खंड परिभाषित गुणवत्ता सीमा को पूरा नहीं करते थे उन्हें हटा दिया गया, यह सुनिश्चित करते हुए कि मानव सत्यापन के बिना भी, प्रशिक्षण डेटा विश्वसनीय रहा। टीम ने इस पाइपलाइन को कई पुनरावृत्तियों के माध्यम से परिष्कृत किया, प्रत्येक बार प्रशिक्षण डेटा में लेबल सटीकता में सुधार किया और इसे प्रशिक्षण प्रक्रिया में वापस फीड किया।

Munsit को शक्ति प्रदान करना: कॉन्फ़ॉर्मर आर्किटेक्चर

Munsit के दिल में कॉन्फ़ॉर्मर मॉडल है, एक हाइब्रिड न्यूरल नेटवर्क आर्किटेक्चर जो स्थानीय संवेदनशीलता के लिए संयोजनी परतों की क्षमता को वैश्विक क्रम मॉडलिंग क्षमताओं के साथ जोड़ती है। यह डिज़ाइन कॉन्फ़ॉर्मर को विशेष रूप से बोली जाने वाली भाषा की बारीकियों को संभालने में सक्षम बनाता है, जहां दोनों लंबी दूरी की निर्भरताएं (जैसे वाक्य संरचना) और फाइन-ग्रेनेड फोनेटिक विवरण महत्वपूर्ण हैं।

CNTXT AI ने कॉन्फ़ॉर्मर का एक बड़ा संस्करण लागू किया, जिसे 80-चैनल मेल-स्पेक्ट्रोग्राम का उपयोग करके शुरू से प्रशिक्षित किया गया था। मॉडल में 18 परतें शामिल हैं और लगभग 121 मिलियन पैरामीटर हैं। प्रशिक्षण आठ NVIDIA A100 GPUs के साथ एक उच्च-प्रदर्शन क्लस्टर पर किया गया था, जो बड़े बैच आकार और उच्च-आयामी विशेषता स्थान को कुशलता से संभालने की अनुमति देता है। अरबी की रूपविज्ञान संबंधी समृद्ध संरचना के टोकनकरण के लिए, टीम ने अपने कस्टम कॉर्पस पर विशेष रूप से प्रशिक्षित सेंटेंसपीस टोकनाइज़र का उपयोग किया, जिसके परिणामस्वरूप 1,024 उप-शब्द इकाइयों का शब्दावली हुआ।

पारंपरिक पर्यवेक्षित एएसआर प्रशिक्षण के विपरीत, जिसमें आमतौर पर प्रत्येक ऑडियो क्लिप को सावधानी से ट्रांसक्राइब किए गए लेबल के साथ जोड़ा जाना चाहिए, CNTXT की विधि पूरी तरह से कमजोर लेबल पर संचालित होती है। इन लेबल, हालांकि मानव-सत्यापित लोगों की तुलना में अधिक शोर वाले हैं, सर्वसम्मति, व्याकरणिक संगति और शब्द संभावना को प्राथमिकता देने वाली एक फीडबैक लूप के माध्यम से अनुकूलित किए गए थे। मॉडल को कनेक्शनिस्ट टेम्पोरल क्लासिफिकेशन (सीटीसी) हानि फ़ंक्शन का उपयोग करके प्रशिक्षित किया गया था, जो असिंक्रोनस सीक्वेंस मॉडलिंग – भाषण मान्यता कार्यों के लिए महत्वपूर्ण है जहां बोले गए शब्दों का समय परिवर्तनशील और अप्रत्याशित होता है।

बेंचमार्क पर हावी

परिणाम खुद बोलते हैं। Munsit का परीक्षण छह बेंचमार्क अरबी डेटासेट पर किया गया था: SADA, Common Voice 18.0, MASC (साफ और शोर वाला), MGB-2, और Casablanca। ये डेटासेट सामूहिक रूप से अरब दुनिया भर में दर्जनों बोलियों और उच्चारण को कवर करते हैं, सऊदी अरब से मोरक्को तक।

सभी बेंचमार्क पर, Munsit-1 ने एक औसत शब्द त्रुटि दर (WER) 26.68 और एक औसत अक्षर त्रुटि दर (CER) 10.05 हासिल की। तुलना में, OpenAI के Whisper के सर्वश्रेष्ठ प्रदर्शन वाले संस्करण ने एक औसत WER 36.86 और CER 17.21 दर्ज किया। Meta का SeamlessM4T, एक और राज्य-ऑफ-द-आर्ट बहुभाषी मॉडल, और भी अधिक था। Munsit ने साफ और शोर वाले दोनों डेटा पर हर अन्य प्रणाली को पीछे छोड़ दिया और शोर वाली स्थितियों में विशेष रूप से मजबूत लचीलापन प्रदर्शित किया, जो कॉल सेंटर और सार्वजनिक सेवाओं जैसे वास्तविक दुनिया के अनुप्रयोगों के लिए एक महत्वपूर्ण कारक है।

प्रोप्राइटरी सिस्टम के खिलाफ अंतर उतना ही चौंकाने वाला था। Munsit ने Microsoft Azure के अरबी एएसआर मॉडल, ElevenLabs Scribe, और यहां तक कि OpenAI के GPT-4o ट्रांसक्राइब फीचर को भी पीछे छोड़ दिया। ये परिणाम हाशिए की जीत नहीं हैं – वे खुले बेसलाइन की तुलना में WER में 23.19% और CER में 24.78% की औसत सापेक्ष सुधार का प्रतिनिधित्व करते हैं, जो Munsit को अरबी भाषण मान्यता में स्पष्ट नेता के रूप में स्थापित करता है।

अरबी वॉयस एआई के भविष्य के लिए एक मंच

जबकि Munsit-1 पहले से ही अरबी बोलने वाले बाजारों में प्रतिलेखन, उपशीर्षक और ग्राहक समर्थन की संभावनाओं को बदल रहा है, CNTXT AI इस लॉन्च को केवल शुरुआत के रूप में देखता है। कंपनी अरबी भाषा की पूरी श्रृंखला की कल्पना करती है वॉयस प्रौद्योगिकी, जिसमें टेक्स्ट-टू-स्पीच, वॉयस असिस्टेंट और रियल-टाइम अनुवाद प्रणाली शामिल हैं – सभी संप्रभु बुनियादी ढांचे और क्षेत्रीय रूप से प्रासंगिक एआई में निहित।

“Munsit केवल भाषण मान्यता में एक सफलता से अधिक है,” CNTXT AI के सीईओ मोहम्मद अबू शेख ने कहा। “यह एक घोषणा है कि अरबी वैश्विक एआई के अग्रभाग में होना चाहिए। हमने साबित किया है कि विश्व-स्तरीय एआई को आयात करने की आवश्यकता नहीं है – इसे यहां बनाया जा सकता है, अरबी के लिए, अरबी में।”

क्षेत्र-विशिष्ट मॉडल जैसे Munsit के उदय के साथ, एआई उद्योग एक नए युग में प्रवेश कर रहा है – एक ऐसा युग जहां भाषाई और सांस्कृतिक प्रासंगिकता तकनीकी उत्कृष्टता के पीछे नहीं छोड़ी जाती है। वास्तव में, Munsit के साथ, CNTXT AI ने दिखाया है कि वे एक ही चीज़ हैं।

Antoine Tardif, CEO & Founder of Unite.AI

एंटोनी एक दूरदर्शी नेता और Unite.AI के संस्थापक भागीदार हैं, जो कि एआई और रोबोटिक्स के भविष्य को आकार देने और बढ़ावा देने के लिए एक अटूट जुनून से प्रेरित हैं। एक श्रृंखला उद्यमी, वह मानता है कि एआई समाज के लिए उतना ही विघटनकारी होगा जितना कि बिजली, और अक्सर विघटनकारी प्रौद्योगिकियों और एजीआई की संभावना के बारे में उत्साहित होता है।

एक फ्यूचरिस्ट के रूप में, वह इन नवाचारों के माध्यम से हमारी दुनिया को आकार देने की खोज में समर्पित है। इसके अलावा, वह सिक्योरिटीज़.io के संस्थापक हैं, एक मंच जो भविष्य को फिर से परिभाषित करने और पूरे क्षेत्रों को फिर से आकार देने वाली अत्याधुनिक प्रौद्योगिकियों में निवेश पर केंद्रित है।

Unite.AI

CNTXT AI ने Munsit लॉन्च किया: अब तक बनाया गया सबसे सटीक अरबी भाषण मान्यता प्रणाली

अरबी एएसआर में डेटा सूखा पार करना

Munsit को शक्ति प्रदान करना: कॉन्फ़ॉर्मर आर्किटेक्चर

बेंचमार्क पर हावी

अरबी वॉयस एआई के भविष्य के लिए एक मंच

You may like