рдХреГрддреНрд░рд┐рдо рдмреБрджреНрдзрд┐рдорддреНрддрд╛
CNTXT AI рдиреЗ Munsit рд▓реЙрдиреНрдЪ рдХрд┐рдпрд╛: рдЕрдм рддрдХ рдмрдирд╛рдпрд╛ рдЧрдпрд╛ рд╕рдмрд╕реЗ рд╕рдЯреАрдХ рдЕрд░рдмреА рднрд╛рд╖рдг рдорд╛рдиреНрдпрддрд╛ рдкреНрд░рдгрд╛рд▓реА

अरबी भाषा की कृत्रिम बुद्धिमत्ता के लिए एक निर्णायक क्षण में, CNTXT AI ने Munsit का अनावरण किया, एक अगली पीढ़ी का अरबी भाषण मान्यता मॉडल जो न केवल अरबी के लिए अब तक बनाया गया सबसे सटीक है, बल्कि यह मानक बेंचमार्क पर OpenAI, Meta, Microsoft और ElevenLabs जैसे वैश्विक दिग्गजों को पीछे छोड़ देता है। संयुक्त अरब अमीरात में विकसित और अरबी के लिए जमीन से ऊपर से तैयार किया गया, Munsit CNTXT द्वारा “संप्रभु AI” की ओर एक शक्तिशाली कदम का प्रतिनिधित्व करता है – तकनीक जो क्षेत्र में निर्मित है, क्षेत्र के लिए, लेकिन वैश्विक प्रतिस्पर्धा के साथ।
इस उपलब्धि की वैज्ञानिक नींव टीम के हाल ही में प्रकाशित पत्र में निहित है, “अरबी भाषण मान्यता को बड़े पैमाने पर कमजोर पर्यवेक्षित शिक्षा के माध्यम से आगे बढ़ाना“, जो अरबी भाषण डेटा की दीर्घकालिक कमी को संबोधित करने के लिए एक मापनीय, डेटा-कुशल प्रशिक्षण विधि पेश करता है। उस विधि – कमजोर पर्यवेक्षित शिक्षा – ने टीम को एक प्रणाली का निर्माण करने में सक्षम बनाया है जो आधुनिक मानक अरबी (MSA) और 25 से अधिक क्षेत्रीय बोलियों दोनों में प्रतिलेखन गुणवत्ता के लिए एक नया बेंचमार्क स्थापित करता है।
अरबी एएसआर में डेटा सूखा पार करना
अरबी, वैश्विक स्तर पर सबसे व्यापक बोली जाने वाली भाषाओं में से एक होने और संयुक्त राष्ट्र की आधिकारिक भाषा होने के बावजूद, भाषण मान्यता के क्षेत्र में यह लंबे समय से एक कम संसाधन वाली भाषा मानी जाती रही है। यह इसकी रूपविज्ञान संबंधी जटिलता और बड़े, विविध, लेबल वाले भाषण डेटासेट की कमी के कारण है। अंग्रेजी के विपरीत, जो मैन्युअल रूप से ट्रांसक्राइब किए गए ऑडियो डेटा के अनगिनत घंटों से लाभान्वित होता है, अरबी की बोली की समृद्धि और डिजिटल उपस्थिति के टुकड़े-टुकड़े होने ने मजबूत स्वचालित भाषण मान्यता (एएसआर) प्रणालियों के निर्माण के लिए महत्वपूर्ण चुनौतियां पेश की हैं।
मैनुअल ट्रांसक्रिप्शन की धीमी और महंगी प्रक्रिया की प्रतीक्षा करने के बजाय, CNTXT AI ने एक क्रांतिकारी रूप से अधिक मापनीय मार्ग का पीछा किया: कमजोर पर्यवेक्षण। उनका दृष्टिकोण विभिन्न स्रोतों से एकत्र किए गए 30,000 घंटे से अधिक के अनलेबल्ड अरबी ऑडियो कॉर्पस के साथ शुरू हुआ। एक कस्टम-निर्मित डेटा प्रोसेसिंग पाइपलाइन के माध्यम से, इस कच्चे ऑडियो को साफ, खंडित और स्वचालित रूप से लेबल किया गया ताकि एक उच्च-गुणवत्ता वाला 15,000-घंटे का प्रशिक्षण डेटासेट तैयार किया जा सके – अरबी भाषण कॉर्पस में से एक सबसे बड़ा और सबसे प्रतिनिधि।
इस प्रक्रिया में मानव अभिलेखन पर निर्भरता नहीं थी। इसके बजाय, CNTXT ने एक बहु-चरण प्रणाली विकसित की जो कई एएसआर मॉडल से परिकल्पनाओं को उत्पन्न करने, मूल्यांकन करने और फ़िल्टर करने के लिए। इन प्रतिलिपियों की तुलना लेवेनस्टीन दूरी का उपयोग करके की गई थी ताकि सबसे संगत परिकल्पनाओं का चयन किया जा सके, फिर एक भाषा मॉडल के माध्यम से उनकी व्याकरणिक संभावना का मूल्यांकन किया जा सके। जो खंड परिभाषित गुणवत्ता सीमा को पूरा नहीं करते थे उन्हें हटा दिया गया, यह सुनिश्चित करते हुए कि मानव सत्यापन के बिना भी, प्रशिक्षण डेटा विश्वसनीय रहा। टीम ने इस पाइपलाइन को कई पुनरावृत्तियों के माध्यम से परिष्कृत किया, प्रत्येक बार प्रशिक्षण डेटा में लेबल सटीकता में सुधार किया और इसे प्रशिक्षण प्रक्रिया में वापस फीड किया।
Munsit को शक्ति प्रदान करना: कॉन्फ़ॉर्मर आर्किटेक्चर
Munsit के दिल में कॉन्फ़ॉर्मर मॉडल है, एक हाइब्रिड न्यूरल नेटवर्क आर्किटेक्चर जो स्थानीय संवेदनशीलता के लिए संयोजनी परतों की क्षमता को वैश्विक क्रम मॉडलिंग क्षमताओं के साथ जोड़ती है। यह डिज़ाइन कॉन्फ़ॉर्मर को विशेष रूप से बोली जाने वाली भाषा की बारीकियों को संभालने में सक्षम बनाता है, जहां दोनों लंबी दूरी की निर्भरताएं (जैसे वाक्य संरचना) और फाइन-ग्रेनेड फोनेटिक विवरण महत्वपूर्ण हैं।
CNTXT AI ने कॉन्फ़ॉर्मर का एक बड़ा संस्करण लागू किया, जिसे 80-चैनल मेल-स्पेक्ट्रोग्राम का उपयोग करके शुरू से प्रशिक्षित किया गया था। मॉडल में 18 परतें शामिल हैं और लगभग 121 मिलियन पैरामीटर हैं। प्रशिक्षण आठ NVIDIA A100 GPUs के साथ एक उच्च-प्रदर्शन क्लस्टर पर किया गया था, जो बड़े बैच आकार और उच्च-आयामी विशेषता स्थान को कुशलता से संभालने की अनुमति देता है। अरबी की रूपविज्ञान संबंधी समृद्ध संरचना के टोकनकरण के लिए, टीम ने अपने कस्टम कॉर्पस पर विशेष रूप से प्रशिक्षित सेंटेंसपीस टोकनाइज़र का उपयोग किया, जिसके परिणामस्वरूप 1,024 उप-शब्द इकाइयों का शब्दावली हुआ।
पारंपरिक पर्यवेक्षित एएसआर प्रशिक्षण के विपरीत, जिसमें आमतौर पर प्रत्येक ऑडियो क्लिप को सावधानी से ट्रांसक्राइब किए गए लेबल के साथ जोड़ा जाना चाहिए, CNTXT की विधि पूरी तरह से कमजोर लेबल पर संचालित होती है। इन लेबल, हालांकि मानव-सत्यापित लोगों की तुलना में अधिक शोर वाले हैं, सर्वसम्मति, व्याकरणिक संगति और शब्द संभावना को प्राथमिकता देने वाली एक फीडबैक लूप के माध्यम से अनुकूलित किए गए थे। मॉडल को कनेक्शनिस्ट टेम्पोरल क्लासिफिकेशन (सीटीसी) हानि फ़ंक्शन का उपयोग करके प्रशिक्षित किया गया था, जो असिंक्रोनस सीक्वेंस मॉडलिंग – भाषण मान्यता कार्यों के लिए महत्वपूर्ण है जहां बोले गए शब्दों का समय परिवर्तनशील और अप्रत्याशित होता है।
बेंचमार्क पर हावी
परिणाम खुद बोलते हैं। Munsit का परीक्षण छह बेंचमार्क अरबी डेटासेट पर किया गया था: SADA, Common Voice 18.0, MASC (साफ और शोर वाला), MGB-2, और Casablanca। ये डेटासेट सामूहिक रूप से अरब दुनिया भर में दर्जनों बोलियों और उच्चारण को कवर करते हैं, सऊदी अरब से मोरक्को तक।
सभी बेंचमार्क पर, Munsit-1 ने एक औसत शब्द त्रुटि दर (WER) 26.68 और एक औसत अक्षर त्रुटि दर (CER) 10.05 हासिल की। तुलना में, OpenAI के Whisper के सर्वश्रेष्ठ प्रदर्शन वाले संस्करण ने एक औसत WER 36.86 और CER 17.21 दर्ज किया। Meta का SeamlessM4T, एक और राज्य-ऑफ-द-आर्ट बहुभाषी मॉडल, और भी अधिक था। Munsit ने साफ और शोर वाले दोनों डेटा पर हर अन्य प्रणाली को पीछे छोड़ दिया और शोर वाली स्थितियों में विशेष रूप से मजबूत लचीलापन प्रदर्शित किया, जो कॉल सेंटर और सार्वजनिक सेवाओं जैसे वास्तविक दुनिया के अनुप्रयोगों के लिए एक महत्वपूर्ण कारक है।
प्रोप्राइटरी सिस्टम के खिलाफ अंतर उतना ही चौंकाने वाला था। Munsit ने Microsoft Azure के अरबी एएसआर मॉडल, ElevenLabs Scribe, और यहां तक कि OpenAI के GPT-4o ट्रांसक्राइब फीचर को भी पीछे छोड़ दिया। ये परिणाम हाशिए की जीत नहीं हैं – वे खुले बेसलाइन की तुलना में WER में 23.19% और CER में 24.78% की औसत सापेक्ष सुधार का प्रतिनिधित्व करते हैं, जो Munsit को अरबी भाषण मान्यता में स्पष्ट नेता के रूप में स्थापित करता है।
अरबी वॉयस एआई के भविष्य के लिए एक मंच
जबकि Munsit-1 पहले से ही अरबी बोलने वाले बाजारों में प्रतिलेखन, उपशीर्षक और ग्राहक समर्थन की संभावनाओं को बदल रहा है, CNTXT AI इस लॉन्च को केवल शुरुआत के रूप में देखता है। कंपनी अरबी भाषा की पूरी श्रृंखला की कल्पना करती है वॉयस प्रौद्योगिकी, जिसमें टेक्स्ट-टू-स्पीच, वॉयस असिस्टेंट और रियल-टाइम अनुवाद प्रणाली शामिल हैं – सभी संप्रभु बुनियादी ढांचे और क्षेत्रीय रूप से प्रासंगिक एआई में निहित।
“Munsit केवल भाषण मान्यता में एक सफलता से अधिक है,” CNTXT AI के सीईओ मोहम्मद अबू शेख ने कहा। “यह एक घोषणा है कि अरबी वैश्विक एआई के अग्रभाग में होना चाहिए। हमने साबित किया है कि विश्व-स्तरीय एआई को आयात करने की आवश्यकता नहीं है – इसे यहां बनाया जा सकता है, अरबी के लिए, अरबी में।”
क्षेत्र-विशिष्ट मॉडल जैसे Munsit के उदय के साथ, एआई उद्योग एक नए युग में प्रवेश कर रहा है – एक ऐसा युग जहां भाषाई और सांस्कृतिक प्रासंगिकता तकनीकी उत्कृष्टता के पीछे नहीं छोड़ी जाती है। वास्तव में, Munsit के साथ, CNTXT AI ने दिखाया है कि वे एक ही चीज़ हैं।










