Connect with us

CNTXT AI рдиреЗ Munsit рд▓реЙрдиреНрдЪ рдХрд┐рдпрд╛: рдЕрдм рддрдХ рдмрдирд╛рдпрд╛ рдЧрдпрд╛ рд╕рдмрд╕реЗ рд╕рдЯреАрдХ рдЕрд░рдмреА рднрд╛рд╖рдг рдорд╛рдиреНрдпрддрд╛ рдкреНрд░рдгрд╛рд▓реА

рдХреГрддреНрд░рд┐рдо рдмреБрджреНрдзрд┐рдорддреНрддрд╛

CNTXT AI рдиреЗ Munsit рд▓реЙрдиреНрдЪ рдХрд┐рдпрд╛: рдЕрдм рддрдХ рдмрдирд╛рдпрд╛ рдЧрдпрд╛ рд╕рдмрд╕реЗ рд╕рдЯреАрдХ рдЕрд░рдмреА рднрд╛рд╖рдг рдорд╛рдиреНрдпрддрд╛ рдкреНрд░рдгрд╛рд▓реА

mm

अरबी भाषा की कृत्रिम बुद्धिमत्ता के लिए एक निर्णायक क्षण में, CNTXT AI ने Munsit का अनावरण किया, एक अगली पीढ़ी का अरबी भाषण मान्यता मॉडल जो न केवल अरबी के लिए अब तक बनाया गया सबसे सटीक है, बल्कि यह मानक बेंचमार्क पर OpenAI, Meta, Microsoft और ElevenLabs जैसे वैश्विक दिग्गजों को पीछे छोड़ देता है। संयुक्त अरब अमीरात में विकसित और अरबी के लिए जमीन से ऊपर से तैयार किया गया, Munsit CNTXT द्वारा “संप्रभु AI” की ओर एक शक्तिशाली कदम का प्रतिनिधित्व करता है – तकनीक जो क्षेत्र में निर्मित है, क्षेत्र के लिए, लेकिन वैश्विक प्रतिस्पर्धा के साथ।

इस उपलब्धि की वैज्ञानिक नींव टीम के हाल ही में प्रकाशित पत्र में निहित है, अरबी भाषण मान्यता को बड़े पैमाने पर कमजोर पर्यवेक्षित शिक्षा के माध्यम से आगे बढ़ाना, जो अरबी भाषण डेटा की दीर्घकालिक कमी को संबोधित करने के लिए एक मापनीय, डेटा-कुशल प्रशिक्षण विधि पेश करता है। उस विधि – कमजोर पर्यवेक्षित शिक्षा – ने टीम को एक प्रणाली का निर्माण करने में सक्षम बनाया है जो आधुनिक मानक अरबी (MSA) और 25 से अधिक क्षेत्रीय बोलियों दोनों में प्रतिलेखन गुणवत्ता के लिए एक नया बेंचमार्क स्थापित करता है।

अरबी एएसआर में डेटा सूखा पार करना

अरबी, वैश्विक स्तर पर सबसे व्यापक बोली जाने वाली भाषाओं में से एक होने और संयुक्त राष्ट्र की आधिकारिक भाषा होने के बावजूद, भाषण मान्यता के क्षेत्र में यह लंबे समय से एक कम संसाधन वाली भाषा मानी जाती रही है। यह इसकी रूपविज्ञान संबंधी जटिलता और बड़े, विविध, लेबल वाले भाषण डेटासेट की कमी के कारण है। अंग्रेजी के विपरीत, जो मैन्युअल रूप से ट्रांसक्राइब किए गए ऑडियो डेटा के अनगिनत घंटों से लाभान्वित होता है, अरबी की बोली की समृद्धि और डिजिटल उपस्थिति के टुकड़े-टुकड़े होने ने मजबूत स्वचालित भाषण मान्यता (एएसआर) प्रणालियों के निर्माण के लिए महत्वपूर्ण चुनौतियां पेश की हैं।

मैनुअल ट्रांसक्रिप्शन की धीमी और महंगी प्रक्रिया की प्रतीक्षा करने के बजाय, CNTXT AI ने एक क्रांतिकारी रूप से अधिक मापनीय मार्ग का पीछा किया: कमजोर पर्यवेक्षण। उनका दृष्टिकोण विभिन्न स्रोतों से एकत्र किए गए 30,000 घंटे से अधिक के अनलेबल्ड अरबी ऑडियो कॉर्पस के साथ शुरू हुआ। एक कस्टम-निर्मित डेटा प्रोसेसिंग पाइपलाइन के माध्यम से, इस कच्चे ऑडियो को साफ, खंडित और स्वचालित रूप से लेबल किया गया ताकि एक उच्च-गुणवत्ता वाला 15,000-घंटे का प्रशिक्षण डेटासेट तैयार किया जा सके – अरबी भाषण कॉर्पस में से एक सबसे बड़ा और सबसे प्रतिनिधि।

इस प्रक्रिया में मानव अभिलेखन पर निर्भरता नहीं थी। इसके बजाय, CNTXT ने एक बहु-चरण प्रणाली विकसित की जो कई एएसआर मॉडल से परिकल्पनाओं को उत्पन्न करने, मूल्यांकन करने और फ़िल्टर करने के लिए। इन प्रतिलिपियों की तुलना लेवेनस्टीन दूरी का उपयोग करके की गई थी ताकि सबसे संगत परिकल्पनाओं का चयन किया जा सके, फिर एक भाषा मॉडल के माध्यम से उनकी व्याकरणिक संभावना का मूल्यांकन किया जा सके। जो खंड परिभाषित गुणवत्ता सीमा को पूरा नहीं करते थे उन्हें हटा दिया गया, यह सुनिश्चित करते हुए कि मानव सत्यापन के बिना भी, प्रशिक्षण डेटा विश्वसनीय रहा। टीम ने इस पाइपलाइन को कई पुनरावृत्तियों के माध्यम से परिष्कृत किया, प्रत्येक बार प्रशिक्षण डेटा में लेबल सटीकता में सुधार किया और इसे प्रशिक्षण प्रक्रिया में वापस फीड किया।

Munsit को शक्ति प्रदान करना: कॉन्फ़ॉर्मर आर्किटेक्चर

Munsit के दिल में कॉन्फ़ॉर्मर मॉडल है, एक हाइब्रिड न्यूरल नेटवर्क आर्किटेक्चर जो स्थानीय संवेदनशीलता के लिए संयोजनी परतों की क्षमता को वैश्विक क्रम मॉडलिंग क्षमताओं के साथ जोड़ती है। यह डिज़ाइन कॉन्फ़ॉर्मर को विशेष रूप से बोली जाने वाली भाषा की बारीकियों को संभालने में सक्षम बनाता है, जहां दोनों लंबी दूरी की निर्भरताएं (जैसे वाक्य संरचना) और फाइन-ग्रेनेड फोनेटिक विवरण महत्वपूर्ण हैं।

CNTXT AI ने कॉन्फ़ॉर्मर का एक बड़ा संस्करण लागू किया, जिसे 80-चैनल मेल-स्पेक्ट्रोग्राम का उपयोग करके शुरू से प्रशिक्षित किया गया था। मॉडल में 18 परतें शामिल हैं और लगभग 121 मिलियन पैरामीटर हैं। प्रशिक्षण आठ NVIDIA A100 GPUs के साथ एक उच्च-प्रदर्शन क्लस्टर पर किया गया था, जो बड़े बैच आकार और उच्च-आयामी विशेषता स्थान को कुशलता से संभालने की अनुमति देता है। अरबी की रूपविज्ञान संबंधी समृद्ध संरचना के टोकनकरण के लिए, टीम ने अपने कस्टम कॉर्पस पर विशेष रूप से प्रशिक्षित सेंटेंसपीस टोकनाइज़र का उपयोग किया, जिसके परिणामस्वरूप 1,024 उप-शब्द इकाइयों का शब्दावली हुआ।

पारंपरिक पर्यवेक्षित एएसआर प्रशिक्षण के विपरीत, जिसमें आमतौर पर प्रत्येक ऑडियो क्लिप को सावधानी से ट्रांसक्राइब किए गए लेबल के साथ जोड़ा जाना चाहिए, CNTXT की विधि पूरी तरह से कमजोर लेबल पर संचालित होती है। इन लेबल, हालांकि मानव-सत्यापित लोगों की तुलना में अधिक शोर वाले हैं, सर्वसम्मति, व्याकरणिक संगति और शब्द संभावना को प्राथमिकता देने वाली एक फीडबैक लूप के माध्यम से अनुकूलित किए गए थे। मॉडल को कनेक्शनिस्ट टेम्पोरल क्लासिफिकेशन (सीटीसी) हानि फ़ंक्शन का उपयोग करके प्रशिक्षित किया गया था, जो असिंक्रोनस सीक्वेंस मॉडलिंग – भाषण मान्यता कार्यों के लिए महत्वपूर्ण है जहां बोले गए शब्दों का समय परिवर्तनशील और अप्रत्याशित होता है।

बेंचमार्क पर हावी

परिणाम खुद बोलते हैं। Munsit का परीक्षण छह बेंचमार्क अरबी डेटासेट पर किया गया था: SADA, Common Voice 18.0, MASC (साफ और शोर वाला), MGB-2, और Casablanca। ये डेटासेट सामूहिक रूप से अरब दुनिया भर में दर्जनों बोलियों और उच्चारण को कवर करते हैं, सऊदी अरब से मोरक्को तक।

सभी बेंचमार्क पर, Munsit-1 ने एक औसत शब्द त्रुटि दर (WER) 26.68 और एक औसत अक्षर त्रुटि दर (CER) 10.05 हासिल की। तुलना में, OpenAI के Whisper के सर्वश्रेष्ठ प्रदर्शन वाले संस्करण ने एक औसत WER 36.86 और CER 17.21 दर्ज किया। Meta का SeamlessM4T, एक और राज्य-ऑफ-द-आर्ट बहुभाषी मॉडल, और भी अधिक था। Munsit ने साफ और शोर वाले दोनों डेटा पर हर अन्य प्रणाली को पीछे छोड़ दिया और शोर वाली स्थितियों में विशेष रूप से मजबूत लचीलापन प्रदर्शित किया, जो कॉल सेंटर और सार्वजनिक सेवाओं जैसे वास्तविक दुनिया के अनुप्रयोगों के लिए एक महत्वपूर्ण कारक है।

प्रोप्राइटरी सिस्टम के खिलाफ अंतर उतना ही चौंकाने वाला था। Munsit ने Microsoft Azure के अरबी एएसआर मॉडल, ElevenLabs Scribe, और यहां तक कि OpenAI के GPT-4o ट्रांसक्राइब फीचर को भी पीछे छोड़ दिया। ये परिणाम हाशिए की जीत नहीं हैं – वे खुले बेसलाइन की तुलना में WER में 23.19% और CER में 24.78% की औसत सापेक्ष सुधार का प्रतिनिधित्व करते हैं, जो Munsit को अरबी भाषण मान्यता में स्पष्ट नेता के रूप में स्थापित करता है।

अरबी वॉयस एआई के भविष्य के लिए एक मंच

जबकि Munsit-1 पहले से ही अरबी बोलने वाले बाजारों में प्रतिलेखन, उपशीर्षक और ग्राहक समर्थन की संभावनाओं को बदल रहा है, CNTXT AI इस लॉन्च को केवल शुरुआत के रूप में देखता है। कंपनी अरबी भाषा की पूरी श्रृंखला की कल्पना करती है वॉयस प्रौद्योगिकी, जिसमें टेक्स्ट-टू-स्पीच, वॉयस असिस्टेंट और रियल-टाइम अनुवाद प्रणाली शामिल हैं – सभी संप्रभु बुनियादी ढांचे और क्षेत्रीय रूप से प्रासंगिक एआई में निहित।

“Munsit केवल भाषण मान्यता में एक सफलता से अधिक है,” CNTXT AI के सीईओ मोहम्मद अबू शेख ने कहा। “यह एक घोषणा है कि अरबी वैश्विक एआई के अग्रभाग में होना चाहिए। हमने साबित किया है कि विश्व-स्तरीय एआई को आयात करने की आवश्यकता नहीं है – इसे यहां बनाया जा सकता है, अरबी के लिए, अरबी में।”

क्षेत्र-विशिष्ट मॉडल जैसे Munsit के उदय के साथ, एआई उद्योग एक नए युग में प्रवेश कर रहा है – एक ऐसा युग जहां भाषाई और सांस्कृतिक प्रासंगिकता तकनीकी उत्कृष्टता के पीछे नहीं छोड़ी जाती है। वास्तव में, Munsit के साथ, CNTXT AI ने दिखाया है कि वे एक ही चीज़ हैं।

рдПрдВрдЯреЛрдиреА рдПрдХ рджреВрд░рджрд░реНрд╢реА рдиреЗрддрд╛ рдФрд░ Unite.AI рдХреЗ рд╕рдВрд╕реНрдерд╛рдкрдХ рднрд╛рдЧреАрджрд╛рд░ рд╣реИрдВ, рдЬреЛ рдХрд┐ рдПрдЖрдИ рдФрд░ рд░реЛрдмреЛрдЯрд┐рдХреНрд╕ рдХреЗ рднрд╡рд┐рд╖реНрдп рдХреЛ рдЖрдХрд╛рд░ рджреЗрдиреЗ рдФрд░ рдмрдврд╝рд╛рд╡рд╛ рджреЗрдиреЗ рдХреЗ рд▓рд┐рдП рдПрдХ рдЕрдЯреВрдЯ рдЬреБрдиреВрди рд╕реЗ рдкреНрд░реЗрд░рд┐рдд рд╣реИрдВред рдПрдХ рд╢реНрд░реГрдВрдЦрд▓рд╛ рдЙрджреНрдпрдореА, рд╡рд╣ рдорд╛рдирддрд╛ рд╣реИ рдХрд┐ рдПрдЖрдИ рд╕рдорд╛рдЬ рдХреЗ рд▓рд┐рдП рдЙрддрдирд╛ рд╣реА рд╡рд┐рдШрдЯрдирдХрд╛рд░реА рд╣реЛрдЧрд╛ рдЬрд┐рддрдирд╛ рдХрд┐ рдмрд┐рдЬрд▓реА, рдФрд░ рдЕрдХреНрд╕рд░ рд╡рд┐рдШрдЯрдирдХрд╛рд░реА рдкреНрд░реМрджреНрдпреЛрдЧрд┐рдХрд┐рдпреЛрдВ рдФрд░ рдПрдЬреАрдЖрдИ рдХреА рд╕рдВрднрд╛рд╡рдирд╛ рдХреЗ рдмрд╛рд░реЗ рдореЗрдВ рдЙрддреНрд╕рд╛рд╣рд┐рдд рд╣реЛрддрд╛ рд╣реИред

рдПрдХ рдлреНрдпреВрдЪрд░рд┐рд╕реНрдЯ рдХреЗ рд░реВрдк рдореЗрдВ, рд╡рд╣ рдЗрди рдирд╡рд╛рдЪрд╛рд░реЛрдВ рдХреЗ рдорд╛рдзреНрдпрдо рд╕реЗ рд╣рдорд╛рд░реА рджреБрдирд┐рдпрд╛ рдХреЛ рдЖрдХрд╛рд░ рджреЗрдиреЗ рдХреА рдЦреЛрдЬ рдореЗрдВ рд╕рдорд░реНрдкрд┐рдд рд╣реИред рдЗрд╕рдХреЗ рдЕрд▓рд╛рд╡рд╛, рд╡рд╣ рд╕рд┐рдХреНрдпреЛрд░рд┐рдЯреАрдЬрд╝.io рдХреЗ рд╕рдВрд╕реНрдерд╛рдкрдХ рд╣реИрдВ, рдПрдХ рдордВрдЪ рдЬреЛ рднрд╡рд┐рд╖реНрдп рдХреЛ рдлрд┐рд░ рд╕реЗ рдкрд░рд┐рднрд╛рд╖рд┐рдд рдХрд░рдиреЗ рдФрд░ рдкреВрд░реЗ рдХреНрд╖реЗрддреНрд░реЛрдВ рдХреЛ рдлрд┐рд░ рд╕реЗ рдЖрдХрд╛рд░ рджреЗрдиреЗ рд╡рд╛рд▓реА рдЕрддреНрдпрд╛рдзреБрдирд┐рдХ рдкреНрд░реМрджреНрдпреЛрдЧрд┐рдХрд┐рдпреЛрдВ рдореЗрдВ рдирд┐рд╡реЗрд╢ рдкрд░ рдХреЗрдВрджреНрд░рд┐рдд рд╣реИред