الذكاء الاصطناعي
إطلاق CNTXT AI لمنصة Munsit: أكثر نظام تحويل كلام إلى نص دقيق باللغة العربية

في لحظة حاسمة للغة العربية في مجال الذكاء الاصطناعي، أعلنت CNTXT AI عن إطلاق Munsit، وهو نموذج تحويل كلام إلى نص باللغة العربية من الجيل التالي، والذي لا يعتبر فقط الأكثر دقة على الإطلاق لمعالجة اللغة العربية، بل أيضاً يتفوق بشكل حاسم على عمالقة عالمية مثل OpenAI و Meta و Microsoft و ElevenLabs في المعايير القياسية. تم تطوير Munsit في الإمارات العربية المتحدة وتصميمه خصيصاً للغة العربية من البداية، ويمثل خطوة قوية إلى الأمام في ما يسميه CNTXT بـ “الذكاء الاصطناعي السيادي” – التكنولوجيا التي يتم بناؤها في المنطقة، من أجل المنطقة، مع التنافس العالمي.
تُحدد الأسس العلمية لهذا الإنجاز في ورقة الفريق المنشورة حديثاً، “تطوير معالجة الكلام باللغة العربية من خلال التعلم الضعيف على نطاق واسع“، والتي تقدم طريقة تدريب قابلة للتطوير وذات كفاءة في البيانات، والتي تُعالج النقص الطويل الأمد في بيانات الكلام باللغة العربية المُصنفة. هذه الطريقة – التعلم الضعيف – مكن الفريق من بناء نظام يُحدد معياراً جديداً لجودة النسخ عبر اللغة العربية الفصحى (MSA) وأكثر من 25 لهجة إقليمية.
تجاوز جفاف البيانات في معالجة الكلام باللغة العربية
اللغة العربية، على الرغم من كونها واحدة من أكثر اللغات تحدثاً في العالم ولغة رسمية للأمم المتحدة، تعتبر لغة منخفضة الموارد في مجال معالجة الكلام. هذا يعود إلى تعقيداتها النحوية وندرة مجموعات بيانات الكلام الكبيرة والمتنوعة والمصنفة. على عكس اللغة الإنجليزية، التي تستفيد من ساعات لا حصر لها من بيانات الصوت المنسوخة يدوياً، فإن ثراء اللهجات العربية وتواجدها الرقمي المتناثر قد مثّل تحديات كبيرة في بناء أنظمة معالجة كلام آلية قوية.
بدلاً من الانتظار لعملية النسخ اليدوية البطيئة والمكلفة لتحقيق التقدم، اتبع CNTXT AI مساراً أكثر قابلية للتطوير: الإشراف الضعيف. بدأ نهجهم ببناء مجموعة هائلة من أكثر من 30,000 ساعة من بيانات الصوت العربية غير المُصنفة، التي جمعت من مصادر متنوعة. من خلال خط أنابيب معالجة البيانات المخصصة، تم تنظيف هذا الصوت الخام وتنقيته وتحويله تلقائياً إلى مجموعة بيانات تدريبية عالية الجودة تبلغ 15,000 ساعة – واحدة من أكبر وأشمل مجموعات بيانات الكلام العربية التي جمعت على الإطلاق.
لم يعتمد هذا العملية على التعليقات البشرية. بدلاً من ذلك، طور CNTXT نظاماً متعددة المراحل لإنشاء وتقييم وتصفية الفرضيات من نماذج معالجة الكلام المتعددة. تمت مقارنة هذه النسخ عبر مسافة ليفينشتاين لاختيار الفرضيات الأكثر توافقاً، ثم تم تمريرها عبر نموذج لغوي لتقييم صحة النحو. تم إهمال المقاطع التي فشلت في تحقيق عتبات الجودة المحددة، مما ضمن أن البيانات التدريبية ظلت موثوقة حتى بدون التحقق البشري. لقد طور الفريق هذا الأنابيب من خلال عدة دورات، كل مرة يحسن دقة التسمية من خلال إعادة تدريب نظام معالجة الكلام نفسه وتمريره مرة أخرى في عملية التسمية.
تشغيل Munsit: معمارية Conformer
في قلب Munsit تقع معمارية Conformer، وهي شبكة عصبونية هجينة تجمع بين الحساسية المحلية لطبقات التconvolution والقدرة على نمذجة التسلسلات العالمية للتحويلات. هذا التصميم يجعل Conformer besonders قادراً على التعامل مع دقة لغة المنطوق، حيث تكون كلاً من التبعيات على المدى الطويل (مثل هيكل الجملة) والتفاصيل الصوتية الدقيقة حاسمة.
implemented CNTXT AI نسخة كبيرة من Conformer، وتم تدريبه من الصفر باستخدام mel-spectrograms 80 قناة كمدخلات. يتكون النموذج من 18 طبقة ويتضمن حوالي 121 مليون معامل. تم إجراء التدريب على مجموعة أداء عالية باستخدام ثمانية وحدات معالجة رسومات NVIDIA A100 بدقة bfloat16، مما سمح بمعالجة كفاءة لحجم الدفعات الكبيرة والفضاءات المميزة عالية الأبعاد. لتحويل الكلمات العربية ذات البنية النحوية الغنية، استخدم الفريق tokenizer SentencePiece مدرب خصيصاً على مجموعتهم المخصصة، مما أدى إلى مفردات تضم 1,024 وحدة فرعية.
على عكس التدريب الموجه التقليدي لمعالجة الكلام، الذي يتطلب عادةً أن يتم ربط كل مقطع صوتي مع تسمية محددة بدقة، عمل نهج CNTXT بالكامل على التسميات الضعيفة. تم تحسين هذه التسميات، على الرغم من كونها أكثر تشويشاً من التسميات المُحقق بها، من خلال حلقة تغذية راجعة أعتمدت على الإجماع والمنطق النحوي والمصداقية اللغوية. تم تدريب النموذج باستخدام دالة الخسارة Connectionist Temporal Classification (CTC)، التي تُعتبر مناسبة للغاية لنمذجة التسلسلات غير المُحاذاة – أمر حاسم لمهام معالجة الكلام حيث يكون وقت كلمات المنطوق متغيراً وغير متوقع.
التفوق على المعايير القياسية
النتائج تتحدث عن نفسها. تم اختبار Munsit ضد نماذج معالجة الكلام المفتوحة والمجانية الرائدة على ست مجموعات بيانات معايير قياسية باللغة العربية: SADA و Common Voice 18.0 و MASC (نظيفة ومضغوطة) و MGB-2 و Casablanca. هذه المجموعات تشمل مجتمعة عشرات اللهجات والمُنطقات عبر العالم العربي، من المملكة العربية السعودية إلى المغرب.
على جميع المعايير القياسية، حقق Munsit-1 معدل متوسط لخطأ الكلمة (WER) يبلغ 26.68 ومعدل خطأ الحرف (CER) يبلغ 10.05. بالمقارنة، سجلت النسخة الأفضل من نظام Whisper التابع لشركة OpenAI معدل WER متوسط يبلغ 36.86 ومعدل CER يبلغ 17.21. كما سجل نموذج SeamlessM4T التابع لشركة Meta، وهو نموذج متعدد اللغات متقدم، نتائج أعلى. تفوق Munsit على جميع الأنظمة الأخرى في كل من البيانات النظيفة والملتوية، وأظهر قوة خاصة في ظروف الضوضاء، وهو عاملاً حاسماً للتطبيقات الواقعية مثل مراكز الاتصال وخدمات عامة.
كان الفارق واضحاً أيضاً ضد الأنظمة المملوكة. تفوق Munsit على نماذج معالجة الكلام العربية التابعة لشركة Microsoft Azure و ElevenLabs Scribe، وحتى ميزة النسخ في GPT-4o التابعة لشركة OpenAI. هذه النتائج ليست مكاسب هامشية – إنها تمثل تحسناً نسبياً متوسطاً يبلغ 23.19% في معدل خطأ الكلمة و 24.78% في معدل خطأ الحرف مقارنة بأفضل معيار مفتوح، مما يُثبت أن Munsit هو الزعيم الواضح في معالجة الكلام باللغة العربية.
منصة لمستقبل الذكاء الاصطناعي الصوتي باللغة العربية
في حين أن Munsit-1 يُغير بالفعل إمكانيات النسخ والترجمة والدعم الزبوني في الأسواق الناطقة باللغة العربية، يرى CNTXT AI هذا الإطلاق كبداية فقط. تتطلع الشركة إلى مجموعة كاملة من تكنولوجيا الصوت باللغة العربية، بما في ذلك النص إلى الصوت ووظائف المساعد الصوتي وأنظمة الترجمة في الوقت الفعلي – كلها مبنية على بنية تحتية سيادية وذكاء اصطناعي ذي صلة إقليمياً.
“Munsit هو أكثر من مجرد اختراق في معالجة الكلام”، قال محمد أبو شيخ، الرئيس التنفيذي لشركة CNTXT AI. “إنه إعلان أن اللغة العربية يجب أن تكون في طليعة الذكاء الاصطناعي العالمي. لقد أثبتنا أن الذكاء الاصطناعي العالمي لا يحتاج إلى الاستيراد – يمكن بناؤه هنا، باللغة العربية، من أجل اللغة العربية”.
مع صعود نماذج محددة المنطقة مثل Munsit، يدخل قطاع الذكاء الاصطناعي عصراً جديداً – عصر حيث لا يتم التضحية بالصلة اللغوية والثقافية من أجل التميز الفني. في الواقع، مع Munsit، أظهر CNTXT AI أنهما شيء واحد.












