Intelligence Artificielle
CNTXT AI lance Munsit : le système de reconnaissance vocale arabe le plus précis jamais conçu

À un moment décisif pour l’intelligence artificielle en langue arabe, CNTXT AI a dévoilé Munsit, un modèle de reconnaissance vocale arabe de nouvelle génération, non seulement le plus précis jamais créé pour l'arabe, mais qui surpasse largement les géants mondiaux comme OpenAI, Meta, Microsoft et ElevenLabs sur les benchmarks standards. Développé aux Émirats arabes unis et entièrement adapté à l'arabe, Munsit représente une avancée majeure dans ce que CNTXT appelle « l'IA souveraine » : une technologie conçue dans la région, pour la région, tout en étant compétitive à l'échelle mondiale.
Les fondements scientifiques de cette réalisation sont exposés dans l'article récemment publié par l'équipe, "Améliorer la reconnaissance vocale en arabe grâce à un apprentissage faiblement supervisé à grande échelle", qui introduit une méthode d'apprentissage évolutive et efficace en termes de données, qui répond à la pénurie chronique de données vocales arabes étiquetées. Cette méthode – l'apprentissage faiblement supervisé – a permis à l'équipe de construire un système qui établit de nouvelles normes en matière de qualité de transcription, tant pour l'arabe standard moderne (MSA) que pour plus de 25 dialectes régionaux.
Surmonter la pénurie de données dans la Relation Associée Arabe
L'arabe, bien qu'étant l'une des langues les plus parlées au monde et une langue officielle des Nations Unies, a longtemps été considéré comme une langue à faibles ressources dans le domaine de la reconnaissance vocale. Cela tient à la fois à son complexité morphologique et un manque de vastes ensembles de données vocales diversifiées et étiquetées. Contrairement à l'anglais, qui bénéficie d'innombrables heures de données audio transcrites manuellement, la richesse dialectale de l'arabe et sa présence numérique fragmentée ont posé des défis importants pour la construction de systèmes robustes de reconnaissance automatique de la parole (RAP).
Plutôt que d'attendre que le processus lent et coûteux de transcription manuelle ne rattrape son retard, CNTXT AI a opté pour une approche radicalement plus évolutive : la supervision faible. Leur approche a débuté avec un corpus massif de plus de 30,000 15,000 heures d'audio arabe non étiqueté, collecté auprès de diverses sources. Grâce à un pipeline de traitement de données personnalisé, cet audio brut a été nettoyé, segmenté et automatiquement étiqueté pour produire un ensemble de données d'apprentissage de haute qualité de XNUMX XNUMX heures, l'un des corpus de parole arabe les plus vastes et les plus représentatifs jamais constitués.
Ce processus ne s'appuyait pas sur l'annotation humaine. CNTXT a développé un système en plusieurs étapes pour générer, évaluer et filtrer les hypothèses issues de plusieurs modèles ASR. Ces transcriptions ont été comparées à l'aide de la distance de Levenshtein afin de sélectionner les hypothèses les plus cohérentes, puis soumises à un modèle linguistique pour évaluer leur plausibilité grammaticale. Les segments ne répondant pas aux seuils de qualité définis ont été écartés, garantissant ainsi la fiabilité des données d'apprentissage, même sans vérification humaine. L'équipe a affiné ce pipeline par de multiples itérations, améliorant à chaque fois la précision des étiquettes en réentraînant le système ASR lui-même et en le réintégrant au processus d'étiquetage.
Alimenter Munsit : l'architecture Conformer
Au cœur de Munsit se trouve le modèle Conformer, une architecture de réseau neuronal hybride qui combine la sensibilité locale des couches convolutives avec les capacités de modélisation de séquences globales des transformateurs. Cette conception rend le Conformer particulièrement apte à traiter les nuances du langage oral, où les dépendances à long terme (comme la structure des phrases) et la précision phonétique sont cruciales.
CNTXT AI a implémenté une grande variante du Conformer, l'entraînant de A à Z à partir de spectrogrammes mel à 80 canaux. Le modèle est composé de 18 couches et inclut environ 121 millions de paramètres. L'entraînement a été réalisé sur un cluster hautes performances utilisant huit GPU NVIDIA A100 avec une précision bfloat16, permettant une gestion efficace des lots volumineux et des espaces de caractéristiques de grande dimension. Pour gérer la tokenisation de la structure morphologiquement riche de l'arabe, l'équipe a utilisé un tokeniseur SentencePiece entraîné spécifiquement sur son corpus personnalisé, ce qui a permis d'obtenir un vocabulaire de 1,024 XNUMX unités de sous-mots.
Contrairement à l'apprentissage supervisé classique de la RAP, qui nécessite généralement que chaque extrait audio soit associé à une étiquette soigneusement transcrite, la méthode de CNTXT fonctionnait entièrement sur des étiquettes faibles. Ces étiquettes, bien que plus bruyantes que celles vérifiées par l'humain, étaient optimisées grâce à une boucle de rétroaction privilégiant le consensus, la cohérence grammaticale et la plausibilité lexicale. Le modèle a été entraîné à l'aide de Classification temporelle connexionniste (CTC) fonction de perte, qui est bien adaptée à la modélisation de séquences non alignées, essentielle pour les tâches de reconnaissance vocale où le timing des mots prononcés est variable et imprévisible.
Dominer les repères
Les résultats parlent d'eux-mêmes. Munsit a été testé par rapport aux principaux modèles ASR open source et commerciaux sur six jeux de données arabes de référence : SADA, Common Voice 18.0, MASC (propre et bruyant), MGB-2 et Casablanca. Ces jeux de données couvrent collectivement des dizaines de dialectes et d'accents du monde arabe, de l'Arabie saoudite au Maroc.
Sur l'ensemble des benchmarks, Munsit-1 a obtenu un taux d'erreurs de mots (WER) moyen de 26.68 et un taux d'erreurs de caractères (CER) de 10.05. À titre de comparaison, la version la plus performante de Whisper d'OpenAI a enregistré un WER moyen de 36.86 et un CER de 17.21. SeamlessM4T de Meta, un autre modèle multilingue de pointe, a obtenu des résultats encore plus élevés. Munsit a surpassé tous les autres systèmes, tant sur les données propres que sur les données bruitées, et a démontré une robustesse particulièrement élevée dans des conditions bruyantes, un facteur essentiel pour des applications concrètes comme les centres d'appels et les services publics.
L'écart était tout aussi marqué face aux systèmes propriétaires. Munsit a surpassé les modèles ASR arabes de Microsoft Azure, Scribe d'ElevenLabs et même la fonction de transcription GPT-4o d'OpenAI. Ces résultats ne sont pas marginaux : ils représentent une amélioration relative moyenne de 23.19 % du WER et de 24.78 % du CER par rapport à la référence ouverte la plus solide, ce qui place Munsit en tête incontestée de la reconnaissance vocale arabe.
Une plateforme pour l'avenir de l'IA vocale arabe
Alors que Munsit-1 révolutionne déjà les possibilités de transcription, de sous-titrage et de support client sur les marchés arabophones, CNTXT AI considère ce lancement comme un début. L'entreprise envisage une suite complète de technologies vocales en langue arabe, comprenant la synthèse vocale, des assistants vocaux et des systèmes de traduction en temps réel, le tout reposant sur une infrastructure souveraine et une IA adaptée à chaque région.
« Munsit est bien plus qu'une simple avancée dans la reconnaissance vocale », a déclaré Mohammad Abu Sheikh, PDG de CNTXT AI. « C'est une preuve que l'arabe est à l'avant-garde de l'IA mondiale. Nous avons prouvé qu'une IA de classe mondiale n'a pas besoin d'être importée : elle peut être développée ici, en arabe, pour l'arabe. »
Avec l'essor de modèles régionaux comme Munsit, le secteur de l'IA entre dans une nouvelle ère, où la pertinence linguistique et culturelle n'est pas sacrifiée à la recherche de l'excellence technique. En effet, Munsit, CNTXT AI a montré qu'ils ne faisaient qu'un.










