Suivez nous sur

CNTXT AI lance Munsit : le système de reconnaissance vocale arabe le plus prĂ©cis jamais conçu

Intelligence Artificielle

CNTXT AI lance Munsit : le système de reconnaissance vocale arabe le plus prĂ©cis jamais conçu

mm

Ă€ un moment dĂ©cisif pour l’intelligence artificielle en langue arabe, CNTXT AI a dĂ©voilĂ© Munsit, un modèle de reconnaissance vocale arabe de nouvelle gĂ©nĂ©ration, non seulement le plus prĂ©cis jamais créé pour l'arabe, mais qui surpasse largement les gĂ©ants mondiaux comme OpenAI, Meta, Microsoft et ElevenLabs sur les benchmarks standards. DĂ©veloppĂ© aux Émirats arabes unis et entièrement adaptĂ© Ă  l'arabe, Munsit reprĂ©sente une avancĂ©e majeure dans ce que CNTXT appelle « l'IA souveraine Â» : une technologie conçue dans la rĂ©gion, pour la rĂ©gion, tout en Ă©tant compĂ©titive Ă  l'Ă©chelle mondiale.

Les fondements scientifiques de cette réalisation sont exposés dans l'article récemment publié par l'équipe, "Améliorer la reconnaissance vocale en arabe grâce à un apprentissage faiblement supervisé à grande échelle", qui introduit une méthode d'apprentissage évolutive et efficace en termes de données, qui répond à la pénurie chronique de données vocales arabes étiquetées. Cette méthode – l'apprentissage faiblement supervisé – a permis à l'équipe de construire un système qui établit de nouvelles normes en matière de qualité de transcription, tant pour l'arabe standard moderne (MSA) que pour plus de 25 dialectes régionaux.

Surmonter la pénurie de données dans la Relation Associée Arabe

L'arabe, bien qu'étant l'une des langues les plus parlées au monde et une langue officielle des Nations Unies, a longtemps été considéré comme une langue à faibles ressources dans le domaine de la reconnaissance vocale. Cela tient à la fois à son complexité morphologique et un manque de vastes ensembles de données vocales diversifiées et étiquetées. Contrairement à l'anglais, qui bénéficie d'innombrables heures de données audio transcrites manuellement, la richesse dialectale de l'arabe et sa présence numérique fragmentée ont posé des défis importants pour la construction de systèmes robustes de reconnaissance automatique de la parole (RAP).

PlutĂ´t que d'attendre que le processus lent et coĂ»teux de transcription manuelle ne rattrape son retard, CNTXT AI a optĂ© pour une approche radicalement plus Ă©volutive : la supervision faible. Leur approche a dĂ©butĂ© avec un corpus massif de plus de 30,000 15,000 heures d'audio arabe non Ă©tiquetĂ©, collectĂ© auprès de diverses sources. Grâce Ă  un pipeline de traitement de donnĂ©es personnalisĂ©, cet audio brut a Ă©tĂ© nettoyĂ©, segmentĂ© et automatiquement Ă©tiquetĂ© pour produire un ensemble de donnĂ©es d'apprentissage de haute qualitĂ© de XNUMX XNUMX heures, l'un des corpus de parole arabe les plus vastes et les plus reprĂ©sentatifs jamais constituĂ©s.

Ce processus ne s'appuyait pas sur l'annotation humaine. CNTXT a développé un système en plusieurs étapes pour générer, évaluer et filtrer les hypothèses issues de plusieurs modèles ASR. Ces transcriptions ont été comparées à l'aide de la distance de Levenshtein afin de sélectionner les hypothèses les plus cohérentes, puis soumises à un modèle linguistique pour évaluer leur plausibilité grammaticale. Les segments ne répondant pas aux seuils de qualité définis ont été écartés, garantissant ainsi la fiabilité des données d'apprentissage, même sans vérification humaine. L'équipe a affiné ce pipeline par de multiples itérations, améliorant à chaque fois la précision des étiquettes en réentraînant le système ASR lui-même et en le réintégrant au processus d'étiquetage.

Alimenter Munsit : l'architecture Conformer

Au cœur de Munsit se trouve le modèle Conformer, une architecture de réseau neuronal hybride qui combine la sensibilité locale des couches convolutives avec les capacités de modélisation de séquences globales des transformateurs. Cette conception rend le Conformer particulièrement apte à traiter les nuances du langage oral, où les dépendances à long terme (comme la structure des phrases) et la précision phonétique sont cruciales.

CNTXT AI a implĂ©mentĂ© une grande variante du Conformer, l'entraĂ®nant de A Ă  Z Ă  partir de spectrogrammes mel Ă  80 canaux. Le modèle est composĂ© de 18 couches et inclut environ 121 millions de paramètres. L'entraĂ®nement a Ă©tĂ© rĂ©alisĂ© sur un cluster hautes performances utilisant huit GPU NVIDIA A100 avec une prĂ©cision bfloat16, permettant une gestion efficace des lots volumineux et des espaces de caractĂ©ristiques de grande dimension. Pour gĂ©rer la tokenisation de la structure morphologiquement riche de l'arabe, l'Ă©quipe a utilisĂ© un tokeniseur SentencePiece entraĂ®nĂ© spĂ©cifiquement sur son corpus personnalisĂ©, ce qui a permis d'obtenir un vocabulaire de 1,024 XNUMX unitĂ©s de sous-mots.

Contrairement à l'apprentissage supervisé classique de la RAP, qui nécessite généralement que chaque extrait audio soit associé à une étiquette soigneusement transcrite, la méthode de CNTXT fonctionnait entièrement sur des étiquettes faibles. Ces étiquettes, bien que plus bruyantes que celles vérifiées par l'humain, étaient optimisées grâce à une boucle de rétroaction privilégiant le consensus, la cohérence grammaticale et la plausibilité lexicale. Le modèle a été entraîné à l'aide de Classification temporelle connexionniste (CTC) fonction de perte, qui est bien adaptée à la modélisation de séquences non alignées, essentielle pour les tâches de reconnaissance vocale où le timing des mots prononcés est variable et imprévisible.

Dominer les repères

Les rĂ©sultats parlent d'eux-mĂŞmes. Munsit a Ă©tĂ© testĂ© par rapport aux principaux modèles ASR open source et commerciaux sur six jeux de donnĂ©es arabes de rĂ©fĂ©rence : SADA, Common Voice 18.0, MASC (propre et bruyant), MGB-2 et Casablanca. Ces jeux de donnĂ©es couvrent collectivement des dizaines de dialectes et d'accents du monde arabe, de l'Arabie saoudite au Maroc.

Sur l'ensemble des benchmarks, Munsit-1 a obtenu un taux d'erreurs de mots (WER) moyen de 26.68 et un taux d'erreurs de caractères (CER) de 10.05. À titre de comparaison, la version la plus performante de Whisper d'OpenAI a enregistré un WER moyen de 36.86 et un CER de 17.21. SeamlessM4T de Meta, un autre modèle multilingue de pointe, a obtenu des résultats encore plus élevés. Munsit a surpassé tous les autres systèmes, tant sur les données propres que sur les données bruitées, et a démontré une robustesse particulièrement élevée dans des conditions bruyantes, un facteur essentiel pour des applications concrètes comme les centres d'appels et les services publics.

L'Ă©cart Ă©tait tout aussi marquĂ© face aux systèmes propriĂ©taires. Munsit a surpassĂ© les modèles ASR arabes de Microsoft Azure, Scribe d'ElevenLabs et mĂŞme la fonction de transcription GPT-4o d'OpenAI. Ces rĂ©sultats ne sont pas marginaux : ils reprĂ©sentent une amĂ©lioration relative moyenne de 23.19 % du WER et de 24.78 % du CER par rapport Ă  la rĂ©fĂ©rence ouverte la plus solide, ce qui place Munsit en tĂŞte incontestĂ©e de la reconnaissance vocale arabe.

Une plateforme pour l'avenir de l'IA vocale arabe

Alors que Munsit-1 révolutionne déjà les possibilités de transcription, de sous-titrage et de support client sur les marchés arabophones, CNTXT AI considère ce lancement comme un début. L'entreprise envisage une suite complète de technologies vocales en langue arabe, comprenant la synthèse vocale, des assistants vocaux et des systèmes de traduction en temps réel, le tout reposant sur une infrastructure souveraine et une IA adaptée à chaque région.

« Munsit est bien plus qu'une simple avancĂ©e dans la reconnaissance vocale », a dĂ©clarĂ© Mohammad Abu Sheikh, PDG de CNTXT AI. « C'est une preuve que l'arabe est Ă  l'avant-garde de l'IA mondiale. Nous avons prouvĂ© qu'une IA de classe mondiale n'a pas besoin d'ĂŞtre importĂ©e : elle peut ĂŞtre dĂ©veloppĂ©e ici, en arabe, pour l'arabe. »

Avec l'essor de modèles régionaux comme Munsit, le secteur de l'IA entre dans une nouvelle ère, où la pertinence linguistique et culturelle n'est pas sacrifiée à la recherche de l'excellence technique. En effet, Munsit, CNTXT AI a montré qu'ils ne faisaient qu'un.

Antoine est un leader visionnaire et partenaire fondateur d'Unite.AI, animé par une passion inébranlable pour façonner et promouvoir l'avenir de l'IA et de la robotique. Entrepreneur en série, il croit que l'IA sera aussi perturbatrice pour la société que l'électricité, et on le surprend souvent en train de s'extasier sur le potentiel des technologies disruptives et de l'AGI.

En futuriste, il se consacre à l'exploration de la manière dont ces innovations façonneront notre monde. En outre, il est le fondateur de Titres.io, une plateforme axée sur l’investissement dans les technologies de pointe qui redéfinissent l’avenir et remodèlent des secteurs entiers.