人工智能
CNTXT AI 推出 Munsit:有史以来最准确的阿拉伯语语音识别系统

在阿拉伯语人工智能领域的关键时刻,CNTXT AI 推出了 Munsit,一款下一代阿拉伯语语音识别模型,不仅是为阿拉伯语创建的最准确的模型,而且在标准基准测试中,它的表现远超 OpenAI、Meta、Microsoft 和 ElevenLabs 等全球巨头。Munsit是在阿联酋开发的,并从一开始就针对阿拉伯语进行优化,代表着 CNTXT 所说的“主权 AI”的一个强有力的进步——这是一种在该地区为该地区开发的技术,但具有全球竞争力。
这一成就的科学基础在团队刚刚发表的论文 “通过大规模弱监督学习推进阿拉伯语语音识别“ 中有详细介绍,这篇论文介绍了一种可扩展的、数据高效的训练方法,解决了长期以来阿拉伯语标记语音数据稀缺的问题。这种方法——弱监督学习——使得团队能够构建一个系统,它为现代标准阿拉伯语(MSA)和 25 多种地区方言的转录质量设定了新的标准。
克服阿拉伯语 ASR 中的数据匮乏
尽管阿拉伯语是全球使用最广泛的语言之一,也是联合国的官方语言,但长期以来它在语音识别领域被认为是一种低资源语言。这是由于其 形态学复杂性 和缺乏大规模、多样化的标记语音数据集。与英语不同,英语拥有大量手动转录的音频数据,阿拉伯语的方言丰富性和数字存在的碎片化为构建强大的自动语音识别(ASR)系统带来了重大挑战。
CNTXT AI 没有等待手动转录的缓慢和昂贵的过程,而是选择了一条更可扩展的道路:弱监督。他们的方法从收集了来自多种来源的超过 30,000 小时的未标记阿拉伯语音频开始。通过自定义的数据处理管道,这些原始音频被清理、分段并自动标记,生成了一个高质量的 15,000 小时的训练数据集——这是有史以来组装的最大的、最具代表性的阿拉伯语语音语料库之一。
这个过程不依赖于人工注释。相反,CNTXT 开发了一个多阶段系统,用于从多个 ASR 模型生成、评估和过滤假设。这些转录通过 Levenshtein 距离进行交叉比较,以选择最一致的假设,然后通过语言模型来评估其语法合理性。未能达到定义的质量阈值的段被丢弃,确保即使没有人工验证,训练数据仍然可靠。团队通过多次迭代完善了这个管道,每次都通过重新训练 ASR 系统并将其反馈到标记过程中来提高标签准确性。
Munsit 的核心:Conformer 架构
Munsit 的核心是 Conformer 模型,一种混合神经网络架构,它结合了卷积层的局部敏感性和 transformer 的全局序列建模能力。这种设计使得 Conformer 特别适合处理口语的细微差别,在口语中,长距离依赖(如句子结构)和细粒度的语音细节都是至关重要的。
CNTXT AI 实现了一个大型的 Conformer 模型,从头开始使用 80 通道的 mel-谱图作为输入进行训练。模型由 18 层组成,包含大约 121 百万个参数。训练是在高性能集群上使用八个 NVIDIA A100 GPU 和 bfloat16 精度进行的,这使得大批量和高维特征空间的处理变得高效。为了处理阿拉伯语形态丰富的结构,团队使用了在他们的自定义语料库上训练的 SentencePiece 分词器,结果得到 1,024 个子词单元的词汇表。
与传统的有监督 ASR 训练不同,后者通常需要每个音频片段都与精心转录的标签配对,CNTXT 的方法完全在弱标签上运行。这些标签虽然比人工验证的标签更嘈杂,但通过优先考虑一致性、语法连贯性和词汇合理性的反馈循环进行了优化。模型使用 连接主义时序分类 (CTC) 损失函数进行训练,这对于不对齐的序列建模非常适合——这是语音识别任务中的关键因素,因为口语的时间是可变和不可预测的。
主导基准测试
结果不言自明。Munsit 在六个基准阿拉伯语数据集上进行了测试:SADA、Common Voice 18.0、MASC(干净和嘈杂)、MGB-2 和 Casablanca。这些数据集涵盖了阿拉伯世界几十种方言和口音,从沙特阿拉伯到摩洛哥。
在所有基准测试中,Munsit-1 实现了平均单词错误率(WER)26.68 和字符错误率(CER)10.05。相比之下,OpenAI 的 Whisper 最佳版本记录了平均 WER 36.86 和 CER 17.21。Meta 的 SeamlessM4T,这是一个最先进的多语言模型,表现得更差。Munsit 在干净和嘈杂的数据上都超越了其他所有系统,并且在嘈杂条件下表现出特别强的稳健性,这是实际应用(如呼叫中心和公共服务)中的一个关键因素。
与专有系统的差距同样明显。Munsit 超越了 Microsoft Azure 的阿拉伯语 ASR 模型、ElevenLabs Scribe,甚至 OpenAI 的 GPT-4o 转录功能。这些结果不是微小的改进——它们代表了相对于最强的开源基线的平均相对改进,WER 为 23.19%,CER 为 24.78%,这使得 Munsit 成为阿拉伯语语音识别的明确领导者。
阿拉伯语语音 AI 的未来平台
虽然 Munsit-1 已经改变了阿拉伯语市场中转录、字幕和客户支持的可能性,但 CNTXT AI 认为这只是开始。该公司设想了一套完整的阿拉伯语语音技术,包括文本转语音、语音助手和实时翻译系统——所有这些都建立在主权基础设施和区域相关的 AI 之上。
“Munsit 不仅仅是一个语音识别的突破,”CNTXT AI 首席执行官 Mohammad Abu Sheikh 说。“它是宣告阿拉伯语属于全球 AI 前沿的声明。我们已经证明,世界级的 AI 不需要进口——它可以在这里,在阿拉伯语中,为阿拉伯语而建。”
随着像 Munsit 这样的区域特定模型的兴起,AI 行业正在进入一个新时代——在这个时代,语言和文化的相关性不会在追求技术卓越的过程中被牺牲。事实上,通过 Munsit,CNTXT AI 已经证明,技术卓越和区域相关性实际上是同一件事。










