AI 模型与平台

研究人员旨在将自动语音识别扩展到 2,000 种语言

发布于 2023年1月14日

更新于 2026年5月23日

作者

Alex McFarland

卡内基梅隆大学的一组研究人员正在尝试将自动语音识别扩展到 2,000 种语言。目前，世界上估计有 7,000 到 8,000 种语言，只有一小部分能够从现代语言技术如语音转文本转录或自动字幕中受益。

辛健李是计算机科学学院语言技术研究所（LTI）的博士生。

“世界上很多人说着不同的语言，但语言技术工具并没有为所有语言开发，”他说。“开发适用于所有人的技术和良好的语言模型是这项研究的目标之一。”

李是专家团队的一员，旨在简化语言开发语音识别模型所需的数据要求。

该团队还包括 LTI 教师成员 Shinji Watanabe、Florian Metze、David Mortensen 和 Alan Black。

题为“ASR2K: 不需要音频的 2,000 种语言语音识别”的研究在韩国的 Interspeech 2022 上进行了介绍。

大多数现有的语音识别模型需要文本和音频数据集。虽然成千上万种语言都有文本数据，但音频数据则不然。该团队希望通过关注许多语言共有的语言元素来消除对音频数据的需求。

语音识别技术通常专注于语言的音素，即区分语言的独特声音。这些音素对于每种语言都是独一无二的。同时，语言有描述单词发音的音位，多个音位可以对应一个音素。虽然不同的语言可以有不同的音素，但底层的音位可能相同。

该团队正在开发一种依赖于音素的语音识别模型，更多地依赖于音位在语言之间共享的信息。这有助于减少为每种语言构建单独模型的工作量。通过将模型与语言之间关系的树状图（一种称为系统发育树的图表）配对，可以帮助确定发音规则。该团队的模型和树结构使他们能够即使没有音频数据也能近似地构建成千上万种语言的语音模型。

“我们正在尝试去掉音频数据的要求，这有助于我们从 100 到 200 种语言扩展到 2,000 种，”李说。“这是首次针对如此大量语言的研究，我们是第一个旨在将语言工具扩展到如此广泛范围的团队。”

虽然研究仍处于初期阶段，但它已经将现有的语言近似工具改进了 5%。

“每种语言都是其文化的重要因素。每种语言都有自己的故事，如果你不尝试保存语言，那些故事可能会丢失，”李说。“开发这种语音识别系统和工具是尝试保存这些语言的一步。”

Alex McFarland

Alex McFarland 是一名人工智能记者和作家，探索最新的人工智能发展。他曾与世界各地的众多人工智能初创公司和出版物合作。

Unite.AI

研究人员旨在将自动语音识别扩展到 2,000 种语言

发现更多