人工智能

研究人员希望将自动语音识别扩展到 2,000 种语言

发布时间

1年前

2023 年 1 月 14 日

亚历克斯麦克法兰

卡内基梅隆大学的一组研究人员正在寻求将自动语音识别扩展到 2,000 种语言。截至目前，全球大约 7,000 到 8,000 种口语中，只有一部分会受益于语音转文本转录或自动字幕等现代语言技术。

李新建，博士。计算机科学学院语言技术研究所（LTI）的学生。

“这个世界上有很多人讲不同的语言，但语言技术工具并没有为所有人开发，”他说。 “为所有人开发技术和良好的语言模型是这项研究的目标之一。”

李所在的专家团队致力于简化语言开发语音识别模型所需的数据要求。

该团队还包括 LTI 教员 Shinji Watanabe、Florian Metze、David Mortensen 和 Alan Black。

该研究题为“ASR2K：约 2,000 种语言的语音识别（无音频）”在韩国举行的 Interspeech 2022 上发表。

大多数现有的语音识别模型都需要文本和音频数据集。虽然存在数千种语言的文本数据，但音频却并非如此。该团队希望通过关注多种语言中常见的语言元素来消除对音频数据的需求。

语音识别技术通常关注语言的音素，音素是区别于其他语言的独特声音。这些对于每种语言来说都是独特的。同时，语言具有描述单词物理发音的音素，并且多个音素可以对应于单个音素。虽然不同的语言可以有不同的音素，但底层的音素可能是相同的。

该团队正在开发一种语音识别模型，该模型较少依赖于音素，而更多地依赖于有关语言之间如何共享电话的信息。这有助于减少为每种语言构建单独模型所需的工作量。通过将模型与系统发育树（映射语言之间关系的图表）配对，它有助于制定发音规则。该团队的模型和树结构使他们即使在没有音频数据的情况下也能够近似数千种语言的语音模型。

“我们正在努力取消这一音频数据要求，这有助于我们从 100 到 200 种语言扩展到 2,000 种，”Li 说。 “这是第一个针对如此多语言的研究，我们是第一个旨在将语言工具扩展到这个范围的团队。”

该研究虽然仍处于早期阶段，但已将现有语言近似工具改进了 5%。

“每种语言都是其文化中非常重要的因素。每种语言都有自己的故事，如果你不努力保护语言，这些故事可能会消失，”李说。 “开发这种语音识别系统和这个工具是尝试保护这些语言的一步。”