研究人员使用深度神经网络开发人类语音识别模型

发布于 2022年3月3日

更新于 2026年5月24日

作者

Alex McFarland

一组来自德国的研究人员正在探索一种基于机器学习和深度神经网络的新型人类语音识别模型。这种新模型可能会大大提高人类语音识别的能力。

听力辅助算法通常用于提高人类语音识别，并通过各种实验来评估它们的效果，这些实验确定了在一定的信噪比下能够识别出一定数量的词汇。然而，这些实验通常耗时且昂贵。

该新模型的细节在 美国声学学会杂志上发表的研究中有所体现。

卡尔·冯·奥西茨基大学的研究人员之一是雅娜·罗斯巴赫。

“我们模型的新颖之处在于，它能够为听力障碍听众提供良好的预测，适用于具有不同复杂度的噪声类型，并且表现出低错误率和高相关性，与测量数据相符，”罗斯巴赫说。

研究人员计算了听众通过自动语音识别（ASR）能够理解的每个句子中的词数。语音识别工具，如Alexa和Siri，依赖于这种ASR技术，它被广泛应用。

研究团队进行的研究涉及八名正常听力人和二十名听力障碍人。听众被暴露在许多不同复杂的噪声中，这些噪声掩盖了语音，而听力障碍听众根据他们的年龄相关听力损失程度被分为三个群体。

通过新的模型，研究人员能够预测听力障碍听众在不同程度的听力损失下的人类语音识别性能。他们能够对具有不同时间调制复杂度和与真实语音相似度的各种噪声掩蔽进行预测。所有这些使得每个人都能够被观察和分析，以确定可能的听力损失。

“我们最惊讶的是，预测对所有类型的噪声都有效。我们原本预计该模型在使用单一竞争语音时会遇到问题。然而，事实并非如此，”罗斯巴赫说。

由于该模型专注于单耳听觉，研究团队现在将致力于创建一个用于两耳听觉的双耳模型。他们还表示，新模型可以用于预测听力努力或语音质量。

Alex McFarland

Alex McFarland 是一名人工智能记者和作家，探索最新的人工智能发展。他曾与世界各地的众多人工智能初创公司和出版物合作。

Unite.AI