人工智能
研究人员利用深度神经网络开发人类语音识别模型

来自德国的一组研究人员正在探索一种基于机器学习和深度神经网络的新人类语音识别模型。新模型可以帮助极大地提高人类语音识别能力。
助听器算法通常用于改进人类语音识别,并通过各种实验对其进行评估,以确定识别一定数量单词时的信噪比。 然而,这些实验通常既耗时又昂贵。
新模型在发表于的研究中进行了详细介绍 美国声学学会杂志.
针对听障听众的预测
Jana Roßbach 是卡尔·冯·奥西茨基大学的作者之一。
“我们模型的新颖之处在于,它为听力受损的听众提供了对复杂程度差异很大的噪声类型的良好预测,并且显示出与测量数据的低误差和高相关性,”罗斯巴赫说。
研究人员团队通过自动语音识别(ASR)计算了听众每句话可以理解多少个单词。 Alexa 和 Siri 等语音识别工具依赖于这种广泛使用的 ASR。
研究和结果
该团队进行的研究涉及 20 名听力正常的人和 XNUMX 名听力受损的人。 听众暴露在许多不同的复杂噪音中,这些噪音掩盖了语音,听力受损的听众根据与年龄相关的听力损失程度被分为三组。
通过新模型,研究人员可以预测不同程度听力损失的听力障碍听众的人类语音识别表现。 他们能够对时间调制复杂度不同的各种噪声掩蔽器以及它们与真实语音的相似程度进行预测。 所有这些使得每个人都能够针对可能的听力损失进行单独观察和分析。
“最令我们惊讶的是,这些预测对所有噪声类型都有效。 我们预计该模型在使用单个竞争说话者时会出现问题。 然而,事实并非如此,”罗斯巴赫说。
由于该模型专注于单耳听力,因此该团队现在将寻求创建双耳听力的双耳模型。 他们还表示,新模型也可用于预测听力努力或语音质量。