Inteligencia Artificial
Investigadores desarrollan modelo de reconocimiento de voz humano con redes neuronales profundas

Un grupo de investigadores alemanes está explorando un nuevo modelo de reconocimiento del habla humana basado en el aprendizaje automático y redes neuronales profundas. El nuevo modelo podría ayudar a mejorar enormemente el reconocimiento del habla humana.
Los algoritmos de audífonos generalmente se usan para mejorar el reconocimiento del habla humana y se evalúan a través de varios experimentos que determinan la relación señal-ruido en la que se reconoce una cierta cantidad de palabras. Sin embargo, estos experimentos a menudo requieren mucho tiempo y son costosos.
El nuevo modelo fue detallado en una investigación publicada en El diario de la sociedad acústica de América.
Predicciones para oyentes con discapacidad auditiva
Jana Roßbach es una de las autoras de la Universidad Carl Von Ossietzky.
“La novedad de nuestro modelo es que proporciona buenas predicciones para oyentes con problemas de audición para tipos de ruido con una complejidad muy diferente y muestra errores bajos y correlaciones altas con los datos medidos”, dijo Roßbach.
El equipo de investigadores calculó cuántas palabras por oración podría entender un oyente a través del reconocimiento automático de voz (ASR). Las herramientas de reconocimiento de voz como Alexa y Siri se basan en este ASR, que está ampliamente disponible.
El estudio y los resultados
El estudio realizado por el equipo involucró a ocho personas con audición normal y 20 personas con problemas de audición. Los oyentes estaban expuestos a muchos ruidos complejos diferentes que ocultaban el habla, y los oyentes con discapacidad auditiva se clasificaron en tres grupos según su nivel de pérdida auditiva relacionada con la edad.
A través del nuevo modelo, los investigadores pudieron predecir el rendimiento del reconocimiento del habla humana de los oyentes con discapacidad auditiva con diferentes grados de pérdida auditiva. Pudieron hacer estas predicciones para varios enmascaradores de ruido con diferentes complejidades en la modulación temporal y cuán similares eran al habla real. Todo ello permitió observar y analizar individualmente a cada persona en cuanto a la posible pérdida auditiva.
“Nos sorprendió mucho que las predicciones funcionaran bien para todos los tipos de ruido. Esperábamos que el modelo tuviera problemas al usar un solo hablante de la competencia. Sin embargo, ese no fue el caso”, dijo Rossbach.
Dado que el modelo se centró en la audición de un solo oído, el equipo ahora buscará crear un modelo binaural para la audición de dos oídos. También dicen que el nuevo modelo podría usarse para predecir el esfuerzo de escucha o la calidad del habla.












