Inteligencia artificial
Investigadores Desarrollan Modelo de Reconocimiento de Habla Humana con Redes Neuronales Profundas

Un grupo de investigadores de Alemania está explorando un nuevo modelo de reconocimiento de habla humana basado en aprendizaje automático y redes neuronales profundas. El nuevo modelo podría ayudar a mejorar significativamente el reconocimiento de habla humana.
Los algoritmos de audífonos suelen utilizarse para mejorar el reconocimiento de habla humana, y se evalúan a través de varios experimentos que determinan la relación señaligeno ruido a la que se reconocen un cierto número de palabras. Sin embargo, estos experimentos a menudo son largos y costosos.
El nuevo modelo se detalló en una investigación publicada en The Journal of the Acoustical Society of America.
Predicciones para Oyentes con Discapacidad Auditiva
Jana Roßbach es una de las autoras de la Universidad Carl Von Ossietzky.
“La novedad de nuestro modelo es que proporciona buenas predicciones para oyentes con discapacidad auditiva para tipos de ruido con muy diferente complejidad y muestra tanto errores bajos como correlaciones altas con los datos medidos”, dijo Roßbach.
El equipo de investigadores calculó cuántas palabras por oración un oyente podría entender a través del reconocimiento automático de habla (ASR). Las herramientas de reconocimiento de habla como Alexa y Siri dependen de este ASR, que está ampliamente disponible.
El Estudio y los Resultados
El estudio llevado a cabo por el equipo involucró a ocho personas con audición normal y 20 con discapacidad auditiva. Los oyentes fueron expuestos a muchos ruidos complejos diferentes que ocultaban la habla, y los oyentes con discapacidad auditiva se categorizaron en tres grupos según su nivel de pérdida de audición relacionada con la edad.
A través del nuevo modelo, los investigadores pudieron predecir el rendimiento de reconocimiento de habla humana de oyentes con discapacidad auditiva con diferentes grados de pérdida de audición. Pudieron hacer estas predicciones para varios enmascaradores de ruido con diferentes complejidades en modulación temporal y cómo se asemejaban a la habla real. Todo esto permitió que cada persona fuera observada y analizada individualmente en cuanto a posible pérdida de audición.
“Nos sorprendió más que las predicciones funcionaran bien para todos los tipos de ruido. Esperábamos que el modelo tuviera problemas cuando se utilizara un solo hablante competidor. Sin embargo, no fue el caso”, dijo Roßbach.
Dado que el modelo se centró en la audición de un solo oído, el equipo ahora buscará crear un modelo binaural para la audición de dos oídos. También dicen que el nuevo modelo podría utilizarse para predecir el esfuerzo de escucha o la calidad de la habla.










