Intelligence Artificielle
Des chercheurs développent un modèle de reconnaissance de la parole humaine avec des réseaux de neurones profonds

Un groupe de chercheurs allemands explore un nouveau modèle de reconnaissance vocale humaine basé sur l’apprentissage automatique et les réseaux neuronaux profonds. Le nouveau modèle pourrait contribuer à améliorer considérablement la reconnaissance vocale humaine.
Les algorithmes des aides auditives sont généralement utilisés pour améliorer la reconnaissance de la parole humaine, et ils sont évalués par diverses expériences qui déterminent le rapport signal sur bruit auquel un certain nombre de mots sont reconnus. Cependant, ces expériences sont souvent longues et coûteuses.
Le nouveau modèle a été détaillé dans une étude publiée dans Le Journal de l'Acoustical Society of America.
Prédictions pour les auditeurs malentendants
Jana Roßbach est l'une des auteurs de l'Université Carl Von Ossietzky.
"La nouveauté de notre modèle est qu'il fournit de bonnes prédictions pour les auditeurs malentendants pour des types de bruit avec une complexité très différente et montre à la fois de faibles erreurs et des corrélations élevées avec les données mesurées", a déclaré Roßbach.
L'équipe de chercheurs a calculé le nombre de mots par phrase qu'un auditeur pouvait comprendre grâce à la reconnaissance automatique de la parole (ASR). Les outils de reconnaissance vocale comme Alexa et Siri s'appuient sur cet ASR, qui est largement disponible.
L'étude et les résultats
L'étude menée par l'équipe a impliqué huit personnes normo-entendantes et 20 personnes malentendantes. Les auditeurs ont été exposés à de nombreux bruits complexes différents qui cachaient la parole, et les auditeurs malentendants ont été classés en trois groupes en fonction de leur niveau de perte auditive liée à l'âge.
Grâce au nouveau modèle, les chercheurs ont pu prédire les performances de reconnaissance de la parole humaine des auditeurs malentendants présentant différents degrés de perte auditive. Ils ont pu faire ces prédictions pour divers masques de bruit avec différentes complexités de modulation temporelle et à quel point ils étaient similaires à la parole réelle. Tout cela a permis d'observer et d'analyser individuellement chaque personne quant à une éventuelle perte auditive.
"Nous avons été très surpris que les prédictions fonctionnent bien pour tous les types de bruit. Nous nous attendions à ce que le modèle rencontre des problèmes lors de l'utilisation d'un seul locuteur concurrent. Cependant, ce n'était pas le cas », a déclaré Rossbach.
Étant donné que le modèle était axé sur l'audition à une seule oreille, l'équipe va maintenant chercher à créer un modèle binaural pour l'audition à deux oreilles. Ils disent également que le nouveau modèle pourrait également être utilisé pour prédire l'effort d'écoute ou la qualité de la parole.