Connect with us

Intelligence artificielle

Les chercheurs développent un modèle de reconnaissance de la parole humaine avec des réseaux de neurones profonds

mm

Un groupe de chercheurs d’Allemagne explore un nouveau modèle de reconnaissance de la parole humaine basé sur l’apprentissage automatique et les réseaux de neurones profonds. Le nouveau modèle pourrait aider à améliorer considérablement la reconnaissance de la parole humaine.

Les algorithmes d’aide auditive sont généralement utilisés pour améliorer la reconnaissance de la parole humaine, et ils sont évalués à travers diverses expériences qui déterminent le rapport signal/bruit auquel un certain nombre de mots sont reconnus. Cependant, ces expériences sont souvent longues et coûteuses.

Le nouveau modèle a été détaillé dans une recherche publiée dans The Journal of the Acoustical Society of America

Prédictions pour les auditeurs ayant des troubles de l’audition

Jana Roßbach est l’un des auteurs de l’Université Carl Von Ossietzky. 

« La nouveauté de notre modèle est qu’il fournit de bonnes prédictions pour les auditeurs ayant des troubles de l’audition pour des types de bruit ayant une complexité très différente et montre à la fois des erreurs faibles et des corrélations élevées avec les données mesurées », a déclaré Roßbach.

L’équipe de chercheurs a calculé combien de mots par phrase un auditeur pouvait comprendre grâce à la reconnaissance automatique de la parole (ASR). Les outils de reconnaissance de la parole tels qu’Alexa et Siri reposent sur cette ASR, qui est largement disponible. 

Étude et résultats

L’étude menée par l’équipe a impliqué huit personnes ayant une audition normale et 20 personnes ayant des troubles de l’audition. Les auditeurs ont été exposés à de nombreux bruits complexes différents qui cachaient la parole, et les auditeurs ayant des troubles de l’audition ont été classés en trois groupes en fonction de leur niveau de perte auditive liée à l’âge. 

Grâce au nouveau modèle, les chercheurs ont pu prédire les performances de reconnaissance de la parole humaine des auditeurs ayant des troubles de l’audition avec des degrés de perte auditive différents. Ils ont pu faire ces prédictions pour divers masques de bruit ayant des complexités temporelles différentes et une ressemblance avec la parole réelle. Tout cela a permis à chaque personne d’être observée et analysée individuellement en ce qui concerne les troubles de l’audition possibles. 

« Nous avons été les plus surpris que les prédictions fonctionnent bien pour tous les types de bruit. Nous nous attendions à ce que le modèle ait des problèmes lors de l’utilisation d’un seul locuteur concurrent. Cependant, ce n’était pas le cas », a déclaré Roßbach.

Puisque le modèle était axé sur l’audition à une seule oreille, l’équipe va maintenant créer un modèle binaural pour l’audition à deux oreilles. Ils déclarent également que le nouveau modèle pourrait être utilisé pour prédire l’effort d’écoute ou la qualité de la parole. 

Alex McFarland est un journaliste et écrivain en intelligence artificielle qui explore les derniers développements en intelligence artificielle. Il a collaboré avec de nombreuses startups et publications en intelligence artificielle dans le monde entier.