Suivez nous sur

Des chercheurs développent un modèle de reconnaissance de la parole humaine avec des réseaux de neurones profonds

Intelligence Artificielle

Des chercheurs développent un modèle de reconnaissance de la parole humaine avec des réseaux de neurones profonds

mm

Un groupe de chercheurs allemands explore un nouveau modèle de reconnaissance vocale humaine basĂ© sur l’apprentissage automatique et les rĂ©seaux neuronaux profonds. Le nouveau modèle pourrait contribuer Ă  amĂ©liorer considĂ©rablement la reconnaissance vocale humaine. 

Les algorithmes des aides auditives sont généralement utilisés pour améliorer la reconnaissance de la parole humaine, et ils sont évalués par diverses expériences qui déterminent le rapport signal sur bruit auquel un certain nombre de mots sont reconnus. Cependant, ces expériences sont souvent longues et coûteuses.

Le nouveau modèle a été détaillé dans une étude publiée dans Le Journal de l'Acoustical Society of America

Prédictions pour les auditeurs malentendants

Jana RoĂźbach est l'une des auteurs de l'UniversitĂ© Carl Von Ossietzky. 

"La nouveauté de notre modèle est qu'il fournit de bonnes prédictions pour les auditeurs malentendants pour des types de bruit avec une complexité très différente et montre à la fois de faibles erreurs et des corrélations élevées avec les données mesurées", a déclaré Roßbach.

L'Ă©quipe de chercheurs a calculĂ© le nombre de mots par phrase qu'un auditeur pouvait comprendre grâce Ă  la reconnaissance automatique de la parole (ASR). Les outils de reconnaissance vocale comme Alexa et Siri s'appuient sur cet ASR, qui est largement disponible. 

L'étude et les résultats

L'Ă©tude menĂ©e par l'Ă©quipe a impliquĂ© huit personnes normo-entendantes et 20 personnes malentendantes. Les auditeurs ont Ă©tĂ© exposĂ©s Ă  de nombreux bruits complexes diffĂ©rents qui cachaient la parole, et les auditeurs malentendants ont Ă©tĂ© classĂ©s en trois groupes en fonction de leur niveau de perte auditive liĂ©e Ă  l'âge. 

Grâce au nouveau modèle, les chercheurs ont pu prĂ©dire les performances de reconnaissance de la parole humaine des auditeurs malentendants prĂ©sentant diffĂ©rents degrĂ©s de perte auditive. Ils ont pu faire ces prĂ©dictions pour divers masques de bruit avec diffĂ©rentes complexitĂ©s de modulation temporelle et Ă  quel point ils Ă©taient similaires Ă  la parole rĂ©elle. Tout cela a permis d'observer et d'analyser individuellement chaque personne quant Ă  une Ă©ventuelle perte auditive. 

"Nous avons été très surpris que les prédictions fonctionnent bien pour tous les types de bruit. Nous nous attendions à ce que le modèle rencontre des problèmes lors de l'utilisation d'un seul locuteur concurrent. Cependant, ce n'était pas le cas », a déclaré Rossbach.

Étant donnĂ© que le modèle Ă©tait axĂ© sur l'audition Ă  une seule oreille, l'Ă©quipe va maintenant chercher Ă  crĂ©er un modèle binaural pour l'audition Ă  deux oreilles. Ils disent Ă©galement que le nouveau modèle pourrait Ă©galement ĂŞtre utilisĂ© pour prĂ©dire l'effort d'Ă©coute ou la qualitĂ© de la parole. 

Alex McFarland est un journaliste et écrivain en IA qui explore les derniers développements en matière d'intelligence artificielle. Il a collaboré avec de nombreuses startups et publications d'IA dans le monde entier.