Künstliche Intelligenz
Forscher entwickeln Modell zur menschlichen Spracherkennung mit tiefen neuronalen Netzen

Eine Gruppe von Forschern aus Deutschland erkundet ein neues Modell zur menschlichen Spracherkennung auf der Grundlage von Machine Learning und tiefen neuronalen Netzen. Das neue Modell könnte dazu beitragen, die menschliche Spracherkennung erheblich zu verbessern.
Hörgeräte-Algorithmen werden normalerweise verwendet, um die menschliche Spracherkennung zu verbessern, und sie werden durch verschiedene Experimente bewertet, die das Signal-Rausch-Verhältnis bestimmen, bei dem eine bestimmte Anzahl von Wörtern erkannt wird. Diese Experimente sind jedoch oft zeitaufwändig und teuer.
Das neue Modell wurde in einer Forschung detailliert, die in The Journal of the Acoustical Society of America veröffentlicht wurde.
Vorhersagen für hörgeschädigte Hörer
Jana Roßbach ist eine der Autoren von der Carl Von Ossietzky Universität.
“Die Neuheit unseres Modells besteht darin, dass es gute Vorhersagen für hörgeschädigte Hörer für Rauschtypen mit sehr unterschiedlicher Komplexität liefert und sowohl niedrige Fehler als auch hohe Korrelationen mit den gemessenen Daten zeigt”, sagte Roßbach.
Das Team der Forscher berechnete, wie viele Wörter pro Satz ein Hörer durch automatische Spracherkennung (ASR) verstehen konnte. Spracherkennungstools wie Alexa und Siri verlassen sich auf diese ASR, die weit verbreitet ist.
Die Studie und Ergebnisse
Die Studie, die das Team durchführte, umfasste acht normale Hörer und 20 hörgeschädigte Personen. Die Hörer wurden vielen verschiedenen komplexen Geräuschen ausgesetzt, die die Sprache verdeckten, und die hörgeschädigten Hörer wurden in drei Gruppen unterteilt, abhängig von ihrem Grad an altersbedingtem Hörverlust.
Durch das neue Modell konnten die Forscher die menschliche Spracherkennungsleistung von hörgeschädigten Hörern mit unterschiedlichen Graden von Hörverlust vorhersagen. Sie konnten diese Vorhersagen für verschiedene Rauschmasken mit unterschiedlicher Komplexität in temporaler Modulation und Ähnlichkeit mit echter Sprache treffen. All dies ermöglichte es, jede Person individuell in Bezug auf möglichen Hörverlust zu beobachten und zu analysieren.
“Wir waren am meisten überrascht, dass die Vorhersagen für alle Rauschtypen gut funktionierten. Wir erwarteten, dass das Modell Probleme haben würde, wenn ein einzelner konkurrierender Sprecher verwendet wird. Aber das war nicht der Fall”, sagte Roßbach.
Da das Modell auf Ein-Ohr-Hören fokussiert war, wird das Team nun ein binaurales Modell für Zwei-Ohr-Hören erstellen. Sie sagen auch, dass das neue Modell verwendet werden könnte, um Hörbemühung oder Sprachqualität vorherzusagen.










