Kunstmatige intelligentie
Onderzoekers ontwikkelen model voor menselijke spraakherkenning met diepe neurale netwerken

Een groep onderzoekers uit Duitsland onderzoekt een nieuw model voor menselijke spraakherkenning op basis van machine learning en diepe neurale netwerken. Het nieuwe model kan helpen om de menselijke spraakherkenning aanzienlijk te verbeteren.
Algoritmes voor gehoorapparaten worden meestal gebruikt om de menselijke spraakherkenning te verbeteren, en ze worden beoordeeld door middel van verschillende experimenten die de signaal-ruisverhouding bepalen waarbij een bepaald aantal woorden wordt herkend. Deze experimenten zijn echter vaak tijdrovend en duur.
Het nieuwe model is gedetailleerd in onderzoek dat is gepubliceerd in The Journal of the Acoustical Society of America.
Voorspellingen voor gehoorbeschadigde luisteraars
Jana Roßbach is een van de auteurs van de Carl Von Ossietzky Universiteit.
“De nieuwheid van ons model is dat het goede voorspellingen biedt voor gehoorbeschadigde luisteraars voor ruissoorten met zeer verschillende complexiteit en zowel lage fouten als hoge correlaties met de gemeten gegevens,” zei Roßbach.
Het team van onderzoekers berekende hoeveel woorden per zin een luisteraar kon begrijpen door middel van automatische spraakherkenning (ASR). Spraakherkenningstools zoals Alexa en Siri vertrouwen op deze ASR, die breed beschikbaar is.
De studie en resultaten
De studie die door het team werd uitgevoerd, betrof acht normaalhorende en 20 gehoorbeschadigde personen. De luisteraars werden blootgesteld aan veel verschillende complexe geluiden die de spraak verborgen, en de gehoorbeschadigde luisteraars werden onderverdeeld in drie groepen afhankelijk van hun niveau van leeftijdsgebonden gehoorverlies.
Met het nieuwe model konden de onderzoekers de prestaties van gehoorbeschadigde luisteraars met verschillende gradaties van gehoorverlies voorspellen. Ze konden deze voorspellingen doen voor verschillende ruismaskers met verschillende complexiteiten in temporale modulatie en hoezeer ze leken op echte spraak. Dit maakte het mogelijk om elke persoon individueel te observeren en te analyseren met betrekking tot mogelijke gehoorbeschadiging.
“We waren het meest verbaasd dat de voorspellingen goed werkten voor alle ruissoorten. We verwachtten dat het model problemen zou hebben bij het gebruik van één concurrerende spreker. Maar dat was niet het geval,” zei Roßbach.
Aangezien het model zich richtte op eenoorherkenning, zal het team nu een binauraal model voor tweeoorsherkenning ontwikkelen. Ze zeggen ook dat het nieuwe model kan worden gebruikt om de luisterinspanning of spraakkwaliteit te voorspellen.










