Artificiell intelligens

Forskare utvecklar mänsklig taligenkänningsmodell med djupa neurala nätverk

Uppdaterad on December 9, 2022

En grupp forskare från Tyskland undersöker en ny mänsklig taligenkänningsmodell baserad på maskininlärning och djupa neurala nätverk. Den nya modellen kan avsevärt förbättra mänsklig taligenkänning.

Hörapparatalgoritmer används vanligtvis för att förbättra mänsklig taligenkänning, och de utvärderas genom olika experiment som bestämmer signal-brusförhållandet vid vilket ett visst antal ord känns igen. Dessa experiment är dock ofta tidskrävande och dyra.

Den nya modellen var detaljerad i forskning publicerad i Journal of the Acoustical Society of America.

Förutsägelser för hörselskadade lyssnare

Jana Roßbach är en av författarna från Carl Von Ossietzky University.

"Nyheten med vår modell är att den ger bra förutsägelser för hörselskadade lyssnare för brustyper med mycket olika komplexitet och visar både låga fel och höga korrelationer med uppmätta data", säger Roßbach.

Teamet av forskare beräknade hur många ord per mening en lyssnare kunde förstå genom automatisk taligenkänning (ASR). Taligenkänningsverktyg som Alexa och Siri förlitar sig på denna ASR, som är allmänt tillgänglig.

Studien och resultaten

Studien som genomfördes av teamet involverade åtta normalhörande och 20 hörselskadade. Lyssnarna exponerades för många olika komplexa ljud som gömde talet, och de hörselskadade lyssnarna kategoriserades i tre grupper beroende på deras nivå av åldersrelaterad hörselnedsättning.

Genom den nya modellen kunde forskarna förutsäga den mänskliga taligenkänningsprestandan hos hörselskadade lyssnare med olika grader av hörselnedsättning. De kunde göra dessa förutsägelser för olika brusmaskerare med olika komplexitet i tidsmodulering och hur lika de var verkligt tal. Allt detta gjorde att varje person kunde observeras och analyseras individuellt med avseende på eventuell hörselnedsättning.

"Vi blev mest förvånade över att förutsägelserna fungerade bra för alla ljudtyper. Vi förväntade oss att modellen skulle få problem när man använder en enda konkurrerande talare. Men det var inte fallet, säger Roßbach.

Eftersom modellen var fokuserad på hörsel med ett öra, kommer teamet nu att försöka skapa en binaural modell för hörsel med två öron. De säger också att den nya modellen kan användas för att förutsäga lyssnaransträngning eller talkvalitet också.

Relaterade ämnen:AI artificiell intelligens djupt lärande

Strax

Identifiera kändis Deepfakes från yttre ansiktsregioner

Missa inte

Varför AI inte ger bättre produktrekommendationer

Alex McFarland

Alex McFarland är en AI-journalist och författare som utforskar den senaste utvecklingen inom artificiell intelligens. Han har samarbetat med många AI-startups och publikationer över hela världen.