Tekoäly

Tutkijat kehittävät ihmisen puheentunnistusmallin syvillä neuroverkoilla

Published March 3, 2022

Updated April 5, 2026

Alex McFarland

Saksalainen tutkijaryhmä tutkii uutta ihmisen puheentunnistusmallia, joka perustuu koneoppimiseen ja syviin neuroverkkoihin. Uusi malli voisi parantaa merkittävästi ihmisen puheentunnistusta.

Kuulovoiden algoritmit käytetään yleensä parantamaan ihmisen puheentunnistusta, ja niiden arviointi tehdään useiden kokeiden avulla, jotka määrittävät signaali-melun suhteen, jossa tietty määrä sanoja tunnistetaan. Näiden kokeiden suorittaminen on kuitenkin usein aikaa vievää ja kallista.

Uusi malli on esitetty tutkimuksessa, joka on julkaistu The Journal of the Acoustical Society of America -julkaisussa.

Ennusteet kuulovammaisten kuulijoille

Jana Roßbach on yksi Carl Von Ossietzky -yliopiston tekijöistä.

“Mallimme uutuus on, että se tarjoaa hyviä ennusteita kuulovammaisille kuulijoille melko erilaisilla melatyypeillä ja osoittaa sekä alhaiset virheet että korkeat korrelaatiot mitattujen tietojen kanssa”, sanoi Roßbach.

Tutkijaryhmä laski, montako sanaa lauseessa kuulija voisi ymmärtää automaattisen puheentunnistuksen (ASR) avulla. Puheentunnistustyökalut kuten Alexa ja Siri luottavat tähän ASR:ään, joka on laajalti saatavilla.

Tutkimus ja tulokset

Tutkijaryhmän suorittama tutkimus käsitti kahdeksan normaali-kuuloista ja 20 kuulovammaista henkilöä. Kuulijat altistettiin monille erilaisille kompleksisille meloille, jotka peittivät puheen, ja kuulovammaiset kuulijat jaettiin kolmeen ryhmään heidän ikään liittyvän kuulovammansa mukaan.

Uuden mallin avulla tutkijat pystyivät ennustamaan kuulovammaisten kuulijoiden puheentunnistussuorituskykyä eriasteisilla kuulovammoilla. He pystyivät tekemään nämä ennusteet erilaisille meloille, joilla oli erilaisia kompleksisuuksia aikaisessa modulaatiossa ja kuinka paljon ne muistuttivat todellista puhetta. Tämä mahdollisti jokaisen henkilön havainnoinnin ja analyysin yksilöllisesti mahdollista kuulovammasta johtuen.

“Olimme eniten yllättynyt siitä, että ennusteet toimivat hyvin kaikilla melatyypeillä. Olimme odottaneet, että malli kohtaisi ongelmia yhden kilpailevan puhujan kanssa. Mutta sitä ei tapahtunut”, sanoi Roßbach.

Koska malli keskittyi yksinkuulokuuloon, tutkijaryhmä aikoo nyt luoda binaurisen mallin kaksinkuulokuulolle. He sanovat myös, että uutta mallia voidaan käyttää ennustamaan kuuntelumahdollisuuksia tai puhelaidan laatua.

Related Topics:AI artificial intelligence deep learning

Alex McFarland

Alex McFarland on AI-toimittaja ja kirjailija, joka tutkii viimeisimpiä kehityksiä tekoälyssä. Hän on tehnyt yhteistyötä useiden AI-startup-yritysten ja julkaisujen kanssa maailmanlaajuisesti.

Unite.AI

Tutkijat kehittävät ihmisen puheentunnistusmallin syvillä neuroverkoilla

Ennusteet kuulovammaisten kuulijoille

Tutkimus ja tulokset

You may like