Connect with us

Kunstig intelligens

Forskere udvikler menneskeligt talegenkendelsesmodel med dybe neurale netværk

mm

En gruppe forskere fra Tyskland udforsker en ny menneskelig talegenkendelsesmodel baseret på maskinel læring og dybe neurale netværk. Den nye model kunne hjælpe med at betydeligt forbedre menneskelig talegenkendelse.

Hørehjælpealgoritmer bruges normalt til at forbedre menneskelig talegenkendelse, og de vurderes gennem forskellige eksperimenter, der bestemmer signal-støj-forholdet, ved hvilket et vis antal ord genkendes. Disse eksperimenter er dog ofte tidskrævende og dyre.

Den nye model blev detaljeret i en forskning offentliggjort i The Journal of the Acoustical Society of America

Forudsigelser for høretabte lyttere

Jana Roßbach er en af forfatterne fra Carl Von Ossietzky Universitet.

“Nyheden i vores model er, at den giver gode forudsigelser for høretabte lyttere for støjtyper med meget forskellig kompleksitet og viser både lav fejl og høj korrelation med de målte data,” sagde Roßbach.

Forskerholdet beregnede, hvor mange ord per sætning en lytter kunne forstå gennem automatisk talegenkendelse (ASR). Talegenkendelsesværktøjer som Alexa og Siri afhænger af denne ASR, som er bredt tilgængelig.

Studiet og resultaterne

Studiet, der blev udført af holdet, involverede otte personer med normal hørelse og 20 høretabte personer. Lytterne blev udsat for mange forskellige komplekse støj, der skjulte tale, og de høretabte lyttere blev inddelt i tre grupper afhængigt af deres niveau af aldersrelateret høretab.

Gennem den nye model kunne forskerne forudsige menneskelig talegenkendelsespræstation for høretabte lyttere med forskellige grader af høretab. De kunne gøre disse forudsigelser for forskellige støjmasker med forskellig kompleksitet i tidsmæssig modulation og hvor lignende de var til rigtig tale. Alt dette gjorde det muligt for hver person at blive observeret og analyseret individuelt i forhold til muligt høretab.

“Vi var mest overraskede over, at forudsigelserne fungerede godt for alle støjtyper. Vi forventede, at modellen ville have problemer, når der blev brugt en enkelt konkurrerende taler. Men det var ikke tilfældet,” sagde Roßbach.

Da modellen var fokuseret på enkeltøret hørelse, vil holdet nu se på at oprette en binaural model til tohøret hørelse. De siger også, at den nye model kunne bruges til at forudsige lytteindsats eller talekvalitet.

Alex McFarland er en AI-journalist og forfatter, der udforsker de seneste udviklinger inden for kunstig intelligens. Han har samarbejdet med talrige AI-startups og publikationer verden over.