Følg os

Kunstig intelligens

Forskere udvikler menneskelig talegenkendelsesmodel med dybe neurale netværk

mm

En gruppe forskere fra Tyskland udforsker en ny menneskelig talegenkendelsesmodel baseret på maskinlæring og dybe neurale netværk. Den nye model kan i høj grad hjælpe med at forbedre menneskelig talegenkendelse. 

Høreapparatalgoritmer bruges normalt til at forbedre menneskelig talegenkendelse, og de evalueres gennem forskellige eksperimenter, der bestemmer signal-til-støj-forholdet, ved hvilket et vist antal ord genkendes. Disse eksperimenter er dog ofte tidskrævende og dyre.

Den nye model blev detaljeret i forskning offentliggjort i Journal of the Acoustical Society of America

Forudsigelser for hørehæmmede lyttere

Jana Roßbach er en af ​​forfatterne fra Carl Von Ossietzky Universitet. 

"Det nye ved vores model er, at den giver gode forudsigelser for hørehæmmede lyttere for støjtyper med meget forskellig kompleksitet og viser både lave fejl og høje korrelationer med de målte data," sagde Roßbach.

Holdet af forskere beregnede, hvor mange ord pr. sætning en lytter kunne forstå gennem automatisk talegenkendelse (ASR). Talegenkendelsesværktøjer som Alexa og Siri er afhængige af denne ASR, som er bredt tilgængelig. 

Undersøgelsen og resultaterne

Undersøgelsen udført af holdet involverede otte normalthørende og 20 hørehæmmede personer. Lytterne blev udsat for mange forskellige komplekse lyde, der skjulte talen, og de hørehæmmede lyttere blev kategoriseret i tre grupper afhængigt af deres niveau af aldersrelateret høretab. 

Gennem den nye model kunne forskerne forudsige den menneskelige talegenkendelsespræstation for hørehæmmede lyttere med forskellige grader af høretab. De var i stand til at lave disse forudsigelser for forskellige støjmaskere med forskellig kompleksitet i tidsmodulation, og hvor ens de var til ægte tale. Alt dette gjorde det muligt for hver person at blive observeret og analyseret individuelt med hensyn til muligt høretab. 

"Vi var mest overraskede over, at forudsigelserne fungerede godt for alle støjtyper. Vi forventede, at modellen ville have problemer ved brug af en enkelt konkurrerende oplæser. Det var dog ikke tilfældet,” sagde Roßbach.

Da modellen var fokuseret på enkelt-øre-høring, vil teamet nu se efter at skabe en binaural model for to-øre-høring. De siger også, at den nye model også kunne bruges til at forudsige lytteindsats eller talekvalitet. 

Alex McFarland er en AI-journalist og forfatter, der udforsker den seneste udvikling inden for kunstig intelligens. Han har samarbejdet med adskillige AI-startups og publikationer verden over.