Connect with us

Sztuczna inteligencja

Naukowcy opracowują model rozpoznawania mowy ludzkiej z wykorzystaniem głębokich sieci neuronowych

mm

Grupa naukowców z Niemiec bada nowy model rozpoznawania mowy ludzkiej oparty na uczeniu maszynowym i głębokich sieciach neuronowych. Nowy model może znacznie poprawić rozpoznawanie mowy ludzkiej.

Algorytmy słuchawkowe są zwykle używane do poprawy rozpoznawania mowy ludzkiej, a są one oceniane za pomocą różnych eksperymentów, które określają stosunek sygnału do szumu, przy którym rozpoznawane jest określona liczba słów. Jednak te eksperymenty są często czasochłonne i drogie.

Nowy model został opisany w badaniach opublikowanych w The Journal of the Acoustical Society of America.

Prognozy dla słuchaczy z uszkodzonym słuchem

Jana Roßbach jest jednym z autorów z Uniwersytetu Carla Von Ossietzky’ego.

“Nowość naszego modelu polega na tym, że zapewnia dobre prognozy dla słuchaczy z uszkodzonym słuchem dla typów hałasu o bardzo różnej złożoności i wykazuje niskie błędy oraz wysoką korelację z zmierzoną danymi” – powiedziała Roßbach.

Zespół naukowców obliczył, ile słów na zdanie słuchacz mógł zrozumieć za pomocą automatycznego rozpoznawania mowy (ASR). Narzędzia do rozpoznawania mowy, takie jak Alexa i Siri, opierają się na tym ASR, które jest powszechnie dostępne.

Badanie i wyniki

Badanie przeprowadzone przez zespół obejmowało ośmiu osób ze słuchem normalnym i 20 osób z uszkodzonym słuchem. Słuchacze byli narażeni na wiele różnych złożonych hałasów, które maskowały mowę, a słuchacze z uszkodzonym słuchem zostali podzieleni na trzy grupy w zależności od stopnia ich starczego uszkodzenia słuchu.

Za pomocą nowego modelu naukowcy mogli przewidzieć wyniki rozpoznawania mowy ludzkiej przez słuchaczy z uszkodzonym słuchem o różnym stopniu uszkodzenia słuchu. Mogli oni dokonać tych przewidywań dla różnych maskerek hałasu o różnej złożoności w modulacji czasowej i podobieństwie do prawdziwej mowy. To wszystko umożliwiło obserwację i analizę każdej osoby indywidualnie pod kątem możliwego uszkodzenia słuchu.

“Najbardziej zaskoczyło nas to, że przewidywania działały dobrze dla wszystkich typów hałasu. Oczekiwaliśmy, że model będzie miał problemy z używaniem jednego mówcy. Jednak nie było to przypadku” – powiedziała Roßbach.

Ponieważ model był skoncentrowany na słuchu jednym uchem, zespół będzie teraz pracował nad stworzeniem modelu binauralnego dla słuchu dwoma uszami. Mówią również, że nowy model może być użyty do przewidywania wysiłku słuchowego lub jakości mowy.

Alex McFarland jest dziennikarzem i pisarzem zajmującym się sztuczną inteligencją, który bada najnowsze rozwoje w dziedzinie sztucznej inteligencji. Współpracował z licznymi startupami i wydawnictwami związanymi z sztuczną inteligencją na całym świecie.