Spojte se s námi

Umělá inteligence

Výzkumníci vyvíjejí model rozpoznávání lidské řeči s hlubokými neuronovými sítěmi

mm

Skupina výzkumníků z Německa zkoumá nový model rozpoznávání lidské řeči založený na strojovém učení a hlubokých neuronových sítích. Nový model by mohl pomoci výrazně zlepšit rozpoznávání lidské řeči. 

Algoritmy sluchadla se obvykle používají ke zlepšení rozpoznávání lidské řeči a jsou hodnoceny prostřednictvím různých experimentů, které určují poměr signálu k šumu, při kterém je rozpoznán určitý počet slov. Tyto experimenty jsou však často časově náročné a drahé.

Nový model byl podrobně popsán ve výzkumu publikovaném v Journal of the Acoutical Society of America

Předpovědi pro sluchově postižené posluchače

Jana Roßbach je jednou z autorek z Carl von Ossietzky University. 

„Novinkou našeho modelu je, že poskytuje dobré předpovědi pro sluchově postižené posluchače pro typy hluku s velmi různou složitostí a ukazuje jak nízké chyby, tak vysoké korelace s naměřenými daty,“ řekl Roßbach.

Tým výzkumníků vypočítal, kolika slovům na větu může posluchač porozumět prostřednictvím automatického rozpoznávání řeči (ASR). Nástroje pro rozpoznávání řeči, jako je Alexa a Siri, spoléhají na toto ASR, které je široce dostupné. 

Studie a výsledky

Studie, kterou tým provedl, zahrnovala osm normálně slyšících a 20 sluchově postižených jedinců. Posluchači byli vystaveni mnoha různým komplexním zvukům, které zakrývaly řeč, a sluchově postižení posluchači byli rozděleni do tří skupin v závislosti na jejich stupni ztráty sluchu související s věkem. 

Prostřednictvím nového modelu mohli vědci předpovídat výkon rozpoznávání lidské řeči sluchově postižených posluchačů s různým stupněm ztráty sluchu. Byli schopni provést tyto předpovědi pro různé maskovače šumu s různou složitostí v časové modulaci a jak podobné byly skutečné řeči. To vše umožnilo každého jednotlivce pozorovat a analyzovat s ohledem na možnou ztrátu sluchu. 

„Byli jsme velmi překvapeni, že předpovědi fungovaly dobře pro všechny typy hluku. Očekávali jsme, že model bude mít problémy při použití jediného konkurenčního reproduktoru. To však nebyl tento případ,“ řekl Roßbach.

Protože byl model zaměřen na slyšení jedním uchem, tým se nyní bude snažit vytvořit binaurální model pro slyšení dvěma ušima. Také říkají, že nový model by mohl být použit k predikci poslechového úsilí nebo kvality řeči. 

Alex McFarland je AI novinář a spisovatel, který zkoumá nejnovější vývoj v oblasti umělé inteligence. Spolupracoval s řadou AI startupů a publikací po celém světě.