Connect with us

Umělá inteligence

Výzkumníci vyvinuli model rozpoznávání lidské řeči s hlubokými neuronovými sítěmi

mm

Skupina výzkumníků z Německa zkoumá nový model rozpoznávání lidské řeči založený na strojovém učení a hlubokých neuronových sítích. Tento nový model by mohl výrazně zlepšit rozpoznávání lidské řeči.

Algoritmy sluchadel jsou obvykle používány ke zlepšení rozpoznávání lidské řeči a jsou hodnoceny prostřednictvím různých experimentů, které určují poměr signálu k šumu, při kterém je rozpoznán certain počet slov. Tyto experimenty jsou však často časově náročné a drahé.

Nový model byl popsán ve výzkumu zveřejněném v The Journal of the Acoustical Society of America.

Předpovědi pro slyšící posluchače

Jana Roßbach je jedním z autorů z Carl Von Ossietzky University.

“Novinka našeho modelu spočívá v tom, že poskytuje dobré předpovědi pro slyšící posluchače s různou složitostí šumu a ukazuje nízké chyby a vysokou korelaci s měřenými daty,” řekla Roßbach.

Tým výzkumníků vypočítal, kolik slov za větu mohl posluchač pochopit prostřednictvím automatického rozpoznávání řeči (ASR). Nástroje rozpoznávání řeči, jako je Alexa a Siri, spoléhají na tuto ASR, která je široce dostupná.

Studie a výsledky

Studie provedená týmem zahrnovala osm normálně slyšících a 20 slyšících postižených jedinců. Posluchači byli vystaveni mnoha různým komplexním šumům, které zakrývaly řeč, a slyšící postižení posluchači byli rozděleni do tří skupin podle stupně věkem podmíněné ztráty sluchu.

Pomocí nového modelu mohli výzkumníci předpovědět výkon rozpoznávání lidské řeči slyšících postižených posluchačů s různými stupni ztráty sluchu. Byli schopni učinit tyto předpovědi pro různé typy šumu s různou složitostí v časové modulaci a podobnosti s reálnou řečí. To vše umožnilo, aby každý jedinec byl pozorován a analyzován individuálně ve vztahu k možné ztrátě sluchu.

“Byli jsme nejvíce překvapeni, že předpovědi fungovaly dobře pro všechny typy šumu. Očekávali jsme, že model bude mít problémy s použitím jediného soutěžícího mluvčího. To však nebyl případ,” řekla Roßbach.

Pоскольку se model zaměřil na slyšení jedním uchem, tým se nyní bude snažit vytvořit binaurální model pro slyšení dvěma ušima. Říkají také, že nový model by mohl být použit k předpovědi úsilí o poslech nebo kvality řeči.

Alex McFarland je AI novinář a spisovatel, který zkoumá nejnovější vývoj v oblasti umělé inteligence. Spolupracoval s mnoha AI startupy a publikacemi po celém světě.