Mesterséges Intelligencia

A kutatók emberi beszédfelismerési modellt fejlesztenek ki mély neurális hálózatokkal

korszerűsített on December 9, 2022

Német kutatók egy csoportja új, gépi tanuláson és mély neurális hálózatokon alapuló emberi beszédfelismerő modellt kutat. Az új modell nagymértékben hozzájárulhat az emberi beszédfelismerés javításához.

A hallókészülék-algoritmusokat általában az emberi beszédfelismerés javítására használják, és ezeket különféle kísérletekkel értékelik, amelyek meghatározzák azt a jel-zaj arányt, amelynél bizonyos számú szót felismer. Ezek a kísérletek azonban gyakran időigényesek és költségesek.

Az új modellt a ben publikált kutatás részletezte Az Amerikai Akusztikai Társaság lapja.

Előrejelzések hallássérült hallgatók számára

Jana Roßbach a Carl Von Ossietzky Egyetem egyik szerzője.

„Modellünk újdonsága abban rejlik, hogy jó előrejelzéseket ad a hallássérült hallgatók számára nagyon eltérő komplexitású zajtípusok esetén, és alacsony hibákat és magas korrelációt mutat a mért adatokkal” – mondta Roßbach.

A kutatócsoport kiszámította, hogy egy hallgató hány szót érthet meg mondatonként az automatikus beszédfelismerés (ASR) segítségével. A beszédfelismerő eszközök, például az Alexa és a Siri erre az ASR-re támaszkodnak, amely széles körben elérhető.

A tanulmány és az eredmények

A csapat által végzett vizsgálatban nyolc normál hallású és 20 hallássérült személy vett részt. A hallgatók sok különböző komplex zajnak voltak kitéve, amelyek elrejtették a beszédet, és a hallássérült hallgatókat három csoportba sorolták az életkorral összefüggő halláskárosodás mértékétől függően.

Az új modell segítségével a kutatók megjósolhatták a hallássérült hallgatók emberi beszédfelismerési teljesítményét, akiknek különböző fokú halláskárosodásuk van. Ezeket a jóslatokat különféle zajmaszkolókra tudták készíteni, amelyek különböző bonyolultságúak az időbeli modulációban, és mennyire hasonlítanak a valódi beszédhez. Mindez lehetővé tette az egyes személyek megfigyelését és elemzését az esetleges halláskárosodás tekintetében.

„A legjobban azon lepődtünk meg, hogy az előrejelzések minden zajtípusnál jól működtek. Arra számítottunk, hogy a modellnek problémái lesznek, ha egyetlen versengő beszélőt használunk. Ez azonban nem így volt” – mondta Roßbach.

Mivel a modell az egyfülű hallásra összpontosított, a csapat most egy binaurális modell létrehozására törekszik a kétfülű hallásra. Azt is mondják, hogy az új modell felhasználható a hallási erőfeszítés vagy a beszéd minőségének előrejelzésére is.

Kapcsolódó témák:AI mesterséges intelligencia mély tanulás

Up Next

A hírességek mélyhamisításainak azonosítása az arc külső régióiból

Ne hagyd ki

Miért nem nyújt jobb termékajánlatokat a mesterséges intelligencia?

Alex McFarland

Alex McFarland mesterséges intelligencia újságíró és író, aki a mesterséges intelligencia legújabb fejleményeit vizsgálja. Számos AI startup vállalkozással és publikációval működött együtt világszerte.