Connect with us

Inteligență artificială

Cercetătorii Dezvoltă Un Model De Recunoaștere A Vorbirii Umane Cu Rețele Neuronale Adânci

mm

Un grup de cercetători din Germania explorează un nou model de recunoaștere a vorbirii umane bazat pe învățarea automată și rețele neuronale adânci. Noul model ar putea ajuta la îmbunătățirea considerabilă a recunoașterii vorbirii umane.

Algoritmii de proteze auditive sunt de obicei utilizați pentru a îmbunătăți recunoașterea vorbirii umane și sunt evaluați prin diverse experimente care determină raportul semnal-zgomot la care un anumit număr de cuvinte sunt recunoscute. Cu toate acestea, aceste experimente sunt adesea consumatoare de timp și costisitoare.

Noul model a fost detaliat într-o cercetare publicată în The Journal of the Acoustical Society of America.

Prezentări pentru Ascultătorii cu Deficiențe de Auz

Jana Roßbach este una dintre autorii de la Universitatea Carl Von Ossietzky.

“Noutatea modelului nostru este că oferă previziuni bune pentru ascultătorii cu deficiențe de auz pentru tipuri de zgomot cu complexitate foarte diferită și arată atât erori scăzute, cât și corelații ridicate cu datele măsurate”, a spus Roßbach.

Echipa de cercetători a calculat câte cuvinte pe propoziție putea înțelege un ascultător prin recunoașterea automată a vorbirii (ASR). Uneltele de recunoaștere a vorbirii, cum ar fi Alexa și Siri, se bazează pe această ASR, care este larg disponibilă.

Studiul și Rezultatele

Studiul realizat de echipă a implicat opt persoane cu auz normal și 20 de persoane cu deficiențe de auz. Ascultătorii au fost expuși la multe zgomote complexe care ascundeau vorbirea, iar ascultătorii cu deficiențe de auz au fost împărțiți în trei grupuri, în funcție de nivelul lor de pierdere a auzului legată de vârstă.

Prin noul model, cercetătorii au putut prezice performanța de recunoaștere a vorbirii umane a ascultătorilor cu deficiențe de auz cu grade diferite de pierdere a auzului. Ei au putut face aceste previziuni pentru diverse mascate de zgomot cu complexități diferite în modulare temporală și cât de asemănătoare erau cu vorbirea reală. Toate acestea au permis ca fiecare persoană să fie observată și analizată individual în ceea ce privește eventualele pierderi de auz.

“Ne-a surprins cel mai mult că previziunile au funcționat bine pentru toate tipurile de zgomot. Ne așteptam ca modelul să aibă probleme atunci când se utilizează un singur vorbitor concurent. Cu toate acestea, nu a fost cazul”, a spus Roßbach.

Deoarece modelul s-a concentrat pe auzul cu un singur ureche, echipa va crea acum un model binaural pentru auzul cu două urechi. Ei spun, de asemenea, că noul model ar putea fi utilizat pentru a prezice efortul de ascultare sau calitatea vorbirii.

Alex McFarland este un jurnalist și scriitor de inteligență artificială, care explorează cele mai recente dezvoltări în domeniul inteligenței artificiale. El a colaborat cu numeroase startup-uri de inteligență artificială și publicații din întreaga lume.